CALCOLATORI ELETTRONICI

CALCOLATORI 

ELETTRONICI 

RISC e Superscalari 1 

27 Aprile 2009 

Sterpone Luca 

Sommario 

◦ Miglioramento dei processori 

◦ Processori RISC 

• Architettura di base 

• Pipeline 

• Approfondimenti 

◦ Superscalari 

• Introduzione 

• Architettura 

Evoluzione dei Processori 

Evoluzione dei Processori [cont.] 

L’evoulzione annua nelle 

prestazioni dei computer 

era circa 25-30% durante 

gli anni ’70 (mainframe e 

minicomputer) 



L’incremento di prestazioni 

annuale sale a più del 50% 

per le architetture RISC 

negli anni ’80 

Questa incredibile crescita è 

dovuta a miglioramenti di 

◦ tecnologia 

◦ architettura dei 

processori 

◦ compilatori. 

1

Operazioni Elementari 

◦ Tutte le operazioni svolte dalla CPU 

possono essere ricondotte a 4 tipologie 

elementari: 

• prelievo di un dato o di una istruzione dalla 

memoria e caricamento in un registro 

• scrittura in memoria di un dato contenuto in un 

registro 

• trasferimento di un dato da un registro ad un 

altro 

• esecuzione di un’operazione aritmetica o logica 

e memorizzazione del risultato in un registro. 

◦ Le 4 operazioni verranno descritte con 

riferimento al seguente modello della 

CPU, semplificato rispetto a quello reale. 

Analisi dei programmi 

◦ Le scelte che conducono al progetto di 

una CPU dipendono anche dall’analisi 

delle caratteristiche dei programmi che 

questa dovrà eseguire, in quanto è 

auspicabile che le istruzioni ed i modi di 

indirizzamento più utilizzati siano 

particolarmente ottimizzati. 

Analisi dei programmi [cont.] 

◦ Da una analisi generale sulle caratteristiche 

dei programmi si conclude che: 

• le istruzioni ad alto livello più frequenti sono 

quelle di assegnazione (circa 40%) e di salto 

condizionato (40%) 

• se si considera il costo pesato in termini di 

istruzioni macchina richieste, si rileva che: 

◦ le istruzioni di chiamata e ritorno da 

procedura corrispondono a circa 1/3 del 

totale 

◦ un altro terzo corrisponde alle istruzioni di 

iterazione 

◦ le istruzioni di assegnazione e salto 

condizionato corrispondono soltanto al 10- 

15% del totale 

• Esiste una forte percentuale di accessi a dati scalari 

locali. 

Analisi dei programmi [cont.] 

◦ In conclusione, le prestazioni possono 

essere migliorate significativamente se 

• si dispone di un numero di registri ragionevole, 

attraverso i quali si può ridurre 

significativamente il numero di accessi in 

memoria 

• si utilizza un meccanismo intelligente di 

pipeline delle istruzioni, in modo da ridurre 

l’incidenza di salti e chiamate a procedura. 

◦ Make the common case fast 

Organizzazione dei Registri 

◦ Il numero dei registri influenza 

fortemente le prestazioni di un 

processore. Quando sono molti si parla 

di register-file o scratch-pad memory 

◦ È possibile che per ogni registro venga 

imposto un particolare uso; si possono 

avere 

• registri dati 

• registri indice 

• registri contatore. 

I Registri 

◦ I registri sono la forma di memoria con 

minore tempo di accesso in quanto: 

• risiedono sullo stesso chip della CPU 

• sono costruiti con la tecnologia più veloce 

• sono accessibili con un meccanismo di 

indirizzamento semplice 

◦ Si può guadagnare in efficienza di 

esecuzione in 2 modi: 

• aumentando il numero di registri 

• ottimizzando il loro uso. 

2

Register Window 

◦ Nell’ambito di una procedura, i registri possono 

essere usati: 

• per contenere le variabili locali 

• per passare i parametri 

◦ È però necessario un meccanismo per il 

salvataggio del loro valore quando si esegue la 

chiamata 

◦ Poichè il livello di annidamento delle procedure è 

mediamente basso, si possono organizzare i 

registri in blocchi (Register Window) 

◦ Ogni procedura vede solo la propria Register 

Window; ad ogni chiamata a procedura o ritorno 

da procedura, viene cambiata la Register Window 

attiva. 

Register Window [cont.] 

◦ Il passaggio di parametri alle procedure si può realizzare 

facendo parzialmente sovrapporre le Register Window 

della procedura chiamante e di quella chiamata 

Registri per Registri per Registri per 

i parametri le var. localili 

i parametri 

livello i 

Registri per Registri per Registri per 

livello i+1 

i parametri le var. locali i parametri 

◦ Quando si supera il livello massimo di annidamento 

permesso, il primo blocco di registri viene salvato in 

memoria 

◦ I blocchi di registri possono essere organizzati in un 

buffer circolare. 


Restore 

A loc 

B in 

Save 

A B 

in 

loc 

Saved 

Window 

Pointer F loc 

C in 

loc 

F in 

C loc 


◦ È stato calcolato che con 8 Register Windows solo 

l’1% delle istruzioni call o return richiede di 

salvare o ripristinare dalla memoria un blocco di 

registri. 

◦ Esempi di RISC con Register Window: 

• Berkeley RISC: 8 window da 16 registri ciascuna 

• Pyramid: 16 window da 32 registri. 

E loc 

D in 

E in 

Call 

Return 

D loc 

Current 

Window 

Pointer 

CISC e RISC 

◦ Negli ultimi 3 decenni si sono 

contrapposte 2 tipologie di 

microprocessori : 

• CISC (Complex Instruction Set Computer): 

processori con un set di istruzioni sempre più 

ampio e complesso, in grado di colmare il salto 

tra linguaggi macchina e linguaggi ad alto 

livello 

◦ DEC VAX 

◦ IBM 370 

◦ Intel Pentium. 

• RISC (Reduced Instruction Set Computer): 

processori con un set di istruzioni ridotto. 

Processori RISC 

◦ Caratteristiche: 

• set di istruzioni semplice e limitato 

• elevato numero di registri 

• pipeline delle istruzioni particolarmente 

ottimizzata. 

◦ Esempi 

• IBM 801 (1979) ◦ Pyramid 

• Berkeley RISC-I (1982) 

◦ SPARC 

• Berkeley RISC-II (1984) 

◦ Intel 860 

• Stanford MIPS R4000, R6000 

◦ DEC Alpha 

• HP Spectrum 

• Motorola 88000 

◦ PowerPC 

3

Processori RISC: Unità di 

Controllo 

◦ Le istruzioni RISC non hanno la 

complessità delle microistruzioni CISC; 

per questa ragione l’unità di controllo dei 

RISC non è microprogrammata ma 

cablata. 

Processori RISC: Load & Store 

◦ Le uniche istruzioni che coinvolgono la 

memoria sono LOAD (memoria ⇒ 

registro) e STORE (registro ⇒ memoria). 

Questo permette di semplificare il formato 

delle istruzioni e di ridurre sensibilmente 

il loro numero (ad es, nel VAX ci sono 25 

tipi di ADD; nei RISC 2). 

Processori RISC: Istruzioni 

◦ I RISC hanno un formato delle istruzioni 

fisso o con poche alternative: il codice 

operativo ha di solito una lunghezza fissa; 

ne conseguono alcuni vantaggi: 

• la decodifica del codice operativo può avvenire 

in parallelo con il caricamento degli operandi 

dai registri 

• l’unità di controllo è più semplice 

• la fase di fetch è più ottimizzata 

◦ I RISC possiedono un numero limitato di 

modi di indirizzamento. 

Processori RISC: Codice 

• I compilatori per RISC sono più semplici, in 

quanto producono codice composto da 

istruzioni più semplici; le sequenze ottimizzate 

per operazioni complesse possono essere 

predeterminate 

• Il codice generato per un RISC ha dimensioni 

comparabili con quelle per un CISC in quanto: 

• il numero di istruzioni RISC generate è 

maggiore ma 

• ogni istruzione occupa un numero inferiore di 

byte (anche perché si riducono gli accessi in 

memoria) 

• Codici più corti sono più efficienti perché: 

• si riduce il numero di fetch 

• si riduce il numero di page fault. 

Architettura di base [cont.] 


PC 

M 

U 

X 

4 

A 

d 

d 

Memoria 

Istruzioni 

NPC 

IR 

Registri 

A 

B 

Imm 

M 

U 

X 

M 

U 

X 

=0 ? 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

PC 

M 

U 

X 

4 

A 

d 

d 

Memoria 

Istruzioni 

NPC 

IR 

Registri 

A 

B 

Imm 

Dati e Istruzioni sono memorizzati 

in due memorie separate: cache 

dati e cache istruzioni. 

M 

U 

X 

M 

U 

X 

=0 0? 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

4



M 

U 

X 

Le istruzioni sono 

codificate su 32 bit. 

=0 ? 

M 

U 

X Next Program Counter: 

contiene l’indirizzo della =0 ? 

prossima istruzione. 

PC 

4 

A 

d 

d 

Memoria 

Istruzioni 

NPC 

IR 

Registri 

A 

B 

M 

U 

X 

M 

U 

X 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

PC 

4 

A 

d 

d 

Memoria 

Istruzioni 

NPC 

IR 

Registri 

A 

B 

M 

U 

X 

M 

U 

X 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

Imm 

Imm 



M 

U 

X 

La CPU contiene un 

insieme di registri che 

contengono i dati su cui 

=0 ? 

la ALU lavora. 

M 

U 

X 

Gli operandi su cui la 

ALU lavora vengono 

prelavati dai registri e 

messi in due registri 

speciali A e=0 B. ? 

PC 

4 

A 

d 

d 

Memoria 

Istruzioni 

NPC 

IR 

Registri 

A 

B 

Imm 

M 

U 

X 

M 

U 

X 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

PC 

4 

A 

d 

d 

Memoria 

Istruzioni 

NPC 

IR 

Registri 

A 

B 

Imm 

M 

U 

X 

M 

U 

X 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

PC 

M 

U 

X 

4 


A 

d 

d 

Memoria 

Istruzioni 

NPC 

IR 

Registri 

=0 ? 

M 

A U 

Se l’operazione X A specifica 

un indirizzamento L Memoria 

immediato, B 

Dati 

M il Udato viene 

messo nel U registro Imm. 

X 

Imm 

M 

U 

X 

PC 

M 

U 

X 

4 


A 

d 

d 

Memoria 

Istruzioni 

NPC 

La ALU esegue operazioni aritmetiche/logiche 

e di salto. 

I dati su cui opera sono memorizzati in: 

• A, Imm: trasferimento dati o 

aritmetico/logica 

• A,B: aritmetico/logica 

=0 ? 

• NPC, Imm: trasferimento del controllo. 

IR 

Registri 

A 

B 

Imm 

M 

U 

X 

M 

U 

X 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

5


Instruction Fetch (IF) 

Instruction fetch 

M 

U 

X 

Decode/ 

Register fetch 

Execute 

=0 ? 

Memory 

Access 

Write 

back 

◦ Preleva dalla IM l’istruzione che deve 

essere eseguita espressa su 32 bit 

◦ Incrementa il PC. 

PC 

4 

A 

d 

d 

Memoria 

Istruzioni 

NPC 

IR 

Registri 

A 

B 

M 

U 

X 

M 

U 

X 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

Imm 

Decode/Register Fetch (ID) 

◦ Decodifica l’istruzione 

◦ Accedere ai registri general purpose per 

prelevare gli operandi e li memorizza nei 

registri dedicati A e B 

◦ Se l’indirizzamento è immediato, 

memorizza l’operando nel registro Imm. 

Execute (EX) 

◦ Esegue l’operazione richiesta, che può 

essere: 

• Calcola il risultato di una operazione aritmetica 

• Calcola il risultato di una operazione logica 

• Calcola l’indirizzo in DM per una operazione di 

trasferimento dati 

• Calcola l’indirizzo in IM a cui si deve fare 

accesso in seguito ad un salto. 

Memory Access (MEM) 

◦ Nel caso di operazione di trasferimento 

dati accede alla DM 

◦ Nel caso di salto condizionato o meno 

aggiorna il PC. 

Write Back (WB) 

◦ Aggiorna i registri general purpose sulla 

base del risultato dell’ALU. 

6


◦ I moduli IF, ID, EX, MEM, WB eseguono il 

loro compito in un colpo di clock 

◦ Il processore qui descritto esegue: 

• Tutte le istruzioni in 5 colpi di clock 

• Le istruzioni di salto in 4 colpi di clock. 

Esempio di funzionamento 

CC1 CC2 CC3 CC4 CC5 CC6 

Istruzione i IF ID EX MEM WB 

Istruzione i+1 IF ID 

Fine esecuzione istruzione i. 

Al prossimo colpo di clock inizierà 

l’esecuzione dell’istruzione i+1. 

Esempio di funzionamento [cont.] 



Istruzione i+1 Durante ID della istruzione i la 

porzione di CPU che serve per 

IF ID 

eseguire IF non fa nulla. 

Osservazione 

◦ Durante il ciclo di clock CC j dell’istruzione 

i solo una della unità funzionali sta 

lavorando, le altre sono inerti 

◦ Sovrapponendo le operazioni necessarie 

per eseguire istruzioni differenti: 

• Si mantengono operative tutte le unità 

funzionali della CPU 

• Si aumentano le prestazioni della CPU. 

Pipeline 



Pipeline [cont.] 



Istruzione i+1 

IF ID EX MEM WB 




IF ID EX MEM 


IF ID EX MEM 


IF ID EX 


IF ID EX 



IF 

ID 

IF 



Dopo 5 cicli di clock la 

pipeline è piena, ogni unità 

funzionale sta lavorando: si 

sovrappone l’esecuzione di 

5 diverse istruzioni. 

IF 

ID 

IF 

7












Il risultato della IFistruzione ione ID i 

EX MEM 

viene prodotto dopo 5 colpi 

Istruzione i+3 di clock: latenza della IF ID EX 

pipeline. 


IF ID 


IF 


IF ID EX MEM 




IF ID EX 

Quando la pipeline è piena i IF 

risultati delle istruzioni vengono 

scritti ad ogni colpo di clock: è 

come se la CPU eseguisse una 

istruzione un 1 ciclo di clock. 

ID 

IF 


◦ La pipeline aumenta il numero di 

istruzioni che la CPU è in grado di 

completare nell’unità di tempo: 

throughput 

◦ La pipeline NON riduce il tempo 

necessario per eseguire una singola 

istruzione 

◦ In generale la gestione della pipeline 

comporta un overhead: il tempo di 

esecuzione di una istruzione AUMENTA. 

Aumento del throughput 

◦ Un aumento del throughput comporta una 

riduzione del tempo di esecuzione dei 

programmi, e quindi un aumento della 

velocità 

◦ Questo risultato si ottiene benchè la 

pipeline AUMENTI il tempo necessario per 

eseguire una singola istruzione. 

Osservazione 

◦ Ogni operazione nella pipeline avviene in 

un colpo di clock 

◦ La durata del colpo di clock dipende dalla 

unità più lenta tra quelle presenti nella 

CPU: si può dare il colpo di clock solo 

quando tutte le unità funzionali hanno 

completato il loro lavoro. 

Esempio 

◦ CPU con frequenza di clock di 10 ns 

◦ Tutte le istruzioni richiedono 5 colpi di 

clock 

◦ Overhead dovuto alla pipeline 1 ns 

◦ Tempo di esecuzione di una istruzione: 

• Senza pipeline: 5 · 10 ns = 50 ns 

• Con pipeline: 1 ns + 10 ns = 11 ns 

◦ Miglioramento: 50/11 = 4.5 

8

Processore con Pipeline 

EX/MEM 

M 

U 

X 

IF/ID 

ID/EX 

=0 ? 

MEM/WB 

PC 

4 

A 

d 

d 

Memoria 

Istruzioni 

Registri 

M 

U 

X 

M 

U 

X 

A 

L 

U 

Memoria 

Dati 

M 

U 

X 

9

CALCOLATORI ELETTRONICI

Create successful ePaper yourself

Delete template?

Save as template?