LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ...

Branch Prediction 

(parte seconda) 

Calcolatori Elettronici 2 

http://www.dii.unisi.it/~giorgi/didattica/calel2 

Branch Misprediction Recovery (1) 

• La predizione dinamica dei salti consiste di due parti 

- Parte iniziale che effettua la speculazione negli stadi iniziali della pipeline 

- Parte finale che effettua la validazione negli ultimi stadi della pipeline 

• Speculazione sui branch 

• Mentre si prelevano istruzioni dal ramo predetto, si puo’ incontrare un 

altro branch 

- Es. Il predittore ci consiglia “Taken” per il branch b1 

- Il processore preleva b2 prima che b1 sia risolto 

• Soluzioni 

- Attendere che b1 sia risolta prima di predirre b2 ? spreco di risorse… 

- Predirre b2 anche se b1 non e’ risolto? si complica la gestione del 

“recovery” nel caso di misprediction 

NT 

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 2 

T 

NT T NT 

NT 

T 

b1 

T 

NT 

b2 

T 

NT T NT 

b3 

T


• Come si recupera (recovery) in questo caso 

• Vorremmo recuperare da una situazione di misprediction multipli 

• Situazione piu’ complessa: primo branch mispredicted, secondo giusto 

• Esempio: stiamo speculando su 3 branch, b1, b2, b3 

- Le predizioni sono evidenziate con la linee tratteggiata 

- Le istruzioni di ogni ramo predetto sono residenti nel processore 

• Idea: a ogni istruzione su un dato ramo speculativo si assegna in TAG 

- Ogni ramo speculativo ha il proprio tag (Tag1, Tag2, Tag3) 

NT 

NT T NT 


T 

NT 

T 

T 

(Tag 2) 

(Tag 1) 

NT 

T 

NT T NT 

(Tag 3) 


• Validazione dei branch 

• Quando il branch e’ risolto (direzione e target sono noti) 

- CASO DI PREDIZIONE CORRETTA 

-Il tag viene rimosso e le istruzioni su quel ramo divengono non-speculative 

- CASO DI PREDIZIONE ERRATA (MISPREDICTION) 

-Il ramo errato viene bloccato ed eliminato dalla pipeline 

-Devono essere rimossi anche tutti i rami speculativi successivi 

-Il ramo corretto viene eseguito dall’inizio inserendolo in pipeline 

• Esempio 

- Il secondo branch non e’ stato azzeccato 

- Tutte le istruzioni con Tag2 e Tag3 devono essere rimosse 

NT 

NT T NT 


T 

NT 

T 

T 

(Tag 2) 

NT 

T 

NT T NT 

(Tag 3) 

T 

T 

Ricominciare 

da qui!

Esempio - PowerPC 604 (1) 

• Microprocessore Superscalare a 4 vie 

• Puo’ effettuare fetch, decode, execute di 4 istruzioni per ciclo 

• Branch Prediction 

• Usa due buffer separati: 

- Branch Target Address Cache (BTAC) 

- Branch History Table (BHT) 

• Vengono indirizzati entrambi nello stadio di fetch 

• BTAC (analogo al BTB) 

• Cache fully-associative a 64 elementi, risponde in 1 ciclo 

• Memorizza l’indirizzo target del salto 

• BHT 

• Cache ad accesso diretto a 512 elementi, risponde in 2 cicli 

• Memorizza i bit di storia dei branch 



+4 

BHT prediction 

BTAC prediction 

Branch 

Prediction 

PC Branch History 

PC 

Table (BHT) 


PC 

Branch Target 

Address Cache 

(BTAC) 

PC 

BHT 

BTAC 

update update 

execute 

commit 

I-cache 

decode 

decode buffer 

dispatch buffer 

dispatch 

Reservation stations 

BRN SFX SFX CFX FPL LS 

branch 

Re-order buffer


• Hit nel BTAC 

• Indica la presenza di un branch nella coda di fetch 

• L’indirizzo target prelevato dal BTAC viene usato al ciclo successivo 

• Al secondo ciclo viene consultato il BHT 

• La predizione deve essere “taken”, se avevo fatto hit in BTAC al ciclo prima 

• Se le due predizioni NON sono in accordo? 

• Si butta la predizione del BTAC (significa che BHT ha predetto “not-taken”) 

• Il fetch continua dal ramo in cascata 

• La predizione del BHT prevale su quella del BTAC 

• Dopo aver risolto il branch si devono aggiornare sia BTAC che BHT 

• Perche’ servono entrambi ? 

• Il BTAC e’ piu’ veloce: se la predizione e’ giusta non attendo alcun ciclo 



• Il PowerPC 604 e’ superscalare 

• Nelle reservation-station ci possono essere fino a 4 istruzioni di salto 

• E’ necessario usare dei tag a 2 bit per gestire la speculazione 

• Segue lo schema introdotto poco sopra 

• In particolare le risorse occupate dalle istruzioni speculative 

debbono essere liberate in caso di misprediction 

(es. Reorder Buffer, una struttura tipica dei processori superscalari) 

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 8

Predittori a correlazione: gselect e gshare 

• Per generare l’indice della PHT, Pan e (successivamente) McFarling 

suggeriscono di usare sia l’indirizzo del branch (BIA) che la stringa 

di storia globale (BHSR) 

• La semplificazione e’ di NON usare una BHT con piu’ elementi 

• gselect [Pan92] 

• Alcuni bit del BIA sono accostati ai bit della global history 

• gshare [McFarling93] 

• I bit del BIA sono “mescolati” (hashed) con quelli della global history 

• La funzione di “mescolamento” di solito e’ l’operazione di XOR 

Branch 

address 

(BIA) 


Global 

history 

(BHSR) 

gselect 4/4 gshare 8/8 

0000 0000 0000 0001 0000 0001 00000001 

00000000 00000000 00000000 00000000 

11111111 00000000 11110000 11111111 

11111111 10000000 11110000 01111111 

gselect [Pan92] 

• m bit dall’indirizzo (BIA) sono accostati ai k bit del BHSR 

• Schema molto semplice: 1 BHSR e 1 piccolo PHT 

BHSR 


k 

BIA 

m 

k+m 

PHT 

… 

2 k+m x j 

entries 

prediction

gshare [McFarling93] 

• m bit dell’indirizzo BIA sono messi in XOR con il BHSR 

• Schema molto semplice: 1 BHSR e 1 piccolo PHT 

• Usato nell’Alpha 21264 

BHSR 


BIA 

Di solito sono i bit meno significativi del BIA 

Inoltre, di solito k == m 

k 

m 

max{k, m} 

PHT 

… 

2 max{k, m} x j 

entries 

Prestazioni di gshare, gselect, GAg 

Predictor Accuracy (%) 

98 

96 

94 

92 

90 

88 

86 

84 

Grafico da [McFarling93] 

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 12 

prediction 

32 64 256 1K 4K 16K 64K 

Predictor Size(bytes) 

“global” si riferisce al predittore GAg di Yeh e Patt 

I benchmark usati sono gli stessi 9 di SPEC-89 usati nei lavori [Yeh92] e [Yeh93] 

gshare 

gselect 

global

Predittori “competitivi” (“Tournament”) 

• Certi predittori funzionano bene con determinati branch 

• La prima proposta di usare due predittori competitivi e’ presentata 

da McFarling [McFarling93] (bimodal+gshare) 

• Selezionare dinamicamente una predizione fra piu’ predittori 

• Usare la storia per selezionare un predittore 

BHT 

BIA 

• Esempio: Alpha 21264 


Path History 

Predictor 1 

Predictor 2 

M 

U prediction 

U 

X 

Predictor 

selection 

logic 

• Dimensione totale del predittore pari a 29k bits 

• A BP = 97.4%(SPEC89 average) 

99.9% (SPECfp95 average), 99% (SPECint95 average) 

Predittore dell’indirizzo di ritorno 

• Alcuni salti variano l’indirizzo target nello stesso programma 

• Tali salti sono tipicamente “indirect jumps” 

• In particolare, fra questi ci sono i salti di ritorno da procedura 

• Nel caso di SPEC-89 i salti da ritorno da procedura sono l’85% 

• Predizione delle istruzioni di ritorno da procedura 

• L’esito e’ facile da predirre: always taken! 

• Il target non e’ facile da predirre: la stessa procedura puo’ essere 

invocata da diversi punti di un programma 

• Il BTB per predirre il target puo’ condurre a misprediction 

• E’ stato proposto un piccolo stack per mantenere gli indirizzi 

di ritorno [Kaeli91] 

• Al momento della chiamata si fa push dell’indirizzo di ritorno in tale stack 

• Al momento del ritorno basta fare una pop da tale stack 

• Funziona come una cache dei piu’ recenti indirizzi di ritorno 

• Se tale stack e’ sufficientemente grande predice tutti i ritorni 


Predizioni multiple [Yeh93-ics] 

• Idea: predirre i salti successivi anche se i precedenti 

non sono risolti 

• Effettuare 1 predizione per ciclo 

• Mentre si cerca di effettuare le predizioni successive, 

puo’ essere utile aggiornare speculativamente PHT e BHT 

• La tecnica funziona bene se l’accuratezza della prima 

predizione e’ alta 

• 1 st predizione – 96% di accuratezza => 

- 2 nd predizione – 92.16% accuratezza => 

-4 th predizione – 84.93% accuratezza 


Predizioni multiple (2) 

• Idea2: effettuare PIU’ predizioni per ciclo 

• Questo permette di prelevare piu’ basic block (possibilmente 

giusti) simultaneamente 

• Si puo’ usare come schema base il GAg 

• Ha il vantaggio di poter effettuare predizioni senza il BIA 

Global BHSR 

(k bits) 


k 

k-1 

PHT 

M 

U 

X 

Secondary prediction 

Primary prediction 

Nota: con k bit si seleziona un elemento della PHT (predizione primaria). Usando k-1 bit meno significativi 

seleziono I prossimi due possibili elementi della PHT: da questi posso selezionarne uno uilizzando la 

predizione primaria e ottenendo cosi’ la predizione secondaria

Eager Execution [Uht95] 

• In un gruppo di 4 istruzioni e’ possibile che tutte e 4 

siano branch 

• Si deve far ricorso ad un BTB a 4 porte 

(similmente al predittore multiplo di Yeh) 

• Eager Execution 

• Si eseguono sia il ramo taken che quello not-taken senza predizioni 

- Il fetch avviene da entrambi i rami taken e not-taken 

- Nel lavoro di Uht il fetch viene limitato a 6 ramificazioni 

- Vengono via via buttati i rami sbagliatai nel momento in cui i branch sono risolti 

- Naturalmente viene buttato parecchio lavoro… ma e’ veloce! 

• Disjoint Eager Execution 

- In questo caso si considera la brench prediction mentre si fa il fetch 

- Si prelevano solo istruzioni dai rami predetti, fino a 6 ramificazioni 

- Se il ramo e’ sbagliato, semplicemente si fa ripartire la pipeline 


Trace Cache 

• Cattura sequenze di basic-blocks (tracce dinaniche) in una cache che 

sostituisce la cache istruzioni 

• Tale cache e’ indicizzata dal target di un salto 

• Gli elementi di tale cache sono asssemblati dinamicamente mentre il programma esegue le 

sue istruzioni 

• Se c’e’ hit nella trace cache 

• Le istruzioni vengono prelevate dalla trace cache 

• La sequenza prelevata tipicamente contiene piu’ basic-block 

(ovvero una sequenza di piu’ taken branch) 

• Si elimina la necessita’ di fare il fetch di piu’ target 

• Inoltre la cache non deve essere con piu’ porte 

Quando il codice viene eseguito 

la prima volta: si registra la 

sequenza nella trace cache 


B1 

B2 B3 

B4 

B1 B3 B4 

va nella trace cache 

B1 

B3 

B4 

La volta successiva si 

legge la sequenza dalla 

trace cache: non c’e’ 

bisogno di predirla !

ALPHA 21264 

Branch Prediction case study 


Processore Alpha 21264 

• 500-600 MHz, 15x10 6 transistors, 2.2V, 0.35µ CMOS 

• Processore a 64-bit 

• Processore Superscalare a 4 vie 

• Puo’ prelevare ed eseguire fino a 4 istruzioni per ciclo 

• L’esecuzione avviene “fuori ordine” (out-of-order) 

• Secondo Hennessy e Patterson ha il predittore piu’ 

sofisticato implmentato fino al 2003 


Predittore dell’Alpha 21264 [Alpha99] 

• Tournament Predictor 

• Sceglie dinamicamente fra due predittori 

- Il “predittore locale” (sinistra) – equivalente ad uno schena PAg 

- Il “predittore globale” (destra) – equivalente ad uno schema Gag 

- La selezione del predittore avviene attraverso una storia degli esiti 

competitivi data in pasto al solito contatore a saturazione a 2 bit. 

Local predictor 

Local 

history 

table 

(1024 x 10) 

Program 

counter 


Local 


(1024 x 3) 

branch 


MUX 

Global prediction 

(4096 x 2) 

Alpha 21264 - Predittore Locale 

• Local History Table (LHT) 

Choice prediction 

(4096 x 2) 

Path history 

• Equivalente alla BHT dello schema PAg (k=10, 1024 entry BHT (m=10)) 

• Mantiene gli ultimi 10 esiti per un massimo di 1024 branch 

• E’ indicizzato dall’indirizzo dell’istruzione di salto (BIA) 

• Local Prediction Table (LPT) 

• Equivalente a una PHT dello schema PAg (j=3, 1024 entries(k=10)) 

• E’ indicizzata dall’elemento di storia della LHT 

• La FSM e’ un contatore a saturazione a 3 bit 

• La predizione coincide col bit piu’ significativo dello stato (1=T) 

• La LHT e la LPT sono aggiornate dopo che il branch viene 

risolto 

• Funziona bene per sequenze alternativamente T e N 


Alpha 21264 - Predittore Globale 

• Tabella da 4096 elementi 

• E’ equivalente alla PHT dello schema GAg (j=2, 4096-entry PHT (k=12)) 

• E’ indicizzata con un registro di storia globale a 12 bit 

• Predittore 

• La FSM e’ un contatore a saturazione a 2-bit 

• La predizione coincide col bit piu’ significativo dello stato (1=T) 

• Funziona bene per branch che sono influenzati da branch 

precedenti 

• Esempio: 

if (x == 10) 

{ 

… 

} 

if (x % 2 == 0) 

… 


Se questo e’ taken… 

…e x non e’ cambiata qui… 

…anche questo branch sara’ taken 

Un predittore Globale 

tipicamente apprende 

e predice correttamente 

situazioni di questo tipo 

Alpha 21264 - Dimensione totale del predittore 

• Predittore Globale 

• 4096 x 2 = 8K bits 

• Predittore Locale 

• Local History Table – 1024 x 10 = 10K bits 

• Local Prediction Table – 1024 x 3 = 3K bits 

• Logica di selezione del predittore 

• 4096 x 2 = 8K bits 

• Totale 

• 29K bits 

• ~180,000 transistors 


Uso del predittore Globale rispetto a Locale 

li 

eqntott 

espresso 

gcc 

fpppp 

spice 

doduc 

tomcatv 

matrix300 

nasa7 


Fraction of predictions by local predictor 

37 

0 10 20 30 40 50 60 70 80 90 100 

Percentuale di branch predetti dal local predictor 

Numero di predizioni del predittore locale, normalizzato rispetto 

al numero totale di predizioni (locali+globali) 

Grafico da [Hennessy02] 

Prestazioni dei predittori – A BP 

tomcatv 

doduc 

fpppp 

li 

espresso 

gcc 

Grafico da [Hennessy02] 


55 

70% 

63 

77% 

69 

84% 

72 

86% 

82% 

88% 

86% 

82% 

88% 

76 

95% 

94% 

99% 

99% 

100% 

97% 

98% 

98% 

96% 

0% 20% 40% 60% 80% 100% 

Branch prediction accuracy 

90 

94 

98 

100 

Profile-based 

2-bit counter 

Tournament

Prestazioni dei predittori: mispred.rate vs. dim. 

Conditional branch misprediction rate 

10% 

9% 

8% 

7% 

6% 

5% 

4% 

3% 

2% 

1% 

0% 


P6 

Benchmark Suite: SPEC89 

Local 

Correlating 

Tournament 

0 8 16 24 32 40 48 56 64 72 80 88 96 104 112 120 128 



Total predictor size (Kbits) 

Grafico da [Hennessy02]

Branch Prediction nel P6 [Shen02] 

• Risoluzione del branch (taken/not taken) 

• E’ effettuata nella JEU (Jump Execution Unit) 

• Il BTB predice il target non appena la IFU (Instruction Fetch Unit) lo 

preleva 

• Tutti gli indirizzi sono verificati dal BAC (Branch Address Calculator) o 

dalla JEU 

• Branch Target Buffer (BTB) 

• Opera nei primi stadi della pipeline 

• Parte dall’indirizzo dell’IP (Instruction Pointer) e produce una 

predizione dell’esito e del target 

• L’indirizzo target predetto viene inviato alla IFU per il prelievo 

• Aggiornamento del BTB 

• Il BTB viene aggiornato non appena la JEU risolve il branch 

• Questo puo’ essere troppo tardi se il branch successivo arriva 

nelle istruzioni immediatamente successive 

-Il BTB viene pertanto speculaticamente aggiornato al momento della predizione 


P6 - Algoritmo di Branch Prediction 

• Basato sullo schema 2-level adaptive [Yeh92] 

• Primo livello – storia degli esiti dei branch 

• Secondo livello – comportamento del branch per un dato pattern di storia 

• Differenze rispetto a [Yeh92] 

- C’e’ una copia speculativa del BHT che consente di effettuare le predizioni prima che si 

abbia la risoluzione (e l’aggiornamento) 

• Per ogni branch… 

• Il BTB mantiene k bit di storia “reale” (detta BHR ==BHT) 

- Taken/Not-taken per gli ultimi N salti 

• Il BHT indicizza una tabella di 2k elementi di stato (Pattern Table – PT ==PHT) 

- La FSM relativa e’ il solito contatore a saturazione 

• La BTB usa 4-bit di pattern table “semilocale” per set 

• Ogni elemento ha 4 bit di storia 

• Quattro branch in un set usano la stessa pattern table 

• Aggiornamento speculativo del BHR 

• Una copia speculativa del BHR viene aggiornata con l’attuale predizione 

- Tale copia viene utilizzata nel caso arrivi un branch prima che il precedente sia risolto 

• La BHR reale viene aggiornato con l’esito effettivo dopo la risoluzione del branch 


Algoritmo di Branch Prediction - BTB 

• BTB e’ suddivisa in due stadi 

• Il motivo e’ dovuto alla velocita’ del circuito 

• I branch predetti “taken” inseriscono una bolla nella pipeline 

• Se non c’e’ hit nel BTB 

• Si utilizza una predizione di tipo statico 

• BTFN=Bachward Taken, Forward Not-taken 

• Return stack 

• La BTB mantiene inoltre un “return stack” [Kaeli91] di 16 elementi 

• Questo aiuta a predirre l’indirizzo di ritorno delle funzioni 


PENTIUM 4 & PENTIUM M 



P4 - Branch prediction [Boggs03] 

• Secondo Intel, il piu’ sofisticato schema di predizione al 2007 

• Non molti dettagli sono disponibili 

• Si avvale di due maniere di predirre il branch (simile al P6) 

• Se BTB fa hit si usa tale predizione 

• In caso contrario si usa una predizine statica 

• Miglioramenti introdotti nel Pentium M [Gochman03] 

- Predizione dei branch indiretti 

- Rivelatore di loop 


P4 - Branch Prediction statica 

• Generazioni precedenti 

• I “backward branch” venivano sempre “taken” 

• Backward branches nel P4 

• Si controlla se ricade su una chiusura di un loop oppure no 

- La decisione si basa su una soglia definita in maniera empirica 

-Se offset < soglia allora deduco che sono nel caso di una chiusa di loop predico taken 

-Se offset > soglia deduco che NON sono nel caso di una chiusa di loop predico not-taken 


P4 – Predizione dinamica dei branch 

• Il predittore e’ 8 volte piu’ grande di quello del P6 (4KB) 

• L’algoritmo preciso non e’ stato divulgato 

• Il predittore si combina con la Trace Cache 

• La Trace Cache sostituisce la Cache Istruzioni 

• Componenti 

• Return Address Stack – 16 elementi (v. [Kaeli91]) 

• Indirect Branch Predictor (v. slide successiva) 

• Loop detector (v. due slide avanti) 


Indirect Branch Predictor 

• Risolve i branch indiretti dipendenti dai dati 

• Sono molto frequenti nei programmi object-oriented (Java, C++) 

• Ci sono due casi 

• Branch indiretti con 1 target (piu’ facili da predirre) 

• Branch indiretti con piu’ target (es. statement “case”) 

in cui il target dipende dai dati del programma 

• Il predittore differenzia fra questi due casi 

• Data-independent 

- Viene usato solo l’IP per selezionare il branch target 

- Si memorizza il target in una tabella indicizzata dall’IP 

• Data-dependent 

- Si usa la storia globale degli esiti per selezionare il branch target 

- Si memorizza il target in una tabella indicizzata dalla storia globale 


Loop predictor 

• Cerca di scoprire se il branch chiude un ciclo oppure no 

• Un branch chiude un ciclo se salta piu’ volte in una direzione (sia essa 

taken che not taken) 

• L’ultimo movimento avviene in direzione opposta per terminare il loop 

• Questa tecnica funziona meglio di altri predittori per i loop 

Conta quante volte questo 

branch ha saltato ad un 

dato indirizzo 

Rivela quando il contatore 

ha raggiungo il limite per 

cui si ripristina 


0 

-1 

Count Limit Prediction 

= 


Predice che il loop si 

chiude fintanto che il 

contatore e’ al di sotto del 

limite memorizzato 

Suggerimenti software per la branch prediction 

• Il P4 consente al software di passare suggerimenti (hints) al 

processore 

• L’hardware di Branch Prediction e di formazione della traccia 

consulta questa informazioni per migliorare le prestazioni 

• Cambiamenti nell’ISA 

• Le istruzioni di branch devono essere modificate per supportare i 

suggerimenti 

• Si aggiungono dei prefissi ai salti condizionali 

• La tecnica e’ usata solo nel momento in cui si crea la traccia 

• Dopo la creazione della traccia gli hints del software non vengono piu’ 

considerati 


Prestazioni 

• Confronto tra due generazioni di architetture Intel (130nm vs 90nm) 

SPECint_base2000 130nm 90nm 

164.gzip 1.03 1.01 

175.vpr 1.32 1.21 

176.gcc 0.85 0.70 

181.mcf 1.35 1.22 

186.crafty 0.72 0.69 

197.parser 1.06 0.87 

252.eon 0.44 0.39 

253.perlbmk 0.62 0.28 

254.gap 0.33 0.24 

255.vortex 0.08 0.09 

256.bzip2 1.19 1.12 

300.twolf 1.32 1.23 


References 

Nella tabella a lato si riporta il numero 

di misprediction su 100 istruzioni di 

branch, nal caso dell’architettura P4 a 

130 nm e a 90 nm. 

Dati forniti da Intel. 

[Alpha99] Compaq Computer Corporation, Alpha 21264 Microprocessor Hardware Reference 

Manual, 1999. 

[Boggs03] Boggs D., et. al. The Microarchitecture of the Intel ® Pentium ® 4 Processor on 90nm 

Technology. Intel ® Technology Journal, Vol 08, Issue 01, February 18, 2003. 

[Gochman03] Gochman S., et. al. The Intel ® Pentium ® M Processor: Microarchitecture and 

Performance. Intel ® Technology Journal, Vol 07, Issue 02, May 21, 2003. 

[Hennessy02] Hennessy, J. L. and Patterson, D. A. 2002 Computer Architecture: a Quantitative 

Approach. 3 rd Edition. Morgan Kaufmann Publishers Inc. 2002. 

[Kaeli91] D. R. Kaeli and P. G. Emma. Branch history table prediction of moving target 

branches due to subroutine returns. In Proc. ISCA-18, pages 34–41, May 1991. 

[McFarling93] McFarling, S . Combining Combining branch branch predictors. predictors. Technical Report TN-36, Digital 

Western Research Laboratory, June 1993. 

[Pan92] S. T. Pan, K. So, and J. T. Rahmeh. Improving the accuracy of dynamic branch 

prediction using branch correlation. In Proceedings of ASPLOS V, pages 76–84, 

Boston, MA, October 1992. 

[Shen02] Shen J. P. , Lipasti M. Modern Processor Design, McGraw Hill Higher Education; 

Beta Ed edition (November 1, 2002). 

[Yeh93-ics] Yeh, T., Marr, D. T., and Patt, Y. N. 1993. Increasing the instruction fetch rate via 

multiple branch prediction and a branch address cache. In Proceedings of the 7th 

International Conference on Supercomputing (Tokyo, Japan, July 19 - 23, 1993). 

[Uht95] Uht, A. K., Sindagi, V., Hall, K. Disjoint eager execution: an optimal form of 

speculative execution. In Proceedings of the 28th Annual international Symposium 

on Microarchitecture (Dec. 1995).

LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ...

Create successful ePaper yourself

Delete template?

Save as template?