LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ...

LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ... LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ...

from dii.unisi.it More from this publisher

07.06.2013 Views

Branch Prediction (parte seconda) Calcolatori Elettronici 2 http://www.dii.unisi.it/~giorgi/didattica/calel2 Branch Misprediction Recovery (1) • La predizione dinamica dei salti consiste di due parti - Parte iniziale che effettua la speculazione negli stadi iniziali della pipeline - Parte finale che effettua la validazione negli ultimi stadi della pipeline • Speculazione sui branch • Mentre si prelevano istruzioni dal ramo predetto, si puo’ incontrare un altro branch - Es. Il predittore ci consiglia “Taken” per il branch b1 - Il processore preleva b2 prima che b1 sia risolto • Soluzioni - Attendere che b1 sia risolta prima di predirre b2 ? spreco di risorse… - Predirre b2 anche se b1 non e’ risolto? si complica la gestione del “recovery” nel caso di misprediction NT Roberto Giorgi, Universita’ di Siena, C208L05, Slide 2 T NT T NT NT T b1 T NT b2 T NT T NT b3 T

Branch Prediction

(parte seconda)

Calcolatori Elettronici 2

http://www.dii.unisi.it/~giorgi/didattica/calel2

Branch Misprediction Recovery (1)

• La predizione dinamica dei salti consiste di due parti

- Parte iniziale che effettua la speculazione negli stadi iniziali della pipeline

- Parte finale che effettua la validazione negli ultimi stadi della pipeline

• Speculazione sui branch

• Mentre si prelevano istruzioni dal ramo predetto, si puo’ incontrare un

altro branch

- Es. Il predittore ci consiglia “Taken” per il branch b1

- Il processore preleva b2 prima che b1 sia risolto

• Soluzioni

- Attendere che b1 sia risolta prima di predirre b2 ? spreco di risorse…

- Predirre b2 anche se b1 non e’ risolto? si complica la gestione del

“recovery” nel caso di misprediction

NT

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 2

T

NT T NT

NT

T

b1

T

NT

b2

T

NT T NT

b3

Branch Misprediction Recovery (2)

• Come si recupera (recovery) in questo caso

• Vorremmo recuperare da una situazione di misprediction multipli

• Situazione piu’ complessa: primo branch mispredicted, secondo giusto

• Esempio: stiamo speculando su 3 branch, b1, b2, b3

- Le predizioni sono evidenziate con la linee tratteggiata

- Le istruzioni di ogni ramo predetto sono residenti nel processore

• Idea: a ogni istruzione su un dato ramo speculativo si assegna in TAG

- Ogni ramo speculativo ha il proprio tag (Tag1, Tag2, Tag3)

NT

NT T NT

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 3

T

NT

T

(Tag 2)

(Tag 1)

NT

T

NT T NT

(Tag 3)

Branch Misprediction Recovery (3)

• Validazione dei branch

• Quando il branch e’ risolto (direzione e target sono noti)

- CASO DI PREDIZIONE CORRETTA

-Il tag viene rimosso e le istruzioni su quel ramo divengono non-speculative

- CASO DI PREDIZIONE ERRATA (MISPREDICTION)

-Il ramo errato viene bloccato ed eliminato dalla pipeline

-Devono essere rimossi anche tutti i rami speculativi successivi

-Il ramo corretto viene eseguito dall’inizio inserendolo in pipeline

• Esempio

- Il secondo branch non e’ stato azzeccato

- Tutte le istruzioni con Tag2 e Tag3 devono essere rimosse

NT

NT T NT

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 4

T

NT

T

(Tag 2)

NT

T

NT T NT

(Tag 3)

T

Ricominciare

da qui!

Esempio - PowerPC 604 (1)

• Microprocessore Superscalare a 4 vie

• Puo’ effettuare fetch, decode, execute di 4 istruzioni per ciclo

• Branch Prediction

• Usa due buffer separati:

- Branch Target Address Cache (BTAC)

- Branch History Table (BHT)

• Vengono indirizzati entrambi nello stadio di fetch

• BTAC (analogo al BTB)

• Cache fully-associative a 64 elementi, risponde in 1 ciclo

• Memorizza l’indirizzo target del salto

• BHT

• Cache ad accesso diretto a 512 elementi, risponde in 2 cicli

• Memorizza i bit di storia dei branch

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 5

Esempio - PowerPC 604 (2)

+4

BHT prediction

BTAC prediction

Branch

Prediction

PC Branch History

PC

Table (BHT)

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 6

PC

Branch Target

Address Cache

(BTAC)

PC

BHT

BTAC

update update

execute

commit

I-cache

decode

decode buffer

dispatch buffer

dispatch

Reservation stations

BRN SFX SFX CFX FPL LS

branch

Re-order buffer

Esempio - PowerPC 604 (3)

• Hit nel BTAC

• Indica la presenza di un branch nella coda di fetch

• L’indirizzo target prelevato dal BTAC viene usato al ciclo successivo

• Al secondo ciclo viene consultato il BHT

• La predizione deve essere “taken”, se avevo fatto hit in BTAC al ciclo prima

• Se le due predizioni NON sono in accordo?

• Si butta la predizione del BTAC (significa che BHT ha predetto “not-taken”)

• Il fetch continua dal ramo in cascata

• La predizione del BHT prevale su quella del BTAC

• Dopo aver risolto il branch si devono aggiornare sia BTAC che BHT

• Perche’ servono entrambi ?

• Il BTAC e’ piu’ veloce: se la predizione e’ giusta non attendo alcun ciclo

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 7

Esempio - PowerPC 604 (4)

• Il PowerPC 604 e’ superscalare

• Nelle reservation-station ci possono essere fino a 4 istruzioni di salto

• E’ necessario usare dei tag a 2 bit per gestire la speculazione

• Segue lo schema introdotto poco sopra

• In particolare le risorse occupate dalle istruzioni speculative

debbono essere liberate in caso di misprediction

(es. Reorder Buffer, una struttura tipica dei processori superscalari)

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 8

Predittori a correlazione: gselect e gshare

• Per generare l’indice della PHT, Pan e (successivamente) McFarling

suggeriscono di usare sia l’indirizzo del branch (BIA) che la stringa

di storia globale (BHSR)

• La semplificazione e’ di NON usare una BHT con piu’ elementi

• gselect [Pan92]

• Alcuni bit del BIA sono accostati ai bit della global history

• gshare [McFarling93]

• I bit del BIA sono “mescolati” (hashed) con quelli della global history

• La funzione di “mescolamento” di solito e’ l’operazione di XOR

Branch

address

(BIA)

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 9

Global

history

(BHSR)

gselect 4/4 gshare 8/8

0000 0000 0000 0001 0000 0001 00000001

00000000 00000000 00000000 00000000

11111111 00000000 11110000 11111111

11111111 10000000 11110000 01111111

gselect [Pan92]

• m bit dall’indirizzo (BIA) sono accostati ai k bit del BHSR

• Schema molto semplice: 1 BHSR e 1 piccolo PHT

BHSR

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 10

k

BIA

m

k+m

PHT

…

2 k+m x j

entries

prediction

gshare [McFarling93]

• m bit dell’indirizzo BIA sono messi in XOR con il BHSR

• Schema molto semplice: 1 BHSR e 1 piccolo PHT

• Usato nell’Alpha 21264

BHSR

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 11

BIA

Di solito sono i bit meno significativi del BIA

Inoltre, di solito k == m

k

m

max{k, m}

PHT

…

2 max{k, m} x j

entries

Prestazioni di gshare, gselect, GAg

Predictor Accuracy (%)

98

96

94

92

90

88

86

84

Grafico da [McFarling93]

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 12

prediction

32 64 256 1K 4K 16K 64K

Predictor Size(bytes)

“global” si riferisce al predittore GAg di Yeh e Patt

I benchmark usati sono gli stessi 9 di SPEC-89 usati nei lavori [Yeh92] e [Yeh93]

gshare

gselect

global

Predittori “competitivi” (“Tournament”)

• Certi predittori funzionano bene con determinati branch

• La prima proposta di usare due predittori competitivi e’ presentata

da McFarling [McFarling93] (bimodal+gshare)

• Selezionare dinamicamente una predizione fra piu’ predittori

• Usare la storia per selezionare un predittore

BHT

BIA

• Esempio: Alpha 21264

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 13

Path History

Predictor 1

Predictor 2

M

U prediction

U

X

Predictor

selection

logic

• Dimensione totale del predittore pari a 29k bits

• A BP = 97.4%(SPEC89 average)

99.9% (SPECfp95 average), 99% (SPECint95 average)

Predittore dell’indirizzo di ritorno

• Alcuni salti variano l’indirizzo target nello stesso programma

• Tali salti sono tipicamente “indirect jumps”

• In particolare, fra questi ci sono i salti di ritorno da procedura

• Nel caso di SPEC-89 i salti da ritorno da procedura sono l’85%

• Predizione delle istruzioni di ritorno da procedura

• L’esito e’ facile da predirre: always taken!

• Il target non e’ facile da predirre: la stessa procedura puo’ essere

invocata da diversi punti di un programma

• Il BTB per predirre il target puo’ condurre a misprediction

• E’ stato proposto un piccolo stack per mantenere gli indirizzi

di ritorno [Kaeli91]

• Al momento della chiamata si fa push dell’indirizzo di ritorno in tale stack

• Al momento del ritorno basta fare una pop da tale stack

• Funziona come una cache dei piu’ recenti indirizzi di ritorno

• Se tale stack e’ sufficientemente grande predice tutti i ritorni

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 14

Predizioni multiple [Yeh93-ics]

• Idea: predirre i salti successivi anche se i precedenti

non sono risolti

• Effettuare 1 predizione per ciclo

• Mentre si cerca di effettuare le predizioni successive,

puo’ essere utile aggiornare speculativamente PHT e BHT

• La tecnica funziona bene se l’accuratezza della prima

predizione e’ alta

• 1 st predizione – 96% di accuratezza =>

- 2 nd predizione – 92.16% accuratezza =>

-4 th predizione – 84.93% accuratezza

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 15

Predizioni multiple (2)

• Idea2: effettuare PIU’ predizioni per ciclo

• Questo permette di prelevare piu’ basic block (possibilmente

giusti) simultaneamente

• Si puo’ usare come schema base il GAg

• Ha il vantaggio di poter effettuare predizioni senza il BIA

Global BHSR

(k bits)

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 16

k

k-1

PHT

M

U

X

Secondary prediction

Primary prediction

Nota: con k bit si seleziona un elemento della PHT (predizione primaria). Usando k-1 bit meno significativi

seleziono I prossimi due possibili elementi della PHT: da questi posso selezionarne uno uilizzando la

predizione primaria e ottenendo cosi’ la predizione secondaria

Eager Execution [Uht95]

• In un gruppo di 4 istruzioni e’ possibile che tutte e 4

siano branch

• Si deve far ricorso ad un BTB a 4 porte

(similmente al predittore multiplo di Yeh)

• Eager Execution

• Si eseguono sia il ramo taken che quello not-taken senza predizioni

- Il fetch avviene da entrambi i rami taken e not-taken

- Nel lavoro di Uht il fetch viene limitato a 6 ramificazioni

- Vengono via via buttati i rami sbagliatai nel momento in cui i branch sono risolti

- Naturalmente viene buttato parecchio lavoro… ma e’ veloce!

• Disjoint Eager Execution

- In questo caso si considera la brench prediction mentre si fa il fetch

- Si prelevano solo istruzioni dai rami predetti, fino a 6 ramificazioni

- Se il ramo e’ sbagliato, semplicemente si fa ripartire la pipeline

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 17

Trace Cache

• Cattura sequenze di basic-blocks (tracce dinaniche) in una cache che

sostituisce la cache istruzioni

• Tale cache e’ indicizzata dal target di un salto

• Gli elementi di tale cache sono asssemblati dinamicamente mentre il programma esegue le

sue istruzioni

• Se c’e’ hit nella trace cache

• Le istruzioni vengono prelevate dalla trace cache

• La sequenza prelevata tipicamente contiene piu’ basic-block

(ovvero una sequenza di piu’ taken branch)

• Si elimina la necessita’ di fare il fetch di piu’ target

• Inoltre la cache non deve essere con piu’ porte

Quando il codice viene eseguito

la prima volta: si registra la

sequenza nella trace cache

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 18

B1

B2 B3

B4

B1 B3 B4

va nella trace cache

B1

B3

B4

La volta successiva si

legge la sequenza dalla

trace cache: non c’e’

bisogno di predirla !

ALPHA 21264

Branch Prediction case study

Roberto Giorgi, Universita’ di Siena, C208L01, Slide 19

Processore Alpha 21264

• 500-600 MHz, 15x10 6 transistors, 2.2V, 0.35µ CMOS

• Processore a 64-bit

• Processore Superscalare a 4 vie

• Puo’ prelevare ed eseguire fino a 4 istruzioni per ciclo

• L’esecuzione avviene “fuori ordine” (out-of-order)

• Secondo Hennessy e Patterson ha il predittore piu’

sofisticato implmentato fino al 2003

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 20

Predittore dell’Alpha 21264 [Alpha99]

• Tournament Predictor

• Sceglie dinamicamente fra due predittori

- Il “predittore locale” (sinistra) – equivalente ad uno schena PAg

- Il “predittore globale” (destra) – equivalente ad uno schema Gag

- La selezione del predittore avviene attraverso una storia degli esiti

competitivi data in pasto al solito contatore a saturazione a 2 bit.

Local predictor

Local

history

table

(1024 x 10)

Program

counter

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 21

Local

prediction

(1024 x 3)

branch

prediction

MUX

Global prediction

(4096 x 2)

Alpha 21264 - Predittore Locale

• Local History Table (LHT)

Choice prediction

(4096 x 2)

Path history

• Equivalente alla BHT dello schema PAg (k=10, 1024 entry BHT (m=10))

• Mantiene gli ultimi 10 esiti per un massimo di 1024 branch

• E’ indicizzato dall’indirizzo dell’istruzione di salto (BIA)

• Local Prediction Table (LPT)

• Equivalente a una PHT dello schema PAg (j=3, 1024 entries(k=10))

• E’ indicizzata dall’elemento di storia della LHT

• La FSM e’ un contatore a saturazione a 3 bit

• La predizione coincide col bit piu’ significativo dello stato (1=T)

• La LHT e la LPT sono aggiornate dopo che il branch viene

risolto

• Funziona bene per sequenze alternativamente T e N

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 22

Alpha 21264 - Predittore Globale

• Tabella da 4096 elementi

• E’ equivalente alla PHT dello schema GAg (j=2, 4096-entry PHT (k=12))

• E’ indicizzata con un registro di storia globale a 12 bit

• Predittore

• La FSM e’ un contatore a saturazione a 2-bit

• La predizione coincide col bit piu’ significativo dello stato (1=T)

• Funziona bene per branch che sono influenzati da branch

precedenti

• Esempio:

if (x == 10)

{

…

}

if (x % 2 == 0)

…

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 23

Se questo e’ taken…

…e x non e’ cambiata qui…

…anche questo branch sara’ taken

Un predittore Globale

tipicamente apprende

e predice correttamente

situazioni di questo tipo

Alpha 21264 - Dimensione totale del predittore

• Predittore Globale

• 4096 x 2 = 8K bits

• Predittore Locale

• Local History Table – 1024 x 10 = 10K bits

• Local Prediction Table – 1024 x 3 = 3K bits

• Logica di selezione del predittore

• 4096 x 2 = 8K bits

• Totale

• 29K bits

• ~180,000 transistors

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 24

Uso del predittore Globale rispetto a Locale

li

eqntott

espresso

gcc

fpppp

spice

doduc

tomcatv

matrix300

nasa7

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 25

Fraction of predictions by local predictor

37

0 10 20 30 40 50 60 70 80 90 100

Percentuale di branch predetti dal local predictor

Numero di predizioni del predittore locale, normalizzato rispetto

al numero totale di predizioni (locali+globali)

Grafico da [Hennessy02]

Prestazioni dei predittori – A BP

tomcatv

doduc

fpppp

li

espresso

gcc

Grafico da [Hennessy02]

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 26

55

70%

63

77%

69

84%

72

86%

82%

88%

86%

82%

88%

76

95%

94%

99%

100%

97%

98%

96%

0% 20% 40% 60% 80% 100%

Branch prediction accuracy

90

94

98

100

Profile-based

2-bit counter

Tournament

Prestazioni dei predittori: mispred.rate vs. dim.

Conditional branch misprediction rate

10%

9%

8%

7%

6%

5%

4%

3%

2%

1%

0%

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 27

P6

Benchmark Suite: SPEC89

Local

Correlating

Tournament

0 8 16 24 32 40 48 56 64 72 80 88 96 104 112 120 128

Branch Prediction case study

Roberto Giorgi, Universita’ di Siena, C208L01, Slide 28

Total predictor size (Kbits)

Grafico da [Hennessy02]

Branch Prediction nel P6 [Shen02]

• Risoluzione del branch (taken/not taken)

• E’ effettuata nella JEU (Jump Execution Unit)

• Il BTB predice il target non appena la IFU (Instruction Fetch Unit) lo

preleva

• Tutti gli indirizzi sono verificati dal BAC (Branch Address Calculator) o

dalla JEU

• Branch Target Buffer (BTB)

• Opera nei primi stadi della pipeline

• Parte dall’indirizzo dell’IP (Instruction Pointer) e produce una

predizione dell’esito e del target

• L’indirizzo target predetto viene inviato alla IFU per il prelievo

• Aggiornamento del BTB

• Il BTB viene aggiornato non appena la JEU risolve il branch

• Questo puo’ essere troppo tardi se il branch successivo arriva

nelle istruzioni immediatamente successive

-Il BTB viene pertanto speculaticamente aggiornato al momento della predizione

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 29

P6 - Algoritmo di Branch Prediction

• Basato sullo schema 2-level adaptive [Yeh92]

• Primo livello – storia degli esiti dei branch

• Secondo livello – comportamento del branch per un dato pattern di storia

• Differenze rispetto a [Yeh92]

- C’e’ una copia speculativa del BHT che consente di effettuare le predizioni prima che si

abbia la risoluzione (e l’aggiornamento)

• Per ogni branch…

• Il BTB mantiene k bit di storia “reale” (detta BHR ==BHT)

- Taken/Not-taken per gli ultimi N salti

• Il BHT indicizza una tabella di 2k elementi di stato (Pattern Table – PT ==PHT)

- La FSM relativa e’ il solito contatore a saturazione

• La BTB usa 4-bit di pattern table “semilocale” per set

• Ogni elemento ha 4 bit di storia

• Quattro branch in un set usano la stessa pattern table

• Aggiornamento speculativo del BHR

• Una copia speculativa del BHR viene aggiornata con l’attuale predizione

- Tale copia viene utilizzata nel caso arrivi un branch prima che il precedente sia risolto

• La BHR reale viene aggiornato con l’esito effettivo dopo la risoluzione del branch

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 30

Algoritmo di Branch Prediction - BTB

• BTB e’ suddivisa in due stadi

• Il motivo e’ dovuto alla velocita’ del circuito

• I branch predetti “taken” inseriscono una bolla nella pipeline

• Se non c’e’ hit nel BTB

• Si utilizza una predizione di tipo statico

• BTFN=Bachward Taken, Forward Not-taken

• Return stack

• La BTB mantiene inoltre un “return stack” [Kaeli91] di 16 elementi

• Questo aiuta a predirre l’indirizzo di ritorno delle funzioni

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 31

PENTIUM 4 & PENTIUM M

Branch Prediction case study

Roberto Giorgi, Universita’ di Siena, C208L01, Slide 32

P4 - Branch prediction [Boggs03]

• Secondo Intel, il piu’ sofisticato schema di predizione al 2007

• Non molti dettagli sono disponibili

• Si avvale di due maniere di predirre il branch (simile al P6)

• Se BTB fa hit si usa tale predizione

• In caso contrario si usa una predizine statica

• Miglioramenti introdotti nel Pentium M [Gochman03]

- Predizione dei branch indiretti

- Rivelatore di loop

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 33

P4 - Branch Prediction statica

• Generazioni precedenti

• I “backward branch” venivano sempre “taken”

• Backward branches nel P4

• Si controlla se ricade su una chiusura di un loop oppure no

- La decisione si basa su una soglia definita in maniera empirica

-Se offset < soglia allora deduco che sono nel caso di una chiusa di loop predico taken

-Se offset > soglia deduco che NON sono nel caso di una chiusa di loop predico not-taken

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 34

P4 – Predizione dinamica dei branch

• Il predittore e’ 8 volte piu’ grande di quello del P6 (4KB)

• L’algoritmo preciso non e’ stato divulgato

• Il predittore si combina con la Trace Cache

• La Trace Cache sostituisce la Cache Istruzioni

• Componenti

• Return Address Stack – 16 elementi (v. [Kaeli91])

• Indirect Branch Predictor (v. slide successiva)

• Loop detector (v. due slide avanti)

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 35

Indirect Branch Predictor

• Risolve i branch indiretti dipendenti dai dati

• Sono molto frequenti nei programmi object-oriented (Java, C++)

• Ci sono due casi

• Branch indiretti con 1 target (piu’ facili da predirre)

• Branch indiretti con piu’ target (es. statement “case”)

in cui il target dipende dai dati del programma

• Il predittore differenzia fra questi due casi

• Data-independent

- Viene usato solo l’IP per selezionare il branch target

- Si memorizza il target in una tabella indicizzata dall’IP

• Data-dependent

- Si usa la storia globale degli esiti per selezionare il branch target

- Si memorizza il target in una tabella indicizzata dalla storia globale

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 36

Loop predictor

• Cerca di scoprire se il branch chiude un ciclo oppure no

• Un branch chiude un ciclo se salta piu’ volte in una direzione (sia essa

taken che not taken)

• L’ultimo movimento avviene in direzione opposta per terminare il loop

• Questa tecnica funziona meglio di altri predittori per i loop

Conta quante volte questo

branch ha saltato ad un

dato indirizzo

Rivela quando il contatore

ha raggiungo il limite per

cui si ripristina

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 37

0

-1

Count Limit Prediction

=

prediction

Predice che il loop si

chiude fintanto che il

contatore e’ al di sotto del

limite memorizzato

Suggerimenti software per la branch prediction

• Il P4 consente al software di passare suggerimenti (hints) al

processore

• L’hardware di Branch Prediction e di formazione della traccia

consulta questa informazioni per migliorare le prestazioni

• Cambiamenti nell’ISA

• Le istruzioni di branch devono essere modificate per supportare i

suggerimenti

• Si aggiungono dei prefissi ai salti condizionali

• La tecnica e’ usata solo nel momento in cui si crea la traccia

• Dopo la creazione della traccia gli hints del software non vengono piu’

considerati

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 38

Prestazioni

• Confronto tra due generazioni di architetture Intel (130nm vs 90nm)

SPECint_base2000 130nm 90nm

164.gzip 1.03 1.01

175.vpr 1.32 1.21

176.gcc 0.85 0.70

181.mcf 1.35 1.22

186.crafty 0.72 0.69

197.parser 1.06 0.87

252.eon 0.44 0.39

253.perlbmk 0.62 0.28

254.gap 0.33 0.24

255.vortex 0.08 0.09

256.bzip2 1.19 1.12

300.twolf 1.32 1.23

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 39

References

Nella tabella a lato si riporta il numero

di misprediction su 100 istruzioni di

branch, nal caso dell’architettura P4 a

130 nm e a 90 nm.

Dati forniti da Intel.

[Alpha99] Compaq Computer Corporation, Alpha 21264 Microprocessor Hardware Reference

Manual, 1999.

[Boggs03] Boggs D., et. al. The Microarchitecture of the Intel ® Pentium ® 4 Processor on 90nm

Technology. Intel ® Technology Journal, Vol 08, Issue 01, February 18, 2003.

[Gochman03] Gochman S., et. al. The Intel ® Pentium ® M Processor: Microarchitecture and

Performance. Intel ® Technology Journal, Vol 07, Issue 02, May 21, 2003.

[Hennessy02] Hennessy, J. L. and Patterson, D. A. 2002 Computer Architecture: a Quantitative

Approach. 3 rd Edition. Morgan Kaufmann Publishers Inc. 2002.

[Kaeli91] D. R. Kaeli and P. G. Emma. Branch history table prediction of moving target

branches due to subroutine returns. In Proc. ISCA-18, pages 34–41, May 1991.

[McFarling93] McFarling, S . Combining Combining branch branch predictors. predictors. Technical Report TN-36, Digital

Western Research Laboratory, June 1993.

[Pan92] S. T. Pan, K. So, and J. T. Rahmeh. Improving the accuracy of dynamic branch

prediction using branch correlation. In Proceedings of ASPLOS V, pages 76–84,

Boston, MA, October 1992.

[Shen02] Shen J. P. , Lipasti M. Modern Processor Design, McGraw Hill Higher Education;

Beta Ed edition (November 1, 2002).

[Yeh93-ics] Yeh, T., Marr, D. T., and Patt, Y. N. 1993. Increasing the instruction fetch rate via

multiple branch prediction and a branch address cache. In Proceedings of the 7th

International Conference on Supercomputing (Tokyo, Japan, July 19 - 23, 1993).

[Uht95] Uht, A. K., Sindagi, V., Hall, K. Disjoint eager execution: an optimal form of

speculative execution. In Proceedings of the 28th Annual international Symposium

on Microarchitecture (Dec. 1995).

Roberto Giorgi, Universita’ di Siena, C208L05, Slide 40

LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ...

LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ... ... View more LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ...

Delete template?

Save as template ?

LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ... LEZIONE #05 del 12-Mag-2008 (2 ore) - Dipartimento di Ingegneria ...