Gliederung

Rechnersysteme, 

Vorlesung 14: Cache & Co 

Gliederung 

Meike Klettke 

Universität Greifswald 

meike.klettke@uni-greifswald.de 

� Heute verschiedene Themenkomplexe 

� Übersetzung von Javaprogrammen in Assemblercode 

� RISC, CISC 

� Pipelining von Maschinenbefehlen 

� Speicherzugriffszeiten, 

� Cache 

� Verwendung 

� Realisierungen 

� Zugriffszeiten 

� .. im Mehrprozessorbetrieb 

1 

2 

1

Merkmale von CISC- 

Prozessoren 

CISC = Complex Instruction Set Computer 

• mehrere (auch komplexere) Funktionen werden direkt 

durch den Prozessor durchgeführt 

• Merkmale: 

• große Anzahl von Maschinenbefehlen (meist mehr als 100) 

• komplexe Operationen (z.B. Gleitpunkt-Operationen in 

Hardware) 

• unterschiedliche Ausführungszeiten für einzelne Befehle 

• kleine Zahl von Registern (die meisten für feste Aufgaben) 

• mehrere Datentypen werden direkt von HW unterstützt 

• Interpretation einzelner Befehle durch Mikroprogramm 

Merkmale von RISC- 

Prozessoren 

RISC = Reduced Instruction Set Computer 

Gegensatz von CISC 

• Prozessor vereinfachen, indem Befehlssatz nur wenige, aber dafür 

sehr schnelle und einfach auszuführende Befehle beinhaltet 

• Merkmale: 

• wenige, schnell ausführbare Befehle (meist < 100) 

• einfache Operationen, die in einem Verarbeitungsschritt 

ausführbar sind 

• große Anzahl von Registern (meisten frei verwendbar) 

• Interpretation der einzelnen Befehle direkt durch HW 

3 

4 

2

Vor- und Nachteile von 

CISC bzw. RISC 

CISC erleichtert den Bau von Übersetzern 

RISC ermöglicht schnellere Ausführung von 

Maschinenprogrammen 

1. RISC-Befehle sind einfach, besitzen einheitlichen Befehlsaufbau, 

so dass sie in einem Zyklus ausführbar sind 

2. Feste Verdrahtung (kein Mikroprogramm) beim Steuerwerk 

bei RISC bringt schnellere Befehlsausführung mit sich 

3. Entwurf von RISC-Prozessoren ist einfacher 

4. RISC-Befehle ermöglichen wegen Einfachheit, einheitlichen 

Aufbau und Ausführbarkeit in einem Zyklus ein Pipelining 

Pipelining 

� Motivation: 

� Wäsche waschen nach dem Urlaub 

5 

6 

3

Phasen beim Pipelining 

Fließbandverarbeitung: Z.B. Befehl in 5 Phasen abarbeiten: 

• Phase 1: IF = Instruction Fetch 

nächsten Befehl aus dem Programmspeicher holen 

• Phase 2: ID = Instruction Decode 

dekodieren des Befehls, Operanden aus Registern holen 

• Phase 3: Ex = Execute/address calculation 

Ausführen der Operation und Berechnen der Adresse 

• Phase 4: MEM = Memory access 

Abspeichern des Ergebnisses 

• Phase 5: WB = Write back 

Evtl. Schreiben des Ergebnisses in Register 

Manche Befehle benötigen weniger als 5 Phasen: 

Erzeugt Befehl z.B. kein Ergebnis, entfallen die letzten 

beiden Phasen. 

RISC-Prozessor mit 5stufigem 

Pipelining 

Moderne Prozessoren haben nicht 5, sondern bis zu 20 

Phasen, die durch eigene Funktionseinheiten realisiert sind 

7 

8 

4

RISC-Prozessor mit 5stufigem 

Pipelining 

• einzelne Funktionseinheiten/Phasen sind unabhängig voneinander 

• benötigen gleich lange Ausführungszeit 

� können also parallel bearbeitet werden 

Geschwindigkeitsgewinn 

beim Pipelining 

b Befehle benötigen zu ihrer Abarbeitung folgende Zeiten: 

• ohne Pipelining: b*t 

• mit Pipelining: (b*t)/n +((b-1)*t)/n 

9 

10 

5

Daten-Hazards – 

Datenabhängigkeiten 

Datenabhängigkeit zwischen zwei Befehlen, wenn zum 

Beispiel der 2. Befehl ein Ergebnis des 1. Befehls 

benötigt, dieses aber noch nicht vorliegt: 

Daten-Hazards beim 

Pipelining 

1. Möglichkeit Daten-Hazards zu lösen: leere 

Operationen (NOP) 

10 statt 7 Takte � negativ für Geschwindigkeit des 

Programms 

11 

12 

6


Pipelining 

2. Möglichkeit: Umsortieren der Befehle durch den Compiler 

Umsortierung, die Daten-Hazard beseitigt: 


Pipelining 

2. Möglichkeit: Umsortieren der Befehle durch den Compiler 

13 

14 

7

Control-Hazards beim 

Pipelining 

Control-Hazards bei bedingten Sprüngen: 

Nachdem der Sprungbefehl JC die Phase IF verlassen hat, 

kann nicht SUB geladen werden, es ist zu diesem Zeitpunkt 

noch nicht bekannt, ob ein Sprung auf den Befehl an Position 

50 stattfindet. 


Pipelining 

1. Möglichkeit Control-Hazards zu lösen: leere Operation 

(NOP) 

� negativ für Geschwindigkeit des Programms 

15 

16 

8


Pipelining 

2. Möglichkeit Control-Hazards zu lösen: 

Branch Prediction 

• Prozessoren versuchen (mit bestimmten Techniken) den 

wahrscheinlichsten nächsten Befehl zu erraten 

• z.B. Statistik, nach der festgelegt, wie oft ein bedingter Sprung zu 

einem Sprung führte und wie oft nicht 

• � Das am wahrscheinlichsten eintretende Ereignis wird genommen, 

entsprechender Befehl in die Pipeline geladen. 

• Richtige Vorhersage � viel Zeit gespart, da keine NOP’s. 

• Falsche Vorhersage � ganze Pipeline leeren und evtl. 

falsch gesetzte Werte müssen zurückgesetzt werden. 

Cache 

� stammt vom französischen cacher – verbergen = „geheimes 

Lager“ 

� bezeichnet einen schnellen Speicher 

� enthält Kopien von Inhalten eines anderen (Hintergrund-) 

Speichers 

� beschleunigt den Zugriff darauf 

� zum Zugriff werden Lokalitätseigenschaften ausgenutzt. 

� Zeitliche Lokalität 

� Räumliche Lokalität 

� für den Programmierer ist ein Cache weitgehend transparent 

� Darin gespeicherte Daten nicht direkt adressierbar 

� Nicht sichtbar, ob Daten aus dem Cache oder vom 

Hintergrundspeicher geholt werden 

17 

18 

9

Cache 

• Direkt in CPU (on-chip-cache oder first-level-cache) 

• Außerhalb der CPU (second-level-cache) 

• Cache-Speicher im Vergleich zum Hauptspeicher sehr kleine, 

aber wesentlich schnellere Speicher 

• Cache, um Geschwindigkeitslücke zwischen Register und 

Hauptspeicher zu schließen: 

• Idee: In Cache-Speicher möglichst immer Daten aus 

Hauptspeicher kopieren, die vom Prozessor als 

Nächstes benötigt werden 

• Damit keine zeitaufwändigen Zugriffe auf den 

Hauptspeicher, stattdessen auf den schnellen Cache 

Speicherarchitektur 

� mehrstufigen Speicherarchitektur 

� Level-1-Cache ist direkt im Prozessorkern untergebracht 

� wird mit derselben Taktrate betrieben wie der Prozessor 

selbst. 

� sehr klein (z. B. 16 Kilobyte oder 128 Kilobyte). 

� Level-2-Cache ist 

� entweder außerhalb des Prozessors auf dem Mainboard 

untergebracht oder 

� im Prozessor, aber nicht im Prozessorkern. 

� schneller als der normale Arbeitsspeicher, jedoch langsamer 

als der Level-1-Cache, 

� dafür mit z. B. 512 oder 1024 Kilobyte erheblich größer als 

Level-1-Cache 

19 

20 

10

Überblick: Speicherhierarchie 

1-10ns 

Register 

10-100ns 

Cache 

100-1000ns 

Hauptspeicher 

10 ms 

Plattenspeicher 

sec 

Archivspeicher 

Die Peripherie 

Massenspeicher 

1 – 8 Byte 

Compiler 

8 – 128 Byte 

Cache-Controller 

4 – 64 KB 

Betriebssystem 

Benutzer 

21 

22 

11

Lokalitäts-Prinzip 

Bei Programmausführung wird mit großer 

Wahrscheinlichkeit nur auf kleinen Adressbereich 

wiederholt zugegriffen. 

Räumliches Lokalitätsprinzip: 

�Mit großer Wahrscheinlichkeit wird als Nächstes auf eine Adresse 

zugegriffen, die nahe an Adresse liegt, auf die zuletzt 

zugegriffen wurde (Schleifen und Arrays). 

� In einen Cache wird nicht nur ein gerade benötigtes Datum aus 

dem Hauptspeicher kopiert sondern ganze Blöcke, 

(benachbarte Werte) 

Zeitliches Lokalitätsprinzip: 

� auf gleiches Datum wird in kurzer Zeit mehrfach 

zugegriffen � beim 2. Zugriff befindet es sich im Cache 

Ersetzung von Cache-Einträgen 

� Cache ist nicht sehr groß 

� Wenn der Cache voll besetzt ist, müssen Einträge entfernt 

werden 

� Auswahl der Einträge, die aus dem Cache entfernt werden, 

verschiedene Strategien (Verdrängungsstrategien) dazu: 

� Der Eintrag, auf den am längsten nicht zugegriffen wurde, wird 

verdrängt 

� Der am wenigsten verwendete Eintrag wird verdrängt 

� FIFO (First In First Out): Der älteste Eintrag wird verdrängt 

� Climb: eine neue Seite wird unten im Speicher eingesetzt, steigt bei 

jedem Zugriff eine Ebene nach oben, bei Verdrängungsstrategien 

wird die unterste Seite ersetzt 

� Optimal: Vorausschau, der Speicherbereich, auf den zukünftig am 

längsten nicht zugegriffen werden wird, wird verdrängt, nur 

anwendbar, wenn der Programmablauf im Voraus bekannt ist 

23 

24 

12

Verfahren: write-through 

� Cache Hit (Eintrag im Cache vorhanden) 

CPU 

Cache 

� Wert wird im Cache geändert 

Hauptspeicher 

� Aktualisierung des Wertes erfolgt gleichzeitig im 

Hauptspeicher 


� Cache Miss (Eintrag ist im Cache nicht vorhanden) 

CPU 

Cache 


Hauptspeicher 

� Aktualisierung des Wertes erfolgt gleichzeitig im 

Hauptspeicher 

25 

26 

13


� Eintrag aus dem Cache entfernen 

Cache 

Hauptspeicher 

� Cache und Hauptspeicher sind abgeglichen 

� Entfernen von Einträgen aus dem Cache jederzeit 

ohne Rückschreiben auf den Hauptspeicher möglich 

Verfahren: write-back 


CPU 

Cache 

Dirty bits 

Hauptspeicher 


� Dirty-Bit-Kennzeichung wird gesetzt 

� Aktualisierung des Wertes im Hauptspeicher erfolgt 

vorläufig nicht 

27 

28 

14



CPU 

Cache 

Dirty bits 

� Wert wird im Hauptspeicher geändert 



Cache 

Dirty bits 

Hauptspeicher 

Hauptspeicher 

Realisierung 

identisch zu 

write-through 

� Wenn der Wert im Cache aktualisiert wurde (dirty bit 

gesetzt), wird er in den Hauptspeicher 

zurückgeschrieben 

29 

30 

15

Verfahren: write-allocation 


CPU 

Cache 


Dirty bits 


� Aktualisierung des Wertes im 

Hauptspeicher erfolgt vorläufig nicht 

Hauptspeicher 


Realisierung 

identisch zu 

write-through 


CPU 

Cache 

Dirty bits 

Hauptspeicher 

� Neuer Wert wird in den Cache geschrieben 


� Aktualisierung des Wertes im Hauptspeicher erfolgt 

später 

31 

32 

16



Cache 

Dirty bits 

Hauptspeicher 

� Wenn der Wert im Cache aktualisiert wurde (dirty bit 

gesetzt), wird er in den Hauptspeicher 

zurückgeschrieben 

Vergleich der Verfahren 

� Write-allocation: 

� Schnellste Realisierung 

� Geringste Busbelastung, weil Rückschreiben der Werte nicht 

nach jeder Veränderung sondern erst nach mehreren 

Schreibvorgängen notwendig ist 

� Cache-Kohärenz (Übereinstimmung: Cache - 

Hauptspeicher) dabei aber nicht zu jedem Zeitpunkt 

gegeben: wichtig beim Zugriff durch mehrere Prozessoren 

� Write-through 

� Einfach zu realisieren 

� Cache-Kohärenz ist jederzeit garantiert 

� Langsamer als write-allocation und write-back 

33 

34 

17

Zusammenfassung 

� Vorlesung sollte Eindruck vermitteln 

� Von schaltungstechnischen Realisierung von 

Basisfunktionen bis hin zu Prozessoren und Prinzipien von 

Computern 

� Ergänzend dazu: 

� Betriebssysteme 

� Weiterführende Literatur: 

� Helmut Herold / Bruno Lurz / Jürgen Wohlrab: Grundlagen der 

Informatik, Pearson Studium, 2006 

� Andrew S. Tanenbaum: Computerarchitektur, Strukturen - Konzepte – 

Grundlagen, Pearson Studium 

� Beides in der Greifswalder Bibliothek (mit jeweils einem Exemplar) 

35 

18

Gliederung

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?