2.10 Speicherorganisation

Informatik V-Teil 2,Kap. 10, SS 99 

10. Speicher-Organisation 

10.1 Einführung 

Wir haben bereits bei der Betrachtung von Befehlssätzen beobachtet, daß dort eine 90/10-Regel gilt. 

Bei einem komplexen Befehlssatz werden 90% der Operationen auf 10% des Befehlssatzes 

ausgeführt. Diese 90/10-Regel kann man allgemeiner auch als das "Prinzip der Lokalität" angeben. 

Sie gilt in ganz ähnlicher Weise auch für Speicher und zwar in zwei Beziehungen: 

− Zeitliche Lokalität: 

Wenn ein Speichereintrag erfolgt ist oder auf einen Eintrag zugegriffen wurde, so besteht eine hohe 

Wahrscheinlichkeit, daß in einem der nächsten Befehle ein erneuter Zugriff auf diesen Speichereintrag 

erfolgt.. 

− Räumliche Lokalität: 

Wenn auf einen Eintrag zugegriffen wurde, so erfolgt mit hoher Wahrscheinlichkeit bald ein Zugriff 

auf einen benachbarten Eintrag. 

Auf der anderen Seite kann man zwar heute Speicher fast beliebig groß bauen und auch fast beliebig 

schnell, aber die Kombination beliebig groß und beliebig schnell stößt an harte wirtschaftliche 

Grenzen. Es macht deshalb Sinn, ein Konzept der Speicher-Hierarchie einzuführen nach dem Prinzip 

"je kleiner um so schneller und je größer um so langsamer". Die oberste Ebene der Hierarchie enthält 

deshalb den kleinsten und schnellsten Speicher, die niedrigste Ebene den größten und langsamsten. 

Blöcke 

Prozessor 

Abb. 10.1a: Speicher-Hierarchie 

oberste Ebene 

1 

niedrigste Ebene


Kapazität (Bytes) 

Zugriffszeit 

256 - 1024 Register 

10 ns 

16 - 23 K Primär-Cache 10 ns 

64 K - 1 M Sekundär-Cache 20 ns 

(SRAM) 

16 M - 500 M Hauptspeicher 

(DRAM) 

2 

35 - 100 ns 

100 M - 5000 M Sekundärspeicher 

(Platten) 

16 - 50 ms 

1 G - 100 G 

Archivspeicher 

(Magnetbänder, CDs) 

500 ms 

Abb. 10.1b: Ebenen der Speicherhierarchie: Speichergrößen und Zugriffszeiten 

Im Idealfall beinhalten die Ebenen der Hierarchie einander, d. h. alle Daten, die auf einer höheren 

Ebene gespeichert sind, findet man auch auf allen niedrigeren Ebenen in konsistenter Form wieder. 

Informationen zwischen den Ebenen werden nicht in beliebiger Größe ausgetauscht, sondern als 

sogenannte Blöcke. Die minimale Größe einer Informationseinheit, die auf zwei verschiedenen 

Ebenen vorhanden ist, nennt man einen Block. Blöcke können je nach Architektur des Rechners 

gleiche oder unterschiedliche Größe aufweisen. 

Die eigentliche oberste und schnellste Stufe der Speicher-Hierarchie bilden die Register im Prozessor 

selbst. Hier gilt aber das Block-Prinzip nicht und auch nicht die Konsistenz zwischen den Ebenen, so 

daß man als oberste Hierarchiestufe meistens die Ebene betrachtet, in die man einen ganzen Block 

einlagern kann. Das wird z. B. beim PC ein On-Chip-Cache-Speicher sein können. 

Wichtig für die Funktion und die Leistungsfähigkeit eines Rechners ist die Frage, ob beim Zugriff des 

Prozessors auf die oberste Hierarchiestufe ein Treffer (hit) erfolgt oder ein Fehlzugriff (miss) 

passiert. Letzteres bedeutet, daß der Block auf der höchsten Hierarchieebene nicht gefunden wurde 

und erst aus einer tieferen Ebene umgelagert werden muß. Die Treffer-Rate (hit rate) bezeichnet, 

meistens in Prozent angegeben, den Anteil der erfolgreichen Speicherzugriffe. Die Fehlzugriffsrate 

(miss rate) gibt den relativen Anteil der erfolglosen Zugriffe an. Der mehr- oder weniger erfolgreiche 

Speicherzugriff wirkt sich natürlich auf die Zeit aus, die der Rechner braucht, um ein Datum oder 

eine Adresse in ein Register der CPU zu laden oder es von dort in den Speicher zu schreiben. 

Die Trefferzeit (hit time) ist die Zeit, die für den Zugriff zur obersten Hierarchiestufe benötigt wird, 

einschließlich des Aufwandes für die Entscheidung, ob ein Hit oder ein Miss stattgefunden hat. 

Dagegen ist die Fehlzugriffszeit (miss penalty) die Zeit, die vergeht, bis ein nicht vorhandener Block 

der obersten Ebene durch eine Block der nächst niedrigeren Ebene ersetzt ist. 

32- Bit-Adresse 

01001001010011010110101 110101001 

Block-Adresse (23 Bit) Block-Offset-Adresse (9 Bit) 

Abb. 10.2: Block-Adressierung 

Die Fehlzugriffszeit hat wiederum zwei Anteile: Die Zugriffszeit (access time) auf das erste Wort des 

Block auf der niedrigeren Ebene und die Transferzeit (transfer-time), das ist die zur Übetragung der 

Worte im Block zusätzlich notwendige Zeit.


Die Speicheradresse für ein Datum wird aufgeteilt in die Block-Adresse (block frame address) und 

die Block-Offset-Adresse (block offset address). 

10.2 Leistung einer Speicher-Hierarchie 

In die benötigte Zeit zur Ausführung eines Programms geht neben der Leistung der CPU natürlich 

auch die Zugriffszeit auf Daten im Speicher direkt ein. Ein in der Praxis brauchbares Maß für die 

Zugriffszeit auf den Speicher ist die sogenannte "mittlere Speicher-Zugriffszeit". Sie errechnet sich 

als: 

Mittlere Sp.-Zugriffszeit = Trefferzeit + Fehlzugriffsrate * Fehlzugriffszeit. 

Dieser Parameter kann entweder absolut (in ns) oder in Taktzyklen der CPU gemessen werden, 

welche diese auf den Speicher wartet. 

Indirekt geht in diese Rechnung auch die Block-Größe ein. 

zeit 

Zugriffszeit 

Blockgröße 

Transferzeit 

Fehlzugriffs- 

rate 

3 

Blockgröße 

Abb. 10.3: Fehlzugriffszeit und Fehlzugriffsrate als Funktion der Block-Größe 

Mit wachsender Blockgröße steigt bei der Fehlzugriffszeit der Anteil der Transferzeit. Mit steigender 

Blockgröße in der obersten Hierarchieebene fällt zunächst die Rate der Fehlzugriffe. Wird der Block 

aber so groß, daß er vorwiegend nicht-lokale und damit wenig nützliche Information enthält und 

andererseits wegen Block-Grenzen nützliche Information blockiert, so steigt die Fehlzugriffsrate 

wieder an. 

Das Ziel der Optimierung der Speicherverwaltung ist vorrangig nicht die Verringerung der 

Fehlzugriffe, sondern der mittleren Zugriffszeit insgesamt. 

Im praktischen Entwurf wird deshalb die Blockgröße mit der geringsten mittleren Zugriffszeit 

bevorzugt, weniger die Blockgröße mit der geringsten Fehler-Zugfriffsrate. 

Es deutet sich hier schon an, daß der Aufbau einer Speicher-Hierarchie auch für den Entwurf der 

CPU zusätzlichen Aufwand erfordert. Ohne Speicherhierarchie entworfene Prozessoren sind 

natürlich wesentlich einfacher, weil im anderen Fall ein durchaus komplexes Optimierungsproblem zu 

lösen ist. Eine CPU muß nämlich durchaus sehr unterschiedliche Speicher-Zugriffszeiten verwalten 

und organisieren können. 

Dauert der Speicherzugriff einige bis einige zehn Taktzyklen, dann wird der Prozessor warten, bis 

der Zugriff erfolgt ist. 

Beim Zugriff auf Platten oder gar auf Magnetbänder kann ein Zugriff aber auch einige tausend 

Taktzyklen dauern. Zunächst muß damit die CPU bei jedem Speicherzugriff feststellen, welche 

Wartezeit absehbar ist. 

Da eine Wartezeit von tausenden von Taktzyklen nicht sinnvoll ist, wird man dann den laufenden 

Prozeß mit einem Interrupt abbrechen und der CPU einen anderen Prozeß zuteilen. Damit verbunden 

ist ein Prozeß der Interrupt-Bearbeitung und der Sicherung einer Rücksprungadresse. 

Auch die Prüfung auf die absehbare Zugriffszeit erfordert CPU-Leistung. Da sie bei jedem 

Sopeicherzugriff auftritt, wird spezielle Hardware notwendig sein, um die Leistungsverluste in 

Grenzen zu halten. Blocktransfers, die einige bis einige zehn Taktzyklen benötigen, werden mittels 

Hardware gesteuert. Bei sehr langen Zugriffszeiten setzt man spezielle I / O -Routinen in Software 

ein (z. B. Holen und Einlegen eines Magnetbandes).


10.3 Speicher-Organisation bei 80X86- PCs 

10.3.1 Ursache 

Eine ganz besondere Art von Speicherverwaltung macht die Architektur der Intel 80X86-Familie in 

Verbindung mit dem MS-DOS Betriebssystem notwendig. Die Beschränkungen kommen prinzipiell 

von der Geschichte der Intel-Prozessoren und des MS-DOS Betriebsystems her. 

Ursprünglich gab es unter DOS nur einen16-Bit-Adressraum (vom 8086 / 80186-Prozessor), der 

einer Speichergröße von 1024 KByte entspricht. Davon war aber per Definition die obere Hälfte für 

das Betriebssystem reserviert. Die ab dem 80286-Prozessor erfolgte Erweiterung des Adreßraums 

auf 20 Bit wird nicht linear für einen größeren Adreßraum genutzt, sondern der Speicher wird in 

"Segmente" gegliedert. 

Viele unter DOS und Windows 3.1 gebräuchliche Programme, zum Beispiel das Betriebssystem 

selbst und die Treiber für periphere Geräte, die im Hauptspeicher "resident" sind, nutzen als Default 

vorrangig das unterste Segment. 

Um überhaupt einen größeren Speicherumfang als 1 MByte nutzen zu können, benötigt ein PC unter 

DOS oder Windows 3.X auch Memory-Management-Programme (HIMEM, EMMS386), die als 

default selbst wieder im unteren Speicherbereich stehen. Damit ist der tatsächlich verfügbare 

Arbeitsspeicher im untersten Segment für Anwendungen schon erheblich beschränkt. 

Für viele Anwendungen (insbesondere unter Windows) wird das zunächst nicht auffallen, da die 

Speicher-Management-Programme den Mangel verwalten. 

Es gibt aber durchaus Programme, und das sind insbesondere Spiele und komplexere 

Installationsprogramme, welche nur auf das unterste Speichersegment explizit zugreifen. Dann gibt 

es die bei DOS berüchtigte Fehlermeldung von "zu wenig Arbeitsspeicher", obwohl der PC mit 8 

oder 16 MB ausgestattet sein kann. Abhilfe schaffen zum Teil intelligente Programme zur 

Verwaltung des Speicherplatzes, aber vorrangig erst mal eine Verlagerung der speicherresidenten 

Programme aus der niedrigsten Partition in einen höheren Bereich. Diese Einstellungen sind in den 

Dateien CONFIG.SYS und AUTOEXEC.BAT vorzunehmen. 

10.3.2 Expanded Memory 

Wie die Erweiterung der Speicheradressierung tatsächlich stattfindet, ist in Abb. 10.4 dargestellt. 

Physikalische 

Seiten im 

Adaptersegment 

640 kByte 

Adaptersegment 

Page 3 

Page 2 

Page 1 

Page 0 

Hauptspeicher 

Abb. 10.4: Expanded Memory-Management bei DOS 

4 

Page 2 

Page 3 

Page 0 

Page 1 

Logische Seiten 

im 

Expanded Memory


Der Trick besteht darin, daß man eine physikalische und eine logische Adresse definiert. Im Bereich 

des sogenannten Adapter-Segments (zwischen 832 und 896 kByte) wird ein zusammenhängendes 

"Durchreichefenster" eingerichtet, das eine Größe von 64 kByte hat. Dieses ist in vier sogenannte 

"page frames" von je 16 kByte aufgeteilt. Der gesamte Expansionsspeicher oberhalb von 1 Mbyte ist 

ebenfalls in Sektoren von je 16 KByte aufgeteilt. Diese Sektoren im Expansionsspeicher werden 

"logical pages" (logische Seiten) genannt. 

Wird eine Information aus dem Expanded Memory benötigt, so wird diese durch das "Fenster" 

durchgereicht, wobei aus den logischen Seiten physikalische Seiten werden. 

Der Zugriff auf den Expansionsspeicher war bei kleinen Speicherbausteinen gleich mit dem Zugriff 

auf eine zusätzliche Speicherplatine, was natürlich auch Zeitverluste mit sich brachte. Für Rechner ab 

dem 80386 kann man mit einem physikalisch einheitlichen Hauptspeicher auskommen. Eine spezielle 

Software, der sogenannte Expanded Memory Manager, bildet im erweiterten Speicher das Expanded 

Memory nach. Der gebräuchlichste Speichermanager ist das Programm EMM386.EXE. 

10.3.3 Extended Memory 

Der Bereich oberhalb von 640 kByte wird auch als "Extended Memory" bezeichnet. Dieser 

Speicherbereich ist direkt nur durch eine Erweiterung auf mehr als 16 Adressleitungen adressierbar, 

z. B. 24 Bit beim 80286 und 32 Leitungen beim 80386 und 80486. 

Hier gab es bei DOS spezielle Probleme damit, daß kein "protected mode" möglich war. DOS 

speicherte also keine Information darüber, ob ein hoher Speicherbereich belegt ist oder nicht. 

Es ergab sich also die Situation, daß ab dem 286er Prozessor Speicher oberhalb von 1 MByte 

adressierbar war, wenn auch nicht linear, sondern auf dem Umweg über Segmente, DOS war die 

Bremse. 1988 hat Microsoft zusammen mit anderen Firmen dann den XMS (Extended Memory 

Specification) Standard definiert. Ein spezieller Treiber, unter DOS "HIMEM.SYS" genannt, 

verwaltet das Extended Memory. 

Trotzdem nutzen längst nicht alle Programme die mit HIMEM verbundenen Möglichkeiten. 

Wenn z. B. ein Computer-"Experte" der größten PC-Vertriebsfirma in Deutschland seinen Kunden 

erklärt, dies oder das Spiel laufe nicht, weil der PC "falsch konfigurierte sei", meint er wahrscheinlich 

diesen Effekt. Man kann dann nur versuchen, den unteren Speicherbereich leerzuräumen. Oder ganz 

auf ein Betriebssystem jenseits von DOS umsteigen. Mittels HIMEM.SYS sind folgende 

Speicherbereiche zusätzlich nutzbar: 

− der obere Speicherbereich zwischen 640 kBytes und 1 Mbyte 

− der hohe Speicherbereich, der 64 kByte oberhalb der 1 MB-Grenze bietet 

− erweiterter Speicher oberhalb von 1 Mbyte plus 64 Kbyte (nur für Prozessoren ab 80386 aufwärts. 

Dami lassen sich dann auch Adressen oberhalb von 1 Mbyte plus 64 kByte adressieren. In diesem 

Modus findet aber keine virtuelle Speicherverwaltung statt, weshalb man ihn beim Betrieb mit 

Windows ggf. abschalten sollte. 

Zu erwähnen bleibt hier noch, daß DOS im Adaptersegment zwischen 640 kB und 1 MB 

typischerweise ungenutzte "Löcher" läßt. 

Spzielle Programme wie 386MAX oder QEMM stellen nicht nur Extented Memory bereit, sondern 

verlagern auch Speicher-residente Programme (und sich selbst) in solche Nischen. Ab MS-DOS 5.0 

kann auch das Programm EMM386.EXE solche Nischen öffnen (optional). 

Erwähnt werden sollte noch, daß man mit den Befehlen DEVICEHIGH in CONFIG.SYS bzw. 

LOADHIGH in AUTOEXEC.BAT speicherresidente Programme in den oberen Memory-Bereich 

auslagern kann und sich dadurch Raum für Anwenderprogramme im konventionellen Speicher 

schafft. 

5


Das Programm SMARTDRV.EXE legt im extended-Teil des Hauptspeichers einen Cache als 

schnellen Zwischenspeicher für den Plattenzugriff an. 

10.4 Caches 

"Cache" stammt aus der französischen Sprache und ist im Englischen eine Art sicheres Versteck für 

Gegenstände. Man bezeichnet damit heute eine (oder mehrere) Speicherebenen zwischen der CPU 

und dem Hauptspeicher oder Arbeitsspeicher. Caches kommen heute fast in jedem Rechner vor. Der 

Grund ist darin zu suchen, daß sich bei explodierender Größe der dynamischen RAM-Bausteine 

deren Zugriffszeit kaum verändert hat und heute bei 60 bis 70 ns liegt. Wer schnellere RAMs haben 

will, muß zu statischen RAMs greifen, die zwar fast um einen Faktor 10 schneller sein können, aber 

längst nicht die Komplexität dynamischer RAMs aufweisen (mindestens Faktor 4). 

Deshalb ist es üblich geworden, auch bei PCs und erst recht bei Workstations die Speicherhierarchie 

um den Cache als Puffer-Speicher zwischen Arbeitsspeicher und den Registern der CPU zu 

erweitern. Man unterscheidet auch zwischen Caches für Befehle (instruction cache) und für Daten 

(data cache). Z. B. besitzt der 80486-Prozessor nur einen kleinen on-chip Cache für Befehle. 

Block-Größe 4 - 128 Byte 

Trefferzeit 1 - 4 Taktzyklen (normal 1) 

Fehlzugriffszeit 8 - 32 Taktzyklen 

Zugriffszeit 6 - 10 Taktzyklen 

Transferzeit 2 - 22 Taktzyklen 

Fehlzugriffsrate 1% bis 20% 

Cache-Größe 1 KB - 256 kB 

Abb. 10.5: Typische Daten für Caches in Workstations und PCs 

Ein nicht triviales Problem ist die Organisation von Caches. Dazu gehört z. B. die Frage, wo ein 

Block im Cache plaziert werden kann oder soll und welche Blöcke aus dem Hauptspeicher wann und 

wie lange im Cache gehalten werden. 

Man unterscheidet drei Varianten der Cache-Organisation: 

− Hat jeder Block nur einen bestimmten Platz, an dem er im Cache abgelegt werden kann. Dann 

existierte eine direkte Abbildung des Arbeitsspeichers auf den Cache. Man spricht in diesem Fall 

von einem einfach assoziativen Cache (direct mapped cache). Die Abbildung geschieht 

gewöhnlich nach dem Rezept Blockadresse modulo Anzahl der Blöcke im Cache. 

Kann ein Block an jeder Stelle des Cache abgelegt werden, so spricht man von einem vollassoziativen 

(fully associative) Cache. 

Kann ein Block wahlweise einer eingeschränkten Menge von Plätzen zugeordnet werden, so spricht 

man von einem "set associative cache". 

Ein Set ist dann eine Gruppe von zwei oder mehr Blöcken im Cache. Ein Block wird zunächst einem 

Set zugeordnet und kann dann irgendwo innerhalb des Set plaziert werden. Ein Set wird gewöhnlich 

nach der Formel: Blockadresse modulo Zahl der Sets in Cache festgelegt. Gibt es gleichzeitig n 

Blöcke im Cache, so nennt man die Cache-Plazierung n-fach assoziativ. 

6


Block Nr. 

Block Nr. 

Voll assoziativ 

Einfach assoziativ Mehrfach assoziativ 

0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 

Blockadresse 

1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 

Abb. 10.6: Typen von Caches 

7 

Set 0 1 2 3 

Im Cache zu plazieren sei der Block Nr. 12. Im voll assoziativen Cache kann er in jedem der hier 

angenommenen Slots plaziert werden, im einfach assoziativen Cache dagegen nur im Slot Nr. 4 (12 

modulo 8) Im mehrfach assoziativen Cache ist z. B. das Set Nr. 0 zuständig (12 modulo 4), von dem 

beide Slots benutzt werden können. 

Ein bestimmter Block muß natürlich auch im Cache wiedergefunden werden können. Dazu haben 

Caches für jeden Block einen sogenannten Adreß-Tag, der die Blockadresse enthält (Abb. 10.6). 

Suche 

Tag 

Voll assoziativ 

Einfach assoziativ Mehrfach assoziativ 

0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 

1 

2 

Abb. 10.7: Cache mit Adress-Tag und Suchvorgang 

1 

2 

Set 0 1 2 3 

Das Tag jedes Cache-Blocks, der den benötigten Block enthalten könnte, wird geprüft. Da der 

Cache-Zugriff sehr schnell erfolgen soll, werden in der Regel alle Tags gleichzeitig geprüft. Beim 

voll-assoziativen Cache kann der Block an jeder Stelle der 8 "Slots" sein, beim einfach-assoziativen 

entsprechend seiner Adresse nur im Slot 6. Beim einfach assoziativen kommen die Slots 1 und 2 in 

Betracht. 

Darüber hinaus muß die CPU wissen, ob ein bestimmter Block gültige Information enthält. Deshalb 

wird zum Tag meistens noch ein "Gültigkeitsbit" (valid bit) hinzugefügt. Ist dieses Bit nicht gesetzt, 

so kann auf den entsprechenden Block nicht zugegriffen werden. 

1 

2


Tag Index 

Abb. 10.7: Cache-Adresse 

8 

Block- 

Offset 

Die Struktur der Adresse eines mehrfach assoziativen Cache ist in Abb. 10.7 dargestellt. Das Block- 

Offset.Feld dient der Auswahl der Daten aus dem Block, das Index-Feld bezeichnet das Set, und das 

Tag-Feld zeigt den Block an. 

Ein nicht triviales Problem ist das Management des Cache. Wesentliche Aufgabe ist es, möglichst 

genau die Datenblöcke im Cache verfügbar zu haben, welche den Speicherzugriff insgesamt am 

wirksamsten gestalten. 

Hat man einen Block mit ungünstigen Raten, also einer Trefferquote von 0%, so ist dieser Block 

sicher ein Kandidat, aus dem Cache ausgelagert zu werden. Schwieriger gestaltet sich das Problem, 

wenn eine Auswahl zwischen verschiedenen Blöcken stattfinden muß, die alle gültige und benötigte 

Daten beinhalten. 

Bei den einfach assoziativen Caches ist die Auswahl am einfachsten. Man wählt für den 

Speicherzugriff einen Block im Cache aus. Wenn dieser keine Trefferquote aufweist, wird er 

ausgetauscht. Bei einem voll-oder mehrfach assoziativen Cache ist die Auswahl komplizierter. 

Man unterscheidet zwei Haupt-Strategien zur Auswahl des zu ersetzenden Blocks. 

Im ersten Fall benutzt man Zufallszahlen oder Pseudo- Zufallszahlen zur Steuerung der Auswahl. 

Der andere Ansatz lagert nach dem "LRU"-Prinzip (least recently used) jeweils den Block aus, der 

am längsten ungenutzt geblieben ist. 

Dazu muß die Anzahl der Zugriffe blockweise registriert werden. Man nutzt hier Prinzipien der 

räumlichen und zeitlichen Lokalität aus. Allerdings wird bei einer hohen Zahl der zu 

berücksichtigenden Blöcke der zum "Monitoring" der Zugriffe notwendige Aufwand sehr hoch. Man 

wird deshalb dieses Prinzip oft nicht komplett implementieren. 

Blockadresse 

LRU-Blocknummer 

- vier Blöcke (Nummer 0 bis 3) 

- zu Beginn ist 0 die LRU-Blocknummer 

FIFO 

Block-Nummer 

Auslagern / ersetzen 

3 2 1 0 0 2 3 1 3 0 

0 0 0 0 3 3 3 1 0 0 2 

3 2 

Abb. 10.8: LRU- und FIFO-Prinzip 

3 

1 

2 

3 

0 

1 

2 

3 

0 

1 

2 

3 

Noch einfacher als das LRU-Prinzip ist der FIFO: Man lagert einfach den Block aus, den man die 

größte Spanne von Takten zuvor benutzt hat, ohne die Cache-Misses explizit zu registrieren. 

Der Cache wurde vorrangig eingeführt, um die benötigten Informationen (Daten und Befehle) 

möglichst schnell lesen zu können. Alle Befehle werden nur gelesen, Daten können aber auch 

geschrieben werden. 

2 

0 

1 

3 

3 

2 

0 

1 

1 

3 

2 

0 

3 

1 

2 

0 

0 

3 

1 

2


Die Rolle des Cache beim Schreiben von Daten ist also noch zu klären. Insgesamt macht das 

Schreiben im Mittel nur ca. 10% des Speicherverkehrs aus, stellt also keinen vorrangigen Engpaß 

dar. Trotzdem ist dieser Aspekt nicht zu vernachlässigen. 

Ein Block kann in derselben Zeit, in der das Tag gelesen und verglichen wird, bereits gelesen 

werden. Das Lesen eines Blocks beginnt also, sobald seine Adresse verfügbar ist. Ist das Lesen ein 

Treffer, so wird der Block gleich zur CPU übertragen, tritt ein Fehlgriff auf, so wird das Lesen 

abgebrochen. Ein Zeitverlust entsteht nicht. 

Beim Schreiben sind die Verhältnisse anders. Der Prozessor stellt zunächst die Größe des 

Schreibzugriffs fest, meistens 1 bis 8 Byte (Byte bis Langwort), und nur der entsprechende Teil eines 

Blocks kann geändert werden. 

Man kann den Vorgang auch wie folgt als mehrstufige Operation darstellen: 

1. Lesen des Originalblocks 

2. Modifizieren des Blocks bzw. eines Teils 

3. Schreiben des neuen Blocks 

Die Modifikation kann erst beginnen, nachdem mittels des Tag geprüft wurde, ob der betreffende 

Speicherzugriff ein Treffer war. Da man mit dem Schreiben, ganz im Gegensatz zum Lesen, nicht 

überlappend parallel zur Tag-Prüfung beginnen kann, dauert notwendigerweise das Schreiben länger 

als das Lesen. 

Für das Schreiben gibt es zwei unterschiedliche Strategien: 

− Write-through: Die Information wird sowohl in den Cache als auch in die nächste Ebene der 

Speicher-Hierarchie "durchgeschrieben". 

− Write-back: Die Information wird nur in den Block im Cache geschrieben. Der modifizierte 

Cache-Block wird erst dann in den Hauptspeicher zurückgeschrieben, wenn er durch einen 

anderen Block ersetzt werden muß. 

Im zweiten Fall kann es dazu kommen, daß im Cache eine andere Information steht als im 

Hauptspeicher. Man unterscheidet dann auch zwischen "clean" und "dirty" Blöcken im Cache, wobei 

die ersteren die sind, welche unmodifiziert im Hauptspeicher stehen, im zweiten Fall gibt es 

Unterschiede. 

Zur Kennzeichnung der einzelnen Blöcke wird denen oft noch ein spezielles Dirty-Bit beigegeben, 

um ein mehrfaches Rückschreiben auszuschließen. Bei nicht modifizierten Blöcken wird das 

Rückschreiben also ausgeschlossen. 

Beim Write-Back erfolgt das Rückschreiben von Daten von Registern in den Cache mit der relativ 

hohen Geschwindigkeit des Cache. Mehrfaches Schreiben innerhalb eines Blocks erfordert zur 

Wiederherstellung der Konsistenz nur einen Schreibvorgang vom Cache zum Hauptspeicher. Der 

Datenverkehr vom Cache zum Hauptspeicher wird also vergleichsweise niedriger als beim "Write 

Through" sein. 

Damit ist diese Methode speziell für Multi-Prozessor-Systeme interessant. 

Dagegen ist beim "Write Through" stets automatisch eine Konsistenz zwischen Cache und 

Hauptspeicher hergestellt, auch ist der Aufwand für die Implementierung geringer. Der 

Hauptspeicher enthält automatisch immer die aktuellste Kopie der Daten. Das ist für Multi- 

Prozessor-Systeme und für Ein- /Ausgabe-Prozeduren wichtig. 

Multiprozessoren würden also ein Write-back zur Verringerung des Speicher-Verkehrs und ein 

Write-through zur Konsistenzerhaltung benötigen. 

Beim Write-through kann durchaus der Fall auftreten, daß die CPU auf die Fertigstellung des 

Schreibens warten muß. Man spricht dann von einem Write-Stall. 

9


Dieser kann durch den Einsatz eines Schreibpuffers (write buffer) zumindest teilweise vermieden 

werden. Daten werden im write buffer gespeichert, solange das Rückschreiben nicht beendet ist, der 

Prozessor kann sich derweil anders beschäfigen. Auch dann können allerdings noch Wartezyklen 

auftreten, z. B. wenn der Block auch nicht im Hauptspeicher vorhanden ist, sondern auf die 

Festplatte zurückgeschrieben werden muß. 

Auch beim Schreiben kann es Cache-Misses geben. 

Dann kann auf zwei Arten reagiert werden: 

Write-allocate oder "fetch on write": Der entsprechende Block wird in den Cache geladen und dann 

eine normale Write-Operation durchgeführt. 

No-write-allocate oder "write around": Der Block wird gar nicht mehr im Cache behandelt, sondern 

gleich auf die nächste Ebene zurückgeschrieben. 

Beide Strategien können sowohl mit dem write-through als auch mit dem write-back verknüpft 

werden. Praktisch hat es sich aber durchgesetzt, daß die "Write-back-Caches" die "write-allocate"- 

Methode benutzen, während Write-through-Caches meistens "no-write-allocate" benutzen. 

Imm ersten Fall hofft man, daß ein späteres Schreiben in den Block vom Cache abgefanden wird, im 

zweiten Fall müßte ja späteres Schreiben in jedem Fall auch noch zum Hauptspeicher gehen. 

10.4.1 Die Cache-Leistung 

Die CPU-Zeit einer Maschine kann aufgespalten werden in einen Anteil, in dem das Programm 

ausgeführt wird, und einen anderen Teil, in dem die CPU auf das Speichersystem wartet. 

Damit kann man für die CPU-Zeit eines Programms schreiben: 

CPU-Zeit = (CPU-Taktzyklen zur Ausführung + Speicher-Wartezyklen) * Taktzyklus-Zeit 

Für die relative Bewertung verschiedener Cache-Implementierungen zueinander kann man in erster 

Näherung den Einfluß von Wartezyklen anderer Art (z. B. durch den Zugriff vom Hauptspeicher zur 

Platte) vernachlässigen. 

Die Speicher-Wartezyklen sind außerdem beschreibbar durch: 

Speicher-Wartezyklen = Speicherzugriffe / Programm * Fehlzugriffsrate * Fehlzugriffstakte. 

Die Befehlszahl (IC) kann man noch aus Ausführungszeit und Speicher-Wartezyklen ausklammern 

und erhält: 

CPU-Zeit = IC * (CPIAusführung + Speicherzugriffe / Befehl * Fehlzugriffsrate * Fehlzugriffs-takte) 

* Taktzykluszeit 

Den Einfluß der Cache-Organisation soll ein Beispiel zeigen: 

Bei der VAX 11/ 780 verursacht ein Cache-Fehlzugriff 6 zusätzliche Taktzyklen. Die "normalen" 

Befehle benötigen zur Ausführung etwa 8,5 Taktzyklen. 

Bei einer Fehlzugriffsrate von 11% und einer mittleren Anzahl von 3 Speicherzugriffen pro Befehl 

erhöht sich die CPU-Zeit von 8,5 auf 10,5. 

Der Einfluß der Speicherhierarchie dehnt die CPU-Zeit im 24 % aus. 

Nehmen wir nun für eine modernere Maschine an, daß pro Befehl im Mittel nur noch 1,5 Taktzyklen 

notwendig sind, aber ein Cache-Fehler im Mittel 11 Taktzyklen erfordert. Die Fehlzugriffsrate 

betrage wieder 11%, nun aber bei nur noch 1,4 Speicherzugriffen pro Befehl. 

10


Jetzt erhöht sich unter Einschluß der Cache-Fehler die mitteler CPU-Zeit von 1,5 auf 3, wird also nur 

durch Cache-Misses verdoppelt. 

Man kann deshalb feststellen: 

− Je geringer der CPI-Wert ist, umso größer sind die Cache-Misses für die Leistung des 

Gesamtsystems. 

− Hauptspeicher haben, unabhängig von der Leistung der CPU, im Mittel dieselbe Zugriffszeit, da 

die DRAMs weitgehend statndardisiert sind. 

Deshalb wirken sich Cache-Misses umso mehr aus, je höher die Taktrate der CPU relativ zur 

maximalen Frequenz der Speicherzugriffe ist. 

Jetzt können wir auch verstehen, weshalb leistungsfähigere Prozessoren sowohl größere Caches als 

auch unter Umständen die Einführung mehrerer Cache-Stufen notwendig machen. Die Auswirkungen 

erstrecken sich darüber hinaus auch auf die mehr oder weniger gut funktionierende 

Füllung von Pipelines. 

10.4.2 Quellen von Cache-Fehlzugriffen 

Als Quellen von Cache-Misses kann man mehrere Effekte unterscheiden: 

1. Erstbelegung (compulsory) 

Beim ersten Zugriff auf einen Speicher-Block ist dieser nicht im Cache, sondern muß erst aus dem 

Hauptspeicher geholt werden. 

2. Kapazität (capacity) 

Wenn ein Cache nicht alle während der Ausführung eines Programms benötigten Blöcke beinhalten 

kann, dann ergeben sich Fehlzugriffe durch zwischenzeitlich notwendigerweise ausgelagerte 

(verworfene) und ein- oder mehrfach wiederhergestellte Blöcke. 

3. Konflikt (conflict) 

Ist die Block-Plazierung ein- oder mehrfach assoziativ, so können sich zusätzliche Zugriffskonflikte 

ergeben, weil ein Block verworfen und später wiederhergestellt wird. Dies ist dann aber nicht auf 

einen absoluten Kapazitätsengpaß zurückzuführen, sondern weil zu viele Blöcke einem ausgelagerten 

Set zugeordnet sind. Nur bei voll assoziativen Caches würde man solche Probleme vermeiden. 

Die Modellierung des Verhaltens eines Caches mit den oben dargestellten Konflikt-Typen wird auch 

als "3 C-Modell" bezeichnet. 

Die Auswertung experimenteller Ergebnisse zeigt, daß zunächst die Zugriffe durch 

Kapazitätsengpässe bei kleinen Caches überwiegen (bis ca. 32 kB). Dagegen steigen die Konflikte 

durch ungünstige Erstbelegung anteilsmäßig sowohl mit der Größe des Caches als auch mit dem 

Grad der Assoziativität an. Dagegen gewinnen Misses des "conflict" - Typs eher bei niedrigen 

Graden der Assoziativität und größeren Speichern Bedeutung. 

Eine resultierende Faustregel besagt, daß ein einfach assoziativer Cache der Größe N ungefähr die 

gleiche Fehl-Zugriffsrate hat wie ein 2-fach assoziativer Cache der Größe N / 2. 

Natürlich hat auch die Auswahl der Block-Größen absolut und im Verhältnis zur Cache.Größe 

Bedeutung. Größere Blöcke reduzieren die Zahl der Misses bei Erstzugriffen, sie bewirken aber auch 

eine Verringerung der Zahl der Blöcke im Cache und erzeugen damit mehr Konflikte. Üblich sind 

Block-Größen zwischen 1 KByte und etwa 256 KB. 

11


In modernen Prozessoren werden oft Daten- und Befehlscaches getrennt. Man kann diese dann 

separat bezüglich der Block-Größen und der Assoziativität optimieren. Beispielsweise haben 

Befehls-Caches typischerweise geringere Miss-Raten als Daten-Caches. Die Prozessoren der Intel 

80X86-Familie sind ab dem 80486 (on-chip-Befehlcache) mit Caches versehen, und zwar getrennt 

nach Daten und Befehlen (nicht mehr im Second-Level-Cache auf dem Mutterbrettern). 

10.5 Hauptspeicher 

10.5.1 Einführung 

Im einfachsten Fall, das heißt ohne einen "second level cache", ist der Hauptspeicher die nächste 

Hierarchie-Ebene unter dem Cache. Der Hauptspeicher hat Kommunikation sowohl mit dem Cache 

als auch mit Eingabe- und Ausgabe-Einheiten, denen er als Ziel bzw. als Quelle dient. 

Von Bedeutung für andere Funktionseinheiten sind sowohl die Latenzzeit des Hauptspeichers, d. h. 

die Zeit, die ein Speicherzugriff durch den Prozessor benötigt, als auch die Speicher-Bandbreite, das 

ist die Anzahl der pro Zeiteinheit maximal möglichen Speicherzugriffe. 

Für die Speicher-Latenzzeit werden oft zwei Maße angegeben, Zugriffszeit und Zykluszeit. Die 

Zugriffszeit ist die Zeit zwischen der Anforderung eines Speicherzugriffs (Lesezugriff) und dem 

Eintreffen des entsprechenden Wortes. Die Zykluszeit (cycle time) ist der minimale Zeitabstand 

zwischen zwei Speicheranforderungen. 

Zeilenadressierung 

Abb. 10.9: Speichermatrix 

Spalten-Adressierung 

In den 70er Jahren hat es sich eingebürgert, daß Halbleiter-Speicher zur Reduzierung der Anzahl der 

Anschlußpins die Adresse multiplexend in zwei Schritten übertragen, und zwar zunächst die Zeilen- 

Adresse (Row Access-Strobe, RAS), danach die Spaltenadresse (Column-Address-Strobe, CAS). 

Dies kostet natürlich Zugriffszeit. Zusätzlich müssen dynamische RAMs (DRAMs) regelmäßig einen 

Refresh erhalten, ca. alle 2 ms. Deshalb ist das Speichersystem gelegentlich nicht verfügbar. Ein 

Refresh-Zyklus benötigt einen vollen Speicherzugriffs-Zyklus (RAS und CAS) für jede Zeile des 

DRAMs. Damit ist die Zahl der Refresh-Schritte meistens gegeben (bei quadratischer 

Speichermatrix) durch die Quadratwurzel aus der DRAM-Kapazität. 

Bei statischen Speicher-Bausteinen (SRAMs) ist die Speicherzelle nicht, wie bei den DRAMs, nur 

aus jeweils einem Transistor (plus Speicher-Kondensator als Kapazität) aufgebaut, sondern ist aus 

vier Transistoren aufgebaut. Damit spart man auf Kosten der Speichergröße bzw. der Speicherdichte 

(etwa Faktor 4) das bei dynamischen RAMs nötige Rückschreiben einer gelesenen Information. 

Entsprechend verkürzen sich Zugriffs- und die Zykluszeit etwa um den Faktor 16. Da man bei 

SRAMs auf Geschwindigkeit optimiert, werden generell die Adressleitungen auch nicht im 

Multiplex-Betrieb genutzt. 

12


Zeilenzugriff Spaltenzugriff Zykluszeit 

(RAS) 

langs. schnell 

Einführung Chip-Grösse DRAM DRAM (CAS) 

1980 64 kBit 180 ns 150 ns 75 ns 250 ns 

1983 256 KBit 150 ns 120 ns 50 ns 220 ns 

1986 1 MBit 120 ns 100 ns 25 ns 190 ns 

1989 4 MBit 100 ns 80 ns 20 ns 165 ns 

1992 16 MBit 85 ns 60 ns 15 ns 140 ns 

1996 64 MBit 70 ns 50 ns 12ns 120 ns 

Abb. 10.10: Größen und Zugriffszeiten bei dynamischen RAM-Bausteinen 

Wen man sich vergleichsweise die Entwicklung bei schnellen CPUs ansieht, so ist seit 1980 bis 1992 

deren Leistung um den Faktor 1000 gewachsen. Während also die Entwicklung der Speichergrößen 

mit der Entwicklung der CPU-Leistung noch in etwa schrittgehalten hat, ist das nur unwesentlich 

verbesserte Zeitverhalten dynamischer RAMs ein besonderer Bremsklotz bei der Systementwicklung 

geworden und muß durch vielfältige Tricks, von denen der Cache nur einer ist, überwunden werden. 

10.5.2 Organisationsformen zur Steigerung der Hauptspeicher-Leistung 

Allgemein ist es technologisch leichter, durch neue Organisationsformen die Speicher-Bandbreite zu 

erhöhen, als die Latenzzeit des Speichers zu reduzieren. Man wird z. B. die Cache-Blockgröße 

erhöhen können, ohne einen Anstieg der Fehlzugriffsraten befürchten zu müssen. 

Für ein Beispiel sei angenommen, daß der Speicherzugriff wie folgt organisiert ist: 

− 1 Taktzyklus zum Senden der Adresse 

− 6 Taktzyklen als Zugriffszeit zum Wort 

− 1 Taktzyklus zum Senden des Datenwortes 

Gegeben sei außerdem ein Cache-Block mit vier Worten, eine Fehlzugriffszeit von 32 Taktzyklen 

und eine Speicher-Bandbreite von 0,5 Byte pro Taktzyklus. 

Wesentliche Möglichkeiten zur Leistungssteigerung sind eine breite Speicherorganisation oder eine 

verschränkte Speicherorganisation. 

1-Wort-breite 

Speicherorganisation 

CPU CPU CPU 

Cache 

Speicher 

Bus 

breite 


Multiplexer 

Cache 

Bus 

Speicher 

Abb. 10.11: Arten der Speicherorganisation 

13 

verschränkte 


Bus 

Cache 

Speicher Speicher Speicher Speicher 

Bank 0 Bank 1 Bank 2 Bank 3


Caches sind fast immer für eine Bit-Breite von einem Datenwort (also meistens 32 Bit) organisiert, 

weil auch die meisten CPU-Zugriffe diese Breite haben. Entsprechend ist auch der Hauptspeicher 

generell für eine Breite von einem Wort organisiert, um wiederum mit Cache und CPU 

zusammenzupassen. Es ist nun aber auch möglich, den Speicher so zu organisieren, daß nicht nur ein 

Wort, sondern mit größerer Breite parallel zugegriffen werden kann. Damit erhöht sich auch die 

Speicher-Bandbreite. 

Bei einer Hauptspeicherbreite von 2 Worten würde in unserem Beispiel die Fehlzugriffszeit von 4 

mal 8 oder 32 Taktzyklen auf 2 mal 8 oder 16 Taktzyklen sinken. Bei vier Worten Breite beträgt die 

Fehlzugriffszeit nur noch 1 mal 8 Taktzyklen. 

Leider verursacht der dann notwendige breitere Bus zwischen Speicher und Cache erhebliche 

Zusatzkosten. Die CPU greift auf den Cache immer noch wortweise zu. Deshalb werden Multiplexer 

zwischen Cache und CPU benötigt. Diese Multiplexer befinden sich dann gerade im zeitkritischen 

Pfad. Ist der Cache schneller als der Bus, so kann man die Multiplexer auch zwischen Cache und Bus 

anordnen. 

In einer solchen Konfiguration kann man auch den Hauptspeicher nicht mehr beliebig erweitern. 

Erweiterung bedeutet dann Verdopplung, Vervielfachung etc. 

Speicher sind auch in der Regel fehlerkorrigierend, und zwar ist diese Korrektur Byte-weise 

organisiert. Bei den Lese- und Schreibverfahren muß man also die modifizierte Speicher-organisation 

berücksichtigen. Viele Entwürfe breiterer Speicher haben eine spezielle Fehler-erkennung und - 

Korrektur für 32 Bit-Worte. 

Die andere Möglichkeit zur Verbesserung der Speicherorganisation ist der verschränkte Speicher. 

Speicherchips können in sogenannten "Bänken" organisiert sein, um damit mehrere Worte 

gleichzeitig zu lesen oder zu schreiben. Die einzelnen Bänke sind jeweils 1 Wort breit, womit die 

Organisation von Bus und Cache nicht geändert werden muß. Adressen können nun zu 

verschiedenen Bänken gesendet werden. 

Sendet man beispielsweise eine Adresse an vier Bänke, so gibt das eine Zugriffszeit (siehe Beispiel) 

von 1+6+4*1 oder 11 Taktzyklen, was wiederum einer Bandbreite von 1,5 Byte pro Taktzyklus 

entspricht. 

Bänke sind auch für Schreiboperationen nützlich. Während normalerweise bei jedem Schreibzugriff 

gewartet werden muß, bis ein vorhergehender Schreibvorgang beendet ist, benötigt man jetzt nur 

noch einen Taktzyklus für den Schreibvorgang, vorausgesetzt daß der vorhergehende 

Schreibvorgang nicht auf dieselbe Bank erfolgte. 

Natürlich ist es notwendig, die Adressierung der Speicherbänke speziell zu organisieren. Die 

Adressen sind auf der Wortebene miteinander verschränkt. Als Beispiel wird ein Speicher mit vier 

Bänken betrachtet. Bank 0 beinhaltet dann alle Worte, deren Adresse modulo vier gleich 0 ist (also 

0, 4 , 8 usw), Bank 1 alle Adressen, die modulo 4 gleich 1 sind (1, 5, usw.) Man bezeichet dies als 

Verschränkungsfaktor mit verschränktem Speicher. 

Bei der generellen Speicher-Organisation spielt natürlich auch die Wechselwirkung mit dem Cache 

und dabei das Verhalten bei Cache-Fehlzugriffen eine Rolle. 

Ein Write-Back-Cache führt Lese- und Schreiboperationen sequentiell aus, was recht gut zur 

verschränkten Organisation des in Bänke organisierten Speichers paßt, da dort ebenfalls ein 

sequentieller Zugriff erfolgt. 

Der Speicher kann nun auch so organisiert sein, daß mehrere Controller vorhanden sind und auch 

eine unabhängige Funktion der einzelnen Speicherbänke ermöglichen. Damit können z. B. mehrere 

periphere Baugruppen über einen jeweils eigenen Controller parallel und unabhängig auf 

verschiedene Speicherbänke zugreifen. Eine solche Möglichkeit erhöht die Gesamtleistung eines 

Rechners unter Umständen beträchtlich. 

Die Aufteilung eines Speichers auf mehrere Bänke funktioniert so lange recht gut, wie man eine 

größere Anzahl wahlweise zuordbarer RAM-Chips hat. Bei Verwendung nur weniger Speicher-ICs 

mit hoher Kapazität laßt sich diese Verschränkung nicht mehr organisieren. 

14


Deshalb spielt die verschränkte Organisation mit mehreren Bänken heute bei PCs keine wesentliche 

Rolle mehr. 

Speziell für DRAMs gibt es angepaßte Verschränkungsmethoden zur Verbesserung der 

Hauptspeicherleistung. Die Zugriffszeit bei DRAMs wird in Zeilenzugriff und Spaltenzugriff 

unterteilt. Dabei puffern die DRAMs intern eine Bit-Zeile für den Spaltenzugriff. Diese Spalte hat 

eine Größe, welche durch die Quadratwurzel aus der Speichergröße bestimmt ist, also z. B. 1024 Bit 

für 1 MBit-Speicher und 2048 Bit für 4 MBit-Bausteine beträgt. 

Die üblichen DRAMs sind nun so aufgebaut, daß sie einen wiederholten Zugriff zu diesem 

Zwischenpuffer ohne die jeweilige zusätzliche Zeilen-Zugriffszeit ermöglichen. Dazu gibt es 

verschiedene "Modi". 

− Nibble-Modus: Für jeden Zeilenzugriff können bis zu 3 Bits auf nacheinander folgenden 

Speicherplätzen mit einer Zeilen-Adressierung gelesen und transferiert werden. 

− Seiten-Modus: Der Puffer bewirkt, daß sich der DRAM-Baustein nach außen wie ein SRAM 

verhält. Nur durch Änderung der Spaltenadresse kann auf den Puffer bis zum nächsten 

Zeilenzugriff oder Refresh zugegriffen werden. 

− Statische Spalte (static column): Entspricht dem Seiten-Modus bis auf den Unterschied, daß nicht 

jeweils die CAS-Leitung des DRAMs bei einer Änderung der Spaltenadresse angeprochen werden 

muß. 

Weiterhin können DRAMs heute teilweise im BURST-Modus betrieben werden. Ein in 1-Bit-Breite 

organisiertes DRAM liest dabei nacheinander die Inhalte mehrerer (z. B. 4) aufeinanderfolgender 

Speicheradressen in vier optimierten Zyklen ein oder aus, ohne jeweils eine explizite Speicher- 

Adressierung durchzuführen. Damit ist die Zugriffszeit wesentlich verringerbar. EDO-RAMs 

erlauben durch Zwischenspeicherung teilweise überlappende Lese- und Schreibphasen. Natürlich 

erfordern solche Methoden eine optimierte Zeitsteuerung 

Meistens sind die reinen Speicherchips so gefertigt, daß sie je nach Anschluß der vorhandenen Pads 

an die Außenwelt (über das Gehäuse) die eine oder andere Option unterstützen. 

10.6 Virtueller Speicher 

10.6.1 Einführung 

In der Steinzeit der Rechner-Technologie war es eine wesentliche Aufgabe des Programmierers, 

dafür zu sorgen, daß sein Programm nie mehr als den physikalisch vorhandenen Speicher eines 

Rechners benutzte. Dies ging soweit, daß vom Nutzerprogramm aus das Laden von Programmteilen 

in den Hauptspeicher und Ersetzen gegen andere Programmteile zu organisieren war. Damit war ein 

Programmierer schon fast damit ausgelastet, an den Grenzen der jeweiligen Maschine entlang zu 

programmieren, entsprechend war die Produktivität niedrig. 

Erst die Einführung des virtuellen Speichers änderte diesen Zustand: 

Mit der Einführung virtuellen Speichers ist diese Begrenzung aufgelöst. 

Der verfügbare Adreßraum ist von physischen Speicherausbau entkoppelt. 

Dazu wird die nächste Ebene der Speicherhierarchie, der sekundäre Speicher, in die Speicherverwaltung 

insgesamt einbezogen. Ein im Hauptspeicher ablaufendes Programm kann also auch 

Daten adressieren, die auf dem Plattenspeicher eines Rechners vorhanden sind und zur Bearbeitung 

in den Hauptspeicher geladen werden müssen. 

15


Ganz im Unterschied zum Programmablauf in Maschinen ohne virtuelle Speicherverwaltung kann auf 

der virtuellen Maschine auch ein Programm an beliebiger Stelle im Arbeitsspeicher stehen, es ist nicht 

mehr festen Speicheradressen zugewiesen. 

Eine weitere wichtige Aufgabe der virtuellen Speicherverwaltung ist die Organisation des Ablaufs 

mehrere Prozesse (also z. B. mehrerer Programme) nebenläufig auf demselben Rechner. Dazu wird 

der Speicher in Blöcke aufgeteilt, die jeweils verschiedenen Prozessen zugeordnet sind. Dazu muß es 

einen Schutzmechanismus geben, der dafür sorgt, daß ein Prozeß nur auf die ihm zugeordneten 

Blöcke zugreift. 

(Ein Problem von DOS-Rechnern war lange Zeit, daß sie nur den Adreßraum des physischen 

Speichers kannten, bis zu 2**16 Adressen, und keine Schutzmechanismen implementiert hatten). 

Verschiedene Begriffe aus der Speichertechnik, die wir vorstehend schon verwendet haben, tauchen 

bei den virtuellen Speichern in ähnlicher Form wieder auf: 

Man benutzt Seite (page) oder Segment anstelle von Block, 

Seitenfehler (page faults) und Adreßfehler (address faults) spielen bei Fehlzugriffen (misses) eine 

Rolle. 

Bei einem virtuellen Speicher erzeugt die CPU entsprechend virtuelle Adressen, die durch Hardware 

und Software in physische Adressen übersetzt werden müssen und die dem Zugriff auf den 

Hauptspeicher dienen. Dieser Vorgang wird als Speicherzuordnung (memory mapping) oder 

Adressumsetzung (address translation) bezeichnet. Heute sind die beiden Ebenen der 

Speicherhierarchie, die durch den virtuellen Speicher gesteuert werden, DRAMs und Magnetplatten. 

Block (Seiten-) Größe 512 - 8192 Byte 

Trefferzeit 110 Taktzyklen 

Fehlzugriffszeit 100.000 - 600.000 Taktzyklen 

(Zugriffszeit) 100.000 - 500.000 Taktzyklen 

(Transferzeit) 10.000 - 100.000 Taktzyklen 

Fehlzugriffsrate 0,00001% - 0,001% 

Hauptspeichergröße 4 MB - 2048 MB 

Abb. 10.12: Typische Dimensionen bei virtuellen Speichern 

Die typischen Dimensionen des virtuellen Speichers liegen also, im Vergleich zum Cache, ca. 

10 000 bis 100 000 mal darüber. 

Es gibt aber noch einige weitere signifikante Unterschiede zwischen dieser und der höheren Ebene 

der Speicher-Hierarchie: 

− Die Ersetzung von Blöcken im Cache nach einem Fehlzugriff wird vorrangig durch Hardware 

gesteuert. Dagegen erfolgt die Verwaltung des virtuellen Speichers durch das Betriebssystem. Die 

wesentlich längere Fehlzugriffszeit bedeutet auch, daß das Betriebssystem einen relativ hohen 

Aufwand treibt um zu entscheiden, welche Blöcke zu ersetzen sind. 

− Die Größe des Adreßraums des Prozessors bestimmt die maximale Größe des virtuellen 

Speichers. Dagegen ist die Cache-Größe davon weitgehend unabhängig (so große Caches gibts 

nicht). 

− Zusätzlich zur Funktion als "virtueller Hauptspeicher" wird die Platte auch für das File-System 

genutzt (und zwar vor allem). Dieses File-System ist natürlich nicht auf den Adreßraum 

abgebildet, sondern ist davon völlig unabhängig. 

16


Die Organisation des virtuellen Speichers kann mittels Blöcken fester Größe, die auch als Seiten 

(pages) bezeichnet werden, oder mit Blöcken variabler Größe, die als Segmente bezeichnet werden, 

organisiert. 

Seiten-Größen liegen typisch zwischen 512 und 8192 Bytes. Das kleinste Segment ist 1 Byte, die 

größten unterstützten Segmente liegen zwischen 2**16 und 2 ** 32 Byte. 

Ob in Seiten aufgeteilter oder ein segmentierter Hauptspeicher benutzt wird, hängt vom Typ der 

verwendeten Rechner-CPU ab. 

Die Seiten-Adressierung kommt mit einfachen Adressen fester Größe aus, die wie beim Cache in 

Seitennummer und Offset aufgeteilt ist. 

Bei der Verwendung variabler Segmente ist ein Wort Adreßbreite für die Segmentnummer und ein 

zweites Wort für den Offset innerhalb des Segmentes notwendig. 

Worte pro Adresse 

sichtbar für 

Programmierer ? 

Blockersetzung 

Ineffizienz der 

Speichernutzung 

Effizienter 

Plattenverkehr 

unsichtbar für 

Seite Segment 

eins zwei (Segment u. Offset) 

Anwendungsprogramm. 

einfach (gleiche Blockgröße) 

interne Fragmentierung: 

(ungenutzte Teile der Seite) 

ja: Seitengröße wird ausgewogenem 

Verhälnis von Zugriffs- und Transferzeit 

angepaßt 

17 

kann für Anwender 

sichtbar sein 

schwierig: benötigt werden freie 

zusammanhängnde Hauptspeichersegmente 

variabler Größe 

externe Fragmentierung: 

ungenutzte Teile desHauptspeichers 

nicht immer: kleine Segmente 

übertragen nur einige Byte 

Abb. 10.13: Seiten-orientierte und Segment-orientierte Speicherorganisation im Vergleich 

Nach einer längeren Nutzungsdauer eines Rechners stellt sich automatisch eine gewisse Speicher- 

Fragmentierung ein. Es ergeben sich immer weniger größere zusammenhängende Speicherbereiche 

auf einer Platte. Damit wird es für einen nach dem Prinzip der Segementierung arbeitenden Rechner 

immer schwieriger, größere zusammenhängende Speicherbereiche zu finden. Die wenigsten 

Maschinen nutzen heute einen reinen Segmentierungs-Ansatz. Einige Maschinen verwenden eine 

Mischung aus beiden Ansätzen, sogenannte seiteneingeteilte Segmente (paged segnments). Dabei 

enthält ein Segment stets eine ganzzahlige Anzahl von Seiten. 

Dann muß der benötigte Speicherbereich nicht mehr unbedingt zusammenhängend sein, man muß 

auch nicht ein ganzes Segment im Hauptspeicher ablegen, sondern kann auch nur einen Teil der darin 

enthaltenen Seiten abspeichern. 

10.6.2 Organisation des virtuellen Speichers 

Wo ein Block im Hauptspeicher plaziert werden kann, ist eine Aufgabe, die das Betriebssystems zu 

organisieren hat. Ein Fehlzugriff auf den Hauptspeicher bewirkt die Notwendigkeit, auf die Platte 

zuzugreifen und dort die Bewegung der Lese- / Schreibköpfe zu organisieren. Damit ist ein 

Fehlzugriff von der benötigten Zeit her extrem teuer. Der Entwerfer des Betriebssystems hat einen 

Trade-off zwischen geringeren Fehlzugriffsraten und einfacheren Plazierungsalgorithmen. 

Praktischerweise wird man sich für die geringste zu erwartende Zahl der Fehlzugriffe entscheiden. 

Das Betriebssystem wird es also erlauben, Blöcke fast beliebig irgendwo im Hauptspeicher zu 

plazieren. Man könnte das, in Anlehnung an die Cache-Organisation, als eine voll assoziative 

Methode kennzeichnen.


Ein weiteres Problem ist das effiziente Auffinden eines Datenblocks im Hauptspeicher. Einem 

Segment oder Block ist zunächst eine virtuelle Adresse zugeordnet, welche eine Block-oder 

Seitennummer plus einen Offset enthält. 

Zum Auffinden der physischen Adresse eines Blocks oder Segments im Hauptspeicher muß die 

physische Adresse erst gebildet werden. 

Beim Paging wird der Offset an die physische Adresse angehängt, bei der Segmentierung wird der 

Offset zur physischen Segmentadresse addiert, und man erhält so die virtuelle Adresse. 

virtuelle Adresse 

virtuelle 

Seitennummer 

Seitentabelle 

Seiten- 

Offset 

physische 

Adresse 

18 

Haupt- 

speicher 

Abb. 10.14: Zuordnung zwischen virtueller und physischer Adresse über eine Seitentabelle 

Die Datenstruktur, welche die physische Adresse enthält, ist oft eine sogenannte "Seitentabelle" 

(page table). Sie ordnet also einer virtuellen Seitennummer eine physische Adresse zu. Diese 

Seitentabelle kann eine erhebliche Größe annehmen. Hat man zum Beispiel eine virtuelle Adresse mit 

28 Bit Länge, eine Anzahl von 4 KB Seiten und vier Byte pro Eintrag in die Seitentabelle, so erhält 

die Seitentabelle eine Größe von 256 KB. Das Durchsuchen einer solchen Tabelle zur Adressbildung 

ist natürlich aufwendig. Da in der Regel die Anzahl der physischen Seiten im Hauptspeicher 

wesentlich kleiner ist als die im Adreßraum mögliche, wird man versuchen, mit einer solchen 

verkleinerten Tabelle auszukommen. Eine solche Struktur heißt invertierte Seitentabelle (inverted 

page table). Bei einem physischen Speicher von 64 MB würde man nur 64 KB für die Tabelle 

benötigen. 

In vielen Rechnern, die sowohl eine Segmentierung als auch eine Seiten-Organisation des Speichers 

verwenden, ist eine zweistufige Übersetzung einer logischen in eine physikalische Adresse mittels 

einer Segment-Tabelle (oder eines Segment-Registers) und einer Seitentabelle (page table) 

notwendig. 

32 Bit logische Adresse 

Hash-Fakt. 

4 28 

16 Segmentregister 

52 Bit virtuelle Adresse 

VSID 24 VPN 16 12 

Seitentabelle 

19 16 

32 Bitn physikalische Adresse 

RPN 20 12 

Abb. 10. 15: Adressbildung über Segmentregister und Seitentabellen


In Abb. 10.15 ist dieser Prozeß für den IBM Power Prozessor dargestellt Typ 601, 603, 604). Hier 

werden zunächst vier Bit der logischen Tabelle zur Auswahl eines von 16 Segment-Registern 

verwendet. Hier überwachen Steuerbits in den Registern den Zugriffsschutz, die Auswahl des 

Adressraumes, der physikalischen Adressen, der virtuellen Adressen oder der Ein-/Ausgabeadressen. 

Ein 24 Bit großer Teil der Inhalte der Segmentregister, gewöhnlich als VSID (virtual 

segment identifier) bezeichnet, wird zur Bildung der physikalischen Adresse verwendet. 

Das Resultat ist eine 52 Bit breite virtuelle Adresse, die sich aus dem VSID und den niederwertigen 

28 Bit der logischen Adresse zusammensetzen. 

Diese wird dann der Seiten- oder Blockübersetzung unterworfen. Beim Power PC hat eine Seite eine 

feste Größe von 4 kByte. Ein Teil der virtuellen 52 Bit-Adresse, der aus 19 Bits der VSID und 16 

Bits der logischen Adresse, welche virtual page number (VPN) genannt werden, besteht, adressiert 

über eine Hash-Funktion einen Eintrag in der Seitentabelle. Dieser Eintrag wird daraufhin überprüft, 

ob die virtuelle Seitennummer des Eintrages mit der angelegten virtuellen Adresse übereinstimmt. Ist 

dies erfüllt, so wird eine physikalische Seitennummer erzeugt (real page number, PRN), die 

tatsächlich für den Speicherzugriff verwendet wird. 

Das Durchsuchen einer solchen Tabelle zur Adressbildung ist natürlich aufwendig. Da in der Regel 

die Anzahl der physischen Seiten im Hauptspeicher wesentlich kleiner ist als die im Adreßraum 

mögliche, wird man versuchen, mit einer solchen verkleinerten Tabelle auszukommen. Eine solche 

Struktur heißt invertierte Seitentabelle (inverted page table). Bei einem physischen Speicher von 64 

MB würde man nur 64 KB für die Tabelle benötigen. 

Die Leistung des Speichersystems ist natürlich stark vom Zeitaufwand für die Adreßbildung 

abhängig. Um die Zeit für die Adreßumsetzung zu minimieren, verwenden manche Rechner einen 

speziellen Cache, den Adreß-Umsetzungspuffer (translation lookaside-buffer, TLB). 

Im TLB werden die aktuellen Übersetzungen von logischen oder virtuellen Adressen auf 

physikalische Seitenadressen gehalten. Der TLB wird oft als Assoziativspeicher realisiert, der die 

angeforderten mit den gespeicherten Adressen assoziativ vergleicht. Er enthält meistens nur 32, 64 

oder 128 Abbildungspaare und ist bei High-End-Prozesoren auf dem Prozessorchip integriert. 

Der TLB ist, mit zusätzlicher Logik, Teil der Memory Management Unit (MMU). In Prozessoren, 

die getrennte Caches für Befehle und Daten verwenden, werden gleich 2 getrennte MMUs benötigt. 

Wie beim Cache stellt sich auch beim Hauptspeicher das Problem der Ersetzung des richtigen Blocks 

im Fall eines Fehlzugriffs auf den Hauptspeicher. Es ist vor allem notwendig, geschickt zu 

entscheiden, welche Blöcke ausgelagert werden können. 

Das Betriebssystem des Rechners hat die vorrangige Aufgabe, durch richtige Entscheidungen die 

Anzahl der Seitenfehler zu minimieren. Fast alle Betriebssysteme stellen fest, welcher Block am 

längsten nicht genutzt wurde und lagern diesen Block aus (least recently used - LRU - Methode). 

Dazu muß das Betriebssystem eine Statistik über die Zugriffsgeschichte der im Hauptspeicher 

vorhandenen Blöcke führen. Viele Maschinen setzen deshalb ein Use- oder Referenz-Bit für eine 

bestimmte Seite, wenn auf diese zugegriffen wurde. Das Betriebssystem liest diese Use-Bits 

periodisch, speichert sie und setzt sie für den Block zurück. Mittels der permanent geführten Statistik 

ist es dann möglich, den LRU-Block zu identifizieren. 

Wenn Blöcke oder Seiten nicht nur gelesen, sondern auch durch Schreiben verändert werden, so 

ergibt sich ein Konsistenzproblem. Eine Seite, die im Hauptspeicher geändert wurde, ist nicht mehr 

mit ihrer Kopie auf der Platte identisch. 

Die einfachste Strategie wäre ein direktes Zurückschreiben der jeweiligen Seite auf die Platte nach 

jeder Änderung, aber die Zugriffszeiten von hunderttausenden von Taktzyklen der CPU für einen 

Plattenzugriff lassen diese Strategie nicht zu. 

Die Zugriffsstrategie kann also nur ein "write-back" in größeren Zeitabständen beinhalten. Dazu muß 

jede modifizierte Seite ein "dirty"-Bit enthalten, das erst nach dem write-back gelöscht wird. Es 

werden dann beim write-back nur die Blöcke zurückgeschrieben, die durch das Dirty-Bit als geändert 

gelten können. 

19


10.6.3 Auswahl der Seitengrößen 

Die Auswahl einer geeigneten Seitengröße ist ein kritischer Parameter für die Optimierung des 

Speichersystems insgesamt. Einige Aspekte sprechen für große Seiten: 

Die Seitentabelle für die Adreßbildung ist bezüglich ihrer Größe umgekehrt proportional zur 

Seitengröße. Mit kleineren Tabellen und größeren Seiten kann man also Speichergröße sparen. 

Die Übertragung weniger großer Seiten ist insgesamt effektiver als die getrennte Übertragung vieler 

kleiner Seiten. Größere Seiten sind auch günstiger für die Adreßumsetzung der Cache-Adressen. 

Für kleine Seitengrößen spricht dagegen die potentielle Einsparung an Speicherplatz. Kleine Seiten 

verschwenden weniger Speicherplatz, wenn ein zusammenhängender Bereich des virtuellen Speichers 

kleiner ist als ein Vielfaches der Seitengröße. Bei Speichergrößen des Hauptspeichers von mehreren 

bis vielen MByte und Seitengrößen von 2KB bis 8 KB spielt dieser Effekt nock keine Rolle, wohl 

aber bei Seitengrößen von 32BK und mehr. 

10.6.4 Techniken für schnelle Adreßumsetzung 

Seitentabellen sind oft so groß, daß sie im Hauptspeicher untergebracht werden müssen (nicht im 

Cache) und selbst einige Seiten lang sind. Man würde damit zwei Speicherzugriffe für eine 

Adressierung benötigen: Einen, um mittels der Page-Tabelle die physikalische Adresse zu ermitteln, 

und einen zweiten, um die Daten tatsächlich aus dem Speicher zu holen. Da der Speicherzugriff 

grundsätzlich einen Engpaß bezüglich der erreichbaren Rechenleistung darstellt, ist eine solche 

Kombination nicht vertretbar. 

Bei Speicherzugriffen ist es wahrscheinlich, daß eine aktuelle Adresse auf dieselbe Seite zugreift wie 

die vorherige. Dann kann man eine volle Adreßumsetzung umgehen. Eine andere Lösung ist durch 

das Prinzip der Lokalität vorgezeichnet: 

Weisen die Zugriffe eine prinzipielle Lokalität auf, dann kann die Adreßumsetzung auch ein lokales 

Verhalten zeigen. Es bietet sich also an, "aktuelle" Adressumsetzungen in einem speziellen Cache zu 

halten. Dann erfordert der Speicherzugriff selbst nur noch den direkten Zugriff auf die Daten, wenn 

die Adreßübersetzung aus dem Cache übernommen werden kann. Dieser spezielle Cache wird als 

Adreß-Umsetzungspuffer oder translation lookaside buffer (TLB) bezeichnet. Ein TLB-Eintrag 

entspricht einem Cache-Eintrag, bei dem das Tag (die Kennung) Teile der virtuellen Adresse enthält, 

außerdem den Datenteil der physikalischen Seitennummer (page frame number). Darin stehen das 

Schutzfeld, das Use-Bit und das Dirty-Bit. 

Wie üblich bei doppelter Datenhaltung gibt es hier wieder ein Konsistenzproblem: 

Wenn eine physikalische Seitennummer geändert werden soll (also eine Seite auf eine andere 

physikalische Adresse verschoben wird), dann muß das Betriebssystem sichern, daß der alte Eintrag 

nicht im TLB stehen bleibt. 

Das Dirty-Bit zeigt übrigens nur an, daß eine Seite modifiziert ist und damit keine Konsistenz 

zwischen Hauptspeicher und Cache mehr besteht. Das Dirty-Bit zeigt nicht an, daß die 

Adreßumsetzung oder ein bestimmter Block im Cache modifiziert sind. 

Tabelle 10.1: Typische Parameter eines TLB 

Blockgröße 4 - 8 Byte (ein Seitentabellen-Eintrag) 

Trefferzeit 1 Taktzyklus 

Fehlzugriffszeit 10 - 30 Taktzyklen 

Fehlzugriffsrate 0,1% bis 2% 

TLB-Größe 32 - 8192 Byte 

20


Einige nicht triviale Probleme ergeben sich aus der Kombination von Cache mit virtuellem Speicher. 

Die virtuelle Adresse muß erst in die physische Adresse umgewandelt werden, bevor ein Cache- 

Zugriff möglich ist. Damit erhöht sich die Trefferzeit des Cache, also die minimale Zeit für einen 

erfolgreichen Zugriff. Dies kann wiederum Einfluß auf die Dauer der Phasen in der Pipeline haben 

oder gar eine Ausdehnung der Pipeline erfordern. 

Eine Lösung besteht darin, auf den Cache mittels des Seiten-Offsets zuzugreifen. 

Während dann der Cache-Tag bereits gelesen wird, sendet man den virtuellen Teil der Adresse, also 

die Seitenadresse, zum TLB. Dann erfolgt der Adressenvergleich zwischen den Cache-Tag und der 

inzwischen gebildeten physischen Adresse. 

Ein Nachteil ist hier, daß dann ein einfach assoziativer Cache nicht größer als eine Seite sein kann. 

Eine weitere Möglichkeit ist der virtuell adressierte Cache, 

10.7 Zugriffsschutz 

Die Fähigkeit des Multi-Tasking eines Rechners, also die Fähigkeit, mehrere Aufgaben parallel zu 

bearbeiten, hat zum Konzept des Prozesses geführt. 

Der Prozeß ist die organisatorische "Blase", in der ein Programm abläuft. Neben dem Programm 

selbst gehört dazu die notwendige Status-Information. Die Prozessor-Ressourchen werden im Time- 

Sharing genutzt, wobei jeder Nutzer vorgespielt bekommt, er besitze den Prozessor allein. Um 

mehrere überlappend ablaufende Prozesse ablaufen zu lassen muß es jederzeit möglich sein, von 

einem Prozeß zu einem anderen umzuschalten (process switching). 

Dieses Umschalten muß vom Betriebssystem organisiert werden. Der Auslöser für ein Umschalten 

kann ein Interrupt von außen sein oder eine Aktion der Timer-Funktion im Betriebssystem, die den 

abzuarbeitenden Prozessen je nach Bedarf und Priorität CPU-Zeit zuweist. 

Die Organisation eines Umschaltprozesses ist eine Aufgabe sowohl des Rechnerarchitekten als auch 

des Betriebssystem-Entwicklers. 

Der Rechnerentwickler muß dafür sorgen, daß sich der Rechner jederzeit in einem definierten 

Zustand befindet, der verlassen und wieder eingerichtet werden kann. 

Das Betriebssystem hat dagegen dafür zu sorgen, daß mehrere ablaufende Prozesse sich nicht 

gegenseitig stören, wohl aber im Bedarfsfall miteinander kommunizieren können. 

10.8 Speicher-Organisation bei PCs 

10.8.1 Segmentierung 

Die grundsätzlichen Probleme der Speicher-Organisation bei PCs wurden bereits am Anfang dieses 

Kapitels angesprochen. 

Die PCs der Intel-Serie haben ab dem 8086 eine segmentierte Adressierung, die zunächst dem Zweck 

dient, Schutzfunktionen für einzelne Prozesse bereitzustellen. 

Die Adressenbildung geschieht nicht linear, sondern mittels spezieller Segment-Register. Ab dem 

80286 war ein erweiterter Segmentschutz verfügbar. Eine volle 32-Bit-Adressierung mit dem 

zugehörigen großen Adressraum bot allerdings erst der 80386-Prozessor. Hier war auch eine 

Seitenaufteilung (Paging) und eine virtuelle Adressierung verfügbar. Natürlich verkomplizierte dies 

die Bildung physikalischer Adressen aus logischen Adressen. Deshalb ist die entsprechende Adreß- 

Umsetzung auf dem Chip integriert. 

21


Prozessor 

Direkt 

adressierbarer 

8086 1 MByte 

Speicher 

80286 16 MByte 

80386 4 GByte 

80486 4 GByte 

Pentium 4 GByte 

Virtuelle 

Speicher- 

größe 

keine 

22 

Segmentgröße 

64 KByte 

1 GByte 1 Byte - 4 GByte 

Seitengröße 

keine 

keine 

64 TByte 1 Byte - 4 GByte 4 KByte 

64 TByte 

64 TByte 

1 Byte - 4 GByte 

1 Byte - 4 GByte 

Abb. 10.16: Speicheradressierung bei Intel 80x86-Prozessoren 

4 KByte 

4 KByte und 

4 MByte 

Wie vorstehend erwähnt, organisiert die Segmentierung den Speicher in mehrere unabhängige und 

gegeneinander geschützte Adressräume. 

Bezüglich der Speicher-Organisation erlauben die Intel-Prozessoren ab dem 80386 verschiedene 

Alternativen. Im primitivsten Fall können, wie bei 8-Bit-Mikroprozessoren üblich, alle Segmente in 

denselben Adreßraum abgebildet werden, eine Seiteneinteilung fehlt. Die Seiteneinteilung (paging) 

wird bei virtuellen Adressierungen benötigt. Sie sorgt dafür, daß die Nutzung des RAM-Speichers 

auf ein Minimum reduziert wird. Auf PCs kann man wahlweise entweder die Segmentierung oder das 

Paging einzeln oder auch beide in Kombination verwenden. Schutzfunktionen bezüglich der 

Abschottung mehrerer Prozesse gegeneinander sind sowohl bei der Segmentierung als auch beim 

Paging vorhanden. UNIX kennt nur Paging ohne Segmentierung. 

Im einfachsten Fall der Speicher-Organisation besteht die Möglichkeit, ein unstrukturiertes Modell 

zu verwenden. Alle Segmente sind dem gesamten physikalischen Adressraum zugeordnet. Im 

Extremfall ist es möglich, die Segmentierung völlig auszuschalten. Die logische Adresse wird dann 

gleich der physikalischen Adresse, wenn nicht ein Paging-Mechanismus (wie für virtuelle 

Betriebssysteme notwendig) benötigt wird. In einem solchen Modus läuft UNIX, das keine 

Segmentierung kennt, auf Intel-Prozessoren. 

Trotzdem existieren für Speichersegmente sogenannte Segmentdeskriptoren. Für das unsegmentierte 

Modell werden zwei Deskriptoren erzeugt, einer für Code-Referenzen und einer für Daten- 

Referenzen. 

Segmentregister 

CS 

SS 

DS 

Segmentdeskriptoren 

Zugriff Grenze 

Basisadresse 


Basisadresse 

Abb. 10.17: Speichermodell ohne Segmente 

Physikalischer 

Speicher 

EPROM 

DRAM 

4 GByte 

Der Segmentdeskriptor liefert neben der Basisadresse eines Segmentes auch dessen Grenze und eine 

Zugriffs-Steuerinformation. 

0


Das ROM wird normalerweise ganz oben im physikalischen Adreßraum plaziert, das RAM ganz 

unten, da die ursprüngliche Basis-Adresse für den Rechner nach einer Reset-Initialisierung 0 ist. 

Bei einem völlig unsegmentierten Modell hat jeder Deskriptor die Basisadresse 0 und eine 

Segmentgrenze von 4 GByte. 

Neben dem unsegmentierten Modell existiert auch ein geschütztes unsegmentiertes Modell. Dabei 

sind die Segmentgrenzen so gesetzt, daß die nur den Teil der Speicheradressen abdecken, die 

tatsächlich vorhanden sind. Wenn also auf eine Adresse zugegriffen werden soll, die zu einer 

physikalisch nicht vorhandenen Speicherzelle gehört, so erfolgt eine Fehlermeldung. 

Diese Sicherung ist insbesondere dann sinnvoll, wenn kein Paging, also keine virtuelle 

Speicherverwaltung aktiviert ist. 

Segmentregister 

CS 

ES 

SS 

DS 

Segmentdeskriptoren 


Basisadresse 


Basisadresse 

Physikalischer 

Speicher 

23 

EPROM 

DRAM 

Abb. 10.18: Geschütztes Speichermodell ohne Segmente 

4 GByte 

0 

Logischer 

Speicher 

EPROM 

DRAM 

Beim Modell mit mehreren Segmenten erhält jedes Programm seine eigene Tabelle mit Segment- 

Deskriptoren und seinen Segmenten. Grundsätzlich können die Segmente nur vom jeweiligen 

Programm genutzt oder gemeinsam mit anderen Segmenten genutzt werden. Die 80X86-Architektur 

erlaubt die gleichzeitige Nutzung von bis zu 6 Segmenten. Deren Segmentselektoren sind in die 

Segmentregister des Prozessors geladen. Soll auf andere Segmente zugegriffen werden, so sind 

davor ihre Segmentselektoren in die Segmentregister zu laden. 

Jedes Segment bildet einen zusammenghängenden Adressraum. Nur der Zugriff auf diesen 

Adressraum ist zulässig. Der Versuch, Speicherzellen jenseits des Endes des zuständigen Segments 

zu adressieren, erzeugt eine Schutzverletzung und einen Interrupt. Natürlich müssen Segmente nicht 

zusammenhängend im physikalischen Speicher stehen, insbesondere bei Nachschalten eines Paging 

für die virtuelle Adressierung wird dies normalerweise nicht der Fall sein. 

Segmentregister Segm.-Deskriptoren Physik. Speicher 

CS 


Basisadresse 

4 GByte 

SS 

DS 

ES 

FS 

GS 


Basisadresse 


Basisadresse 


Basisadresse 


Basisadresse 


Basisadresse 


Basisadresse 


Basisadresse 

Abb. 10.18: Speichermodell mit mehreren Segmenten 

0


10.8.2 Virtuelle Adressierung beim 80X86-PC 

Die vituelle Speicherverwaltung (paging) ist der Segmentierung optional nachgeschaltet. Der lineare 

Adressraum wird in 4 kByte große Seiten aufgeteilt. 

Wenn ein Programm versucht, auf eine im Arbeitsspeicher (oder im Cache) nicht vorhandene Seite 

zuzugreifen, so wird das abzuarbeitende Programm zunächst unterbrochen. 

Dies ist ein "gutartiger" Interrupt, der im Gegensatz zu anderen Interrupts nach dem Holen der 

benötigten Seite den Ausgangszustand und die Registerinhalte wiederherstellt. Ist das Paging nicht 

aktiviert, so wird die lineare Adresse als physikalische Adresse verwendet. 

Der Zusammenhang zwischen der Größe des Segmente und der Seiten ist nicht trivial und hat sogar 

Auswirkungen auf die verwendeten Schutzmechanismen: 

1. Es werden wenige, aber große Segmente verwendet. 

Man kann dann die Segmente aus ganzen Seiten zusammensetzen. Jedes Segment beginnt an einer 

Seitengrenze und ist mindestens eine Seite lang. Die Seite ist die Einheit der Speicher-Allokation, 

und auch die Schutzmaßnahmen werden über die Seitenverzeichnisse, welche die Zuordnung von 

Seiten zu Prozessen regeln, implementiert. 

2. Es gibt viele, aber relativ kleine Segmente. 

Hier können nun die Segmente kleiner als die 4 kByte-Einheitsgröße der Seiten sein. Man wird jetzt 

die Segmente einzelnen Seiten zuordnen. Die Allokation von Daten und die Schutzmaßnahmen 

stützen sich auf die Segmente, die Seiten dienen nur der virtuellen Speicherverwaltung. 

Die Verwaltung der Speicher-Seiten wird durch sogenannte Seiten-Tabellen organisiert. Eine 

Prozessor-Seitentabelle definiert zum Beispiel eine Gruppe von 4-KByte-Seiten. Bei Verwendung 

einer Segmentierung sind das dann genau so viele Segmente variabler Größe, wie eine 

Deskriptorentabelle umfaßt. Eine Seitentabelle ist eine Seite lang und besteht aus einem Feld von 

Tabellen-Einträgen (PTEs- page table entries). Bei 4 KByte lienaren Adressen sind in einer Tabelle 

1024 Einträge vorhanden, von denen jeder eine 4 KByte-Seite definiert. Damit kann eine 

Seitentabelle einen linearen oder physikalischen Speicherraum von 4 Mbyte abdecken. 

Ein Seitentabellen-Eintrag enthält die Adressierung, Schutz-Information (z. B. Schreibschutz) und 

virtuelle Speicherfelder. 

Probleme ergeben sich nun, wenn ein Prozeß einen Schreibprozeß in den Speicher ausführen muß 

und deshalb eine neue Adresse erzeugen muß. 

Im schlimmsten Fall müßte der Prozeß dann den ganzen 4-GByte-Adressraum durchsuchen, um eine 

"freie" physikalische Adresse zu finden, das sind 1024 Seitentabellen. Damit nun nicht jede Task 

einen Wasserkopf aus einer vollständigen Seitentabelle (mit meistens leeren Einträgen) mitführen 

muß, bietet der Prozessor ein sogenanntes Seitenverzeichnis, dessen Einträge als page data entries 

(PDEs) bezeichnet werden. 

Das Seitenverzeichnis ähnelt einer Seitentabelle, ist eine Seite lang und nach Seiten ausgerichtet. 

Dieses Seitenverzeichnis ist in einem geschützten Teil des Speichers abgelegt. 

In einer Seite der Seitentabelle definiert jeder der 1024 Einträge (PTEs) die Attribute einer Seite. 

Jedes der 1024 PDEs des Seitenverzeichnisses beinhaltet die Attribute aller Seiten, die in einer 

Seitentabelle beschrieben sind. 

Eine Seite hat also zwei Attribute: 

− eins definiert durch den Eintrag in die Seitentabelle (PTE) 

− eins definiert durch den Eintrag ins Page-Date-Entry der Seitentabelle. 

24


Die Attribute, die eine Seite charakterisieren, sind also verteilt: Einmal in solche, die sich 

gleichermaßen auf alle Seiten in einer speziellen Seitentabelle erstrecken, und dann solche, die 

speziell auf eine Seite zutreffen. 

Der Prozessor überprüft nacheinander zuerst den PDE und dann den PTE. Ergibt sich beim PDE- 

Check bereits ein Fehler, so erfolgt der PTE nicht mehr. 

Es kann also z. B. eine ganze page-table das Attribut "schreibgeschützt" haben. Dann ist es gar nicht 

mehr notwendig, darunter bei einzelnen Seiten nachzusehen. 

Als Gegenbeispiel seien zwei benachbarte Seiten in einem Segment so charakterisiert, daß die eine 

Seite les- und schreibbar sein soll, die andere aber nur lesbar. Dann bietet erst der Eintrag in die 

Seitentabelle die entsprechende Information. 

Bei den 80x86-Prozessoren enthält ein spezielles Register, das CR3-Systemregister, stets die 

Adresse des aktuellen Seitenverzeichnisses. Bereits bei der Initialisierung des Betriebssystems wird 

das CR3-Systemregister mit dem (priviligieten) Befehl MOV CR3 geladen. Entsprechen gibt es auch 

einen priviligierten Speicherbefehl für den Inhalt von CR3: MOV MEN, CR3. Sobald CR3 geladen 

ist, ignoriert der Prozessor die unteren 12 Bits eines Quelloperanden. Auch die unteren 12 Bits eines 

Zieloperanden sind dann nicht definiert. 

Für jede Task steht innerhalb des linearen Adressraumes eine 4 MByte große Zone zur Verfügung, 

mit dessen Inhalt die Seitentabellen und Seitenverzeichnisse einer Task im physikalischen 

Adressraum adressiert werden können. Dieser Bereich muß stets bei einer 4 MByte-Grenze 

beginnen, kann aber ansonsten beliebig innerhalb des 4 GByte großen Adressraumes liegen. Laufen 

mehrere Tasks ab, so müssen natürlich jeder einzelnen Task unterschiedliche Adreßräume 

zugewiesen werden. 

4 GByte 

4 MB 

PDE 1023 

Seitenverzeichnis 

PDE 1023 

PDE 0 

Frei für 

Seitentab. 

Seitentab. 1 

Seitentab. 0 

0 

Linearer Adressraum Physikalischer Adressraum 

25 

Seiten- 

Tabelle 1 

Seitenverzeichnis 

Seitentabelle 

0 

Abb. 10. 19: PDEs und PTEs im linearen und physikalischen Adressraum


Seitenverzeichnis- 

Einträge 

Seitentabellen- 

Einträge 

Offset Zugriff 

1023 0 0 PT0, PTE0 

1023 0 4 PT0, PTE1 

1023 1 8 PT1, PTE2 

1023 1 12 PT1, PTE3 

1023 1023 4092 PD, PTE1023 

Abb. 10.20: Seitentabellen-Adressierung 

Nur der Vollständigkeit halber sei bemerkt, daß sich zwei oder mehrere Tasks auch dasselbe 

Seitenverzeichnis teilen können. Sie nutzen dann verschieden Seiten desselben Verzeichnisses. Das 

bedeutet aber noch nicht, daß sie auf dieselben Daten zugreifen. Diese sind dann noch in 

verschiedenen Seiten oder unterschiedlichen Segmenten angeordnet. 

10.9 Betriebsmoden der 80x86-Prozessoren 

10.9.1 Übersicht 

Wie bereits an anderer Stelle diskutiert wurde, hat Intel bei der Entwicklung der 80x86- 

Prozessorserie auf Kompatibilität mit den Vorgängertypen geachtet. 

Aus diesem Grund haben die neueren Prozessoren der Intel-Serie unterschiedliche Betriebsmodi, die 

als "real mode", "protected mode" und "virtual 8086-mode" bezeichnet werden. 

Prozessor 

8086 

80286 

80386 

80486 

Pentium 

Software-Mode 

Real Mode Protected Mode Virtual 8086 Mode 

ja nein nein 

ja ja nein 

ja ja ja 

ja ja ja 

ja ja ja 

Abb. 10.21: Betriebsmodi von 80x86-Prozessoren 

10.9.2 Real Mode 

Jeder Rechner mit einem 80x86-Prozessor wird zunächst im Real Mode gestartet. Selbst wenn die 

eigentlichen Programme für den Protected Mode geschrieben sind, laufen die Start-up-Programme 

im Real Mode. In diesem Mode werden Programme betrieben, die eigentlich für den 8086 / 8088- 

Prozessor geschrieben sind. Sie sind auf 80286, 80386, 80486 und Pentium-Prozessoren lauffähig, 

deren in diesem Modus verwendete Architektur dann nahezu der des Urprozessors entspricht. Für 

den Programmierer ist z. B. der Pentium dann ein superschneller 8086 mit erweitertem Befehlssatz 

und erweiterten Registern. Der Zugriff zu den 32-Bit-Registern der größeren Prozessoren ist in 

diesem Modus möglich. 

26


Die Adressierungsmethoden, die Speicherverwaltung und die Interrupt-Behandlung entsprechen dem 

Real Mode des 80286-Prozessors. Dementsprechend ist die Standard-Größe der Operanden 16 Bit. 

Eine Adressbildung findet ganz analog zum 8086 statt. 

Basis 

+ 

Offset 

= 

lineare 

Adresse 

19 0 

16-Bit-Segment Selektor 0 0 0 0 

19 0 

16 Bit effektive Adresse 

20 0 

x x x x x x x x x x x x x x x x x x x x 

Abb. 10. 22: Adreßumwandlung beim 80x86-Prozessor 

Zunächst wird die 16 Bit-Adresse für den Segment-Selektor in einem 20-Bit-Register um vier Bit 

nach links verschoben und bildet dann eine 20-Bit-Basisadresse. Die zweite Teiladresse, die effektive 

Adresse (Offset), wird im vier Bit bei den höherwertigen Stellen erweitert und dann zur Basisadresse 

addiert. Damit ergibt sich dann die für den Speicherzugriff notwendige lineare Adresse. Diese 

entspricht der physikalischen Adresse, da im Real-Mode ein virtueller Betrieb (Paging) nicht möglich 

ist. Bei der Adreßaddition ist ein Überlauf in das Bit Nr. 20 möglich. Damit steht ein Adreßraum von 

0 bis 10FFEFH entsprechend 1 MByte plus 64 kByte zur Verfügung. 

Der 80386, 80486 und Pentium können echte 32-Bit-Adressen bilden. Unter Verwendung eines 

sogenannten Adress-Überschreibpräfixes lassen sie im Ral-Modus Adressen bis zu 65535 zu, ohne 

eine Ausnahme hervorzurufen. Darüber treten sogenannte Pseudo-Fehler auf (Interrupts Nr. 12 oder 

13 ohne Fehlercode). 

Im Real Mode sind auch die Register, die 80386, 80486 und Pentium über den Umfang des 8086 

hinaus besitzen, zulässig. Auch Befehle, welche diese Register benutzen, sind nutzbar, z. B. zur 

Adreßberechnung. Die Befehle allerdings, die sich explizit auf den "Protected Mode" des Prozessors 

beziehen, erzeugen ungültigen Op-Code. 

Auch die Interrupt-Verarbeitung erfolgt analog zum 80386, allerdings steht eine größere Interrupt- 

Tabelle zur Verfügung. 

10.9.3 Protected Mode 

Die zweite wichtige Betriebsart ist der Protected Mode. Hier gibt es wiederum Unterschiede 

zwischen dem Protected Mode des 80286, des 80386 / 80486 und des Pentium. Der wesentliche 

Unterschied zum Real-Mode besteht im wesentlich vergrößerten Adreßraum und anderen 

Mechanismen zur Adreßbildung. 

Im protected Mode des 80286 können schon Programme mit bis zu einem GByte Adreßraum 

verwendet werden. Der physikalische Adre?raum umfaßt 16 MByte, virtuelle Adressen werden also 

in 24-Bit physikalische Adressen umgewandelt. 

Bis auf die unterschiedliche Speichergröße ist die Organisation des Speichers beim80286 für den 

Real Mode und für den Protected Mode gleich. Zusätzlich zu den "normalen" Speicheradressen hat 

der 80286 einen zusätzlichen Adreßraum für Ein- / Ausgabebefehle mit bis zu 65 538 8-Bit E / A - 

Ports und bis zu 32 768 32-Bit-E / A-Ports. 

Für den 80386 und den 80486 bietet der Protected Mode den Übergang zu Multi-Tasking- 

Betriebssystemen und zur Seiteneinteilung und zur Segmentierung des Speichers, also zur virtuellen 

Speicherverwaltung. 

27 

4 

3


Auch hier wird die logische Adresse aus zwei Komponenten gebildet. 

Zunächst wird ein 16-Bit-Selektor verwendet, um die lineare Basisadresse eines Segments zu 

bestimmen. Die Basisadresse wird zur effektiven 32-Bit-Adresse hinzugefügt und bildet eine lineare 

32-Bit-Adresse. 

Diese lineare 32-Bit-Adresse wird entweder direkt in eine physikalische 24-Bit-Adresse umgesetzt 

(ohne Paging) oder bildet den Ausgang für die Adressberechnung im virtuellen Adressraum. Dabei 

hat man einen linearen Adressraum von vier GByte zur Verfügung. Auch im Protected Mode des 

80386 / 80486 ist das Ablaufen von allen Programmen, die für den 80386-DX, den 80286 und den 

8086 geschrieben wurden, möglich. Man hat nun aber die für einen Multi-Tasking-Betrieb 

notwendigen Schutzmechanismen verfügbar. 

Der Protected Mode des Pentium verhält sich ganz entsprechend, jedoch sich neue Flags im 

sogenannten EFLAG-Register verfügbar. Damit ist im Multi-Tasking-Betrieb ein effizienterer 

Übergang zwischen den Betriebsmodi möglich. 

Der Umstieg vom Real Mode zum Protected Mode erfordert eine Sequenz von Schritten, die 

zwischen dem Prozessor und dem Betriebssystem ablaufen. 

Folgende Prozeduren müssen gestartet werden, um in den Protected Mode zu gelangen: 

− Öffnen des Protected Mode 

− Öffnen der Seiten-Verwaltung (optional) 

− Umschalten zu den ursprünglichen Aufgaben. 

Oft schalten die Betriebssysteme automatisch nach einem RESET zum Protected Mode und von der 

16-Bit- zur 32-Bit-Registerverwaltung. Dazu werden bei der Initialisierung zunächst Daten- 

Zuweisungen nach dem RESET den ersten 64 KByte des linearen Adressraumes zugeordnet, die 

oberen 64 KByte sind für Codes reserviert. 

10.9.4 Virtueller Mode 

Der virtuelle Mode ist erst mit dem 80386 verfügbar. Er stellt die Möglichkeit dar, 8086-, 8088-, 

80186- und 80188-Programme in einer Protected-Mode-Umgebung ablaufen zu lassen. Dann läuft z. 

B. ein 8086-Programm als Teil einer virtuellen Task. Eine Task ist ein geladenes Programm, das mit 

Hilfe des Betriebssystems gesteuert wird und das seine eigene Umgebung aufweist. Damit kann man 

sogar mehrere 8086-Programme gleichzeitig innerhalb von virtuellen Tasks oder auch gemischt mit 

anderen Tasks ablaufen lassen (Multi-Tasking-Betrieb). 

Eine virtuelle 8086-Task besteht aus dem abzuarbeitenden 8086-Programm plus weiterem Code 

einer speziellen Software, der als virtueller Maschinen-Monitor dient. Die Task muß durch einen 

Task-Manager (TSS) für den 386, 486 oder Pentium bearbeitet werden. Das Programm wird aus 

dem Protected Mode heraus gestartet und bearbeitet und kehrt nach Beendigung auch in diesen 

zurück. 

Benötigt werden virtuelle 8086-Mode-Software und Betriebssystem-Dienste. 

Man muß also zum 8086-Programm Betriebssystem-Routinen bereitstellen, die entweder Teil des 

8086-er Programms sein können oder in die virtuelle 8086-er Software eingebunden sein können. 

28

2.10 Speicherorganisation

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?