Rechnerstrukturen: VO, WS 2012/13 â†’ Teil 1 - VoWi

Rechnerstrukturen: VO, WS 2012/13 Teil 1 

(Kapitel 1 – Kapitel 4) 

Diese Ausarbeitung habe ich mithilfe der Vorlesungsfolien sowie der deutschen Fassung des 

Buches „Computer Organization And Design“ von David A. Patterson und John L. Hennessy 

gemacht. Sie ist zwar sehr umfangreich, sollte aber meiner Meinung nach alle wichtigen 

Themen der Vorlesung behandeln. Trotzdem sind Fehler und Unvollständigkeiten möglich. 

Da ich die meisten Informationen aus dem Buch habe, bin ich aber zuversichtlich, dass das 

meiste stimmen sollte ;-) 

Allerdings habe ich nicht alles von den Folien ausgearbeitet. Vernachlässigt werden in dieser 

Ausarbeitung unter anderem 

• Graphiken bzw. deren Erklärung (vgl. dazu besonders die Folien oder auch das Buch) 

• Rechenbeispiele (vgl. dazu besonders die Folien oder auch das Buch) 

• Kapitel 4 habe ich nicht vollständig ausgearbeitet (in diesem Kapitel befinden sich in 

den Folien auch einige Graphiken dazu also auch Folien + Buch vergleichen) 

Weitere Unvollständigkeiten sind möglich. 

Ich habe mit dieser Ausarbeitung jedenfalls für die Prüfung bei Prof. Grünbacher gelernt und 

eine Zwei bekommen :-) 

Autorin: 

Quellen: 

Michaela 

e1026306@student.tuwien.ac.at 

„Rechnerorganisation und Rechnerentwurf: 

Die Hardware/Software-Schnittstelle“ 

von David A. Patterson und John L. Hennessy 

Folien von Prof. Herbert Grünbacher 

1

Chapter 1: Computer Abstractions and Technology 

Im Bereich der Computer-Technologie wurden bereits viele Fortschritte gemacht: 

• Computer in Fahrzeugen 

o senken Schadstoffausstoß 

o sorgen mittel Motorsteuerung für einen kraftstoffarmen Betrieb 

o automatische Brems- und Stabilitätskontrollsysteme erhöhte Fahrsicherheit 

o automatisches Auslösen eines Airbags 

• Handys 

• Forschung am menschlichen Genom 

o die Kosten für eine solche Erforschung sind gesunken (Hunderte von 

Millionen Dollar), daher ist überhaupt möglich, es zu erforschen 

• World Wide Web 

• Suchmaschinen 

Die Fortschritte in der Technologie haben großen Einfluss auf nahezu alle Bereiche unserer 

Gesellschaft. 

Es werden drei verschiedene Klassen von Computer unterschieden: 

• Desktop Computers (Arbeitsplatzrechner) 

o Wichtigster Vertreter dieser Klasse ist der Personal Computer (PC) 

o bietet Benutzern gute Leistungen zu akzeptablen Preisen (cost/performance tradeoff) 

o dient für gewöhnlich der Ausführung von Software von Drittanbietern 

• Server 

o müssen große Lasten bewältigen (entweder komplexe Anwendung oder Verarbeitung 

vieler kleiner Jobs) 

o basieren auf einem Netzwerk ( über ein Netzwerk wird zugegriffen) 

o häufig gleichzeitig von mehreren Benutzern verwendet 

o hohe Kapazität, Performance und Verlässlichkeit (reliability) 

o große Variationsbreite bezüglich Kosten und Funktionsfähigkeit (range from small 

servers to building sized) 

o Supercomputer: Computer der höchsten Leistungs- und Preisklasse; sind als Server 

konfiguriert und kosten in der Regel mehrere Millionen Euro; für anspruchsvolle 

Aufgaben aus dem technisch-wissenschaftlichen Bereich verwendet 

• Embedded Computers (processors, eingebettete Rechner) 

o finden sich in vielen Alltagsgeräten 

o sind normalerweise in ein System integriert, das als ein Gerät ausgeliefert wird 

o Benutzer merken oft nicht, dass sie einen Computer benutzen 

o strenge Leistungs-/Performance-/Kosten-Einschränkungen (power / performanc / cost 

= Kosten, Aufwand) 

Charakteristiken von Embedded Processors: 

- größte Klasse von Rechnersystemen 

- größte Bandbreite an Anwendungen und Leistungsfähigkeit 

2

- haben oft minimum performance requirements (Mindest-Leistungsanforderungen) 

- haben oft strenge Limitierungen bei Kosten/Aufwand 

- haben oft strenge Limitierungen bei Energieverbrauch 

- haben oft eine geringe Fehlertoleranz 

Um Performance zu verstehen, muss man die einzelnen Einflussfaktoren kennen, die dabei 

zusammenspielen: 

• Der Algorithmus 

o dieser bestimmt die Anzahl der Operationen, die ausgeführt werden 

• Die Programmiersprache, der Compiler und die Architektur 

o diese bestimmen die Anzahl der Maschineninstruktionen, die pro Operation 

ausgeführt werden 

• Der Prozessor und das Speichersystem (memory system) 

o diese bestimmen, wie schnell Instruktionen ausgeführt werden 

• I/O System (inkludiert OS = Operation System) 

o dieses bestimmt, wie schnell I/O Operationen ausgeführt werden 

Was verbirgt sich hinter einem 

Programm? 

• Die Application Software 

o wird in high-level language 

geschrieben 

• Die System Software 

Software, die allgemein nützliche 

Dienste bereit stellt 

o Compiler: übersetzt den high-level language Code in Maschinencode 

o Operation System: service code 

Das Betriebssystem ist die Schnittstelle zwischen einem Benutzerprogramm 

und der Hardware; es ist ein Programm mit Überwachungsfunktion 

 

 

 

• Die Hardware 

verarbeitet Input und Output (handling) 

verwaltet Massen- und Hauptspeicher (Storage und Memory) 

plant tasks und sharing resources (scheduling) 

o dazu gehören Prozessor, Memory, I/O Controllers 

3

Es gibt unterschiedliche Level von Programmcode: 

• High-level language 

o nicht so abstrakt 

o für Programmierer/innen leichter zu 

erlernen (der natürlichen Sprache 

ähnlicher, erleichtert auch das 

Verstehen fremden Codes), daher 

mehr Produktivität! 

bessere Portabilität (Übertragbarkeit) 

• Assembly language 

o textuelle Repräsentation von 

Instruktionen 

• Hardware representation 

o in Binärzahlen (bits) 

o kodierte Instruktionen und Daten 

Der Compiler übersetzt Anweisungen in einer höheren Programmiersprache in Anweisungen 

der Assemblersprache. 

Der Assembler wiederum ist ein Programm, das eine symbolische Form von Befehlen in eine 

binäre Form übersetzt. Die Assemblersprache ist dabei eine symbolische Darstellung von 

Maschinenbefehlen. 

Die Komponenten eines Computers 

Alle Arten von Computern haben die gleichen Komponenten. 

Wichtige Komponenten für Input/Output sind dabei: 

• User Interface Devices 

o Display, Tastatur, Maus 

• Storage Devices 

o Hard disk, CD/DVD, flash 

• Network adapters 

o für die Kommunikation mit anderen Computern 

Die fünf klassischen Komponenten eines Computers umfassen die Ein- und Ausgabe, den 

Hauptspeicher, das Rechenwerk und das Steuer- oder Leitwerk, wobei die letzten zwei Werke 

zusammengefasst und als Prozessor bezeichnet werden. 

4

Motherboard 

Eine Platine, auf der die wichtigsten Komponenten des Rechners miteinander verschaltet sind 

wie Prozessor, Speicher und Schnittstellen für zusätzliche Komponenten (z.B. Laufwerke 

oder Graphikkarten). 

Integrated Circuit (IC, Integrierte Schaltkreise) 

Auch als Chip bezeichnet. Eine Einheit mit bis zu vielen Millionen von Transistoren. 

Hauptspeicher (memory) 

Der Speicher, in dem sich Programme befinden, wenn sie ausgeführt werden. Daneben 

befinden sich im Hauptspeicher die Daten, die von diesen Programmen benötigt werden. 

Auch als Arbeitsspeicher bezeichnet. 

DRAM (Dynamic Random Access Memory) 

Hauptspeicher, der in Form eines Chips gebaut ist; er bietet wahlfreien Zugriff auf jeden 

Speicherplatz. 

CPU (Central Processing Unit) 

Auch als Prozessor bezeichnet. Der aktive Teil des Computers, der das Rechenwerk und das 

Leitwerk b zw. Steuerwerk enthält und Zahlen addiert, Zahlen vergleicht, Signale zum 

Aktivieren der Ein-/Ausgabegeräte sendet usw. 

5

Datapath (Rechenwerk) 

Die Komponente des Prozessors, die arithmetische Operationen ausführt. 

Control (Leitwerk) 

Die Komponente des Prozessors, die den Datenpfad, den Hauptspeicher und die Ein- 

/Ausgabegeräte entsprechend der Programmbefehle ansteuert. 

Cache-Memory 

Kurz Cache genannt, ist ein kleiner, schneller Speicher, der als Puffer für einen langsamen, 

größeren Speicher dient. 

Auch: Small fast SRAM memory for immediate access to data. 

SRAM (Static Random Access Memory) 

Ebenfalls als Chip gebauter Hauptspeicher, aber schneller und weniger dicht als DRAM. 

BIG PICTURE – Abstractions 

Sowohl die Hardware als auch die Software bestehen aus hierarchischen Ebenen, wobei die 

unteren Ebenen jeweils mehr Details enthalten als die oberen Ebenen. Dieses Prinzip der 

Abstraktion hilft Hardware- und Softwareentwicklern im Umgang mit komplexen 

Computersystemen. Eine wichtige Schnittstelle zwischen den Abstraktionsebenen stellt die 

Instruction Set Architecture (ISA = Befehlssatzarchitektur) dar. Hierbei handelt es sich um 

die Schnittstellte zwischen der Hardware und der Software auf Maschinenebene. Diese 

abstrakte Schnittstelle ermöglicht viele Implementierungen, die sich in den Kosten und der 

Leistung unterscheiden, aber die gleiche Software ausführen können. 

6

Instruction Set Architecture (ISA) 

Auch als Architektur bezeichnet. Eine abstrakte Schnittstelle zwischen der Hardware und der 

untersten Softwareebene einer Maschine. 

(Instruction Set: Der Wortschatz mit den Befehlen, die eine bestimmte Architektur versteht.) 

Application Binary Interface (ABI) 

Der Benutzerteil des instruction sets (Befehlssatzes) und die Betriebssystemschnittstellen, die 

von Anwendungsprogrammierern verwendet werden. Definiert einen Standard für binäre 

Portierbarkeit zwischen Computern. 

Wie werden Daten gespeichert? 

Es gibt flüchtige Speicher (volatile memories) und nichtflüchtige Speicher (non-volatile 

memories). Zu den flüchtigen Speichern zählt z.B. der Hauptspeicher (main memory): dort 

gehen alle Instruktionen und Daten verloren, wenn der Strom abgeschaltet wird. 

Bei nichtflüchtigen Speichern bleiben Daten jedoch auch nach abschalten des Stroms 

gespeichert. Zu den nichtflüchtigen Speichern zählen: 

- Magnetic disk ( ↑ 1 Terrabyte) 

- Flash memory ( ↑ 256 GB) 

- Optical disk (CDROM, DVD, Blue Ray) 

Primärspeicher 

Auch Hauptspeicher genannt. Flüchtiger Speicher von Programmen während der Ausführung. 

Sekundärspeicher 

Nichtflüchtiger Speicher, der zum Speichern von Programmen und Daten zwischen 

Ausführungsvorgängen verwendet wird. 

Festplatte (magnetic disk) 

Eine Form des nichtflüchtigen Sekundärspeichers, bestehend aus rotierenden Platten, die zum 

Speichern von Daten mit einem magnetisierbaren Material beschichtet sind. 

Flash Memory 

Ein nichtflüchtiger Halbleiterspeicher. Billiger und schneller als DRAM, aber teurer und 

schneller als Magnetplatten. 

Netzwerke 

Über Netzwerke kann Kommunikation betrieben werden und Ressourcen geteilt werden. 

Dabei gibt es verschiedene Arten von Netzwerken. 

Local Area Network (LAN) 

Ein Netzwerk zum Übertragen von Daten innerhalb eines geographisch begrenzten Bereiches, 

in der Regel innerhalb eines Gebäudes; Stichwort: Ethernet. 

7

Wide Area Network (WAN) 

Ein Netzwerk, das sich über Hunderte von Kilometern erstreckt oder einen ganzen Kontinent 

umspannen kann; Stichwort: Internet 

Wireless Networks 

WiFi, Bluetooth 

Was besagt Moore’s Law? 

Die Anzahl an Transistoren, die auf einem einzigen Chip integriert werden können, wird sich 

ca. alle 2 Jahre verdoppeln. 

Wie lässt sich Performance definieren? 

Das Beispiel der Flugzeuge zeigt, dass man nicht eindeutig sagen kann, was gute Performance 

ist. Jedes dieser Flugzeuge hat seine Vorteile und seine Nachteile. Je nachdem, auf welche 

Aspekte man besonders Wert legt, hat dann das eine oder das andere eine bessere 

Performance. Es gilt also bei der Beurteilung von Performance, unterschiedliche Aspekte zu 

berückrichtigen. 

• Response Time 

o Wie lange braucht die Ausführung eines Tasks? 

• Troughput 

o Totale Arbeit, die in einer bestimmten Zeiteinheit geleistet wird 

o Übersetzt: Durchsatz; wird auch als Bandbreite bezeichnet 

8

Performance = 1 / Execution Time 

Wenn man Performance miteinander vergleichen möchte, kann man z.B. sagen: 

„X ist n-mal schneller als Y.“ 

Performance x / Performance Y = Execution Time Y / Execution Time X 

Elapsed Time (verstrichene Zeit) 

Totale Response Time, die alle Aspekte inkludiert: Processing, I/O, OS overhead, idle time 

CPU Time 

Die tatsächliche Zeit, die die CPU braucht, um einen bestimmte Aufgabe abzuwickeln. Die 

Zeit, die dabei für das Warten auf ein-/Ausgaben oder für die Ausführung anderer Programme 

benötigt wird, wird dabei nicht miteinbezogen. 

Somit ist die Antwortzeit, die der Benutzer wahrnimmt, nicht die CPU-Zeit! 

Die CPU-Time lässt sich unterteilen in User CPU Time und in System CPU Time. 

User CPU Time ist dabei die Zeit, die innerhalb des Programms aufgewendet wird und 

System CPU Time die Zeit, die im Betriebssystem verbracht wird, wobei Aufgaben für das 

Programm ausgeführt werden. 

CPU Clocking 

Ereignisse innerhalb der Hardware werden von einem konstanten Taktzyklus (Clock) 

beherrscht. Diese Taktzyklen sind diskrete Zeitintervalle. Dabei wird mit clock period die 

Dauer eines Taktzykluses (clock cycles) bezeichnet und mit clock frequency (rate) die 

Zyklen pro Sekunde. 

CPU Time 

9

Die Performance kann verbessert werden durch: 

• Reduzieren der Anzahl der Clock Cycles (Taktzyklen) 

• Erhöhen der Clock Rate (d.h. mehr Zyklen pro Sekunde) 

Hardware Designer müssen oft Clock Rate und Cycle Count aufeinander abstimmen. 

Instruction Count und CPI (Cylces per instruction) 

Instruction Count ist die Anzahl der Instruktionen, die ausgeführt werden sollen (z.B. eines 

Programms). 

CPI (cycles per instruction) ist die durchschnittliche Anzahl der Taktzyklen, die pro 

Instruktion durchlaufen werden. 

Der Instruction Count wird vom Programm bestimmt sowie von ISA (Instruction Set 

Architecture) und Compiler. 

Die durchschnittlichen cycles per instruction werden durch die CPU Hardware bestimmt. 

Wenn unterschiedliche Befehle unterschiedliche CPIs haben, bestimmt der Mix an Befehlen 

die durchschnittlichen CPI. 

Wenn unterschiedliche Instruction-Klassen eine unterschiedliche Anzahl an Zyklen brauchen: 

Die CPI sind dann gewichtet: 

10

Zusammenfassung: Performance 

Die Performance hängt von folgenden Faktoren ab: 

• Algorithmus 

o beeinflusst den Instruction Count (IC), möglicherweise auch CPI 

• Programmiersprache 

o beeinflusst den IC sowie CPI 

• Compiler 

o beeinflusst IC und CPI 

• Instruction set architecture 

o beeinflusst IC, CPI, T C ( Taktgeschwindigkeit) 

Was ist die Power Wall? 

• Wir können die elektrische Spannung (voltage) nicht weiter reduzieren. 

• Wir können nicht mehr Hitze verschwinden lassen. 

Wie kann man also noch Performance verbessern? 

11

Multiprocessors 

Unter multicore microprocessors versteht man, dass sich mehr als ein Prozessor auf einem 

Chip befinden. Dabei ist explizit paralleles Programmieren erforderlich. 

Die Hardware muss mehrere Instructions gleichzeitig ausführen. Was und wie es geschieht, 

soll jedoch vor dem Benutzer verborgen bleiben. 

12

Chapter 2: Instructions – Language of the Computer 

Instruction Set 

Unter einem Instruction Set versteht man den Wortschatz mit den Befehle, die eine bestimmte 

Architektur versteht. 

Unterschiedliche Computer können auch unterschiedliche Instruction Sets haben. Allerdings 

haben sie stets viele Aspekte gemeinsam. 

In frühen Computern waren die Instruction Sets sehr simple. Aber auch heute gibt es moderne 

Computer, deren Instruction Sets sehr simple sind. 

Eines der bekannten Instruction Sets ist das MIPS Instruction Set. 

MIPS-32 ISA ist in unterschiedliche Instruction-Kategorien aufgeteilt, die hier aufgelistet 

werden: 

 

 

 

 

 

 

Computational (rechenbetont) 

Load/Store (laden/speichern) 

Jump and Branch (Sprung und Verzweigung) 

Floating Point (Gleitkomma) 

wichtig dabei: Coprocessor (= Teil eines 

Rechnersystems, das einen peripheren Prozessor 

gegenüber dem zentralen Prozessor (CPU) darstellt, weil 

er unterstützende Funktionen, insbesondere bei 

mathematischen Aufgaben, erfüllt) 

Memory Management (Speicherverwaltung) 

Special 

Arithmetische Operationen in der MIPS Architektur 

Die Addition, die Subtraktion, die Multiplikation und die Division sind die vier grundlegenden 

Rechenarten in der Arithmetik. 

Arithmetische Operationen sind in der MIPS Architektur stets gleich aufgebaut: 

• drei Operanden 

o zwei Quellen 

o ein Ziel 

13

Beispiel für die Addition: 

add a, b, c 

# a gets b + c 

Design Prinzip 1: 

Simplicity favours regularity (Einfachheit begünstigt Regelmäßigkeit) 

Regelmäßigkeit macht die Implementierung einfacher 

Einfachheit ermöglicht höhere Performance und niedrigere Kosten/Aufwand 

Beispiel aus der Arithmetik: 

C code: 

f = (g + h) – (i + j) 

Compiled MIPS code: 

add t0, g, h # temp t0 = g + h 

add t1, i, j # temp t1 = i + j 

sub f, t0, t1 # f = t0 – t1 

Für Operanden arithmetischer Befehle gelten bestimmte Einschränkungen. Sie müssen an 

speziellen Stellen im Rechner bereitstehe, die jedoch nur in einer beschränkten Anzahl zur 

Verfügung stehen: den Registern. 

Register sind elementare Komponenten beim Hardware-Entwurf und bilden die 

Grundbausteine für den Aufbau von Rechnern. Nach der Fertigstellung des Rechners sind sie 

auch für den Programmierer sichtbar. 

Die Größe eines Registers bei der MIPS Architektur beträgt 32 Bit. 

Die Zusammenfassung von 32 Bit zu einer Einheit geschieht sehr häufig und erhält deshalb 

bei der MIPS Architektur eine eigene Bezeichnung, nämlich Word. 

Die übliche Anzahl von Registern in einem Rechner ist 32. Der Unterschied zu Variablen ist, 

dass diese unbegrenzt sind, während Register nur in begrenzter Anzahl zur Verfügung stehen. 

Die Register in der MIPS Architektur sind von 0 bis 31 nummeriert. 

Wie spricht man Register an? 

Die Konvention bei MIPS für die Bezeichnung von Registern ist das Dollarzeichen gefolgt 

von zwei Zeichen. Zurzeit werden folgende Bezeichnungen verwendet: 

$t0, $t1, …, $t9 für temporärere Werte 

(zum Kompilieren des Programms in MIPS Befehle benötigt) 

$s0, $s1, …, $s7 für gespeicherte Variablen 

(entsprechen einer Variablen in C und Java-Programmen) 

14


Smaller is faster (Kleiner ist schneller) 

 

Bsp. MIPS: große Anzahl von Registern kann zu einer längeren Taktzykluszeit 

führen, da die elektronischen Signale für den weiteren Weg mehr Zeit benötigen. 

Beispiel für Registeroperanden: 

C code: 

f = (g + h) – (i + j); 

f, …, j in $s0, …, $s4 


add $t0, §s1, $s2 

add $t1, $s3, $s4 

sub $s0, $t0, $t1 

# temp t0 = g + h 

# temp t1 = i + j 

# f = t0 – t1 

Register sind: 

 

 

 

schneller als der Hauptspeicher 

o aber Registerfiles mit mehr Locations sind langsamer 

o Read/write port erhöht die impacts speed (Aufprallgeschwindigkeit) 

quadratisch 

einfacher für den Compiler zu verwenden 

o z.B. (A*B) – (C*D) – (E*F) kann in einer beliebigen Reihenfolge 

multiplizieren (vs. Stack) 

können Variablen so speichern, dass sich die Codedichte verbessert 

o Registernamen benötigen weniger Bits als eine Memory Location 

15

Speicheroperanden (Memory Operands) 

Datenstrukturen wie Arrays, Strukturen und dynamische Daten werden im Hauptspeicher 

abgelegt. Register können nur eine kleine Menge von Daten halten, der Hauptspeicher kann 

hingegen Millionen von Datenelementen speichern. 

Da bei arithmetischen Operationen im MIPS-Befehlssatz nur Register verwendet werden, 

muss es auch eine Möglichkeit geben, Daten zwischen Hauptspeicher und Register zu 

transportieren. Diese Befehle werden data transfer instructions (Datentransfer-Befehle) 

genannt. Wichtig ist dabei: 

das Laden von Werten aus dem Hauptspeicher in die Register 

das Speichern von Ergebnissen aus den Registern im Hauptspeicher 

Um auf ein Wort im Hauptspeicher zugreifen zu können, benötigt man in dem entsprechenden 

Befehl die Speicheradresse (address). Jede Adresse identifiziert ein 8-bit Byte. 

Words sind im Hauptspeicher aneinander gereiht. Die Adresse muss also ein Vielfaches von 4 

sein. Grund: ein Word hat 32-Bit, also 4 Byte. Die Adresse 0 beispielsweise adressiert den 

Beginn der ersten 32-Bit. Die nächsten 32-Bit liegen dann also nicht unter der Adresse 1, 

sondern unter der Adresse 4 (4 Bytes weiter). 

MIPS verwendet Big Endian. Im Gegensatz 

dazu gibt es noch Little Endian. 

Der Unterschied ist folgender: 

Bei Big Endian ist das Byte ganz links die Word-Adresse. 

Bei Little Endian ist das Byte ganz rechts die Word-Adresse. 

Beispiel: 

Die Ganzzahl 439.041.101 (439 Millionen...) wird als 32-Bit-Integer-Wert gespeichert (Binär: 

00011010 00101011 00111100 01001101, hexadezimal: 1A 2B 3C 4D). Die Speicherung 

erfolgt in vier Bytes ab der hypothetischen Speicheradresse 10000. 

Wenn die Speicherung in der Reihenfolge 1A 2B 3C 4D erfolgt, entspricht dies Big Endian. 

Die Speicherung in der umgekehrten Reihenfolge (4D 3C 2B 1A), also das am wenigsten 

signifikante Byte an der niedrigsten Speicheradresse, entspricht dagegen Little Endian. 

Einige ältere Systeme (z. B. PDP-11) speichern die Daten auch in der Reihenfolge 3C 4D 1A 

2B oder auch 2B 1A 4D 3C. Dies wird als Middle Endian bezeichnet. 

(Quelle: Wikipedia) 

16

Register vs. Memory 

• Auf Register kann schneller zugegriffen werden als auf den Hauptspeicher 

• Wenn man mit Daten aus dem Hauptspeicher arbeitet, sind loads und stores 

erforderlich 

o mehr Instruktionen müssen ausgeführt werden 

• Der Compiler muss so oft wie möglicher Register für Variablen verwenden 

o nur Variablen, die weniger oft verwendet werden, sollen an den Hauptspeicher 

gehen 

o die Optimierung bezüglich Register ist wichtig! 

Beispiele für Speicheroperanden: 

C code: 

g = h + A[8] 

g in $s1, h in $s2, base address von A in $s3 


Index 8 erfordert ein Offset von 32 (4 Byte pro Word) 

lw $t0, 32($s3) # load word 

add $s1, $s2, $t0 

32 ist das Offset, $s3 das base register 

C code: 

A[12] = h + A[8] 

h in $s2, base address von A in $s3 


Index 8 erfordert ein Offset von 32 

lw $t0, 32($s3) # load word 

add $t0, $s2, $t0 

sw $t0, 48($s3) # store word 

Konstanten oder Direktoperationen 

In Programmen werden in Operationen häufig Konstanten verwendet, z.B. beim 

Inkrementieren eines Index, damit dieser auf das nächste Element eines Felds zeigt. Wenn wir 

nur die bisher bekannten Befehle verwenden würden müssten wir eine Konstante aus dem 

Hauptspeicher laden, um sie zu verwenden (diese müsste beim Laden des Programms im 

Speicher abgelegt werden). 

17

Eine Alternative, die keinen Ladebefehl erfordert, besteht darin, Versionen der arithmetischen 

Befehle bereitzustellen, bei denen ein Operand eine Konstante ist. Dieser schnelle Add-Befehl 

wird als add immediate („addiert direkt“) oder addi bezeichnet. 

Um beispielsweise die Konstante 4 zum Inhalt des Registers $s3 zu addieren, schreiben wir 

einfach: 

addi $s3, $s3, 4 # $s3 = $s3 + 4 

anstelle von 

lw $t0, AddrConstant4($s1) # §t0 = 4 

add $s3, $s3, $t0 

Für die Subtraktion gibt es keine immediate instruction. Allerdings kann man einfach eine 

negative Konstante verwenden. 

addi $s2, $s1, -1 


Make the common case fast (Optimiere den häufig vorkommenden Fall) 

Kleine Konstanten sind üblich 

der Immediat Operand vermeidet eine Load Instruction 

Die Konstante Null 

Im MIPS Register 0 ist die Konstante 0 gespeichert ($zero). Diese kann nicht überschrieben 

werden! Sie ist bei häufig vorkommenden Operationen nützlich, z.B. beim Verschieben vom 

Inhalt eines Registers zu einem anderen Register. 

add $t2, $s2, $zero 

Vorzeichenbehaftete und nicht-vorzeichenbehaftete Zahlen 

Da Computer sowohl positive als auch negative Zahlen berechnen, wird eine Darstellung 

benötigt, um diese zu unterscheiden. Eine Lösung wer, ein gesondertes Zeichen einzufügen, 

das sich in geeigneter Weise mit einem einzigen Bit darstellen lässt. Diese Darstellung wird 

als Vorzeichen-Betrag-Darstellung bezeichnet. Nachteile dabei sind allerdings, dass nicht 

genau klar ist, wo das Vorzeichen eingefügt werden soll (rechts oder links?). Außerdem muss 

18

das Vorzeichen stets extra mitbeachtet werden (beim Berechnen einer Zahl muss es 

anschließend richtig gesetzt werden; es macht eine positive und eine negative 0 möglich, was 

zu Fehlern führen kann, etc.). Aufgrund der Nachteile wurde diese Idee nicht weiter verfolgt. 

Alternative: Subtrahiert man eine große Zahl von einer kleinen, wird wegen der führenden 

Nullen jeweils eine 1 weitergegeben, so dass das Ergebnis eine Folge aus führenden Einsen 

enthält. Deshalb kam man auf die Lösung, dass führende 0en für eine positive Zahl stehen 

und führende 1en für eine negative Zahl. Diese Darstellung wird als Zweier-Komplement- 

Darstellung bezeichnet. Bei 32 Bit wäre also Bit 31 das sogenannte sign bit. 

Vorzeichenlose Zahlen haben dabei dieselbe vorzeichenlose und Zweier-Komplement- 

Darstellung. 

Ein einfacher Weg, um eine vorzeichenbehaftete Zahl zu negieren? 

Der einfachste Weg ist, das Komplement der Zahl zu bilden (d.h. alle 1 werden zu 0 und alle 

0 werden zu 1) und anschließend 1 zu addieren. 

Beispiel: 

+2 = 0000 0000 … 0010 2 

–2 = 1111 1111 … 1101 2 + 1 

= 1111 1111 … 1110 2 

Sign Extension (Vorzeichenerweiterung) 

Beispiel: 8-bit zu 16-bit 

+2: 0000 0010 0000 0000 0000 0010 

–2: 1111 1110 1111 1111 1111 1110 

________________ 

Können die beiden Summanden beliebige Werte annehmen, ist für eine korrekte Addition in 

Zweierkomplementdarstellung eine Vorzeichenerweiterung nötig. Dabei wird von beiden 

Summanden zunächst die oberste Stelle dupliziert und somit die Stellenanzahl um eins 

vergrößert. In diesen Beispielen die 8. Stelle, welche auf die 9. Stelle kopiert wird. 

Anschließend wird die Addition wie oben, aber mit 9 Stellen, durchgeführt. Das Addierwerk 

muss dazu immer eine Stelle mehr umfassen. 

Unterscheiden sich in der berechneten Summe dann die höchstwertige und die Stelle darunter 

voneinander, ist das Ergebnis nicht mehr im Wertebereich der Summanden darstellbar – es ist 

ein Überlauf aufgetreten. Je nach Anwendungsfall wird dann mit dem um ein Bit breiteren 

und korrekten Ergebnis weitergerechnet oder ein Fehlerabbruch ist die Folge. 

Beispiel: Die Addition der beiden positiven Zahlen 50 und 80 ergibt 130 und überschreitet 

damit den Wertebereich. Die Zahl passt zwar noch in eine 8-Bit-Variable, aber das 8. Bit ist 

jetzt gesetzt, so dass die Zahl fälschlicherweise negativ erscheint. Manche Mikroprozessoren 

wie der 6502 melden ein solches Ereignis mit einem eigenen Statusbit, hier dem Overflow-Bit 

O, das der Programmierer nach vorzeichenbehafteten Rechenoperationen abfragt und 

entsprechend reagieren kann. 

19

Beispiel für Vorzeichenerweiterung, die 9. Stelle der Vorzeichenerweiterung ist zur 

Verdeutlichung in Klammern geschrieben: 

+4 + 127 = +131 führt zu −4 − 127 = −131 führt zu 

(0)00000100 (1)11111100 

+ (0)01111111 + (1)10000001 

----------- ----------- 

Ü (0)11111000 Ü (1)00000000 

----------- ----------- 

= (0)10000011 = (1)01111101 

In beiden Fällen unterscheiden sich die 8. und 9. Stelle voneinander, eine Reduktion auf 8 Bit 

würde zu einem Fehler führen. Zur Verdeutlichung und Vergleich die obigen beiden Beispiele 

mit Vorzeichenerweiterung: 

+4 − 3 = +1 führt zu −4 − 3 = −7 führt zu 

(0)00000100 (1)11111100 

+ (1)11111101 + (1)11111101 

----------- ----------- 

Ü (1)11111000 Ü (1)11111000 

----------- ----------- 

= (0)00000001 = (1)11111001 

in beiden Fällen unterscheiden sich die 8. und 9. Stelle der Summe nicht, die beiden 

Ergebnisse können somit korrekt wieder auf 8 Stellen reduziert werden. Generell kann die 

Stellenanzahl in der Zweierkomplementdarstellung, von oben beginnend, so lange und ohne 

Verfälschung des Wertes reduziert werden, bis sich die beiden obersten Stellen im Wert 

voneinander unterscheiden. Das verdeutlicht den Umstand, dass bei der Zweierkomplementdarstellung 

von Zahlen keine fixe Stelle für die Codierung des Vorzeichens existiert. 

Quelle: Wikipedia 

Darstellung von Instructions (Befehlen im Rechner) 

Instructions sind binär codiert. Die Bezeichnung dafür lautet Maschinencode. 

Befehle werden im Rechner als Folge elektronischer Signale mit jeweils hohem und 

niedrigem Potenzial betrachtet und können somit als Zahlen interpretiert werden. Die 

einzelnen Zahlen aneinander gereiht ergeben den Befehl. In MIPS ist genau festgelegt, welche 

Register welchen Stellen zuordnet werden. 

20

Damit es leichter ist, MIPS Felder anzusprechen, haben diese bestimmte Namen: 

op 6-bits opcode; spezifiziert die Operation 

rs 5-bits register file address des ersten Source-Operanden 

rt 5-bits register file address des zweiten Source-Operanden 

rd 5-bits register file address des Ziels für das Ergebnis 

shamt 5-bits shift amount (für shift instructions) 

funct 6-bits function code; erweitert den opcode 

R-Typ (für Register) oder auch R-Format 

Hexadezimal 

Hexadezimal-Darstellung ist eine kompakte Repräsentation von Bit Strings. Die Basis ist 16. 

Jede hex digit (hex Ziffer) besteht aus 4 bits. 

Da 16 eine Potenz von 2 ist, kann einfach jede Gruppe mit vier Binärziffern durch eine 

hexadezimale Ziffer ersetzt werden. 

21

MIPS I-format Instructions 

Immediat arithmetic instructions und load/store instructions sind so aufgebaut wie es die 

obere Graphik zeigt. 

rt ist dabei die Ziel- oder Quell-Register-Nummer 

Die Konstante bewegt sich im Bereich –2 15 bis +2 15 – 1 

Die Adresse ist ein Offset, dass zur base address in rs addiert wird 

Diese Instructions müssen anders aufgebaut werden (als andere MIPS Befehle). Grund dafür 

ist, dass sie längere Felder brauchen als sie in der op-rs-rt-rd-shamt-funct-Darstellung 

bereitgestellt werden. Beispiel: Im Load-word-Befehl müssen zwei Register und eine 

Konstante angegeben werden. Würde man für die Adresse eines der 5-Bit-Felder verwenden, 

wäre die Konstante auf nur 2 5 (= 32) begrenzt. Das ist oftmals zu klein. Daher gibt es 

unterschiedliche Formate für unterschiedliche Befehlsarten. 

Das Format, das in diesem Abschnitt vorgestellt wurde, wird I-Typ (für immediate = direkt) 

oder auch I-Format genannt und für Immediate- und Datentransfer-Befehle verwendet. 

Die unterschiedlichen Formate unterscheiden sich durch die Werte im ersten Feld. Jedem 

Format ist eine Reihe von Werten im ersten Feld (op) zugewiesen, do dass die Hardware 

weiß, ob die zweite Hälfte des Befehls als drei Felder (R-Typ) oder als ein Feld (I-Typ) 

behandelt werden muss. 


Good design demands good compromises (Ein guter Entwurf erfordert gute Kompromisse) 

 

 

Unterschiedliche Formate machen das Entschlüsseln komplizierter, aber erlauben im 

oben beschriebenen Fall ein größeres Feld z.B. für die Konstante 

die Formate sollen so ähnlich wie möglich gehalten werden 

Überblick: MIPS (RISC) Design Principles 

1. Simplicity favours regularity 

Instructions mit fixer Länge 

kleine Anzahl an unterschiedlichen Instruction Formaten 

die ersten 6 bits machen immer den opcode aus 

2. Smaller is faster 

limitiertes instruction set 

limitierte Anzahl an Registern im Register File 

limitiere Anzahl an addressing modes (Adressverfahren/-art) 

22

3. Make the common case fast 

arithmetische Operanden werden dem Register File entnommen (load-storemachine) 

es ist erlaubt, dass Instructions immediat operands enthalten 

4. Good design demands good compromises 

drei Instruction Formate 

Computer von heute beruhen auf zwei Grundprinzipien: 

1. Befehle werden in Form von Zahlen dargestellt 

2. Programme werden wie Zahlen im 

Hauptspeicher gespeichert, um gelesen oder 

geschrieben werden zu können 

Die Tatsache, dass Befehle in Form von Zahlen 

dargestellt werden können, hat zur folge, dass 

Programme häufig als Dateien mit Binärzahlen 

ausgeliefert werden. Die kommerzielle Folge hiervon 

ist, dass Rechner fertige Programme übernehmen 

können, vorausgesetzt sie sind zu einem vorhandenen 

Befehlssatz kompatibel. Diese „Binärkompatibilität“ 

führt dazu, dass sich die Industrie auf wenige 

Befehlssatzarchitekturen konzentriert. 

Logische Operationen 

Logische Operationen dienen der bitweisen Manipulation. Oft ist es wichtig, auf Bitfelder in 

einem Wort oder auch auf einzelne Bits zugreifen zu können. Logische Operationen sind z.B. 

nützlich für das Extrahieren bzw. Einfügen von Gruppen an Bits aus einem bzw. in ein Word. 

Eine Klasse dieser Operationen sind die Schiebeoperationen oder auch Shift Operations. 

Sie schieben alle Bits in einem Wort nach links oder nach rechts, wobei die frei werdenden 

Bits mit einer Null aufgefüllt werden. 

23

Um auf die MIPS Architektur zurückzukommen: das 5-bits-Feld shamt bei einer Instruction 

kann speichern, um wie viele Positionen geshiftet werden soll. 

sll by i bits multipliziert dabei mit 2 i 

srl by i bits dividert durch 2 i 

(shift logical left) 

(shift logical right) 

Beispiel: 

sll $t2, $s0, 4 

# Reg. $t2 = Reg. $s0

Im vollständigen MIPS-Befehlssatz gibt es weiters auch ein XOR (Exklusives ODER), das 

das Bit auf 1 setzt, wenn sich zwei einander entsprechende Bits unterschieden, und auf 0, 

wenn sie gleich sind. 

Conditional Operations (Befehle zum Treffen von Entscheidungen) 

Ein Computer kann Entscheidungen treffen. Abhängig von den Eingabedaten und den 

während der Berechnung erhaltenen Werten werden unterschiedliche Befehle ausgeführt. In 

Programmiersprachen finden sich Entscheidungen in der Regel in Form von if-Anweisungen, 

gelegentlich auch zusammen mit Go-To-Anweisungen und Sprungmarken. 

In der MIPS Architektur gibt es für solche Entscheidungen folgende (ähnliche) Befehle: 

beq rs, rt, L1 

wenn (rs == rt) wird eine Verzweigung zur Instruction, die mit L1 markiert ist, gestartet 

bne rs, rt, L1 

wenn (rs != rt) wird eine Verzweigung zur Instruction, die mit L1 markiert ist, gestartet 

Weiters gibt es noch die Jump-Anweisung, die folgendermaßen aussieht: 

j L1 

dabei wird zur Instruction L1 gesprungen, ohne dass eine Bestimme Bedingung erfüllt sein 

muss. 

Was versteht man unter einem Basic Block? 

Eine Befehlsfolge ohne Sprünge, außer möglicherweise m Ende der Befehlsfolge, und ohne 

Sprungziel oder Sprungmarke, außer möglicherweise am Anfang der Befehlsfolge, werden als 

Basisblock (oder Grundblock) bezeichnet. 

Einer der ersten Schritte beim Kompilieren besteht darin, das Programm in Grundblöcke zu 

zerlegen. 

Besonders häufig wird die Gleichheit oder Ungleichheit zweier Werte geprüft. Gelegentlich 

ist es aber auch hilfreich, festzustellen, ob eine Variable z.B. kleiner als eine andere Variable 

ist. Wichtig ist das z.B. bei einer for-Schleife (abfragen, ob eine Index-Variable kleiner 0 ist). 

Dafür gibt es in der MIPS Architektur folgenden Befehl: 

slt $t0, $s3, $s4 # $t0 = 1 if $s3 < $s4, sonst 0 

slt steht dabei für set less than. 

25

Es gibt auch eine immediate Version des slt-Befehls, da Konstanten als Operanden gerne für 

einen solchen Vergleich herangezogen werden. Beispiel hierfür: 

slti $t0, $s2, 10 # $t0 = 1 if $s2 < 10, sonst 0 

Der Befehl slt kann in Kombination mit beq, bne verwendet werden. Beispiel hierfür: 

slt $t0, $s1, $s2 

bne $t0, $zero, L 

# if ($s1 < $s2) 

# branch to L 

Frage: Warum gibt es die Befehle blt, bge, etc. nicht? 

Die Hardware für

Die MIPS Assembler Sprache hat einen speziellen Befehl für Prozeduraufrufe: Dieser Befehl 

springt zu einer Adresse und speichert dabei die Adresse des nachfolgenden Befehls im 

Register $ra. Dieser Befehl wird jump-and-Link-Befehl (jump-and-link instruction) genannt 

und wie folgt geschrieben: 

jal ProcedureAddress 

Der Link-Teil des Namesn bedeutet, dass eine Adresse festgehalten wird bzw. ein Verweis 

auf die Stelle des Aufrufs gebildet wird, so dass die Prozedur an die richtige Adresse 

zurückkehren kann. Diese Adresse wird im Register $ra gespeichert und als 

Rücksprungadresse (return address) bezeichnet. 

Ein Rücksprung ist mit folgendem Befehl möglich, dem jump-Register-Befehl. 

jr $ra 

Die main routine ist die aufrufende Prozedur, genannt caller. Sie speichert die Parameter in 

$a0 - $a3 und springt mithilfe des Befehls jal X zur Prozedur x (auch als aufgerufene 

Prozedur oder callee bezeichnet). 

Der Caller überträgt die Kontrolle auf den Callee. 

1. Der Callee erwirbt die benötigten Speicherressourcen 

2. Der Callee führt den gewünschten Task aus 

3. Der Callee platziert das Ergebnis an einem Ort, an dem der Caller es erreichen kann 

 

$v0 - $v1 sind zwei value register für Ergebniswerte 

4. Der Callee gibt die Kontrolle an den Caller zurück 

 

$ra ist das Register für die return address, um zum Ausgangspunkt 

zurückzukehren 

Es ist auch ein Register für die Adresse des gerade auszuführenden Befehls notwendig. Dieses 

Register wird als Befehlszähler (programm counter) bezeichnet, abgekürzt PC. 

Befehlsadressregister wäre allerdings eine treffendere Bezeichnung. 

Wenn die Procedur also mit dem Befehl jr $ra zum Ausgangspunkt zurückspringt, muss 

dieses auch zum PC kopiert werden. 

Geschachtelte Prozeduren 

Prozeduren, die keine anderen Prozeduren aufrufen, werden als Blattprozeduren (Leaf 

Procedure) bezeichnet. Non-Leafe Procedures sind dann natürlich Prozeduren, die auch 

andere Prozeduren aufrufen. Damit solche verschachtelten Aufrufe möglich sind, muss der 

Caller folgendes am Stack abspeichern: 

- seine Return-Adresse 

- alle Argumente und Temporaries (vorübergehenden Werte), die nach dem Aufruf 

benötigt werden 

27

All das muss nach dem Aufruf einer anderen Prozedur vom Stack geholt und wiederhergestellt 

werden. 

Stack 

Eine als LIFO (Last in first out) Warteschlange organisierte Datenstruktur zum Auslagern von 

Registern. 

Stack Pointer 

Ein Wert, der die in einem Stack zuletzt reservierte Adresse angibt und anzeigt, von welcher 

Position an auszulagernde Register gespeichert werden müssen oder wo alte Registerwerte 

gefunden werden können. In MIPS ist dies das Register $sp. 

Der Stack wird nicht nur dazu verwendet, bei Non-Leaf-Prozeduren wichtige Werte 

abzulegen, sondern auch, um Variablen zu Speichern, die nicht in Register passen, z.B. lokale 

Felder und Strukturen. 

Das Segment im Stack, das die geretteten Register und lokalen Variablen einer Prozedur 

enthält, wird als Procedure Call Frame bezeichnet. Manche MIPS Software verwendet einen 

Frame Pointer, der auf das erste Wort in einem Procedure Frame zeigt. 

a) vor dem Prozeduraufruf 

b) während dem Prozeduraufruf 

c) nach dem Prozeduraufruf 

28

Memory Layout 

Neben den für Prozeduren lokalen Variablen vom Typ automatic benötigen C-Programmierer 

Speicherplatz für statische Variablen und für dynamische Datenstrukturen. 

Der Stack beginnt am oberen Speicherende und 

wächst nach unten. 

Der erste Teil am unteren Speicherende ist 

reserviert. 

Diesem Teil folgt der Bereich mit dem MIPS- 

Maschinencode, der als Testsegment 

bezeichnet wird. 

Über dem Code befindet sich das statische 

Datensegment, in dem Konstanten und andere 

statische Variablen abgelegt werden. Felder 

haben eine fixe Länge und werden im statischen 

Datensegment abgelegt. 

Datenstrukturen wie beispielsweise verkettete 

Liste, verändern dagegen ihre Länge im Laufe ihrer Lebensdauer. Das für Datenstrukturen 

dieser Art servierte Segment wird als Heap (Halde) bezeichnet. 

Character Data 

• Byte-encoded character sets 

o ASCII: 128 characters 

o Latin-1: 256 characters 

• Unicode: 32-bit character set 

o verwendet in Java, C++,... 

o ist ein internationaler Standard, in dem langfristig für jedes sinntragende 

Schriftzeichen oder Textelement aller bekannten Schriftkulturen und 

Zeichensysteme ein digitaler Code festgelegt wird. Ziel ist es, die Verwendung 

unterschiedlicher und inkompatibler Kodierungen in verschiedenen Ländern 

oder Kulturkreisen zu beseitigen. Unicode wird ständig um Zeichen weiterer 

Schriftsysteme ergänzt. 

Byte/Halfword Operations 

Beim MIPS-Befehlssatz gibt es spezielle Befehle zum Laden und Speichern von 16-Bit- 

Größen (bei Unicode wird ein Zeichen standardgemäß mit 16 Bit dargestellt). Diese 16-Bit- 

Größen werden als Halbwörter bezeichnet. 

Der load-halfword-Befehl ( lh ) lädt ein Halbwort aus dem Hauptspeicher und legt es in den 

rechtsbündigen 16 Bit eines Registers ab. Wie load byte behandelt load half das Halbwort als 

vorzeichenbehaftete Zahl und führt deshalb eine Vorzeichenerweiterung aus, um die 16 

linksbündigen Bit des Registers aufzufüllen, während load halfword unsigned ( lhu ) mit 

vorzeichenlosen Integern arbeitet. lhu ist deshalb der gebräuchlichere Befehl. 

29

Der store half Befehl ( sh ) nimmt ein halbwort aus den rechtbündigen 16 Bit eines Registers 

und schreibt es in den Hauptspeicher. 

32-Bit-Konstanten 

In der Regel sind Konstanten kurz und passen in das 16-Bit-FEld. Gelegentlich sind sie 

jedoch etwas länger. Der MIPS-Befehlssatz enthält den Befehl lui (load upper immediate, 

lade höherwertige Hälfte des Direktoperanden), mit dem die höherwertigen 16 Bit einer 

Konstante in ein Register geladen werden, so dass in einem nachfolgenden Befehl die 

niederwertigen 16 Bit der Konstante spezifiziert werden können. 

Branch Adressing 

Bei bedingten Verzweigungsbefehlen müssen neben der Sprungadresse zwei Operanden 

angegeben werden. Das Format ist: opcode, zwei Register, eine Zieladresse für den Sprung 

Bedingte Sprünge findet man z.B. in Schleifen und in if-Anweisungen, d.h. bedingte Sprünge 

verweisen auf nahe gelegene Befehle. Da der PC die Adresse des aktuellen Befehls enthält, 

können wir in einen Bereich von +/– 2 15 Wörtern vom aktuellen Befehl aus verzweigen, wenn 

wir den PC als Register verwenden, das zur Adresse addiert wird. Fast alle Schleifen und If- 

Anweisungen sind wesentlich kleiner als 2 16 Wörter, sodass der PC hierfür die richtige Wahl 

darstellt. Diese Art der Adressierung bei Sprüngen wir als PC-relative addressing 

bezeichnet. 

Target address = PC + offset x 4 

(der PC ist zu dieser Zeit bereits um 4 erhöht, da er während dem fetch cycle bereits um 4 für 

den nächstfolgenden Befehl erhöht wird) 

30

Jump Adressing 

Die MIPS-Sprungbefehle verwenden die einfachste Adressierungsart. Für sie gibt es ein 

weiteres MIPS-Befehlsformat, das sogenannte J-Typ-Format. Es setzt sich aus dem 6 Bit 

breiten Operationsfeld und dem Adressfeld usammen, das die restlichen Bits umfasst. 

Branching Far Away 

Die meisten bedingten Sprünge verzweigen innerhalb eines beschränkten Adressbereichs. Es 

gibt jedoch Situationen, in denen weiter verzweigt werden muss, als dies in den 16 Bit des 

bedingten Sprungbefehles dargestellt werden kann. Der Assembler löst dieses Problem auf 

ähnliche Weise wie das Problem mit den langen Adressen bzw. Konstanten: Er fügt einen 

unbedingten Sprung mit dem Sprungziel nach der Verzweigung ein und invertiert die 

Bedingung, so dass die Verzweigung entscheidet, ob der Sprung genommen wird. 

Beispiel: 

Erklärung: Die erste Zeile vergleicht, ob $s0 und $s1 gleich sind und springt, falls es der Fall 

ist, zu L1. Die zweite Lösung ist gleich darunter. Es wird verglichen, ob $s0 und $s1 nicht 

gleich sind. Sind sie nicht gleicht, wird zu L2 gesprungen und somit der jump zu L1 

übersprungen. Sind sie jedoch gleich, wird der Jump-Befehl (der mehr Platz bietet 26 bits) 

zu L1 ausgeführt. 

Synchonisation 

Parallele Ausführung ist dann einfach, wenn die betreffenden Tasks voneinander unabhängig 

sind, aber häufig müssten Tasks zusammenarbeiten. Zusammenarbeiten bedeutet in der Regel, 

dass einige Tasks neue Werte schreiben, die die anderen lesen müssen. Um zu erkennen, 

wann ein Task mit dem Schreiben fertig ist, so dass eine andere sicher lesen kann, müssen 

sich die Tasks synchronisieren. Wenn sie sich nicht synchronisieren, besteht die Gefahr eines 

Data Race, wobei das Programmergebnis davon abhängig sein kann, welche Ereignisse 

zuerst auftreten. 

Deshalb ist hier Hardware Support erforderlich! Read und write memory Operationen müssen 

atomar sein (unteilbar), d.h. es ist kein anderer Zugriff zwischen read und write erlaubt. 

31

Erst wird ein load linked ( ll ) ausgeführt und danach ein store conditional ( sc ). 

Erfolgreich ist die Ausführung dann, wenn sich die Location seit dem load linked nicht 

geändert hat (gibt 1 in rt zurück). Die Ausführung schlägt fehl, wenn sich die Location 

geändert hat (gibt 0 in rt zurück). 

Assembler Pseudoinstructions 

Die meisten Assembler Instructions repräsentieren die Maschinenbefehle eins zu eins. 

Allerdings gibt es auch sogenannte Pseudoinstructions. Diese sind Erfindungen der 

Assembler-Vorstellung. Beispiele dafür sind: 

move $t0, $t1 add $t0, $zero, $t1 

blt $t0, $t1, L slt $at, $t0, $t1 

bne $at, $zero, L 

($at ist Register 1: assembler temporary) 

Performance Vergleich für Bubble (exchange) Sort: 

Der unoptimierte Code hat den besten CPI, die O1 Version hat den niedrigsten IC, aber O3 ist 

am schnellsten. 

Gelerntes Wissen: 

- IC und CPI sind keine guten Performance Indikatoren (in Isolation) 

- Compiler Optimierungen sind empfindlich auf den Algorithmus 

- Java/JIT compiled Code ist deutlich schneller als JVM (Java Virtual Machine) 

interpreted 

- nichts kann einen schlechten Algorithmus wettmachen 

32

Chapter 3: Arithmetic for Computers 

Arithmetic Logic Unit (ALU) 

Hardware, die die Addition und die Subtraktion ausführt, 

ebenso wie üblicherweise logische Operationen wie UND 

und ODER, kurzum: die ALU ist für arithmetische 

Operationen sowie logische Operationen zuständig. 

Bei der Addition werden die Ziffern Bit für Bit von rechts nach links addiert, wobei die 

Überträge jeweils auf die nächste Stelle links weitergegeben werden. Auf für die Subtraktion 

wird die Addition verwendet: Der entsprechende Operand wird lediglich vor der Addition 

negiert. 

Overflow bei einer Addition? 

Ein Overflow bedeutet, dass ein Teil der errechneten Zahl außerhalb des zulässigen Bereichs 

ist, d.h. dass das Ergebnis nicht korrekt dargestellt werden kann. 

 

 

 

Addiert man einen positiven und einen negativen Operand, kommt es zu keinem 

Overflow 

Addiert man zwei positive Operanden 

o es ist ein Overflow, wenn das Vorzeichenbit des Ergebnisses 1 ist 

Addiert man zwei negative Operanden 


Ebenso ist es bei der Subtraktion: 

 

 

 

Subtrahiert man zwei negative Operanden oder zwei positive Operanden, tritt kein 

Overflow auf 

Subtrahiert man einen positiven von einem negativen Operanden 


Subtrahiert man einen negativen von einem positiven Operanden 


33

Ein Overflow tritt auf, wenn das Ergebnis eines Operation nicht in 32-bits repräsentiert 

werden kann, z.B. wenn ein sign bit (Vorzeichenbit) eine Werte-Bit des Ergebnisses 

beinhaltet und nicht das eigentliche sign bit. 

wenn Operanden unterschiedlicher Vorzeichen addiert werden oder Operanden gleicher 

Vorzeichen subtrahiert, kann es niemals zu einem Overflow kommen 

MIPS signalisiert einen Overflow mit einer Exception (auch genannt: Interrupt). Das ist eine 

ungeplante Prozedur, wobei der EPC (exceptioin programm counter) die Adresse der 

Instruction enthält, die die Exception verursacht hat. 

Exception 

Wird bei manchen Rechnern auch als Unterbrechung bezeichnet. Ein im ursprünglichen 

Programm an dieser Stelle nicht vorgesehenes Ereignis, das die Programmausführung 

unterbricht. Dient beispielsweise zum Erkennen von Überläufen. 

Interrupt 

Eine Ausnahmesituation, die außerhalb des Prozessors verursacht wird. (Bei manchen 

Architekturen wird der Ausdruck Unterbrechung (interrupt) für alle Arten von 

Ausnahmeverarbeitungen verwendet). 

Manche Sprachen (z.B. C) ignorieren Overflow. Andere wiederum erwarten eine Exception. 

Arithmetic for Multimedia 

Graphik- und Mediasysteme arbeiten mit Vektoren von 8-bit und 16-bit Daten. Im 

Zusammenhang mit Medien ist der Begriff Sättigung (saturation) wichtig, des besagt, dass 

bei einem Overflow der Wert entweder auf die höchste positive oder die niedrigste negative 

Zahl gesetzt wird. Bei gewöhnlichen Mikroprozessoren findet man das normalerweise nicht. 

Sättigung wird aber eben bei Medien-Operationen gebraucht (z.B. Lautstärkereglern). 

Multiplikation 

Bei der binären Multiplikation wird der Multiplikand immer nach links verschoben, der 

Multiplikator nach rechts und die „Zwischenergebnisse“ addiert. 

34

Die einzelnen Schritte der Multiplikation (Multiplikand x Multiplikator) sind: 

1. Wenn an der Stelle des Muliplikators eine 1 steht, wird an der entsprechenden Stelle 

eine Kopie des Multiplikanden gesetzt (1 x Multiplikand), und 

2. wenn an der Stelle des Multiplikators eine 0 steht, wird an der entsprechende Stelle 

eine 0 (0 x Multiplikand) gesetzt 

Um die nächste Stelle des Multiplikators zu bekommen, erfolgt ein right shift. 

Damit die Addition korrekt erfolgt, muss beim Multiplikand ein left shift erfolgen. 

Ein Multiplier kann optimiert werden, indem für jeden Schritt nur ein Taktzyklus benötigt 

wird. Die Beschleunigung wird durch die parallele Ausführung der Operationen erzielt: Der 

Multiplikator und der Multiplikand werden verschoben, während der Multiplikand zum 

Produkt addiert wird, falls das Multiplikatorbit 1 ist. 

Eine Multiplikation kann schneller gemacht werden, indem mehrere Addierer verwendet 

werden. Anstatt z.B. einen 32-Bit-Addierer 32-mal zu verwenden, werden 31 Addierer 

verwendet. Jeder Addierer generiert eine 32-Bit-Summe und einen Übertrag. Das 

niedrigstwertige Bit ist ein Bit des Produkts, und der Übertrag und die obereren 31 Bit der 

Summe werden an den nächsten Addierer weitergeleitet. 

Für das Ganze kann eine Pipeline verwendet werden. 

Multiplikation bei MIPS 

Bei der MIPS-Architektur gibt es zwei getrennte 32-Bit-Register zum Speichern des 64-Bit- 

Produkts. Diese Register heißen Hi und Lo. Um ein Produkt mit oder ohne Vorzeichen 

generieren zu können, enthält der MIPS Befehlssatz zwei Befehle: multiply ( mult ) und 

multiply unsigned ( multu ). Um das ganzzahlige 32-Bit-Produkt zu holen, verwendet der 

Programmierer den Befehl move from lo ( mflo ). Der MIPS-Assembler generiert einen 

Pseudobefehl für die Multiplikation, in dem drei Allzweckregister angegeben sind, und 

speichert das Produkt mithilfe des Befehles mflo und mfhi in Registern. 

Division 

Dividend = Quotient x Divisor + Remainder (Rest) 

(Dividend / Divisor) 

35

Der Computer kann nicht wie der Mensch sofort 

erkennen, ob der Divisor kleiner als der Dividend ist. 

Er muss zunächst den Divisor vom Dividenden 

subtrahieren. 

Ist das Ergebnis positiv, ist der Divisor kleiner 

oder gleich groß wie der Dividend und wir generieren 

eine 1 im Quotienten. 

Wenn das Ergebnis negativ ist, besteht der 

nächste Schritt darin, den Anfangswert 

wiederherzustellen (Divisor und Rest werden 

addiert). Dann wird im Quotienten eine 0 generiert. 

Nun wird der Divisor nach rechts verschoben, und 

der Vorgang wird wiederholt. 

Nach Abschluss aller Wiederholungen befinden sich der Rest im Restregister und der 

Quotient im Quotientenregister. 

Der Algorithmus und die Hardware können verfeinert und damit schneller und billiger 

gemacht werden. Die Beschleunigung wird dadurch erzielt, dass das Verschieben der 

Operanden und des Quotienten gleichzeitig mit der Subtraktion erfolgt. Durch das 

Beobachten, wo Teile der Register und des Addierers ungenutzt bleiben, kann durch diese 

Verfeinerung die Bereite der Register und des Addierers halbiert werden. 

Den Trick der Multiplikation (31 Addierer) können wir hier nicht verwenden. Grund ist, dass 

wir das Vorzeichen der Differenz kennen müssen, bevor wir den nächsten Schritt des 

Algorithmus ausführen können. Eine andere Lösung ist die SRT-Division. Hierbei wird pro 

Schritt mit Hilfe der oberen Bits des Dividenden und des Rest in einer Tabelle 

nachgeschlagen und mit dem so gefunden Eintrag versucht, auf mehrere Bits des Quotienten 

zu schließen. Typischerweise werden heute pro Schritt 4 Bits betrachtet. Falsche Schlüsse 

müssen in nachfolgenden Schritten korrigiert werden. Es geht darum, auf den zu 

subtrahierenden Wert zu schließen. 

MIPS Division 

Hier werden wieder HI/LO Register für das Ergebnis verwendet. 

- HI: 32-bit Rest 

- LO: 32-bit Quotient 

Bei MIPS wird nicht auf Overflow oder Divide-By-0 überprüft! 

Floating Point 

Die Gleitkommadarstellung wird für nicht-ganzzahlige Zahlen verwendet (damit können also 

alle möglichen reellen Zahlen dargestellt werden). 

Es gibt die normalisierte Darstellung (eine Stelle vor dem Komma, mehr stellen nach dem 

Komma) und die nicht-normalisierte Darstellung. 

36

Bei Binärzahlen ist die Darstellung folgendermaßen: 

Die Typen für Gleitkommazahlen in C sind float und double. 

Es gibt zwei Arten der Repräsentation: 

• Single precision (Einfache Genauigkeit): 

o Ein Gleitkommawert, der in einem 32-Bit-Wort dargestellt wird 

• Double precision (Doppelte Genauigkeit): 

o Ein Gleitkommawert, der in zwei 32-Bit-Wörtern dargestellt wird 

(Fraction = Mantisse) 

S ist das Vorzeigen Bit (0 positiv, 1 negativ) 

Significand normalisieren: 1.0 ≤ | significand | ≤ 2.0 

o vor dem Kommapunkt steht immer ein 1 bit (normalisierte Darstellung), es muss 

daher nicht explizit repräsentiert werden 

o Significand ist Fraction zusammen mit der wiederhergestellten 1 

Exponent 

o der Exponent darf nicht negativ sein 

o Darstellung ist meist der eigentliche Exponent + Bias 

o Single precision: Bias = 127 

Double precision: Bias = 1023 

Single Precision-Range 

Die Exponenten 00000000 und 11111111 sind reserviert. 

Der kleinste Wert, der dargestellt werden kann, ist folgender: 

Exponent: 00000001 

der eigentliche Exponent ist = 1 – 127 = –126 

Fraction: 000…00 significand = 1.0 

+/– 1.0 x 2 -126 ~ +/– 1.2 x 10 -38 

37

Der größte Wert, der dargestellt werden kann, ist folgender: 

Exponent: 11111110 

eigentlicher Exponent = 254 – 127 = +127 

Fraction: 111…11 significand ~ 2.0 

+/– 2.0 x 2 +127 ~ +/– 3.4 x 10 +38 

Double Precision-Range 

Die Exponenten 0000…00 and 1111..11 sind reserviert. 

Der kleinste Wert, der dargestellt werden kann, ist folgender: 

Exponent: 000000000001 

der eigentliche Exponent ist = 1 – 1023 = –1022 

Fraction: 000…00 significand = 1.0 

+/– 1.0 x 2 -1022 ~ +/– 2.2 x 10 -308 

Der größte Wert, der dargestellt werden kann, ist folgender: 

Exponent: 111111111110 

eigentlicher Exponent = 254 – 1023 = +1023 

Fraction: 111…11 significand ~ 2.0 

+/– 2.0 x 2 +1023 ~ +/– 1.8 x 10 +308 

IEEE 754 

Die Norm IEEE 754 definiert Standarddarstellungen für binäre Gleitkommazahlen in 

Computern und legt genaue Verfahren für die Durchführung mathematischer Operationen, 

insbesondere für Rundungen, fest. 

Die IEEE 754 ist nicht einfach nur ein simples Format, sondern regelt auch anderes bzw. stellt 

die Funktionalität bereit: 

 

 

 

 

Rundungsalgorithmen 

Arithmetische Operationen 

Konvertierungen (zwischen Formaten, zu und von Strings, etc.) 

Exception Handling (nicht korrekte Zahlen wie z.B. die Wurzel einer negativen Zahl, 

Division durch 0, over/unter flow das Symbol NaN steht dabei für Not a Number) 

38

Floating Point Addition 

Anhand folgenden Beispiels soll die Addition von Gleitkommazahlen veranschaulicht 

werden: 

9.999 x 10 1 + 1.610 x 10 -1 

1. Die Dezimalpunkte müssen aneinander angepasst werden 

Die Zahl mit dem kleineren Exponenten muss geshiftet werden 

9.999 x 10 1 + 0.016 x 10 1 

2. Die Significands werden addiert 

9.999 x 10 1 + 0.016 x 10 1 = 10.015 x 10 1 

3. Das Ergebnis muss normalisiert werden und auf over/unterflow gecheckt werden 

1.0015 x 10 2 

4. Das Ergebnis wird gerundet und nochmals normalisieret, falls nötig 

1.002 x 10 2 

Nun erfolgt ein Beispiel mit einer 4-stelligen Binärzahl: 

1.000 2 x 2 -1 + –1.110 2 x 2 -2 (0.5 + –0.4375) 

1. Die Dezimalpunkte müssen aneinander angepasst werden 

Die Zahl mit dem kleineren Exponenten muss geshiftet werden 

1.000 2 x 2 -1 + –0.111 2 x 2 -1 

2. Die Significands werden addiert 

1.000 2 x 2 -1 + –0.111 2 x 2 -1 = –0.001 2 x 2 -1 

3. Das Ergebnis muss normalisiert werden und auf over/unterflow gecheckt werden 

1.000 2 x 2 -4 

4. Das Ergebnis wird gerundet und nochmals normalisieret, falls nötig 

1.000 2 x 2 -4 (no change) = 0.0625 

Ein Floating Point Adder ist viel komplexer als ein Integer Adder. Sollte er seine Arbeit in nur 

einem Clock Cylce ausführen, würde dieser zu lange dauern. Deshalb braucht ein FP Adder 

normalerweise mehrere Clock Cycles. Es ist aber pipelining möglich. 

THE BIG PICTURE 

- Bits haben keine angehaftete Bedeutung, ihre Interpretation hängt von der 

angewandten Instruction ab 

39

Right-Shift und Division? 

Ein left shift um i entspricht einer Multiplikation eines Integers mit 2 i 

Ein right shift hingegen dividiert durch 2 i , allerdings nur bei vorzeichenlosen Integern. 

40

Chapter 4: The Processor 

Es gibt verschiedene Faktoren, die die CPU Performance beeinflussen: 

 

 

der Instruction Count (IC) 

o wird von der Instruction Set Architecture (ISA) und dem Compiler bestimmt 

CPI (Cycles per Instruction) und Cycle Time 

o werden von der CPU Hardware bestimmt 

Übersicht über die Implementierung 

Bei allen Befehlen sind die ersten beiden Schritte dieselben: 

1. Senden des PC (Programm Counter, Befehlszähler) an den Speicher, der den Code 

enthält, und Holen des Befehls aus diesem Speicher. 

2. Lesen eines oder zweier Register, wobei die Auswahl des zu lesenden Registers 

mithilfe von Feldern des Befehls erfolgt. Beim load word-Befehl muss nur ein 

Register gelesen werden, bei den meisten anderen Befehlen dagegen zwei. 

Welche Schritte nach diesen beiden Schritten zum Durchführen des Befehls erforderlicher 

sind, hängt von der Befehlsklasse ab. Für die drei Befehlsklassen (Speicherzugriff, 

arithmetisch-logische Befehle und Sprünge) sind das unabhängig vom exakten Opcode im 

Großen und Ganzen dieselben Schritte. 

Alle Befehlsklassen außer jump verwenden die ALU (Arithmetic Logical Unit), nachdem 

sie die Register gelesen haben: 

Speicherzugriffsbefehle: verwenden die ALU für die Adressberechnung 

die arithmetisch-logischen Befehle: verwenden die ALU für die Ausführung von 

Operationen 

die Verzweigungen: verwenden die ALU für Vergleiche 

Nach dem Einsatz der ALU sind unterschiedliche Schritte zur Beendigung des Befehls 

erforderlich. 

ein Speicherzugriff muss entweder im Rahmen eines store-Befehls zum Schreiben 

von Daten oder im Rahmen eines load-Befehls zum Lesen von Daten auf den 

Speicher zugreifen. 

Ein arithmetisch-logischer Befehl muss die Daten von der ALU zurück in ein 

Register schreiben. 

Bei einem Sprungbefehl müssen wir die nachfolgende Befehlsadresse je nach dem 

Ergebnis des Vergleichs möglicherweise ändern. Anderenfalls muss der PC um 4 

erhöht werden, um so die Adresse des nachfolgenden Befehls zu erhalten. 

41

Übersicht über die CPU: 

Logic Design Basics 

Information wird binär darstellt. Dabei bedeutet 0 = low voltage (Niederspannung) und 1 = 

high voltage (Hochspannung). Pro Bit gibt es eine Leitung (one wire per bit), Multi-Bit Daten 

werden also auf multi-wire buses codiert (Busse mit mehreren Leitungen). 

Es gibt sogenannte Combinational Elements (Verknüpfungsglieder), die mit Daten operieren 

und deren Output immer eine Funktion ihres Inputs ist. 

Weiters gibt es State (sequential) Elements (Schaltwerke), die Information speichern. Sie 

sind also Speicherelemente. Der Rechner kann nach einer Unterbrechnung der 

Stromversorgung erneut gestartet werden, indem die Schaltwerke mit den Werten geladen 

werden, die zum Zeitpunkt der Unterbrechung der Stromversorgung des Computers 

gespeichert waren. Die Befehls- und Datenspeicher sowie die Register sind Beispiele für 

Schaltwerke. 

Combinational Elements 

42

Sequential Elements 

Zu den Sequential Elements bzw. State Elements zählen die Register. Sie speichern Daten in 

einem Schaltkreis (elektrischer Bauteil, circuit) und verwenden ein Clock Signal, das 

bestimmt, wann der gespeicherte Wert upgedated werden muss. Der Takt ist edge-triggered, 

das heißt flankengesteuert. Das bedeutet, dass Zustandsänderungen während der Taktflanke 

erfolgen, also wenn der Clock sich von 0 zu 1 ändert. 

Weiters gibt es Register mit Write Control. Bei diesen erfolgt nur dann ein Update bei der 

Clock-Flanke (clock edge), wenn der Write Control Input = 1 ist. Das wird verwendet, wenn 

der gespeicherte Wert später benötigt wird. 

43

Taktverfahren (Clocking Methodology) 

Das Taktverfahren bestimmt, wann Signale 

gelesen und wann sie geschrieben werden 

können. Es ist wichtig, den zeitlichen 

Ablauf von Lese- und Schreibvorgängen 

festzulegen. Denn wenn das Signal gleichzeitig 

geschrieben und gelesen wird, kann es vorkommen, 

dass der Wert des Lesevorgangs dem alten Wert, dem 

neugeschriebenen Wert oder sogar einer Mischung 

aus beiden Werten entspricht! 

Beim flankengesteuerten (edge-triggered) 

Taktverfahren werden alle gespeicherten Werte nur während einer Taktflanke aktualisiert. Da 

nur Schaltwerke (state elements) einen Datenwert speichern können, müssen die Eingänge 

sämtlicher Schaltnetze aus Schaltwerken kommen und die ausgaben wieder in Schaltwerke 

geschrieben werden. An den Eingängen liegen die Werte an, die in einem vorhergehenden 

Taktzyklus geschrieben wurden, während an den Ausgängen die Werte anliegen, die in einem 

nachfolgenden Taktzyklus verwendet werden können. 

Alle Signale müssen sich innerhalb eines Taktzyklus vom Schaltwerk 1 über das Schaltnetz zum 

Schaltwerk 2 fortpflanzen. Die längste Zeit, die ein Signal dafür benötigt, bestimmt die Länge des 

Taktzyklus. 

Aufbau eines Datenpfads (Datapath) 

Der Datenpfad (datapath) ist ein Element, das Daten und Adressen in der CPU verarbeitet 

(Registers, ALUs, Mux’s, Memories,...) 

Ein Datenpfad besteht aus Data Path Elements (Bausteine im Datenpfad), die eine 

Funktionseinheit zur Verarbeitung oder Speicherung von Daten in einem Prozessor darstellen. 

Das erste Element, das wir für den Aufbau benötigen, ist eine Speichereinheit zum Speichern der 

Befehle eines Programms und zum Bereitstellen von Befehlen für eine gegebene Adresse. Dafür 

wird auch das Register Program Counter (Befehlszähler) benötigt, das zum speichern der 

Adresse des aktuellen Befehls verwendet wird. Weiters wird ein Addierer benötigt, um den PC zu 

inkrementieren. 

Um einen Befehl 

auszuführen, muss der 

Befehl zunächst aus dem 

Speicher geholt werden 

(Instruction Fetch). Um 

die Ausführung des 

nächsten Befehls 

vorzubereiten, muss 

zudem der PC 

inkrementiert werden, so 

dass er auf den nächsten 

Befehl 4 Byte weiter 

zeigt. 

Die drei genannten Elemente werden zu einem Datenpfad zusammengefügt. 

44

R-Format Instructions 

Bei den R-Format Instructions werden zwei Register Operanden benötigt. Es wird eine 

arithmetische/logische Operation ausgeführt und das Ergebnis anschließend in ein weiteres 

Register geschrieben. 

Load/Store Instructions 

Bei einem Lade-/Speicher-Befehl werden erst die Register-Operanden gelesen. Dann wird die 

Adresse berechnet, indem ein 16-bit Offset verwendet wird (dafür wird die ALU verwendet). 

Beim Load wird aus dem Memory gelesen und das Register aktualisiert 

lw $t1, offset_value($t2) 

# t2 = Basisregister, $t1 Zielregister Wert dorthin laden 

Beim Store wird der Wert aus dem Register in den Memory geschrieben. 

sw $t1, offset_value($t2) 

# t2 = Basisregister, $t1 zu speichernder Wert liegt hier 

45

Die Befehle load word und store word berechnen eine Speicheradresse, wobei das 

Basisregister und das im Befehl enthaltene vorzeichenbehaftet 16-Bit-Offset-Feld addiert 

werden. Wenn es sich um einen Speicherbefehl handelt, muss der zu speichernde Wert 

ebenfalls aus dem Registersatz gelesen werden. Wenn es sich um einen Ladebefehl handelt, 

muss der aus dem Speicher gelesene Wert in das angegebene Register im Registersatz 

geschriebne werden. 

Branch Instructions 

Bei einem Branch-Befehl (einem Befehl zur Verzweigung) werden erst einmal die Register 

Operanden gelesen. Dann werden die Operanden verglichen, wofür die ALU verwendet wird 

(es wird subtrahiert und der Output überprüft Null?). Nun muss die Zieladresse (target 

address) errechnet werden. 

Der beq-Befehl (branch equal) enthält drei Operanden, zwei Register, die miteinander auf 

Gleichheit verglichen werden, und ein 16-Bit-Offset zum Berechnen der Sprungzieladresse 

(branch target address) relativ zur Sprungbefehladresse. Der Befehl hat die Form: 

beq $t1, $t2, offset 

Das Offset-Feld wird zum PC addiert (Sprungbefehladresse) und so wird die 

Sprungzieladresse berechnet. 

Wenn beim beq-Befehl die Bedingung wahr ist, wird die Sprungzieladresse zum neuen 

Befehlszählwert (PC) und wir sagen, dass der Sprung ausgeführt wird (branch taken). Wenn 

die Operanden nicht gleich sind, wird der aktuelle Befehlszähler durch den inkrementierten 

Befehlszähler ersetzt (wie bei jedem anderen normalen Befehl). In diesem Fall sagen wir, dass 

der Sprung nicht ausgeführt wird (branch not taken). 

46

Die einzelnen Elemente des Datenpfads zusammensetzen… 

Die einzelnen eben vorgestellten Komponenten können nun zu einem einfachen Datenpfad 

zusammengefügt werden. Der einfachste Datenpfad würde versuchen, alle Befehle in einem 

Taktzyklus auszuführen. Das bedeutet, dass keine Ressource im Datenpfad mehr als einmal 

pro Befehl verwendet werden kann, so dass jedes Element, das mehr als einmal benötigt wird, 

mehrfach vorhanden sein muss. Daher müssen wir Befehlsspeicher und Datenspeicher 

voneinander trennen (Harvard Architektur). Auch, wenn einige Funktionseinheiten mehrfach 

vorhanden sein müssen, so können doch viele der Elemente von unterschiedlichen Befehlen 

gemeinsam genutzt werden. 

Damit ein Element im Datenpfad von zwei verschiedenen Befehlsklassen gemeinsam genutzt 

werden kann, müssen wir mithilfe eines Multiplexers mehrere Verbindungen zum Eingang 

eines Elements zulassen und mithilfe eines Steuersignals zwischen den verschiedenen 

Eingängen auswählen. 

47

Die ALU Control 

Die ALU wird für Folgendes verwendet: 

Load/Store: F = add 

Branch: F = subtract (Vergleich in beq) 

R-type: F hängt vom funct Feld ab 

Bei Lade-/Speicherbefehlen wird die Addition verwendet, um die Speicheradresse zu 

berechnen. Bei Branch-on-equal wird ein Subtraktion durchgeführt, um zu bestimmen, ob 

zwei Register gleich sind (sind die gleich, ist das Ergebnis der Subtraktion 0). Bei R-Type- 

Befehlen muss die ALU je nach Inhalt des funct Feldes (6 Bit) eine der fünf Aktionen 

ausführen: and, or, subract, add oder set on less than. 

Bei der ALU ist eine Wahrheitstabelle hilfreich für die betreffenden Kombinationen des 

Funktionscodefelds (funct) und der ALU-Op-Bits. Für eine logische Operation werden in 

dieser Darstellung alle Werte der Eingänge aufgelistet und für djeden Fall gezeigt, wie die 

resultierenden Ausgänge aussehen sollen. 

Die Main Control Unit 

Definition: Eine Control Unit (CU) ist eine Schaltung, die den Fluss von Informationen durch 

den Prozessor kontrolliert und die Aktivitäten von anderen Einheiten im Prozessor 

koordiniert. Es kann als „brain within the brain“ (Gehirn im Gehirn) bezeichnet werden, da es 

kontrolliert, was im Inneren des Prozessors passiert, was wiederum den Rest des PCs 

(Personal Computer) kontrolliert. 

48

Implementieren von Jumps 

Ein Jump verwendet eine Word Adresse. 

Die Zieladresse für einen Sprungbefehl wird durch Konkatenation (Verkettung, Verknüpfung) 

der oberen 4 Bits des aktuellen Befehlszählwertes (PC) +4 und dem 26-Bit-Adressfeld im 

Sprungbefehl und durch Hinzufügen von 00 als den beiden niederwertigsten Bits erstellt. 

Der beq $t1, $t2, offset Befehl wird folgendermaßen ausgeführt: 

1. Ein Befehl wird aus dem Befehlsspeicher geholt und der PC wird inkrementiert 

2. Die beiden Register $t1 und $t2 werden aus dem Registersatz ausgelesen. 

3. Die ALU subtrahiert die aus dem Registersatz ausgelesenen Datenwerte. Der Wert PC 

+4 wird zu den um zwei Stellen nach links verschobenen vorzeichenerweiterten, 

unteren 16 Bits des Befehls addiert (offset). Daraus ergibt sich die Sprungzieladresse. 

4. Mit dem Zero-Ergebnis aus der ALU wird entschieden, welches Addiererergebnis im 

Befehlszähler gespeichert wird. 

Probleme bei der Performance 

Die längste Verzögerung (delay) bestimmt die Clock Periode. Dabei ist der kritische Path das 

Laden einer Instruction. Der Ablauf ist folgender: 

Instruction Memory Register File ALU Data Memory Register File 

Es ist nicht möglich, die Periode für unterschiedliche Instructions zu variieren. Dadurch wird 

das Design Prinzip „Make the common case fast“ verletzt. 

Eine Möglichkeit zur Verbesserung der Performance ist Pipelining. 

49

Pipelining 

Ein gutes Analogie-Beispiel aus dem Alltag, um sich Pipelining besser vorstellen zu können, 

ist ein Waschvorgang. Auch hier zeigt sich schnell, dass Parallelismus die Performance 

deutlich verbessert. 

Die MIPS Pipeline 

Bei der MIPS-Pipeline gibt es fünf Stufen, wobei pro Stufe ein Schritt ausgeführt wird: 

1. IF: Instruction Fetch (Holen der Instruction) vom (Instruction) Memory 

2. ID: Instruction Decode (Übersetzen/Entschlüsseln der Instruction) 

und Lesen der Register 

3. EX: Ausführen der Operation (execute) oder Errechnen der Adresse 

4. MEM: Zugriff auf den (Data) Memory Operanden 

5. WB: Zurückschreiben des Ergebnisses in ein Register (write back result) 

Übersicht über die Dauer von Befehlen 

(1 Pikosekunde (ps) = 0,000 000 000 001 Sekunden = 10-12 Sekunden) 

50

Pipeline Performance 

Pipeline Speedup (Beschleunigung durch Pipelining) 

Wenn alle Stufen ausbalanciert sind, das heißt alle Stufen brauchen dieselbe Zeit, lässt sich 

folgendermaßen rechnen: 

Wenn die Stufen nicht ausbalanciert sind, ist der Speedup natürlich geringer. 

Durch Pipelining wird der Throughput erhöht. Die Latency (Latenz, Zeit für jede Instruction) 

wird jedoch nicht verringert. 

Das MIPS ISA ist speziell für Pipelining designet. Alle Instructions haben dieselbe Länge, 

nämlich 32-bits. Das erleichtert fetch (holen) und decode (entschlüsseln, übersetzen) in einem 

Cycle. Weiters gibt es nur wenige und dafür regelmäßige Instruction Formate. Diese 

ermöglichen das Decodieren und Lesen von Registern in einem Schritt. 

51

Load/store addressing: Die Adresse kann auf der 3. Stufe errechnet werden, auf den 

Memory wird auf Stufe 4 zugegriffen. Da die Memory-Operanden aneinandergereiht sind, 

benötigt der Speicherzugriff nur einen Cycle. 

Hazards 

Beim Pipelining gibt es Situationen, in denen der nächste Befehl nicht im nachfolgenden 

Taktzyklus ausgeführt werden kann. Diese Ereignisse werden als Hemmnisse oder auch 

Konflikte bezeichnet (Übersetzung für Hazard). Von diesen gibt es drei verschiedene Typen. 

• Structure Hazard (Strukturkonflikt) 

o tritt auf, wenn eine benötigte Ressource busy ist (beschäftigt, belegt 

kurzum: zur Zeit nicht verfügbar) 

• Data Hazard (Datenkonflikt) 

o tritt auf, wenn noch darauf gewartet werden muss, dass die Instruction davor 

ihren Schreib-/Lesezugriff auf die benötigten Daten beendet 

• Control Hazard (Steuerkonflikt) 

o tritt auf, wenn die Entscheidung einer Control-Aktion von der vorhergehenden 

Instruction abhängt 

Structure Hazards 

Structure Hazards sind Konflikte bei der Verwendung einer Ressource. Die Hardware kann 

die Befehlskombination, die in einem Taktzyklus ausgeführt werden soll, nicht unterstützen. 

Hat man anstelle von zwei Speichern nur einen, kann ein solcher Konflikt auftreten, und zwar, 

wenn eine Load/Store Operation Zugriff auf Daten benötigt, also auf den Speicher zugreift. 

So könnte nicht gleichzeitig ein Befehl aus dem Speicher geholt werden, der Instruction Fetch 

hätte einen stall (eine Verzögerung) und müsste warten. 

Der MIPS Befehlssatz wurde jedoch so designed, dass es Entwicklern leichter gemacht 

wurde, beim Entwerfen einer Pipeline Strukturkonflikte zu vermeiden. 

Pipelined Datapaths benötigen separate Instruction- und Daten-Speicher oder separate 

Instruction- und Daten-Caches. 

Data Hazards 

Data Hazards sind Konflikte, die durch Zugriff auf Daten auftreten. Dabei kann ein Befehl 

nicht im vorgesehenen Taktzyklus ausgeführt werden, weil Daten zum Ausführen des Befehls 

noch nicht verfügbar sind. Es muss gewartet werden, bis die vorhergehende Instruction ihren 

Datenzugriff abgeschlossen hat. 

Beispiel: 

52

Bei einer Pipeline im Rechner treten Datenkonflikte aufgrund der Abhängigkeit eines Befehls 

von einem zu einem früheren Zeitpunkt begonnenen Befehl auf, der sich noch in der Pipeline 

befindet. Der add-Befehl vom obigen Beispiel schreibt sein Ergebnis erst in der fünften Stufe, 

was bedeutet, dass wir drei sogenannte Bubbles (Pipelineleerlauf, Leeroperationen oder 

Wartetakte) in die Pipeline einfügen müssen. 

Die wichtigste Gegenmaßnahme beruht auf der Beobachtung, dass wir mit dem Beheben des 

Datenkonflikts nicht warten müssen, bis der Befehl ausgeführt ist. Bei der obigen 

Codesequenz können wir die Somme aus der Addition als Eingangswert für die Subtraktion 

bereitstellen, sobald die ALU die Summe berechnet hat. Das Verwenden zusätzlicher 

Hardware zum frühzeitigen Abrufen des fehlenden Elements aus den internen Ressourcen 

wird als Forwarding oder Bypassing (Daten-Bypassstechnik) bezeichnet. 

dabei wird ein fehlendes Datenelement aus internen Pufferspeichern abgerufen und 

es wird nicht darauf gewartet, bis dieses aus den für den Programmierer sichtbaren 

Registern oder aus dem Speicher kommt. 

Forwarding-Pfade sind nur dann zulässig, wenn die Zielstufe zu einem späteren Zeitpunkt 

ausgeführt wird als die Quellstufe. In anderen Situationen kann eine Pipelineverzögerung so 

nicht verhindert werden. 

Nehmen wir als Beispiel den Befehl zum Laden des Registers $s0 aus dem Speicher (anstelle 

des add-Befehls aus dem obigen Beispiel). Die gewünschten Daten werden hier erst nach der 

vierten Stufe des ersten Befehls bereitgestellt, also zu spät für den Eingang der dritten Stufe 

53

des sub-Befehls. Also kann es auch mit Forwarding vorkommen, dass wir eine Stufe 

aufgrund eines Load-use-Konflikts (load-use data hazard) anhalten müssen. 

ein Load-use-Konflikt ist eine spezielle Form eines Datenkonflikts, bei dem durch 

einen Ladebefehl aus dem Speicher gelesene Daten zum Zeitpunkt der Anforderung 

noch nicht verfügbar sind. 

Code Schuduling (Umordnen von Code) zum Vermeiden von Pipelineleerläufen 

Betrachten wir folgendes Codesegment in C: 

a = b + e; 

c = b + f; 

Der MIPS-Code für dieses Segment lautet unter der Voraussetzung, dass sich alle Variablen 

im Speicher befinden und als Offsets von Register $t0 adressierbar sind, wie in der Graphik 

links angezeigt wird. Die Lösung findet sich in der Graphik rechts der Code wird 

umgeordnet. 

54

Control Hazards 

Steuerkonflikte (Control Hazards) entstehen, wenn aufgrund der Ergebnisse eines Befehls 

eine Entscheidung getroffen werden muss, während andere Befehle ausgeführt werden. Der 

gewünschte Befehl kann nicht im selben Taktzyklus ausgeführt werden, weil der Befehl, der 

geholt wurde, nicht der ist, der benötigt wird. Das bedeutet, dass die Abfolge von 

Befehlsadressen anders als von der Pipeline erwartet ist das Holen der nächsten Instruction 

(fetching next instruction) hängt vom Ergebnis eines Branchs ab. So können nicht immer die 

richtigen Instructions geholt werden. 

In der MIPS Pipeline sollten daher der Vergleich der Register und das Errechnen der 

Zieladresse möglichst früh passieren. Es wird zusätzliche Hardware hinzugefügt, die diese 

Schritte bereits in der ID-Stufe (Instruction Decode) ausführt. 

Für Hazards dieser Art gibt es unterschiedliche Lösung. 

Stall on Branch (Leerlauf) 

Es muss gewartet werden, bis das Ergebnis des Branchs bestimmt ist, bevor man die nächste 

Instruction holen kann. Diese Lösung funktioniert zweifelsohne, ist jedoch sehr langsam. 

Branch Prediction 

Lange Pipelines können das Ergebnis bei einem Branch nicht rechtzeitig bestimmen. Die 

Dauer des Stalls, die dadurch entsteht, ist nicht akzeptabel. 

Eine Lösung ist es, das Ergebnis des Branchs vorauszusagen. So kommt es nur dann zu einem 

Stall, wenn die Voraussage falsch war. 

In der MIPS Pipeline kann eine einfache Version der Vorhersage angewendet werden, 

nämlich immer vorherzusagen, dass ein Branch nicht ausgeführt wird (untakten branch) und 

einfach, ohne Verzögerung, die nächste Instruction zu holen, die auf den Branch folgt. Diese 

Methode funktioniert großteils gut, da es oft wahrscheinlicher ist, dass der Branch nicht 

genommen wird als dass er genommen wird. 

55

MIPS with Predict Not Taken (MIPS mit der Vorhersage: Branch wird nicht genommen) 

More-realistic Branch Prediction 

Bei einer anspruchsvolleren Version der Branchvorhersage wird angenommen, dass gewisse 

Sprünge ausgeführt werden, andere nicht. Beispiel: Bei Schleifen finden sich am Ende 

Sprünge, die auf den Anfang der Schleife verzweigen. Dass diese Sprünge ausgeführt werden, 

ist sehr wahrscheinlich, solange die Schleife läuft. Da es sich bei Schleifen um Rücksprünge 

handelt, kann man davon ausgehen, dass Sprünge auf zurückliegende Adressen immer als 

auszuführen anzunehmen sind. 

Starre Ansätze wie diese beruhen auf der Annahme stereotypen Verhaltens und 

berücksichtigen die Individualität einzelner Sprungbefehle nicht. Man nennt das auch Static 

Branch Prediction (statische Branch-Vorhersage). Diese Vorhersage beruht also auf einem 

typischen Branchverhalten, wie eben im Fall der Schleife. Einfache Annahmen wären also: 

 

 

Sprünge auf zurückliegende Adressen (Rücksprünge) als taken annehmen 

Sprünge auf folgende Adressen (forward, Vorsprünge) als not taken annehmen (z.B. 

bei if-Statements) 

Im Gegensatz zur Static Branch Prediction steht die Dynamic Branch Prediction 

(dynamische Branch-Vorhersage). Dynamische Hardware-Prädiktoren ziehen ihre Schlüsse 

aus dem Verhalten jedes einzelnen Sprungs und können die vorhersage für eine Verzweigung 

während der Ausführung eines Programms ändern. Ein beliebter Ansatz besteht darin, 

ausgeführte und nicht ausgeführte Sprünge zu protokollieren, und dann anhand der letzten 

Sprünge die nächsten vorherzusagen. Wenn die Einschätzung falsch ist, muss die 

Pipelinesteuerung sicherstellen, dass die Befehle nach dem falsch eingeschätzten Sprung 

keine Auswirkung haben, und sie muss die Pipeline von der richtigen Sprungadresse aus neu 

starten. 

56

Probleme entstehen durch diese Lösung dann, wenn es längere Pipelines sind, wodurch die 

Kosten bei falschen Vorhersagen zunehmen. 

Ein weiterer möglicher Ansatz ist die verzögerte Entscheidung. Die von der MIPS- 

Architektur verwendete Lösung für Rechner wird als verzögerter Sprung bezeichnet (mehr 

dazu im Buch, Seite 332 der deutschen Version). 

Pipelining des Datenpfads 

Eine fünfstufige Pipeline, wie sie beschrieben wurde, erfordert, dass der Datenpfad in fünf 

Teile geteilt wird. Jeder Teil wird nach der jeweiligen Befehlsausführungsstufe benannt. 

Zwischen den einzelnen Stufen werden Register benötigt (Pipeline Register), um die 

Informationen zu speichern, die im Cycle davor produziert wurden. 

Die Register werden nach den beiden Stufen benannt, die durch sie getrennt werden. So heißt 

das Pipelineregister zwischen IF-Stufe und ID-Stufe beispielsweise IF/ID-Register. 

Single-Clock-Cycle Diagramme für Load und Store 

siehe Beispiele in den Folien (Kapitel 4, Folie 56 – 64) 

57

Mehr zu Forwarding im Buch (deutsche Version: Seite 353 – 362) sowie zu Pipeline- 

Hazards im Buch (deutsche Version: Seite 362 – 375) 

Wie kann man eine Pipeline stallen (anhalten, verzögern)? 

Die Control Values im ID/EX Register müssen auf 0 gesetzt werden. Daraufhin führen EX, 

MEM und WB nop (= no-operation) aus. Weiters muss der Aktualisieren des PCs und das 

Aktualisieren des IF/ID Registers verhindert werden. Die verwendete Instruction muss erneut 

übersetzt (decoded) werden, die folgende Instruction wird erneut geholt (gefetched). 

Stalls reduzieren die Performance, manchmal sind sie allerdings notwendig, damit korrekte 

Resultate erzielt werden. Der Compiler kann den Code so arrangieren, dass Hazards und 

Stalls vermieden werden. Dafür werden Kenntnisse über die Pipelinestruktur benötigt. 

59

Wann wird jetzt also der Strom von sequentiellen Instructions unterbrochen? 

bei Unconditional Branches (unbedingten Verzweigungen: j, jal, jr) 

bei Conditional Branches (bedingten Verzweigungen: beq, bne) 

bei Exceptions 

Was sind mögliche Vorgehensweisen? 

 

 

 

 

Stall (Verzögerung, hat Auswirkung auf CPI) 

den Entscheidungspunkt so früh wie möglich in die Pipeline geben, wodurch die 

Anzahl an Stall Cycles verringert wird 

die Hardware, die das Ergebnis der Entscheidung liefert, wird in die ID Stufe 

gelegt, um die Kosten des taken branch zu reduzieren 

die Entscheidung verzögern (delay decision; hier ist Hardware Support nötig) 

Vorhersagen der Entscheidung 

Data Hazards für Branchs 

Wenn ein Vergleichs-Register (comparison register) das Ziel von einer zweiten oder 

dritten vorhergehenden ALU Instruction ist 

kann durch den Einsatz von Forwarding gelöst werden 

60

Wenn ein Vergleichs-Register ein Ziel einer vorhergehenden ALU Instruction oder einer 

zweiten vorhergehenden Load Instruction ist 

ein Stall Cycle wird benötigt 

Wenn ein Vergleichs-Register ein Ziel von einer unmittelbar vorausgehenden Load 

Instruction ist 

zwei Stall Cycles werden benötigt 

Dynamische Branch Prediction 

Der Ablauf bei der dynamischen Branch Prediction ist folgender: 

- es wird ein Branch Prediction Table verwendet (auch Branch History Table genannt) 

- wird über die letzte Branch-Instruction-Adresse indiziert 

- speichert das Ergebnis des letzten Branchs (taken oder not taken) 

- wenn nun eine Branch Entscheidung getroffen wird: 

o Table checken und dasselbe Ergebnis erwarten 

o mit dem Fetching der nächsten (vorhergesagten) Instruction beginnen (from 

fall-through or target) 

o Wenn die Vorhersage falsch war, muss die Pipeline geflutet (flush) werden, die 

Vorhersage in der Table wird umgekehrt 

61

1-Bit-Predictor 

Ein 1-Bit-Predictor wird zweimal falsch liegen, wenn not taken. 

Ein Beispiel ist eine Schleife. Ist das predict_bit = 0 und die Schleife wiederholt sich zum 

ersten Mal, war die Vorhersage not taken falsch, das Bit muss auf 1 gesetzt werden. Während 

sich die Schleife wiederholt, ist aller in Ordnung. Beim Austritt aus der Schleife ist die 

Vorhersage taken dann aber falsch, das Bit muss wieder auf 0 gesetzt werden. 

2-Bit-Predictor 

Ein 2-Bit-Predictor liefert eine Präzision/Richtigkeit von 90%, da hier eine Vorhersage 

zweimal falsch sein muss, damit das predict_bit invertiert wird. 

62

Exceptions und Interrupts 

Exceptions und Interrupts sind unerwartete Events, die eine Änderung im Kontrollfluss 

(change in flow control) erfordern. 

Eine Exception tritt innerhalb der CPU auf, ist also prozessorintern. 

Ein Interrupt kommt von einem externen I/O Controller, ist also ein prozessorexternes 

Ereignis. 

ILP (Intruction Level Parallelism) 

Unter Instruction Level Parallelism (ILP) versteht man die Parallelität innerhalb von 

Befehlen. Pipelining führt z.B. mehrere Instructions parallel aus. 

Um ILP zu erhöhen, kann eine tiefere Pipeline verwendet werden, das heißt mehr Stufen in 

der Pipeline. Dadurch, dass mehr Stufen verwendet werden, gibt es pro Stufe weniger Arbeit 

und so wird ein kürzerer Clock Cycle benötigt. 

Multiple Issues (Mehrfachzuordnung) 

Unter Multiple Issues (Mehrfachzuordnung) versteht man ein Verfahren, bei dem in einem 

Taktzyklus mehrere Befehle gestartet werden. 

Static Multiple Issue 

Hier gruppiert der Compiler (zur Kompilierzeit) Instructions, die gemeinsam gestartet werden 

können. Diese werden in sogenannte Issue Slots verpackt. Der Compiler entdeckt Hazards 

und kann sie so (durch richtiges Kombinieren der Instructions?) verhindern. 

Dynamic Multiple Issue 

Hier ist die CPU (während der Ausführungszeit) dafür verantwortlich, die Instrucions 

auszuwählen, die gemeinsam bei einem Cycle gestartet werden. Der Compiler kann hier 

helfen, indem er Instructions umordnet. Die CPU löst so Hazards, indem sie fortgeschrittene 

Techniken dafür zur Laufzeit verwendet. 

63

Rechnerstrukturen: VO, WS 2012/13 â†’ Teil 1 - VoWi

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?