Programmoptimierung

Einordnung der Optimierung 

Programmoptimierung 

Walter F. Tichy 

Universität Karlsruhe 

• Die Hauptaufgaben der Implementierungs- 

phase sind die Umsetzung des Entwurfs in 

korrekte, ablauffähige Programme, die 

Dokumentation und das erste Testen. 

• Programmoptimierung ist in den meisten 

Fällen zweitrangig oder ganz unnötig. 

• Arten der Optimierung: 

I. Laufzeitreduktion 

II. Speicherplatzreduktion 

III. Cache-Optimierungen 

Wahlsprüche zur 

Programmoptimierung (1) 

• Premature optimization is the root of all evil. 

– Don Knuth 

• Make it work before you make it work fast. 

– Bruce Whiteside 

• Make if fail-safe before you make it faster. 

– Kernighan & Plauger 

• Make it clear before you make it faster. 

– Kernighan & Plauger 



• The First Rule of Program Optimization: 

Don’t do it. 

• The Second Rule of Program Optimization: 

Don’t do it yet. 

– Michael Jackson, Jackson System Design



• We should forget about small inefficiencies, 

say about 97% of the time. 

– Donald Knuth 

• In non-I/O 

I/O-bound programs, a few percent of 

the source code typically account for over 

half of the run time. 

– Donald Knuth 

• Before optimizing, use a profiler to locate the 

“hot spots” of the program. 

– Mike Morton 

I. Laufzeit-Reduktion 



• To speed up an I/O-bound program, begin 

by accounting for all I/O. Eliminate that which 

is unnecessary or redundant and make the 

remaining as fast as possible. 

– David Martin 

• The fastest I/O is no I/O. 

– Nils-Peter Nelson 

• The cheapest, fastest and most reliable 

components of a computer system are those 

that aren’t there. 

– Gordon Bell. 

Fallstudie: N-KörperN 

Körper-Problem 

• Nur wenn notwendig! 

• Finde die Zeitfresser mittels Laufzeitprofilierer 

und optimiere nur diese! 

• Wenn eine kleine Beschleunigung erzielt 

werden soll, arbeite auf der 

vielversprechendsten Optimierungsebene. 

• Wenn eine große Beschleunigung gewünscht 

ist, beachte alle Optimierungsebenen. 

• Ein Programm für das Vielkörperproblem simuliert 

die Bewegungen von N Körpern im dreidim. Raum, 

unter Berücksichtigung ihrer 

– Massen, 

– Ausgangspositionen, 

– Geschwindigkeiten und 

– gegenseitiger Anziehungskräfte.

N-Körper-Problem (2) 

Algorithmus: 

• Zerlegung der Zeitachse in kleine Schritte. 

• Da die wechselseitigen Anziehungskräfte 

berechnet werden müssen, hat jeder 

Zeitschritt eine Laufzeit von O(N²) 

• Eine erste Implementierung hatte mit 

N=10.000 eine Laufzeit von ca. einem Jahr 

auf der VAX-11/780. 

• Dies wurde verbessert auf Faktor 400 ! 

N-Körper-Problem: 

Optimierungen (2) 

4. Systemabhängige Feinoptimierung 

32-bit Gleitkomma anstatt 64-bit Gleitkomma (größere Genauigkeit 

durch Baumstruktur). 

durch Baumstruktur). => ~ Faktor 2 

5. Systemabhängige Feinoptimierung 

98% der Zeit in einer Routine; Assemblercodierung. 

=> ~ Faktor 2,5 

6. Hardware 

Gleitkommabeschleuniger => ~ Faktor 2 

--------------- 

Insgesamt: Faktor 400 

N-Körper-Problem: 

Optimierungen 

1. Algorithmen und Datenstrukturen 

O(N²) => O(N log N) => ~ Faktor 12 

Körper werden als Blätter in einem Baum repräsentiert; innere 

Knoten sind Gruppen von Körpern. Bei der Berechnung der 

Krafteinwirkungen auf einen Körper können diese Gruppen 

verwendet werden. 

2. Algorithmen-Tuning 

=> ~ Faktor 2 

Verdoppelung des Zeitschrittes, Spezialbehandlung für Körper, die 

sich sehr nahe kommen (kann im Baum leicht entdeckt werden). 

3. Reorganistation der Datenstruktur 

Umkonfigurierung des Baumes nach jedem Schritt verringert die 

Anzahl der Berechnungen. 

Anzahl der Berechnungen. => ~ 

Faktor 2 

Optimierungsebenen 

1. Problemstellung (Vereinfache!) 

2. Systemstruktur 


4. Feinoptimierung 

5. Systemsoftware 

6. Hardware

1. Problemstellung 

Prinzip L1: Einfachheit 

• The cheapest, , fastest and most reliable (and 

most acurate, most secure, easiest to design, 

document, , test and maintain) components of 

a computer system are those that aren´t 

there. 

- Gordon Bell 

• Vermeidung übermäßiger Komplexität 

– „Schleichende Funktionsanhäufung“ 

– „Vergoldung“ 

– „Effekt des zweiten Systems“: Beim zweiten Mal 

will man es oft „richtig“ machen und erzeugt 

dabei ein übermäßig komplexes System. 

Beispiel Überschlagsrechnung 

2. Systemstruktur 

Prinzip L2: Benutze Überschlagsrechnungen, um 

die Leistung eines geplanten Systems 

abzuschätzen. 

Benutze Überschlagsrechnungen, um folgende 

Fragen zu beantworten: 

• Genügt ein geplantes System den 

Effizienzanforderungen? 

• Welche Systemstruktur ist die beste? 

Beispiel (2) 

An ein zu bauendes System werden N 

Anfragen gestellt. 

Jede Anfrage besteht aus einem Schlüssel zu 

dem der zugehörige (eindeutige) Satz in einer 

Datei gefunden und ausgegeben werden soll. 

Lösung1: Stapelverabeitung 

Anfragen 

Sortierung 

sortierte 

Anfragen 

Lösung 2: Wahlfreier Zugriff 

sequentieller 

Zugriff 

sortierte 

Datei 

Antworten 

Anfragen 

wahlfreier 

Zugriff 

Antworten 

Datei mit 

wahlfr. Zugriff

Beispiel (3) 

Technische Daten: 

• 10 Mio. Sätze in der Datei; 100 Sätze / Block 

• Jede Anfrage sucht einen Satz über einen 

(eindeutigen) Schlüssel. 

• Sequentielles Lesen eines Blockes: 5 ms 

• Wahlfreier Zugriff auf einen Block: 50 ms 

• Sequentieller Zugriff liest die ganze Datei. 

• Wahlfreier Zugriff liest nur Blöcke, die 

gewünscht werden, aber vielleicht mehrmals. 

Frage: Wann ist welche Methode schneller? 

Vorraussetzungen für 

Überschlagsrechnungen 

1. „Gefühl“ für Zahlen 

2. Bereitschaft zum Experiment 

3. Genauigkeit beim Überprüfen der Antworten 

4. Technologie-Kenngrößen 

5. Mathematik, wo nötig 

Beispiel (4) 

Lösung: 

• Sequentieller Zugriff: 

100.000 Blöcke, 200 Blöcke/s, 

also 500 s pro Durchlauf 

• Wahlfreier Zugriff: 

R Sätze in R/20 s 

• Damit: R/20 < 500 => R < 10.000 

• Für weniger als 10.000 Anfragen ist der 

wahlfreie Zugriff schneller. 

Gefühl für Zahlen 

Millisekunden und Mikrosekunden sind so kleine 

Größen, dass es auf den Unterschied kaum 

anzukommen scheint. 

Es handelt sich aber um einen Unterschied von 3 

Größenordnungen! 

Beispiel: 

Millijahr: 

8,8 h Mikrojahr: 32s 

3 Größenordnungen Geschwindigkeitsunterschied ist der 

Unterschied zwischen einem Sprinter (10m/s) und einer 

Raumfähre (10.000 m/s). 

Angenommen, Sie bekommen € 500 im Monat von Ihren 

Eltern. Was wäre bei einer Steigerung um 3 Größen- 

ordnungen?

Geschwindigkeiten 

Geschwindigkeiten (2) 

m / s 

10 -11 

10 -10 

10 -9 

10 -8 

10 -7 

10 -6 

10 -5 

10 -4 

10 -3 

10 -2 

10 

10 

10 

Equivalent 

Beispiel 

3 cm /Jahrhundert 

Wachstum von Stalaktiten 

3 cm / Dekade 

Kontinentaldrift 

3 cm / Jahr 

Wachstum von Fingernägeln 

30 cm / Jahr 

Wachstum von Haupthaar 

30 cm / Monat 

Wachstum von Unkraut 

10 cm / Tag 

Gletscher 

3 cm / h 

Minutenzeiger einer Armbanduhr 

(5mm) 

30 cm / h 

Verdauungstrakt 

5 cm / min 

Schnecke 

60 cm / min 

Ameise 

m / s 

10 -1 

1 

10 

10 2 

10 3 

10 4 

10 5 

10 6 

10 7 

10 8 

Equivalent 

6 m / min 

3,5 km / h 

35 km / h 

350 km / h 

60 km / min 

600 km / min 

6000 km / min 

600 km / sec 

11.000 km / sec 

100.000 km / sec 

Beispiel 

Riesenschildkröte 

Gehen 

Laufen (Sprint), 100m in 10s 

Propellerflugzeug 

Düsenjäger (Mach 3) 

Raumfähre 

Meteoreinschlag (Erde) 

Milchstraße bezogen auf Hydra 

LA – Satellit – NY 

1/3 Lichtgeschwindigkeit 

3 Größenordnungen sind ein riesiger Unterschied! 

Technologie-Kenngrößen 

Kosten für elementare Operationen 

(Bsp. C auf PIII-700) 

Operation 

Ganzzahl-Operanden (long( 

long, , 32 Bit) 

Gleitkomma-Operanden (double, 64 Bit) 

Konvertierungen: 

Ganzzahl => Gleitkomma 

Gleitkomma => Ganzzahl 

Mathematische Funktionen 

Kontrollfluss 

+ , - 

* 

/ 

+ , - 

* 

/ 

Sin 

Log 

Sqrt 

for 

ns 

1,1 

5,4 

63 

32 

34 

211 

4,9 

75 

197 

310 

207 

6,1 

Technologie-Kenngrößen 

• Weitere interessante Größen: 

– Zeichenreihen: 

• Vergleich 

• Kopieren 

– E/A Zeiten: 

• Lesen/Schreiben eines Zeichens/Ganzzahl 

• Plattenzugriff, Netzzugriff 

• Plattenzugriffe pro Datenbankoperation 

– Grundsoftware: 

• Sortieren von 10.000 Ganzzahlen 

• Sortieren von 10.000 20-Byte Zeichenreihen 

• Suchen einer Zeichenreihe in einer Datei 

• Speicherbedarf für eine 1-byte 1 

Datei 

• Quellzeilen/s verarbeitet vom Übersetzer 

• Aufgabe: Bestimme diese Kenngrößen selbst, auf 

beliebigem Rechner. (Schleife mit 100.000 Operationen, 

Zeit messen, Dividieren, Schleifenkosten abziehen.)

Prinzipien 

• Everything should be made as simple as 

possible, but no simpler 

- Einstein 

• Sicherheitsfaktoren mit einschließen 

• Zwei Abschätzungen sind besser als eine 

(zur Überprüfung der Schätzung). 

3. Algorithmen und 

Datenstrukturen 

Prinzip L3: Speicherung von Zwischenergebnissen 

statt Neuberechnung 

Prinzip L4: Vorverarbeitung von Daten 

Prinzip L5: Teile und Herrsche 

Prinzip L6: Dynamisches Programmieren 


(Code Tuning) 

• Verbessern der Laufzeit, ohne die 

asymptotische Laufzeit des Algorithmus zu 

verändern; lediglich Konstanten werden 

verringert. 

Fallstudie: Drucker 

• Programm erzeugt Kommandos, um Graphiken auf 

einem optischen Drucker zu erzeugen. 

– 10 Minuten für ein kompliziertes Bild ist zu lange. 

• Profilierung des Programms mit 10 Bildern zeigt: 

– 70 % der Zeit wird für die Anforderung von 

Speicherplatz verwendet. 

• Untersuchung der Speicherplatzanforderungen: 

– Häufigste Größe: 

68.000 mal 

– Zweit-häufigste Größe: 

2.000 mal 

• Verbesserung: Caching 

– Spezielle Liste für die am meisten gebrauchte 

Blockgröße. 

– 20 extra Zeilen Quellcode => Reduktion der Laufzeit 

auf 45% 

Prinzip L7: Ausnutzung eines häufig auftretenden 

Falles.

Problem: Zeichenklassifizierung 

Zeichenklassifizierung (2) 

• Gegeben eine Reihe von 10 6 Zeichen. 

• Klassifiziere jedes als 

– Großbuchstabe, 

– Kleinbuchstabe, 

– Ziffer oder 

– Sonstiges. 

• (Tritt auf in Textformatierern, Kommando- 

interpretierern, , Übersetzern, Makro- 

expandierern) 

if ((c >= ´a´) and (c = ´A´) and (c = ´0´) and (c

Sphärische Distanzen (2) 

• Berechnung benötigt trigonometrische 

Funktionen mit 10 Sinus- und Kosinus- 

Aufrufen pro Distanz. 

=> Mehrere Stunden Laufzeit erforderlich. 

• Nach Umrechnung in ein kartesisches 

Koordinatensystem kann die Euklidische 

Distanz verwendet werden (monoton zum 

Winkel). 

=> 0,5 Minuten Laufzeit 

Prinzip L9: Ausnutzung algebraischer Idenitäten. 

Wächterelemente (2) 

Verwendung eines Wächterelements zur Einsparung eines 

Tests: 

int suche(int 

(int[] 

feld, int wert) ) { 

int n = feld.length; 

int letztes = feld[n-1]; //letztes Elem. 

aufbewahren 

feld[n-1] = wert; 

//und durch Wächter 

ersetzen 

int i; 

for (i = 0; ; i++) 

if (feld[i]] == wert) break; 

feld[n-1] = letztes; 

if ( i == n-1 1 ) 

return (letztes 

== wert ? n-1 1 : -1); 

else 

rett 

rn i 

Wächterelemente 

Prinzip L10: Erweiterung von Datenstrukturen um 

Wächterelemente. 

Beispiel: 

Sequenzielle Suche in einem unsortierten Feld 

int suche(int 

(int[] 

feld; int wert) ) { 

int n = feld.length 

.length; 

for (int 

i=0; 

i

Ausrollen von Schleifen (2) 

int suche(int 

(int[] 

feld, int wert) ) { 

int n = feld.length; 

int letztes = feld[n-1]; 

feld[n-1] = wert; 

int i; 

for (i = 0; i+7 < n; i += 8) { 

if (feld[i ] == wert) ) { break;} 

if (feld[i+1] == wert) ) { i += 1; break;} 







} 

for ( ; ; i++) 

if (feld[i] == wert) break; 

feld[n-1] = letztes; 

if ( i == (n-1)( 

) 

return (letztes 

== wert ? n-1 1 : -1); 

else 

return i; 

} 

Rekursionseliminierung 

Prinzip L14: Rekursionseliminierung 

• Sogenannte rechts- oder restrekursive 

Funktionen können mechanisch in eine 

iterative Form transformiert werden. 

• Eine Funktion ist rechts- oder restrekursiv, 

falls sie entweder ihren Wert direkt 

berechnet, oder ihr Wert das unveränderte 

Ergebnis eines rekursiven Ausrufs ist. 

Weitere Schleifenoptimierungen 

Zusätzliche Prinzipien zum Beschleunigen von 

Schleifen: 

Prinzip L12: Kombinieren von Schleifen über 

denselben Bereich. („loop jamming“) 

Prinzip L13: Entfernung invarianter Ausdrücke 

aus Schleifen. 

Rekursionseliminierung (2) 

Transformation von Rechtsrekursion in Iteration: 

int g(int 

x) ) { 

if (B(x)) { 

S(x); 

return g(E(x)); 

} else { 

T(x); 

return p(x); 

} 

} 

Falls g nicht in B, S, T, E und p vorkommt: 

int g(int 

x) ) { 

int x1 = x; 

while (B(x1)) { 

S(x1); 

x1 = E(x1); 

} 

T(x1); 

return p(x1); 

}

Rekursionseliminierung: : Beispiel 1 

Die Methode anfangAb gibt eine Liste um die ersten 

n Elemente gekürzt zurück (oder null, , falls die 

Liste zu kurz ist). Die ursprüngliche Liste soll nicht 

verändert werden. 

interface Liste { 

public Element holeElement(); 

public void setzeElement(Element 

element); 

public Liste holeNaechstes(); 

public void setzeNaechstes 

Naechstes(Liste 

liste); 

} 

... 

public Liste anfangAb(Liste 

liste, int n) ) { 

if (n > 0 && liste != null) 

return anfangAb(liste 

liste.holeNaechstes(), 

n-1); 

else 

return liste; 

} 


Rekursive Binärsuche 

public suche(int[] feld, int links, int rechts, int wert) 

{ 

if (links wert) 

return suche(feld, links, mitte-1, wert); 

else if (feld[mitte] == wert) 

return mitte; 

} else 

return -1; 

Obwohl hier ein rekursiver Aufruf mehrmals 

vorkommt, ist diese Funktion doch rechtsrekursiv. 

Eine geringfügige Erweiterung der eingangs 


Unter Verwendung der vorhergehenden Transformation 

kann diese rechtsrekursive Methode in eine iterative Form 

gebracht werden. 

Die Parameterliste wird hierbei als Einheit betrachtet. 

public Liste anfangAb(Liste 


Liste liste1 = liste; 

int n1 = n; 

} 

while ((n1 

> 0) && (liste1( 

!= null)) { 

liste1 = liste1.holeNaechstes 

holeNaechstes(); 

n1 = n1 - 1; 

} 

return liste1; 


Iterative Version: 

public suche(int[] feld, int links, int rechts, int wert) { 

int links1 = links; 

int rechts1 = rechts; 

} 

while (links1 wert) 

rechts1 = mitte-1; 

else if (feld[mitte] == wert) 

return mitte; 

} 

return -1;

Rekursionseliminierung: 

Hilfsfunktion 

Sobald eine rechtsrekursive Form vorliegt, ist 

eine Transformation in die iterative Form nicht 

mehr schwierig. Das Problem ist häufig, eine 

rechtsrekursive Form zu finden. 

Oftmals lässt siche eine rechtsrekursive Form 

mit einer Hilfsfunktion erzielen, die in einem 

zusätzlichen Parameter ein Zwischenergebnis 

mitführt. Dieses Zwischenergebnis wird vom 

letzten rekursiven Aufruf in das Endergebnis 

umgeformt und als Wert zurückgegeben. 


public Liste endeAb(Liste 


return endeAbHilf(liste 

liste, , null, n); 

} 

public Liste endeAbHilf(Liste 

liste, Liste resultat, int n) ) { 

Liste liste2; 

if ((n > 0) && (liste( 

!= null)) { 

liste2 = new Liste(); 

liste2.setzeElement 

setzeElement(liste.holeElement()); 

liste2.setzeNaechstes 

setzeNaechstes(resultat); 

return endeAbHilfs(liste 


(),liste2, 

n-1); 

} else 

return reversiere(resultat 

resultat); 

} 

Die Funktion endeAbHilfs baut das Ergebnis zunächst in 

umgekehrter Reihenfolge auf. Am Ende der Rekursion wird die 

Reihenfolge der Listemittels reversiere umgekehrt. 

(reversiere 

kann iterativ implementiert werden). 

endeAbHilfs ist rechtsrekursiv und kann leicht in eine 

iterative Form gebracht werden. 


Die Funktion endeAb kopiert die ersten n Elemente 

einer Liste (soweit vorhanden) und gibt diese als 

Liste in der gleichen Reihenfolge zurück. 

public Liste endeAb(Liste 


Liste liste2; 

if ((n > 0) && (liste( 

!= null)) { 

liste2 = new Liste(); 

liste2.setzeElement 

setzeElement(liste.holeElement()); 

liste2.setzeNaechstes 

setzeNaechstes( 

endeAb(liste 


n-1); 

return liste2; 

} else 

return null; 

} 

endeAb ist nicht rechtsrekursiv. Die folgende 

Funktion aber ist es: 

Zusammenfassung 

Laufzeit-Reduktion 

Generell: 

G1: Wenn eine kleine Beschleunigung erzielt werden 

soll, arbeite auf der vielversprechendsten 

Optimierungsebene. 

G2: Wenn eine große Beschleunigung gewünscht ist, 

beachte alle Optimierungsebenen 

1. Problemstellung: 

L1: Vereinfache! 

2. Systemstruktur: 

L2: Benutze Überschlagsrechnungen, um die richtige 

Alternative auszuwählen.

Zusammenfassung (2) 


L3: Speicherung von Zwischenergebnissen statt 

Neuberechnung 

L4: Vorverarbeitung von Daten 

L5: Teile und Herrsche 

L6: Dynamisches Programmieren 


L7: Ausnutzung häufig auftretender Fälle 

L8: Vorausberechnung logischer Funktionen 

L9: Ausnutzung algebraischer Identitäten 

L10: Erweiterung von Datenstrukturen mit 

Wächterelementen 


6. Hardware 

L20: Spezialhardware (z.B. Grafikprozessoren, 

Chips für Sprachsynthese, Signalverarbeitung, 

etc.) 

L21: Fließbandverarbeitung (Pipelining( 

Pipelining), 

L22: Multiprozessoren, Rechnerbündel (Cluster) 

Informatikern ist keine dieser Ebenen heilig; sie 

müssen verstehen, was gegebenenfalls die ge- 

eignetste Ebene für eine Verbesserung ist, und den 

Aufwand hierfür abschätzen können. 


L11: Ausrollen von Schleifen 

L12: Kombinieren von Schleifen über denselben 

Bereich („loop 

jamming“) 

L13: Entfernen invarianter Ausdrücke aus Schleifen 

L14: Rekursionseliminierung 

5. Benutzte Systemsoftware 

L15: Interpretierer => Übersetzer 

L16: Übersetzungsoptimierung (Laufzeitsystem) 

L17: Betriebssystemänderung, -spezialisierung 

L18: Datenbanksystem-Änderung, 

-Anpassung 

L19: Neuimplementierung (Spezialisierung) von 

Bibliotheksroutinen 

II. Speicherplatz-Reduktion 

• Selbst bei billigem Speicher kann Platzbedarf 

kritisch sein: 

– Eingebettete Prozessoren, mobile Geräte haben 

wenig Speicher 

– Caches sind relativ klein; Überlauf der Caches 

verlangsamt Programme dramatisch. 

– Schlampiger Verbrauch eines virtuellen 

Adressraums kann zu Seitenflattern 

(„Thrashing 

Thrashing“) führen und damit stark 

verlangsamen. 

– Reduktion von Speicherbedarf kann ein 

schnelleres Programm erzeugen. (Lauf-, , Lade-, 

Netzübertragungszeit) 

• Sowohl Datenraum als auch Programmraum 

können reduziert werden.

Reduktion des Datenraumes: 

Neuberechnen 

Prinzip S1: Neuberechnen statt Speichern 

Beispiel: Berechung der Lohnsteuer anstatt 

Speicherung der offiziellen Lohnsteuertabellen 

Beispiel: Statt mehrerer Versionen einer Textdatei, 

speichere erste Version und Mengen von 

Änderungsoperationen 

Beispiel: Testdaten zum Regressionstesten: 

1. Speichern der Testdaten (Testdaten werden durch 

Zufallsgenerator erzeugt.) 

2. Speichern des Generatorprogramms plus 

Anfangswert des Zufallsgenerators, Erzeugung bei 

Bedarf. 

Komprimierung (2) 

Um X[i,j] zu erhalten: 

int getValue(int i, int j) { 

for (int 

k=SpaltenErster 

SpaltenErster[j]; 

k

Große Datenobjekte 

Datenkompression 

Prinzip S3: Speichere große, identische Datenobjekte 

nur einmal 

Beispiel: Zeichenreihen, die mehrmals 

vorkommen, nur einmal abspeichern; Zeiger 

benutzen. 

Beispiel: Speicherung von Kalendern: 

Es gibt nur 14 kanonische Kalender (7 

Wochentage für den 1.Januar, mit oder ohne 

29.Februar) 

=> Tabelle gibt für jedes Jahr den richtigen 

Kalender an. (Evtl. S1: Tabelle durch Formel 

ersetzen.) 

Speicherplatzvergabe 

Prinzip S5: Dynamische Speicherplatzvergabe 

Anstelle von statischer Vergabe, Verbrauch nach 

Bedarf: 

1. Felder der richtigen Größe dynamisch anlegen; 

2. Dynamische Speicherplatzvergabe mit expliziter 

Freigabe oder automatischer 

Speicherbereinigung. 

Das ist bei Java u.ä. ganz selbstverständlich, 

bei maschinennahen Sprachen und Systemen 

jedoch nicht. Gilt ähnlich für die nachfolgenden 

Prinzipien 

Prinzip S4: Datenkompression 

Beispiel: Packen von kleinen Zahlen in Bytes 

N = (A lshift 4) or B 

=> A = N rshift 4 

B = N and 1111 2 

(Allgemein Packen/Entpacken 

mit *, +, div, mod) 

Beispiel: Speicherung von aufeinanderfolgenden 

Änderungen an Textdateien (Versionshaltung( 

Versionshaltung) 

indem man nur die Unterschiede festhält. Bei 

Bedarf kann jede Version aus den Unterschieden 

wieder erzeugt werden (siehe S1) 

Speicherbedarf für eine Version: < 2% des 

Klartextes. 

Variable Länge 

Prinzip S6: Sätze variabler Länge 

Benutze nur soviel Platz, wie benötigt. Dies spart 

Platz und Zeit: Leerzeichen müssen nicht 

gespeichert und überlesen werden. 

Beispiel: Bezeichner, Namen, Listen und 

Zeichenreihen sollten variabler Länge sein.

Datenkompression 

Prinzip S7: Gemeinsame Nutzung von 

Speicherplatz 

Beispiel: Halde und Keller wachsen gegeneinander: 

Keller frei Halde 

Beispiel: Überlagerung zweier Dreiecksmatritzen: 

A 

B 

Reduktion des 

Programmraumes 

Prinzip S8: Ersetze wiederholte Anweisungen 

durch Unterprogramme 

Prinzip S9: Minisprachen und Spezial-Interpretierer 

für kompakte Darstellung 

Prinzip S10: Assembler-Codierung 

(nur als letzter Ausweg – alles codieren!) 

Fallstudie1: Schachspiel 

(Reduktion des Datenraumes) 

• Schachendspiel: 4-54 

5 Figuren ohne Bauern 

Phase 1: Lernphase 

Für jede mögliche Position (der 4-54 

5 Figuren), 

berechne die Distanz bis Schachmatt durch 

Rückwärtsrechnung von allen Schachmatt- 

Positionen. 

Wähle Zug so, dass Position eine geradzahlige 

Distanz zu Schachmatt hat. 

Phase 2: Spielphase 

Programm ist „allwissend“ und spielt fehlerlose 

Endprogramme. 

Für jede Position speichert das Programm einen 

Satz mit 12 Bit, einschließlich der Distanz bis 

Schachmatt. 

Fallstudie1 (2) 

64 Felder => 6 Bit pro Figur, 30 Bit für die Position 

aller Figuren. 

Benutze diesen Schlüssel in eine Datei. 

=> Tabelle mit 2 30 Einträgen, oder etwa 1.07 

Milliarden 12-Bit Sätze, was die Kapazität der 

damaligen Platte überstieg. Rechenzeit bis Turnier 

auch nicht ausreichend. 

• Reduktion1: Alle Positionen, die Spiegelungen 

bzgl. Der 4 Achsen sind, werden nur einmal 

gespeichert. 

• Annahme: Weißer König nur in Pos. 

1-10; 10; beliebige Pos. kann durch 

0-33 Spiegelungen dorthin 

normalisiert werden. 

1 

• => Reduktion auf 10* 64 4 

2 3 

4 5 6 

(Platzersparnis Um Faktor 6) 

7 

8 

9 10

Fallstudie1 (3) 

Reduktion 2: Der gegnerische König kann nicht 

neben dem weißen König stehen. Daher gibt es 

statt 10*64 Positionen der weißen Könige nur 454 

legale Positionen, in denen der weiße König auf 1-1 

10 steht. 

⇒ Reduktion auf 454 * 64 3 ≈ 120 * 10 6 12-bit SätzeS 

Insgesamt fast um einen Faktor 10 reduziert; 

Die Lernphase reduzierte sich dadurch von einem 

Jahr auf einige Wochen. 

Fallstudie 2 

(Reduktion des Programmraumes) 

Apple Macintosh (Ur-Mac;; siehe Byte, Feb.1984) 

64 KByte ROM musste das gesamte Betriebssystem 

aufnehmen: 

– Sorgfältige Unterprogrammdefinition, 

– Assembler-Programmierung mit 

– Sorgfältiger Registerzuweisung und 

– Auswahl der Instruktionen (kurze Sprünge, etc.) 

⇒ Programm um Faktor 2 kleiner als ein von einer 

höheren Programmiersprache übersetztes (und 

durch Assemblercode auch effizienter). 

Zusammenfassung 

Platzreduktion 

• Kosten des Platzbedarfs: 

+0% Verfügbarer Platz ausgenutzt 

>10% Seiten-Flattern, 

Cache-Ping 

Ping-PongPong 

+∞ kein Platz vorhanden, Programm läuft l 

überhaupt nicht 

Bestimme die kritischen Datenstrukturen (Groß( 

Groß- 

verbraucher) – Es rentiert sich, diese zu verkleinern. 

Abwägung: Platzbedarf Geschwindigkeit, 

Funktionalität, 

t, 

Robustheit, 

Wartbarkeit 

(Beachte alle Möglichkeiten und wähle die beste; 

Für größere Reduktion, benutze alle.) 


Datenraum 

S1: Berechnen statt Speichern 

S2: Komprimieren von spärlichen Datenstrukturen 

S3: Speichere große, identische Datenobjekte nur 

einmal 

S4: Datenkompression 

S5: Dynamische Speicherplatzvergabe 

S6: Sätze variabler statt fester Länge 

Programmraum 

S7: Gemeinsame Nutzung von Speicherplatz 

S8: Unterprogramme statt Programmwiederholungen 

S9: Minisprachen für kompakte Darstellung 

S10: Assembler-Codierung

III. Cache-Optimierungen 

• Zeit zum Lesen Hauptspeicher Prozessor: 

– Ca. 100-500 Takte (ca. 50-1000 Instruktionen) 

• Deshalb Caches: Kleine, schnelle 

Zwischenspeicher zwischen Hauptspeicher 

und Prozessor 

• Bei Speicherzugriff wird kleiner Hauptspeicherblock 

(Cachezeile) mit dem gewünschten Datenelement 

darin in das Cache geladen. 

• Wenn ein Element der gleichen Cache-Zeile 

angesprochen wird, dann liefert das Cache das 

Datum wesentlich schneller als der Hauptspeicher 

(zeitlich und räumliche Lokalität). 

• Mehrere Hauptspeicherblöcke konkurrieren um selbe 

Cachezeile (Verdrängung) Optimierung möglich! m 

Details zur Implementierung 

• Realisierung in C++-Klassen 

• Gespeichert werden int (32 Bit-) ) Werte 

• Pseudocode: 

Ein kleines Rätsel 

• Womit lassen sich sortierte Folgen schneller 

implementieren: 

Felder oder verkettete Listen? 

• Experiment: 

– Einfügen einer Zufallszahl in eine sortierte Folge 

– Sequentieller Suche (d.h. keine binäre Suche im 

Feld). 

• Unterschiede 

– Liste: Zeigerverfolgung statt Indizierung; 

Einsetzen eines Elementes schnell. 

– Feld: Verschieben von Teilfeldern aufwendig 

Experiment 

Durchschnittliche Zeit pro Element (Intel PIII-450) 

S = {}; 

while (S.size() < n) 

S.insert(rand()); 

()); 

Was ist schneller: Listen oder Felder?

Matrixmultiplikation 

Speicherabbildung in C 

• Quadratische Matrizen: c = a * b 

• C-Quellcode: 

for (i=0; i

ikj-Matrixmultiplikation 

Experiment 

j 

= * 

k 

j 

• Messung einer 800x800 Matrixmultiplikation 

• Prozessor Alpha 21164a (500MHz) 

ijk-Matrixmultiplikation 

173,6s 

i 

i 

k 

c a b 

... 

r = a[i][k]; 

for (j=0; 

j

Messung der Kosten 

• Mittels folgender Schleife: 

for (i=0; i= n) 

j -= = n; 

} 

• Zeitmessung von jeweils 20 Mio. Iterationen 

bei verschiedenen n. . (x[j] ist ein 32Bit-Typ.) 

• d = 1 bzw. d = 11 

Ergebnis – PIII 450 

PentiumIII (450 MHz), L1: 16KB, L2: 512 KB 

Ergebnis - UltraSparc 

UltraSPARC-Iii 

(333 MHz), L1: 16 KB, L2: 2MB 

Bessere Cache-Nutzung 

• Gruppierung (Blockgröße) 

Verbessern der 

Cache-Block- 

Ausnutzung 

• Färbung (Kapazität) 

Verkleinern der 

Arbeitsmenge von 

Blöcken

Bessere Cache-Nutzung (2) 

Programmiertechniken (1) 

• Komprimierung (Assozitivität( 

Assozitivität) 

Verringern 

der Cache- 

Konflikte 


• Sequentieller Zugriff statt wahlfreier Zugriff 

• Vermeide verzeigerte Datenstrukturen 

Beispiel: Vollständiger Binärbaum als Feld mit 

impliziten Zeigern (spart Zeiger). 

0 

1 2 

0 1 2 3 4 5 6 

• Komprimiere Daten, damit möglichst viele 

Elemente gleichzeitig in den Cache passen. 

– Benutze Datenkompression (siehe Speicheropt.) 

– Aufspalten von Objekten in häufig und selten 

benutzte Anteile. 

– Parallele Felder statt großer Verbunde. 

1 1 

2 2 

3 3 

4 4 

5 5 

6 6 

7 7 


• Cache-bewusste 

Allokation 

– Verkettete Elemente hintereinander anlegen 

(u.U. mit speziellem Allokator) 

– Cache-bewusste 

Baumorganisation: 

1 

1 

2 

3 

4 

5 

6 

7 

2 3 4 5 

2 

4 

5 

1 

3 

6 

7 

Sollte nicht 

aus Cache 

verdrängt 

werden! 

3 4 5 6 

• Blockbildung bei Matrizenoperationen 

– jeweils Teilblöcke, die in Cache passen. 

Hauptspeicher 

1 

2 

3 

leer 

4 

5 

Cache

Programmoptimierung

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?