8. Physische Datenorganisation ?

8. Physische Datenorganisation 

Physische Datenorganisation 

 

 

 

Datenbanken 

– externe Ebene 

– konzeptionelle Ebene 

– physische Ebene 

Leistungsfähigkeit eines DBMS 

– maßgeblich bestimmt durch die Datenstrukturen auf der physischen Ebene 

Abbildung der konzeptionellen Ebene auf die physische Ebene 

Zugriffsstrukturen 

Pufferorganisation 

Externspeicherverwalt. 

ext. Speichermedium 

Datenobjekte: 

Datensätze 

Relationen 

Datenobjekte: 

Seiten 

Dateien 

Abbildung 

? 

Seite 302


Architektur 

AWP 1 AWP 2 • • • AWP n 

Anfragebearbeitung 

logische Seitenreferenzen 

Systempufferverwaltung 

physische Seitenreferenzen 

Externspeicherverwaltung 

Plattenzugriffe 

Algorithmen 

– Implementierung der 

Operatoren der 

relationalen Algebra 

Zugriffstrukturen 

– Hilfsdatenstrukturen für 

den schnellen Zugriff auf 

die relevanten 

Datensätze 

Speicherstrukturen 

– Physische 

Repräsentation der 

Relationen 

Seite 303


8.1 Aufbau eines Magnetplattenspeichers 

 

 

 

Magnetplatten 

– seit über 40 Jahren die Technologie zur persistenten Datenspeicherung 

Eigenschaften 

– günstig: 10GB für 1€ 

– robust 

– große Speicherkapazität: bis 1 TB/Platte 

– langsam 

Entwicklung der Plattenspeichertechnologie 

Plattenspeicher 1957 

Plattenspeicher heute 

(2.5” Durchmesser) 

0,85 Zoll Durchmesser 

RAID-Plattensysteme 

Seite 304


Funktionsweise von Plattensystemen 

Festplatte besteht aus einem Stapel übereinander liegender Magnetplatten. 

– Jede Oberfläche hat einen Lese/Schreibarm. 

– Lese/Schreibarme bewegen sich synchron, wobei nur einer davon 

aktiv ist. 

Strukturierung: 

– Zylinder, Spur und Sektor (Seite) 

– Zugriff über einen Kamm mit Schreib-/Leseköpfen, der quer zur 

Rotation bewegt wird 

Zugriff auf Seiten 

– Positionierung des Schreib-/Lesekopfes (Seek) 

Zeit für die Armbewegung [5 ms] 

– Warten auf den Sektor / Seite (Rotationsverzögerung) 

halbe Rotationszeit der Platte [3 - 4,3 ms] 

– Übertragung der Seite (Transferzeit) 

Zeit für Schreiben bzw. Lesen einer 4 KByte Seite [0,05 ms] 

– Kontrolle der Übertragung: Zeit des Platten-Controllers [ < 1 ms] 

Zeit für Zugriff einer Seite >> Zeit für Hauptspeicherzugriff ! 

Seite 305

Systempuffer-Verwaltung 


 

Umsetzung der logischen in physische Seitenadressen 

Schnittstelle: 

Bereitstellen einer DB-Seite im DB-Puffer (zur exklusiven oder gemeinsamen Benutzung). 

Bereitstellen einer neuen Seite 

Freigeben einer Seite 

intern verwendete Funktionen: 

Effiziente Suche im Puffer 

– Hash-Tabelle 

Suche nach freiem Platz im Puffer (Frames) 

Bestimmen einer Seite (Opfer), die aus dem Puffer entfernt wird. 

– Least-Recently-Used: Verkettung der Seiten nach dem letzten Zeitpunkt der Nutzung 

Schreiben modifizierter Seiten 

– Erfolgt in Absprache mit der Transaktionsverarbeitung 

Seite 306


8.2 Speicherstrukturen 

 

 

 

Datenbanken werden typischerweise auf eine Datei bzw. eine Menge von Dateien abgebildet. 

Beim Anlegen der Datenbank werden noch wichtige Parameter mitgegeben: 

– Initiale Dateigröße 

– Maximale Dateigröße 

– Inkrementelle Größe 

Beim Anlegen einer Relation wird der Relation eine initiale Seite zugewiesen. 

– Alle weiteren Seiten werden dann miteinander verkettet. 

Tuple-Identifier (TID auch RowID und RID genannt) 

 

TID ist eine eindeutige Kennung des Datensatzes innerhalb der Datenbank. Dieser setzt sich 

zusammen aus der Seitenadresse und einer relativen Adresse innerhalb der Seite. 

Der markierte Datensatz hat die TID (42,3) 

Seitenadresse: 42 

Seite 307


 

– TIDs sind invariant bzgl. Verschiebungen innerhalb einer Seite 

Die TID ändert sich auch nicht, wenn ein Datensatz in eine andere Seite verschoben wird. 

– Anlegen eines Stellvertreters in der ursprünglichen Seite, der auf die neue Position 

verweist. 

j 

(4711,j) 

 

 

Seitenadresse: 42 Seitenadresse 4711 

Vorteil des TID-Konzepts 

– TID sind stabil 

Nachteil 

– hohe Zugriffskosten, wenn es viele Stellvertreter gibt. 

==> Reorganisation der Datenbank 

Seite 308


Recordmanager 

 

Komponente zur Verwaltung der Datensätze in Seiten 

Zentrale Aufgabe des Recordmanager 

 

 

Für einen neuen Datensatz soll eine Seite mit genügend freiem Speicherplatz gefunden werden. 

– Ggf. muss hierfür eine neue Seite angefordert werden. 

Wünschenswert wäre auch eine Ballung (Clusterung) der Datensätze: 

– Datensätze, die oft gemeinsam zugegriffen werden, sollen auch gemeinsam in einer Seite 

liegen. 

Unterscheidung 

 

 

Datensätze mit konstanter Länge 

– einfache Lösungen: z. B. Verkettung der Seiten, die noch Platz haben. 

Datensätze mit variabler Länge 

– relativ kompliziert 

Seite 309

Zugriff auf die Basisrelationen 

Bei Datenbanken unterscheidet man zwischen zwei Zugriffsarten: 

 

 

Relationen-Scan 

– Durchlaufen der zu der Relation gehörenden Seiten. 


Index-Scan 

– Zugriff erfolgt indirekt über eine Hilfsstruktur, in der die Verweise (TID) auf die 

Datensätze (zusammen mit z. B. einem Attribut) der Relation hinterlegt sind 

Index auf dem 

Attribut Lohn 

der Relation Personal 

(1000, (42,3)) (2100, (42,1)) (3000,(4711,2) 

j 

(4711,j) 

Seitenadresse: 42 Seitenadresse 4711 

Seite 310


Ziel: 

8.3 Indexstrukturen 

Effizienter Zugriff auf die Datensätze einer Relation, die ein bestimmtes Prädikat erfüllen. 

Strukturen sollen keinen erheblichen Mehraufwand verursachen. 

– Änderungsoperationen 

– Speicherplatz 

Klassifizierung 

Eindimensionale Prädikate (bzgl. einem Attribut) 

– Exakte Prädikate: Dyn. Hash-Verfahren 

 

 

 

– Bereichsprädikate und exakte Prädikate: B + - Bäume 

Mehrdimensionale Prädikate 

– Bereichsprädikate 

Metrische Prädikate 

– Nachbarprädikate 

Mengenbasierte Prädikate 

Seite 311


Anforderungen 

Allgemeine Ziele beim Entwurf von Indexstrukturen 

 

 

Hohe Speicherplatzausnutzung 

Kurze Antwortzeiten für eine Operation 

– Benötigte Zeit entspricht dabei der Anzahl der Seitenzugriffe 

Operationen 

 

 

Suchanfragen 

– Einlesen einer Teilmenge der Daten einer Relation 

– Exakte Suche: select * from R where R.A = c 

– Bereichssuche: select * from R where c1 R.A and R.A c2 

Einfügen, Löschen und Ändern 

– Reorganisationen der Daten des Index erforderlich 

– Reorganisationen sollen nur lokal auf einem kleinen Teil der Daten einwirken 

(dynamische Indexstrukturen) 

Seite 312


8.3.1 Suchbäume 

 

Wichtige Datenstruktur für Hauptspeicher und Hintergrundspeicher zur Unterstützung von 

Bereichsprädikaten (siehe Prakt. Info II) 

Definitionen (Baum) 

 

Ein Baum ist eine endliche Menge T von Elementen, Knoten genannt, mit: 

(1) Es gibt einen ausgezeichneten Knoten w(T), die Wurzel von T 

(2) Die restlichen Knoten sind in m 0 disjunkte Mengen T 1 , …, T m zerlegt, die 

ihrerseits Bäume sind. T 1 , …, T m heißen Teilbäume der Wurzel w(T). 

Der Grad eines Knotens x, deg(x), ist gleich der Anzahl der Teilbäume von x. Gilt deg(x) = 0, 

so nennt man x ein Blatt. 

 

 

 

Jeder Knoten x außer w(T) hat einen eindeutigen Vorgänger vm(x), auch als Vater/Mutter 

bezeichnet. 

Ein Pfad in einem Baum ist eine Folge von Knoten x 1 , …, x n mit: x i = vm(x i+1 ), i = 1, …, n-1. 

Die Länge des Pfades ist n. 

Die Höhe eines Baums entspricht der Länge des längsten Pfads. 

Seite 313

Definition (Suchbaum) 

 


Sei auf der Menge T eine Ordnungsrelation “


Die schlechte Nachricht! 

 

 

Einfache Abbildung von binären Knoten auf Seiten führt zu schlechten Strukturen. 

– im schlechtesten Fall: ein Knotenzugriff = ein Plattenzugriff 

– exakte Suche ist dann sehr teuer 

z. B. für 10 7 Datensätze beträgt die Höhe bereits 23 

Binäre Suchbäume sind also nicht für die Verwaltung auf dem Externspeicher geeignet. 

binärer Baum 

ideale Baumstruktur für den Externspeicher 

Zentrale Frage (bis Ende der 60er Jahre): 

 

Gibt es eine effiziente Zugriffsstruktur für einen seitenorientierten Externspeicher? 

Seite 315


Prinzipien 

 

 

8.4 B + -Bäume 

Im Gegensatz zu binären Bäumen enthält ein Knoten viele Einträge/Sätze 

– 1:1-Beziehung zwischen Knoten und Seiten! 

– Daten werden exklusiv in den Blättern verwaltet 

Basieren auf dem Konzept von 

– ISAM (Index Sequential Access Method) 

statisch: globale Reorganisation periodisch erforderlich 

– B-Bäumen (Bayer & McCreight, 1972) 

Funktionsumfang und Leistung 

 

 

 

Leistung des B+-Baums hängt von dem Verzweigungsgrad b eines Knotens ab. 

Suchfunktionen: 

– Exaktes Prädikat 

– Bereichsprädikat 

Effizienz (Speicherplatz u. Antwortzeiten) ist asymptotisch unabhängig von der 

Einfügereihenfolge. 

Seite 316


Definition (B+-Baum) 

Ein B + -Baum vom Typ (b, c) ist ein Baum mit folgenden Eigenschaften: 

1. Jeder Weg von der Wurzel zum Blatt hat die gleiche Länge. 

2. Die Wurzel ist ein Blatt oder hat mindestens 2 und höchstens 2b-1 Söhne. 

3. Jeder Zwischenknoten hat mindestens b und höchstens 2b-1 Söhne. 

4. Jedes Blatt hat mindestens c und höchstens 2c-1 Einträge. 

 

Zwischenknoten: 

p 0 k 1 p 1 k 2 p 2 • • • k m p m frei 

– p i = Zeiger Sohnseite, k i = Schlüssel 

– es gilt stets: k i < k i+1 für 0 

 

Blattknoten: 

V k 1 TID 1 k 2 • • • k m frei 

TID 2 

TID m 

N 

– TID i = Verweis auf den Satz mit Schlüssel k i 

– N = Zeiger auf den rechten Blattknoten 

– V = Zeiger auf den linken Blattknoten 

Seite 317

Eigenschaften des B + -Baums 


 

lokale Ordnungserhaltung: 

Für jeden Zwischenknoten Z mit j Schlüsseln k 1 ,…,k j und (j+1) Söhnen p 0 ,…,p j gilt: 

Für jedes i, 1 i j, sind alle Schlüssel in dem zu p i-1 gehörenden Teilbaum nicht größer als k i 

und k i ist kleiner als alle Schlüssel, die im Teilbaum von p i liegen. 

B + -Baum 

Datenraum 

… k … … 

i 

k i k i 

k i 

k i 

k i 

Seite 318


Beispiel 

b=2, c=2 

Beachte: b und c sind nur aus Gründen der Übersicht so klein gewählt! 

4 6 

1 TID 3 TID 4 TID 5 TID 6 TID 7 TID 9 TID 10 TID 

Seite 319


Wie hoch kann ein B + -Baum werden? 

Welche Höhe besitzt ein B + -Baum zur Abspeicherung von N Datensätzen im schlechtesten 

Fall? 

Oder anders gefragt: 

 

 

 

Wie viele Datensätze müssen mindestens (dürfen höchstens) in einem B + -Baum der Höhe h 

sein? 

Vereinfachende Annahme: b = c 

Wurzel hat mindestens 

Zwischenknoten in der Ebene 2 hat mindestens 

Zwischenknoten in der Ebene 3 hat mindestens 

… 

Blattknoten in der Ebene h hat mindestens 

2 Einträge 

b Einträge 

b Einträge 

b Einträge 

b Datensätze 

Daraus ergibt sich, dass in einem B + -Baum der Höhe h mindestens 2*b h-1 Datensätze liegen. Es 

gilt also N 2*b h-1 und somit 

N 

h 1 + log b 

--- 

2 

= Olog b 

N 

Besonderheit der asymptotischen Analyse: b ist keine Konstante 

Seite 320

Speicherplatz für den B + -Baum 


 

 

 

Speicherplatzausnutzung (SPAN): 

Im schlimmsten Fall 

– Jeder Knoten (mit Ausnahme der Wurzel) ist mit mindestens der Hälfte der möglichen 

Schlüssel gefüllt. 

– Ein B + -Baum braucht (im schlechtesten Fall) doppelt soviel Speicher wie ein optimal 

gefüllter Baum. Damit ergibt sich eine Speicherplatzausnutzung von mindestens 50%. 

Im Durchschnitt 

– ln 2 (etwa 69%) 

minimal 

--------------------------------------------------------------------------------------- 

erforderlicher Speicherplatz 

tatsächlich reservierter Speicherplatz 

Wie viele Einträge passen in einen Zwischenknoten der Größe 4 KB? 

– pro Zeiger: 4 Byte 

– pro Schlüssel: 16 Byte 

Dies ergibt ca. 200 Einträge in einem Zwischenknoten. 

Seite 321

Problem: 

 

Exakte Suche im B+-Baum 


Gegeben ein Schlüssel k. Liefere den TID des Datensatzes r mit r.key = k in dem B+-Baum mit 

Wurzel root: EMQ(root, k). 

Algorithmus EMQ(Knoten p akt , Key k) 

readPage(p akt ); 

IF (p akt ist ein Zwischenknoten) 

index = m; // m ist die Anzahl der Schlüssel im Zwischenknoten 

Bestimme im Knoten p akt den kleinsten Schlüssel k i , so dass k k i . 

IF (es gibt solch ein k i ) 

index := i-1; 

RETURN EMQ(p index , k); // rekursiver Aufruf 

ELSE 

Bestimme im Knoten p akt den Datensatz (k i ,TID i ) mit k == k i . 

RETURN (es gibt solch einen Datensatz) ? TID i : NULL; 

END EMQ; 

Seite 322


Vereinfachende Annahme 

Beispiel 

Es wird nur als Ergebnis geliefert, ob der Datensatz im Baum ist. 

Suche den Datensatz mit Schlüssel 42. 

Suche den Datensatz mit Schlüssel 41. 

41 

9 28 

46 67 

1 5 9 15 19 28 33 37 41 45 46 53 59 67 71 83 99 

Seite 323

Bereichsanfrage im B + -Baum 


 

Gegeben ein Schlüsselpaar low und up, low up. Finde alle TID der Datensätze r mit low r.key 

up im B + -Baum mit Wurzel root: RQ(root, low, up) 

Algorithmus RQ(Knoten p akt ; Key low, Key up) 

Bestimme analog zur exakten Suche das Blatt first, in dem ein Datensatz mit Schlüssel 

low liegen könnte; 

res = p akt = first; 

LOOP 

ReadPage(p akt ); 

FOREACH (r mit r.key in [low,up] im Knoten p akt ) 

res += {r.TID} 

IF ((es gibt ein Datensatz r in p akt mit r.key up) OR 

(p akt ist das am weitesten rechts liegende Blatt im B+-Baum)) 

RETURN res; 

p akt := p akt .N; // Gehe zum rechten Nachbarknoten 

END RQ; 

Seite 324


Suche alle Datensätze im Bereich [40, 52]. 

Beispiel 

41 

9 28 

46 67 

1 5 9 15 19 28 33 37 41 45 46 53 59 67 71 83 99 

Seite 325


Einfügen und Löschen in B + -Bäumen 

Meistens ist das Einfügen und Löschen sehr einfach: 

 

Entspricht fast immer einer exakten Suche, dem Einfügen des neuen Satzes und dem 

Zurückschreiben des modifizierten Blatts (Datenseite). 

Manchmal treten aber folgende Problemfälle auf: 

 

Was passiert, wenn die Seite keinen Datensatz mehr aufnehmen kann? 

1. Lösung: Einführung von Überlaufseiten und verketten mit der Primärseite. 

– Nachteil: Kosten für Suche, Einfügen und Löschen erhöhen sich. 

2. Lösung: Reorganisation der Datenstruktur 

 

– Sofort: Überlaufseiten werden nicht zugelassen. Reorganisation des B + - 

Baums soll aber lokal begrenzt bleiben. 

– Verzögert: kurzzeitige Verwendung von Überlaufseiten und spätere globale 

Reorganisation des Datenbestands. 

Was passiert, wenn es zu wenige Datensätze in der Seite gibt? 

Seite 326


Einfügen im B + -Baum 

 

Gegeben einen Datensatz r = (key,TID) und die Wurzel root des B + -Baums. Füge den Datensatz 

in den B + -Baum ein: Insert(root, r). 

Algorithmus Insert(Knoten p akt ; Record r) 

Suche nach dem Datensatz mit Wert r.key; // siehe EMQ(p akt , r.key) 

IF (Datensatz wurde gefunden) 

RETURN; // ggf. melde dies als Fehler 

Setze p akt auf das zuletzt gelesene Blatt; 

Füge r in p akt ein; 

WHILE (p akt ist übergelaufen) 

Teile die Sätze/Verweise in p akt in zwei gleich große Gruppen L und R, so dass 

alle Sätze/Verweise in L kleiner sind als die Sätze/Verweise in R; 

Speichere die Sätze/Verweise in R in einem neuen Knoten p neu und die in L in p akt ; 

Sei k max der größte Schlüssel in L; 

p akt = (vm(p akt ) != NULL) ? vm(p akt ) : newRoot(p akt ); // Gehe zum Vater 

Füge das Paar (k max , p neu ) in den Vaterknoten ein; 

END Insert; 

Seite 327

Spezialfall: Überlauf der Wurzel 


 

 

Schleife wird spätestens durch eine Überlaufbehandlung der Wurzel beendet. 

Durch den Aufruf der Methode newRoot wird eine neue Wurzel bereitgestellt: 

p akt 

neue 

Wurzel 

p akt 

– Der neue Wurzelknoten verfügt zunächst über nur einen Eintrag. Sofort danach wird dann 

der zweite Eintrag eingefügt. 

Seite 328


Beispiel 

 

Einfügen von 40 in folgenden B+-Baum 

9 28 

41 46 

1 5 9 15 19 28 33 37 41 45 46 53 59 67 

– Suche nach dem Blatt 

9 28 

41 46 

40 

1 5 9 15 19 28 33 37 41 45 46 53 59 67 

– Einfügen in das Blatt, Spalten des Blatts und Einfügen in den Vater 

9 28 

41 46 

(37, ) 

1 5 9 15 19 28 33 37 40 41 45 46 53 59 67 

Seite 329


– Einfügen in die Wurzel, Spalten der Wurzel und Erzeugen der neuen Wurzel 

37 

9 28 

41 46 

1 5 9 15 19 28 33 37 40 41 45 46 53 59 67 

Wichtige Eigenschaften beim Einfügen: 

 

 

Einfügeoperation bleibt auf einen Pfad des B + -Baums beschränkt. 

– Pro Ebene wird höchstens ein neuer Knoten hinzugefügt. 

– Der Aufwand für das Einfügen eines Datensatzes beträgt O(log b N) 

Beim Einfügen bleiben alle Invarianten des B + -Baums erhalten. 

Seite 330


Löschen im B + -Baum 

 

Gegeben ein Schlüssel k und die Wurzel des B + -Baums. Finde den Datensatz mit Schlüssel k 

im B + -Baum und entferne diesen. 

Problemfälle: 

 

 

Wie kann verhindert werden, dass ein Knoten zu wenig Datensätze enthält? 

– Ausgleich mit einem Geschwisterknoten 

– Ggf. muss der Knoten mit einem Geschwisterknoten verschmolzen werden. 

Was passiert, wenn ein Datensatz gelöscht wird, dessen Schlüssel auch als Referenz in einem 

Elternknoten benutzt wird? 

– Das stellt kein Problem dar, weil die internen Schlüssel nur eine Wegweiserfunktion 

besitzen. 

Löschen von 28 

37 

9 28 

41 46 

1 5 9 15 19 28 33 37 40 41 45 46 53 59 67 

Seite 331


Kosten für Suchen, Einfügen und Löschen 

 

 

Exakte Suche, Einfügen und Löschen sind auf einen Pfad beschränkt 

Im schlechtesten Fall ergeben sich folgende Kosten für den B+-Baum: 

exakte Suche: O(log b N) 

Bereichanfrage: O(log b N + r/b) 

Einfügen: O(log b N) 

Löschen: O(log b N) 

Praktische Überlegungen 

 

 

Wie viele Datensätze können in einem B + -Baum der Höhe 4 gespeichert werden? 

Beispiel (b = c = 200, 4 KB pro Seite); 

– Im schlechtesten Fall: 2*200*200*200 = 16*10 6 Datensätze, 8*10 4 Datenseiten = 320 

MB Speicherplatz für die Blattebene des B + -Baums. 

– Im Durchschnitt: Da Knoten zu etwa 2/3 im Durchschnitt gefüllt sind, können 

voraussichtlich 2*200*270*270 = 29*10 6 Datensätze verwaltet werden. Es wird nun 430 

MB an Speicherplatz für die Blattebene benötigt. 

In vielen Anwendungen: 

Wurzel im Hauptspeicher ==> 3 Plattenzugriffe für exakte Suche 

Seite 332

Cluster-Index 

 

 

8.5 Indexe in Datenbanken 

Höchstens ein Index pro Relation kann als Cluster-Index angelegt werden: 

create clustered index MeinIndex on … 


Durch einen Cluster-Index wird das Speicherlayout der Datensätze der Relation bestimmt. 

– Beispiel: DB2 von IBM 

(a) Datensätze werden entsprechend der Ordnung im Index auf die Seiten abgebildet. 

(b) Häufiges Einfügen zerstört die Ordnung. 

(c) Reorganisation der Relation (TEUER) clustert die Datensätze wieder. 

– Beispiel: SQL Server 

Sicherstellung der Eindeutigkeit durch einen Index 

 

 

Durch Anlegen eines Index kann sehr effizient überprüft werden, ob die Bedingung eines 

Schlüsselkandidats erfüllt ist. 

Anlegen eines unique-Index: 

create unique index MeinIndex on … 

Seite 333

8. Physische Datenorganisation ?

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?