3.3.2. Dateiorganisation

3.3.2. Dateiorganisation 3.3.2. Dateiorganisation

von familiebartels.com Mehr von diesem Publisher

28.08.2013 Aufrufe

Datenorganisation Februar bis Mai 2007 Dipl.-Oek. Patrick Bartels Institut für Wirtschaftsinformatik Universität Hannover Telefon: +49 (0) 511 762 - 4979 +49 (0) 170 342 84 95 Email: bartels@iwi.uni-hannover.de Internet: www.iwi.uni-hannover.de

Datenorganisation

Februar bis Mai 2007

Dipl.-Oek. Patrick Bartels

Institut für Wirtschaftsinformatik

Universität Hannover

Telefon: +49 (0) 511 762 - 4979

+49 (0) 170 342 84 95

Email: bartels@iwi.uni-hannover.de

Internet: www.iwi.uni-hannover.de

2

Nachtrag: Fremdschlüssel

Ein Fremdschlüssel ist ein

Primärschlüssel einer Relation, der in

einer anderen Relation als

Attributmenge auftaucht. Er dient als

Verweis zwischen zwei Relationen,

d. h. er zeigt an, welche Tupel der

Relationen inhaltlich miteinander in

Verbindung stehen. Beispiele für

Fremdschlüssel sind die beiden

Attribute „Vorgesetzter“ und

„Untergebener“ aus der

Beispielrelation

Vgl. http://de.wikipedia.org/wiki/Fremdschl%C3%BCssel

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

3

3.2 Logisches Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

4

3.2 Logisches Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Logische Datenbankmodellierung ist der Prozess der

Überführung eines konzeptionellen Datenmodells in ein

logisches Datenbankmodell, das anschließend über ein DBMS

implementiert werden kann.

Beispiele für Datenbankmodelle:

• Hierarchisches Datenmodell

• Netzwerkmodell

• Relationales Datenmodell

• Objekt-orientiertes Datenmodell

5

3.2.1 Hierarchisches Datenmodell

Hierarchisches Datenmodell (1960 – 1980)

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Datensätze werden als Knoten, Beziehungen als Kanten dargestellt

Es sind nur 1:n Beziehungen zugelassen, dadurch entsteht eine

Baumstruktur

Beim folgenden Beispiel muss eine Hierarchie für Kunden und eine für

Artikel gebildet werden

6

3.2.1 Hierarchisches Datenmodell

Hierarchisches Datenmodell (1960 – 1980)

Ein Knoten kann nur einen vorgelagerten Knoten besitzen.

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Einstieg in den Baum immer über die Wurzel. Existenzabhängigkeiten!

Erstes logisches Datenmodell.

Datensatzorientiert.

Einsatz vor allem in Legacy-Systemen, insbes. in Großrechnersystemen.

7

3.2.1 Hierarchisches Datenmodell

Hierarchisches Datenmodell (1960 – 1980)

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

8

3.2.1 Hierarchisches Datenmodell

ER-Diagramm

Hierarchisches Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

9

3.2.1 Hierarchisches Datenmodell

Hierarchisches Datenmodell (1960 – 1980)

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

10

3.2.2 Netzwerkmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

„Das Netzwerkmodell stellt Datenstrukturen als Netzwerke bestehend

aus Knoten für Datensätze (Objekte) und Kanten für Beziehungen

zwischen Datensätzen dar. Dabei werden üblicherweise 1:m- und n:m-

Beziehungen zugelassen.“

Ein Datensatztyp kann mit einer beliebigen Anzahl verschiedener

anderer Datensatztypen verbunden sein.

11

3.2.2 Netzwerkmodell

Pfeile deuten 1:n-Beziehungen an.

Datensatzorientiert.

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Das Netzwerkmodell wurde entwickelt, um die Limitierungen des

hierarchischen Datenmodell zu beseitigen.

Einsatz in Legacy-Systemen, insbes. in Großrechnersystemen.

12

3.2.2 Netzwerkmodell

Beispiel:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

13

3.2.2 Netzwerkmodell

Beispiel

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

14

3.2.3 Relationales Datenmodell

Das relationale Datenmodell

Entwickelt von Dr. Edgar Frank Codd (1970)

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Erster systematischer Ansatz, Grundlage einer ersten

Datenbanktheorie, Basis für viele Konzepte und Produkte

12 Grundregeln (später erweitert auf 48, dann auf 333)

Grundlage für die meisten heutigen DB-Systeme

Tabellen (Relationen) sind das universelle Strukturierungsmittel

Alle Daten werden als Werte in zweidimensionalen Tabellen

dargestellt

15

3.2.3 Relationales Datenmodell

Relation = 2-dim. Tabelle

Alle Daten werden in Tabellen gespeichert

Abfrage-Ergebnisse sind Tabellen

Abfragen sind Transformationen von Tabellen in Tabellen

feste Anzahl von Spalten, beliebige Anzahl von Zeilen

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Die Reihenfolge der Zeilen spielt keine Rolle, ebenso die der Spalten

Jede Zeile der Tabelle: ein Datensatz, ein „Tupel“

Die Spalten (Felder) enthalten die Attribute des Datensatzes

Die Zeilen müssen paarweise voneinander verschieden sein, d.h. es gibt

keine zwei identischen Zeilen

16

3.2.3 Relationales Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Die 12 Grundregeln (0 bis 12=13) für relationale Datenbanken:

0. Ein relationales DBMS muss in der Lage sein, Datenbanken

vollständig über seine relationalen Fähigkeiten zu verwalten.

1. Darstellung von Informationen: Alle Informationen in einer

relationalen Datenbank (einschließlich Namen von Tabellen und

Spalten) sind explizit als Werte in Tabellen darzustellen.

2. Zugriff auf Daten: Jeder Wert einer relationalen Datenbank muss

durch eine Kombination von Tabellenname, Primärschlüssel und

Spaltenname auffindbar sein.

17

3.2.3 Relationales Datenmodell

Die 12 Grundregeln (0 bis 12=13) für relationale Datenbanken:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

3. Systematische Behandlung von Nullwerten: Das DBMS

behandelt Nullwerte durchgängig gleich als unbekannte oder

fehlende Daten und unterscheidet diese von Standardwerten.

4. Struktur einer Datenbank: Die Datenbank und ihre Inhalte werden

in einem so genannten Systemkatalog auf derselben logischen

Ebene wie die Daten selbst - also in Tabellen –beschrieben.

Demzufolge lässt sich der Katalog mit Hilfe der Datenbanksprache

abfragen.

5. Abfragesprache: Zu einem relationalen System gehört mindestens

eine Abfragesprache mit einem vollständigen Befehlssatz für

Datendefinition, Manipulation, Integritätsregeln, Autorisierung und

Transaktionen.

18

3.2.3 Relationales Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Die 12 Grundregeln (0 bis 12=13) für relationale Datenbanken:

6. Aktualisieren von Sichten: Alle Sichten, die theoretisch

aktualisiert werden können, lassen sich auch vom System

aktualisieren.

7. Abfragen und Bearbeiten ganzer Tabellen: Das DBMS

unterstützt nicht nur Abfragen, sondern auch die Operationen für

Einfügen, Aktualisieren und Löschen in Form ganzer Tabellen.

8. Physikalische Datenunabhängigkeit: Der logische Zugriff auf die

Daten durch Anwendungen und Ad-Hoc-Programme muss

unabhängig von den physikalischen Zugriffsmethoden oder den

Speicherstrukturen der Daten sein.

19

3.2.3 Relationales Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Die 12 Grundregeln (0 bis 12=13) für relationale Datenbanken:

9. Logische Datenunabhängigkeit: Änderungen der

Tabellenstrukturen dürfen keinen Einfluss auf die Logik der

Anwendungen und Ad-Hoc-Programme haben.

10.Unabhängigkeit der Integrität: Integritätsregeln müssen sich in

der Datenbanksprache definieren lassen. Die Regeln müssen im

Systemkatalog gespeichert werden. Es darf nicht möglich sein, die

Regeln zu umgehen.

11.Verteilungsunabhängigkeit: Der logische Zugriff auf die Daten

durch Anwendungen und Ad-Hoc-Programme darf sich beim

Übergang von einer nicht verteilten zu einer verteilten Datenbank

nicht ändern.

20

3.2.3 Relationales Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Die 12 Grundregeln (0 bis 12=13) für relationale Datenbanken:

12.Kein Unterlaufen der Abfragesprache: Integritätsregeln, die über

die Datenbanksprache definiert sind, dürfen sich nicht mit Hilfe von

Low-Level-Sprachen umgehen lassen.

21

3.2.3 Relationales Datenmodell

Relationales Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

• Objekttypen und Beziehungstypen und deren Attribute werden

mittels Relationen abgebildet, die anschaulich durch Tabellen

dargestellt werden können.

1. Präzisiert wird eine Relation durch Angabe eines Namens und der

Attribute des betreffenden Objekttyps. Primärschlüssel-Attribute

werden unterstrichen

2. Schreibweise:

[KONTO (Filiale; KontoNr; KontoInhaber; KontoStand)]

22

3.2.3 Relationales Datenmodell

Relationales Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Mathematisch ist jede Relation eine Teilmenge des kartesischen Produkts

von zwei oder mehr Mengen.

Das kartesische Produkt M1 x M2 zweier Mengen M1 und M2 ist die

Menge aller Paare (p, q) mit p aus M1 und q aus M2

Das kartesische Produkt ist die Menge aller möglichen

Wertekombinationen

Beispiel:

Für M1 = {1,2,3} und M2 = {a,b,c} ist

M1 x M2 = { (1,a), (1,b), (1,c), (2,a), (2,b), (2,c), (3,a), (3,b), (3, c) }

Eine Relation ist eine Teilmenge des kartesischen Produkts, wobei alle Tupel

(Datensätze) unter sich verschieden sind.

23

3.2.3 Relationales Datenmodell

Relationales Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Beim relationalen Datenmodell sind diese Mengen die

Wertebereiche der Attribute des betreffenden Objekttyps.

z.B. Konto

Aufbau und Struktur einer Relation bezeichnet man auch als

Schema (Datenbank-Schema).

24

3.2.3 Relationales Datenmodell

ER-Diagramm

Relationales Datenmodell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

25

3.2.3 Relationales Datenmodell

Relationales Datenmodell

Für eine Tabelle des Relationenmodells gilt:

Die Zeilen der Tabelle sind gleich lang

In den Feldern gibt es keine Attributwiederholungen

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Die Spalten der Tabelle sind elementar (in den Spalten gibt es keine

zusammengesetzten Attribute)

Tabellen können Anomalien aufweisen:

– Redundanz

– Änderungsanomalie

– Einfügeanomalie

– Löschanomalie

26

3.2.4 Normalisierung

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

27

3.2.4 Normalisierung

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Eine gut-strukturierte Relation enthält keine Redundanz und

ermöglicht es Datensätze einzufügen, zu ändern oder zu löschen,

ohne dass Inkonsistenzen entstehen.

Vermeidung von

Änderungsanomalien

Einfügeanomalien

Löschanomalien

28

3.2.4 Normalisierung

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Redundanz ist „die mehrfache Speicherung derselben Daten. Diese

Redundanz ist im Regelfall unerwünscht, da unnötig Speicherplatz

beansprucht wird und die Aktualisierung von Daten durch Redundanz

erheblich erschwert wird.“

Quelle: Schwarze

29

3.2.4 Normalisierung

Änderungsanomalie (Updateanomalie):

Eine Änderung von Daten muss in mehreren Datensätzen

durchgeführt werden.

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Beispiel: Die Videostammdaten sind in der Leihtabelle enthalten. Bei

Änderungen der Videostammdaten müssen alle Datensätze geändert

werden, bei denen dieses Video ausgeliehen worden ist.

statt:

Leihe(KNr, VINr, LDat, RDat, Titel, Leihgesellschaft, ...)

Video(VINr, Titel, Leihgesellschaft, ...)

Leihe(KNr, VINr, LDat, RDat)

30

3.2.4 Normalisierung

Einfügeanomalie:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Beim Einfügen von neuen Objekten (z. B. Videos) müssen andere

Daten auch erfasst werden.

Beispiel: Ein neues Video kann erst angelegt werden, wenn es von

einem Kunden ausgeliehen wurde, weil die Kundennummer der

Primärschlüssel ist.

Leihe(KNr, VINr, LDat, RDat, Titel, Leihgesellschaft, ...)

31

3.2.4 Normalisierung

Löschanomalie:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Wird der letzte verbleibende Datensatz eines bestimmten Objektes (z.

B. Leihvorgänge) gelöscht, verschwinden alle Daten des enthaltenen

Objektes (z. B. Video) in der Datenbank.

Beispiel: Wird der letzte Datensatz mit Leihdaten eines bestimmten

Videos gelöscht, werden auch alle Videodaten

(Titel, Leihgesellschaft, ...) gelöscht.

32

3.2.4 Normalisierung

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Normalisierung:

„Unerwünschte Eigenschaften können beseitigt werden, indem die

Relation (bzw. Tabelle) nach bestimmten Vorschriften in einfachere

Relationen (bzw. Tabellen) zerlegt wird. Diese Zerlegung bezeichnet

man als Normalisierung.“

Quelle: Schwarze

33

3.2.4 Normalisierung

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Eine Normalform ist ein Zustand einer Relation, der durch die

Anwendung einfacher Regeln erreicht werden kann. Es gibt

theoretisch 5 Stufen der Normalform, wobei nur die ersten drei

tatsächliche Relevanz besitzen.

1. - 3. Normalform

Boyce-Codd-Normalform

4. - 5. Normalform

Domain-Key Normalform

34

3.2.4 Normalisierung

1. Normalform

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Eine Tabelle des Relationenmodells, deren Zeilen gleich lang sind, ohne

Attributswiederholungen, mehrfache und zusammengesetzte Attribute.

Folgende Bedingungen müssen in der 1. Normalform erfüllt sein:

Sie ist zweidimensional mit Reihen und Spalten

Jede Reihe enthält Daten, die zu einem Objekt oder einem Teil eines

Objektes gehören

Jede Spalte enthält Daten für ein einziges Attribut des Objektes

Jeden Datenzelle (Schnittstelle zwischen Reihe und Spalte) enthält einen

einzigen Eintrag

Jede Spalte muss einen (in der Tabelle) einmaligen Namen tragen

Keine zwei Reihen dürfen identisch sein

Die Reihenfolge der Spalten und Reihen ist bedeutungslos

35

3.2.4 Normalisierung

1. Normalform

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Beispiel für eine Relation, die NICHT in der 1. Normalform vorliegt!

36

3.2.4 Normalisierung

1. Normalform

Beispiel für eine Relation, die in der 1. Normalform vorliegt!

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

37

3.2.4 Normalisierung

2. Normalform

Eine Tabelle liegt in der ersten Normalform vor und

außerdem sind alle Attribute voll funktional abhängig von

einem Attribut oder einer Attributskombination.

Eine Tabelle ist automatisch in 2. Normalform, wenn gilt:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

- Der Primärschlüssel besteht aus nur einem Attribut (künstliche

Primärschlüssel: Autowert, Zähler!).

- Jedes Nichtschlüsselattribut ist funktional abhängig von dem

gesamten Primärschlüssel.

38

3.2.4 Normalisierung

2. Normalform

Bestellungen

Bestell_Nr Artikel_Nr Einzelpreis

1002 17 14,44 €

1002 28 12,80 €

Eine Relation Bestellungen, die NICHT der 2NF entspricht, weil

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Anzahl

- Einzelpreis sich nur auf Artikel_Nr und nicht auch auf Bestell_Nr bezieht.

- Bestell_Nr und Artikel_Nr bilden den Primärschlüssel.

- Jedes dieser Attribute stellt einen Teilschlüssel dar.

3

39

3.2.4 Normalisierung

3. Normalform

Es liegt die 2. Normalform vor und es existieren außerdem

keine transitiven Abhängigkeiten.

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

40

3.2.4 Normalisierung

3. Normalform

Eine Relation Kunde, die NICHT der 3NF entspricht!

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

41

3.2.4 Normalisierung

3. Normalform

Eine Relation Kunde, die der 3NF entspricht!

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

42

3.2.4 Normalisierung

Weitere Normalformen:

4. und 5 Normalform:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

In der 4. Normalform werden mehrwertige Abhängigkeiten von

Attributmengen zu einem so genannten Superschlüssel

(übergeordnetem Schlüssel) eliminiert. Ist eine verlustfreie Zerlegung

der Einzelabhängigkeiten in der 4. Normalform nicht möglich, werden

in der 5. Normalform weitere Primärschlüssel hinzugefügt. Das

geschieht so lange, bis nur noch Einzelabhängigkeiten der Attribute

von einem oder mehreren Primärschlüsseln bestehen.

43

3.3 Physischer Datenbankentwurf

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

44

3.3 Physischer Datenbankentwurf

Anforderungsanalyse

statische Anforderungen dynamische Anforderungen

Objekttypen

Beziehungstypen

Attribute

Konzeptionelle Datenmodellierung

Logische Datenmodellierung

Physischer Datenbankentwurf

Implementierung

Laufender Betrieb

Quelle: in Anlehnung an Schwarze

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Verarbeitungsprozeduren

Zugriffsregelungen

Sicherheitsanforderungen

45

3.3.1. Grundlagen der physischen DM

Physische Datenbankmodellierung ist der Prozess der

Überführung eines logischen Datenmodells in ein

datenbankinternes Modell, unter Beachtung von:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

• Logischen Datenstrukturen

• Anforderungen der Benutzer bezüglich Antwortzeiten, Sicherheit,

Recovery usw.

• Besonderheiten des verwendeten DBMS und Betriebssystems

46

3.3.1. Grundlagen der physischen DM

Z. B. Strategien zur Datenverteilung:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

1. Zentrale Speicherung

2. Partitionierung: Die Datenbank wird in mehrere disjunkte

(nicht-überlappende) Partitionen aufgeteilt. Jede Partition wird

an unterschiedlicher Stelle (Abteilung, Filiale, ...) gespeichert.

3. Replikation: Eine vollständige Kopie der Datenbank wird an

einer anderen Stelle gespeichert. Synchronisationsprobleme!

4. Hybride Strategie: Nichtkritische Partitionen werden an

einem Ort gespeichert; kritische Partitionen werden repliziert.

47

3.3.1. Grundlagen der physischen DM

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Im Rahmen der physischen DM müssen das erwartete

Datenvolumen und die Datenverwendung analysiert werden:

• Datenvolumen: z. B. zur Auswahl geeigneter Speichermedien (Anzahl

und Größe der Festplatten) und eines DBMS

• Datenverwendung: z. B. zur Auswahl einer geeigneten

Dateiorganisation, von Zugriffsmethoden, zur Planung von Indexen,

einer verteilten Datenspeicherung

48

3.3.1. Grundlagen der physischen DM

Analyse des Datenvolumens:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Angabe der durchschnittlichen Anzahl an Objekten eines

Objekttyps in einem bestimmten Zeitraum

Angabe der durchschnittlichen Anzahl verbundener Objekte in

einer Beziehung in einem bestimmten Zeitraum

49

3.3.1. Grundlagen der physischen DM

Informationen aus der Fachabteilung, z. B.:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Einmal jährlich soll archiviert werden

Voraussichtlicher Kundenbestand: 5.000

CDs: 1000, Lieder/CD: ca. 14, Videos: 500

Pro Kunde + Jahr: 10 Leihvorgänge

Im Schnitt 3 CDs + 1 Video je Leihvorgang

Verlängerung einer Leihe: neue Rechnung (10 % der Leihen

werden verlängert)

50

3.3.1. Grundlagen der physischen DM

Analyse des Datenvolumens:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

51

3.3.1. Grundlagen der physischen DM

Analyse des Datenvolumens:

CD

1.000

14

Lieder je

CD

14.000

3

Leihe

400.000

Kunde

10.000

12. März 2007 Dipl.-Ök. Patrick Bartels

10

1

11

Datenorganisation | Veranstaltung 5

Video

500

Rechnung

110.000

4

Rechn.position

440.000

52

3.3.1. Grundlagen der physischen DM

Analyse der Datenverwendung:

Identifikation der wichtigsten Vorgänge

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Zu jedem Vorgang werden die Zugriffspfade und -häufigkeiten

bestimmt

Zusammenführung der einzelnen Vorgänge in einem

Verwendungs-Chart

53

3.3.1. Grundlagen der physischen DM

Vorgang „Ausleihe speichern“:

1. Kunde suchen

2. CD oder Video suchen

3. Leihdaten speichern (inkl. LDat und RDat)

4. weitere CD oder Video suchen ...

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

54

3.3.1. Grundlagen der physischen DM

Zugriffe je Vorgang „Ausleihe speichern“:

3 Zugriffe/Leihe

2

CD

1.000

1

1 Zugriffe/Leihe

4 Zugriffe/Leihe

Leihe

200.000

Kunde

5.000

12. März 2007 Dipl.-Ök. Patrick Bartels

3

Datenorganisation | Veranstaltung 5

Video

500

2

1 Zugriffe/Leihe

? Reihenfolge-Position im Vorgang

55

3.3.1. Grundlagen der physischen DM

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Max. Anzahl Zugriffe je Periode (Stunde) bei Vorgang „Ausleihe

speichern“?

(10 Kunden)

30 Zugriffe/Std

2

CD

1.000

1

10 Zugriffe/Std

40 Zugriffe/Std

Leihe

200.000

Kunde

5.000

3

Video

500

10 Zugriffe/Std

? Reihenfolge-Position im Vorgang

56

3.3.1. Grundlagen der physischen DM

Max. Anzahl Zugriffe je Periode (Stunde) alle Vorgänge?

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

57

3.3.1. Grundlagen der physischen DM

Unterscheidung der Art des Zugriffs:

Lesen

Einfügen

Ändern

Löschen

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

58

3.3.2. Dateiorganisation

Dateiorganisation:

Physische Organisation der Datenspeicherung

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Auch Datenbanken speichern die Relationen bzw. Tupel auf ein

sekundäres Speichermedium, in der Regel in eine Datei auf einer

Festplatte

59

3.3.2. Dateiorganisation

Verarbeitungsformen von Daten

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Operationen zur Speicherung, Nutzung und Verwaltung von Daten

60

3.3.2. Dateiorganisation

Kriterien:

1. Zugriffsgeschwindigkeit

2. Effiziente Verwendung des Speicherplatzes

3. Minimaler Reorganisationsaufwand

4. Eignung bei steigendem Datenvolumen

5. Schutz vor unautorisiertem Zugriff

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

61

3.3.2. Dateiorganisation

Primärspeicher:

Hauptspeicher, Arbeitsspeicher

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Enthält alle Programme des DBMS und gepufferte Daten.

I. d. R. flüchtig (RAM)

Direkt adressierbar

Feine Granularität: Zugriffseinheit ist eine Speicherzelle

Alle Datenbankoperationen werden direkt im Arbeitsspeicher

durchgeführt

Größe i.d.R. im Megabyte- bis Gigabyte-Bereich

Zugriffszeit: einige Nanosekunden

62

3.3.2. Dateiorganisation

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Datenbankpuffer:

Die Daten werden vor ihrer Verarbeitung in einen bestimmten

Bereich des Arbeitsspeichers, den Datenbankpuffer, geladen

Nach der Verarbeitung verbleiben die Daten im Datenbankpuffer

Der Datenbankpuffer ist in Seiten, den Pufferrahmen, eingeteilt, die

jeweils aus mehreren Festplatten-Blöcken bestehen

Sind alle Seiten des Datenbankpuffers voll, werden bestehende

Seiten ersetzt und evtl. auf Festplatte gesichert

63

3.3.2. Dateiorganisation

Sekundäre Speichermedien:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Sequentielle Speichermedien, z. B. Magnetbänder: die Daten

werden sequentiell, d. h. nacheinander abgespeichert (meist

Archivspeicher)

Direkt adressierbare Speichermedien,

z. B. Festplatten: eine Speichereinheit

(z. B. Speicherblock mit 1024 Byte) besitzt eine eigene Adresse

Kapazität im Gigabyte-Bereich

Zugriffszeit: Einige Millisekunden

64

3.3.2. Dateiorganisation

Verarbeitungszeit und –kosten

hängen ab von

der Anzahl der gerätetechnischen Zugriffe,

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

der Daten-Übertragungskapazität vom externen zum internen

Speicher,

der zu speichernden Datenmenge auf dem externen Speicher.

65

3.3.2. Dateiorganisation

Speicherung von Relationen auf Festplatte:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Relation = Datei

Datei enthält viele Datenbankseiten

Seite verteilt sich auf mehrere Blöcke

Je Seite werden die Datensätze (Tupel) so abgespeichert, dass

eine Seitengrenze nicht überschritten wird

Seite enthält Datensatztabelle: Verweise auf die in der Seite

enthaltenen Tupel

66

3.3.2. Dateiorganisation

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Zugriffsformen:

Die für ein Speichermedium zulässigen Zugriffsformen sind von der

Hardware abhängig:

Direkter Zugriff: über die Adresse

Indirekter Zugriff: die Adresse wird über einen Schlüssel

bestimmt

Sequentieller Zugriff: die Daten werden

der Reihe nach gelesen, bis die gesuchten Daten gefunden

wurden

67

3.3.2. Dateiorganisation | Primäre Organisationsformen

Primäre Organisationsformen:

Sequentielle Organisationsform

Index-Sequentielle Organisationsform

Reine Index-Organisationsform

Direkte Organisationsform

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

68

3.3.2. Dateiorganisation | Primäre Organisationsformen

Sequentielle Dateiorganisation

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

69

3.3.2. Dateiorganisation | Primäre Organisationsformen

Sequentielle Dateiorganisation

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

70

3.3.2. Dateiorganisation | Primäre Organisationsformen

Indizierte Dateiorganisation

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

71

3.3.2. Dateiorganisation | Primäre Organisationsformen

Sequentielle Organisationsform:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

- die Daten werden der Reihe nach gelesen, bis die gesuchten

Daten gefunden wurden.

- kein direkter Zugriff auf Sätze möglich

- ausreichend für Batch-Verarbeitung (gleichzeitige Benötigung

vieler Sätze)

- völlig ungeeignet für Dialogverarbeitung (schneller gezielter

Zugriff auf einzelne Sätze)

72

3.3.2. Dateiorganisation | Primäre Organisationsformen

Sequentielle Organisationsform:

Von Bedeutung für

Sicherungskopien

Protokolldateien (Logfile)

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

73

3.3.2. Dateiorganisation | Primäre Organisationsformen

Index-Sequentielle Organisationsform:

häufige Verwendung in DBMS

– einfache Struktur

– direkter Zugriff auf einzelne Datensätze über

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Datensätze innerhalb eines Blocks sind nach Schlüsseln geordnet

Problem: nachträglich einzufügende Sätze

74

3.3.2. Dateiorganisation | Primäre Organisationsformen

Index-Sequentielle Organisationsform

Viele DBMS verzichten auf sequentielle Komponente

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Satzschlüssel ist eine von System vorgegebene interne Satznummer

Index gibt Auskunft: In welchen Block befindet sich ein Satz mit

bestimmten Schüssel

vollständiger Index

75

3.3.2. Dateiorganisation | Primäre Organisationsformen

Index-Sequentielle Organisationsform

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

76

3.3.2. Dateiorganisation | Primäre Organisationsformen

Direkte Organisationsform

Zuordnung eines Schlüssels wird über einen Algorithmus

(Schlüsseltransformation) gelöst

Beschreibung über sog. Hash-Funktion

sehr schnelle Methode, kann im internen Speicher erfolgen

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

häufigste Funktion: Divisionsrestverfahren

Block Adresse(s) = s modulo n mit n=Anzahl der Blöcke, s=Schlüssel

77

3.3.2. Dateiorganisation | Primäre Organisationsformen

Suchverfahren:

Sukzessives oder sequentielles Suchen: der Reihe nach

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Binäres Suchen: Aufteilung der Datei in jeweils zwei Hälften, bis

Datensatz gefunden

n-Wege-Suchen: mehrstufiges Suchen, erst wird der Block gesucht,

dann der Datensatz innerhalb des Blocks (beliebig erweiterbar)

Indirektes Suchen: über eine Indexdatei

Algorithmisches Suchen: Berechnung der Adresse über einen Hash-

Algorithmus

78

3.3.2. Dateiorganisation | Primäre Organisationsformen

Indizierte Dateiorganisation:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

„Bei indizierter Organisation einer Datei ... werden die Datensätze

sequentiell, im allgemeinen in chronologischer Reihenfolge, unter

fortlaufenden Adressen gespeichert. Suchschlüssel und Adresse

werden in einer Indexdatei (Index) gespeichert. Über diese

Indexdatei wird dann indirekt gesucht.“

Quelle: Schwarze

79

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

3.3.2. Dateiorganisation | Sekundäre Organisationsformen

Arten der Sekundärorganisation

Listenorganisation

Invertierte Liste

Indizes

80

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

3.3.2. Dateiorganisation | Sekundäre Organisationsformen

Listenorganisation

Verkettung zusammengehöriger Sätze

– sortierte Listen

– unsortierte Listen

Anfang der Liste steht in einem sog. Anker

Hinter der Attributsausprägung steht nur die Adresse des

ersten Satzes

Information zum nächsten Satz in Form eines Zeigers mit den

Daten in einem Zeigerfeld

81

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

3.3.2. Dateiorganisation | Sekundäre Organisationsformen

Listenorganisation

82

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

3.3.2. Dateiorganisation | Sekundäre Organisationsformen

Invertierte Listen:

Ein Index für einen Sekundärschlüssel enthält nicht die Adresse

des Datensatzes, sondern einen Verweis auf den

Primärschlüssel

Über den Primärschlüssel kann dann auf den Datensatz

zugegriffen werden.

Mehrstufiges Suchen

83

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

3.3.2. Dateiorganisation | Sekundäre Organisationsformen

Invertierte Listen:

2

3

1

2

1

84

3.3.3. Indexe

Beschleunigung des Suchvorgangs durch

einen Index:

Indexdatei ist kleiner als Originaldatei

Indexdatei ist sortiert (Relation nicht)

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Teile des Index können im Hauptspeicher gehalten werden (der

Hauptspeicher ist um ein Vielfaches (Faktor: 10 5 ) schneller als

eine Festplatte)

85

3.3.3. Indexe

Indexformen:

Physisch sortierter Index (Updates!)

Logisch sortierter Index (Kette): die Reihenfolge der

Indexeinträge wird über Zeiger (Pointer) realisiert (nur

sequentielle Suche)

Logisch sortierter Index (Baum): sehr schnell

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

86

3.3.3. Indexe

Bäume:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Bäume (trees) sind die am häufigsten eingesetzte Struktur für

Indexdateien

Wurzel (Level 0), Knoten, Blatt, Vater, Kind, Bruder

Ein Knoten enthält Verweise (Pointer) auf jedes seiner Kinder

87

3.3.3. Indexe

Erwünschte Eigenschaften von Bäumen:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Einheitliche Zugriffszeit (z. B. durch einheitlichen Abstand aller

Blätter von der Wurzel)

Hoher Verzweigungsgrad (viele Kinder)

Geringe Tiefe bzw. Höhe (wenige Levels)

88

3.3.3. Indexe

B-Bäume (Balanced Trees oder Bayer-Baum):

Häufigste Indexstruktur

Alle Blätter haben den gleichen Abstand zur Wurzel

Ein Knoten entspricht einer Datenbankseite

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Ein Knoten enthält den Schlüssel, den Datensatz, einen Verweis

auf Knoten mit kleineren Schlüsseln und einen Verweis auf

Knoten mit größeren Schlüsseln

89

3.3.3. Indexe

B-Bäume (Balanced Trees):

1 2

12. März 2007 Dipl.-Ök. Patrick Bartels

10

3 7 13 19

4 5 6

8 9 14 15 16 18

11 12

Quelle: Kemper/Eickler

Datenorganisation | Veranstaltung 5

20 21

90

3.3.3. Indexe

Einfügen von Schlüsseln:

Einfügen von Datensatz mit Schlüssel 17

Der Knoten ist voll, der mittlere Knoten wird nach oben

geschoben, der volle Knoten wird geteilt

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

91

3.3.3. Indexe

Einfügen von Schlüssel 17:

1 2

Quelle: Kemper/Eickler

12. März 2007 Dipl.-Ök. Patrick Bartels

10

3 7 13 19

4 5 6

8 9 14 15 16 18

11 12

Datenorganisation | Veranstaltung 5

20 21

92

3.3.3. Indexe

Einfügen von Schlüssel 17:

1 2

Quelle: Kemper/Eickler

12. März 2007 Dipl.-Ök. Patrick Bartels

10

3 7 13 16 19

4 5 6

8 9 14 15

11 12

Datenorganisation | Veranstaltung 5

17 18

20 21

93

3.3.3. Indexe

Löschen von Schlüsseln:

Schlüssel in Blattknoten können einfach gelöscht werden

Bei inneren Knoten: der nächstgrößere (nächstkleinere)

Schlüssel wird an die Stelle des gelöschten Schlüssel

verschoben

Bei Unterbesetzung von Knoten: evtl. Ausgleich oder

Verschmelzen

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

94

3.3.3. Indexe

Löschen von Schlüssel 7:

1 2

Quelle: Kemper/Eickler

12. März 2007 Dipl.-Ök. Patrick Bartels

10

3 7 13 16 19

4 5 6

8 9 14 15

11 12

Datenorganisation | Veranstaltung 5

17 18

20 21

95

3.3.3. Indexe

Löschen von Schlüssel 7:

1 2

Quelle: Kemper/Eickler

12. März 2007 Dipl.-Ök. Patrick Bartels

10

3 6 13 16 19

4 5

8 9 14 15

11 12

Datenorganisation | Veranstaltung 5

17 18

20 21

96

3.3.3. Indexe

Verzweigungsgrad bei B-Bäumen:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Je mehr Verzweigungen ein Baum hat, desto flacher ist er

(weniger Seitenzugriffe!)

Je größer die einzelnen Datensätze sind, desto weniger

Verzweigungen sind möglich

Reale B-Bäume: ca. 100 Verzweigungen

97

3.3.3. Indexe

B + -Bäume:

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Bei B + -Bäumen werden die Datensätze nur noch in den Blättern

gespeichert,

d. h. außerhalb des Index (es sind viel mehr Verzweigungen

möglich!)

In den inneren Knoten werden Referenzschlüssel gespeichert

Die Blattknoten enthalten Zeiger auf den vorhergehenden und

nachfolgenden Datensatz (ermöglicht sequentielle Suche)

98

3.3.3. Indexe

B + -Bäume:

Effizientere Verwaltung der Struktur

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Es können mehrere B + -Bäume für eine Relation erzeugt werden

Die Blattknoten sind sortiert

Für Bereichsanfragen wird der erste passende Wert gesucht.

Anschließend kann sequentiell gelesen werden, bis der Bereich

verlassen wird

99

3.3.3. Indexe

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Einsatz von Indexen:

Bewusste Auswahl der Attribute, für die ein Index erzeugt

werden soll

Höhere Performanz für Abfragen

Reduzierte Performanz für Einfügen, Löschen und Änderungen

von Datensätzen

Data Warehouse: viele Indexe

Operative Systeme: wenige Indexe

100

3.3.3. Indexe

Einsatz von Indexen:

Primärschlüsselindex:

CREATE UNIQUE INDEX

eindeutiger Index

Sekundärschlüsselindex:

CREATE INDEX

nicht-eindeutiger Index

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

101

3.3.3. Indexe

Einsatz von Indexen:

Primärschlüssel sollte einen eindeutigen Index haben

12. März 2007 Dipl.-Ök. Patrick Bartels

Datenorganisation | Veranstaltung 5

Fremdschlüssel sollten einen nicht-eindeutigen Index haben

(beschleunigt Joins)

Attribute, die häufig in Abfragen, Sortiervorgängen und

Gruppierungen verwendet werden, sollten ebenfalls einen nichteindeutigen

Index bekommen

3.3.2. Dateiorganisation

3.3.2. Dateiorganisation ... Mehr anzeigen 3.3.2. Dateiorganisation

Template löschen?

Als Template speichern ?

3.3.2. Dateiorganisation 3.3.2. Dateiorganisation