2 Nachricht, Information und Codierung

2 Nachricht, Information und Codierung 2 Nachricht, Information und Codierung

von www2.fh.rosenheim.de Mehr von diesem Publisher

01.11.2013 Aufrufe

88 3 Codierung ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ 3.4 Datenkompression . . . 3.4.5 Der LZW-Algorithmus Kompression von korrelierten Zeichengruppen Für die verlustfreie Kompression beliebiger Daten hat sich als sehr effizientes Verfahren der nach seinen Erfindern Lempel, Ziv und Welch benannte LZW-Algorithmus durchgesetzt [Ziv77]. Es handelt sich dabei um ein statistisches Verfahren, das aber anders als das Huffman-Verfahren oder die arithmetische Codierung nicht nur Einzelzeichen codiert, sondern Zeichengruppen unterschiedlicher Länge. Dadurch lassen sich nicht nur die Häufigkeiten von Einzelzeichen bei der Codierung berücksichtigen, sondern auch durch Korrelationen aufeinander folgender Zeichen bedingte Redundanzen. Der LZW-Algorithmus minimiert also auch Redundanzen, die dadurch entstehen, dass sich identische Zeichenfolgen (Strings) in den Eingabedaten mehrmals wiederholen. Dies führt zu einer umso besseren Kompressionswirkung, je häufiger solche Wiederholungen auftreten und je länger die sich wiederholenden Zeichengruppen sind. Das Ergebnis der Kompression besteht dann aus einer weit gehend unkorrelierten Zeichenfolge, die verlustfrei nicht mehr weiter komprimierbar ist. Das Prinzip des LZW-Algorithmus Der LZW-Algorithmus arbeitet mit einer Code-Tabelle in der jeder Eintrag aus einem String mit Zeichen des Quell-Alphabets und dem zugehörigen komprimierten Code besteht. Die Code-Tabelle wird am Anfang mit allen Einzelzeichen des Quell-Alphabets vorbesetzt und während der Kompression nach und nach erweitert und an die Eingabe angepasst. Wegen dieser automatischen Anpassung benötigt der LZW im Voraus keinerlei Informationen über die Statistik des Eingabetextes; er kann daher als Ein-Schritt-Verfahren realisiert werden. Auch muss die Code-Tabelle nicht zusammen mit den codierten Daten gespeichert bzw. übertragen werden, da sie im Decoder aus den codierten Daten in identischer Weise wieder neu erzeugt werden kann. Zu Beginn der Codierung muss jedes Zeichen des Eingabetextes einzeln codiert werden, weil ja die Code-Tabelle nur mit den Einzelzeichen des Quell-Alphabets vorbesetzt ist und noch keine längeren Strings enthält. Zu Beginn ist also noch kein Kompressionseffekt zu erwarten. Im Laufe der Verarbeitung sammeln sich aber in der Tabelle immer mehr und immer längere mehrfach aufgetretene Strings an, von denen angenommen werden kann, dass sie im noch zu komprimierenden Text ebenfalls noch häufig auftreten werden. Dadurch steigt die Effizienz der Kompression immer weiter an, bis die Code-Tabelle vollständig gefüllt ist. Danach geht die Anpassungseigenschaft des Algorithmus verloren. Die Kompressionsrate bleibt dann zunächst gleich, sie kann sich aber auch wieder verschlechtern, wenn sich die Charakteristika der Eingabedaten ändern. Dem kann man durch Erstellen einer neuen Code- Tabelle entgegenwirken. Der Kompressions-Algorithmus Die Codierung einer Zeichenkette Z läuft nun nach folgendem Schema ab: zunächst wird das nächste Eingabezeichen c des Eingabestrings Z eingelesen und an den als Präfix bezeichneten Anfangs-Teilstring P des Strings Z angehängt, es wird also der String Pc gebildet. Zu Beginn wird der Präfix P mit dem leeren String vorbesetzt. Ist Pc in der Code-Tabelle bereits

88 3 Codierung

⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯

3.4 Datenkompression

.

3.4.5 Der LZW-Algorithmus

Kompression von korrelierten Zeichengruppen

Für die verlustfreie Kompression beliebiger Daten hat sich als sehr effizientes Verfahren der

nach seinen Erfindern Lempel, Ziv und Welch benannte LZW-Algorithmus durchgesetzt

[Ziv77]. Es handelt sich dabei um ein statistisches Verfahren, das aber anders als das Huffman-Verfahren

oder die arithmetische Codierung nicht nur Einzelzeichen codiert, sondern

Zeichengruppen unterschiedlicher Länge. Dadurch lassen sich nicht nur die Häufigkeiten von

Einzelzeichen bei der Codierung berücksichtigen, sondern auch durch Korrelationen aufeinander

folgender Zeichen bedingte Redundanzen. Der LZW-Algorithmus minimiert also auch

Redundanzen, die dadurch entstehen, dass sich identische Zeichenfolgen (Strings) in den

Eingabedaten mehrmals wiederholen. Dies führt zu einer umso besseren Kompressionswirkung,

je häufiger solche Wiederholungen auftreten und je länger die sich wiederholenden

Zeichengruppen sind. Das Ergebnis der Kompression besteht dann aus einer weit gehend

unkorrelierten Zeichenfolge, die verlustfrei nicht mehr weiter komprimierbar ist.

Das Prinzip des LZW-Algorithmus

Der LZW-Algorithmus arbeitet mit einer Code-Tabelle in der jeder Eintrag aus einem String

mit Zeichen des Quell-Alphabets und dem zugehörigen komprimierten Code besteht. Die

Code-Tabelle wird am Anfang mit allen Einzelzeichen des Quell-Alphabets vorbesetzt und

während der Kompression nach und nach erweitert und an die Eingabe angepasst. Wegen

dieser automatischen Anpassung benötigt der LZW im Voraus keinerlei Informationen über

die Statistik des Eingabetextes; er kann daher als Ein-Schritt-Verfahren realisiert werden.

Auch muss die Code-Tabelle nicht zusammen mit den codierten Daten gespeichert bzw.

übertragen werden, da sie im Decoder aus den codierten Daten in identischer Weise wieder

neu erzeugt werden kann.

Zu Beginn der Codierung muss jedes Zeichen des Eingabetextes einzeln codiert werden,

weil ja die Code-Tabelle nur mit den Einzelzeichen des Quell-Alphabets vorbesetzt ist und

noch keine längeren Strings enthält. Zu Beginn ist also noch kein Kompressionseffekt zu

erwarten. Im Laufe der Verarbeitung sammeln sich aber in der Tabelle immer mehr und immer

längere mehrfach aufgetretene Strings an, von denen angenommen werden kann, dass

sie im noch zu komprimierenden Text ebenfalls noch häufig auftreten werden. Dadurch steigt

die Effizienz der Kompression immer weiter an, bis die Code-Tabelle vollständig gefüllt ist.

Danach geht die Anpassungseigenschaft des Algorithmus verloren. Die Kompressionsrate

bleibt dann zunächst gleich, sie kann sich aber auch wieder verschlechtern, wenn sich die

Charakteristika der Eingabedaten ändern. Dem kann man durch Erstellen einer neuen Code-

Tabelle entgegenwirken.

Der Kompressions-Algorithmus

Die Codierung einer Zeichenkette Z läuft nun nach folgendem Schema ab: zunächst wird das

nächste Eingabezeichen c des Eingabestrings Z eingelesen und an den als Präfix bezeichneten

Anfangs-Teilstring P des Strings Z angehängt, es wird also der String Pc gebildet. Zu

Beginn wird der Präfix P mit dem leeren String vorbesetzt. Ist Pc in der Code-Tabelle bereits

3 Codierung 89

vorhanden, so wird P=Pc gesetzt und das nächste Zeichen eingelesen. Andernfalls wird P

ausgegeben, Pc in die Code-Tabelle eingetragen und der neue Präfix P=c gesetzt. Kommt

der soeben eingetragene Teilstring Pc später im Text nochmals vor, so kann er durch ein

einziges Code-Wort ersetzt werden. Darauf beruht letztlich die komprimierende Wirkung des

LZW-Verfahrens.

Der Kompressions-Algorithmus lautet damit in Pseudo-Code-Formulierung:

LZW-Algorithmus zur Kompression eines Strings Z

Initialisiere die Code-Tabelle mit den Einzelzeichen

Weise dem Präfix P den Leerstring zu

Wiederhole, solange Eingabezeichen vorhanden sind:

Lies nächstes Eingabezeichen c aus dem Eingabestring Z

Wenn Pc in der Code-Tabelle gefunden wird:

setze P=Pc

Sonst:

Trage Pc in die nächste freie Position der Code-Tabelle ein

Gib den Code für P aus

setze P=c

Ende der Schleife

Gib den Code für das letzte Präfix P aus

Beispiel: LZW-Kompression der Zeichengruppe ABABCBABAB.

Als Beispiel wird die Zeichenkette Z=ABABCBABAB betrachtet. Die Code-Tabelle wird mit

den Zeichen A, B, C des Quell-Alphabets und den entsprechenden Codes des Ausgabealphabets

vorbesetzt. Wählt man für das Beispiel als maximale Länge der Code-Tabelle sieben

Einträge, so benötigt man in der Ausgabe 3 Bit pro Code-Wort. Die Code-Tabelle wird

also folgendermaßen vorbesetzt:

Tabelle 3.4.6: Vorbesetzung der Code-Tabelle für die Kompression des Strings Z=ABABCBABAB mit

dem LZW-Algorithmus.

Präfix Ausgabe-Code

A 0 = 000

B 1 = 001

C 2 = 010

- 3 = 011

- 4 = 100

- 5 = 101

- 6 = 110

- 7 = 111

Der Codierungsvorgang läuft damit folgendermaßen ab:

90 3 Codierung

Tabelle 3.4.7: Codierung des Strings Z=ABABCBABAB mit dem LZW-Algorithmus. Das aktuell verarbeitete

Zeichen ist unterstrichen dargestellt. Die codierte Nachricht lautet 013247.

Schritt String Z Präfix P Eintrag in die Code-Tabelle Ausgabe

0 ABABCBABAB - Vorbesetzung -

1 ABABCBABAB A - -

2 ABABCBABAB B AB=3 0

3 ABABCBABAB A BA=4 1

4 ABABCBABAB AB - -

5 ABABCBABAB C ABC=5 3

6 ABABCBABAB B CB=6 2

7 ABABCBABAB BA - -

8 ABABCBABAB B BAB=7 4

9 ABABCBABAB BA - -

10 ABABCBABAB BAB - -

11 ABABCBABAB - - 7

Nach Beendigung der Codierung hat der Inhalt der Code-Tabelle die Form:

Tabelle 3.4.8: Code-Tabelle nach Beendigung der Kompression des Strings Z=ABABCBABAB.

Präfix Ausgabe-Code

A 0 = 000

B 1 = 001

C 2 = 010

AB 3 = 011

BA 4 = 100

ABC 5 = 101

CB 6 = 110

BAB 7 = 111

Methoden zur Optimierung des Verfahrens

Weil jeder neue Eintrag in der Code-Tabelle nur eine Verlängerung eines bereits in der Code-Tabelle

enthaltenen Strings darstellt, ist es nicht nötig, zu jedem Code den vollständigen

String zu speichern. Es empfiehlt sich statt dessen, nur das letzte Zeichen des Strings zu

speichern und einen Verweis auf den String, aus dem er hervorgegangen ist. Der Code ABC

aus dem obigen Beispiel wird dann als 4C abgespeichert. Dadurch erfordert jeder Tabelleneintrag

bei 8 Byte Eingabezeichen und 12 bis 16 Bit Code nur drei Byte: ein Byte für das

letzte Zeichen und zwei für den Verweis. Meist werden 12 Bit Codes verwendet, entsprechend

4096 Tabelleneinträgen oder 13 Bit Codes, entsprechend 8192 Einträgen. Bei einer

Verlängerung der Code-Tabelle können zwar mehr und längere Teilstrings abgespeichert

werden; dies führt jedoch nicht unbedingt zu einer Verbesserung der Kompressionsrate, weil

eine größere Tabelle auch zu längeren Code-Wörtern führt. Insbesondere zu Beginn der

Kompression, wenn noch Einzelzeichen codiert werden, führt dies zunächst nicht zu einer

Kompression, sondern zu einer Verlängerung des Textes.

Relativ einfach zu realisieren ist, dass nicht immer die volle Länge der Codes übertragen

werden muss. Solange in der Tabelle nicht mehr als 512 Einträge sind, reichen 9 Bit für die

Darstellung der Code-Wörter aus, zwischen 513 und 1024 Einträgen genügen 10 Bit usw.

Sowohl der Kompressor als auch der Dekompressor (siehe unten) können anhand ihrer Code-Tabelle

feststellen, mit welcher Wortlänge gerade gearbeitet wird und die Wortlänge erhöhen,

sobald ein längerer Code in die Tabelle eingetragen wird. Oft wird auch die Erhöhung

der Wortlänge durch ein eigenes, dafür reserviertes Code-Wort signalisiert, weil dann nicht

schon beim Eintragen eines längeren Code-Wortes in die Tabelle umgeschaltet werden

muss, sondern erst dann, wenn tatsächlich das erste längere Code-Wort verwendet wird.

Wenn die Code-Tabelle vollständig gefüllt ist, kann man entweder mit dieser Tabelle weiterarbeiten

oder aber die Tabelle löschen und mit einer neu initialisierten Tabelle fortfahren. Bei

3 Codierung 91

der zweiten Strategie sinkt zwar die Kompressionsrate zunächst, aber die Code-Tabelle

kann dafür wieder neu an die Eigenschaften der Eingabedaten angepasst werden. Dies erweist

sich dann als sinnvoll, wenn damit zu rechnen ist, dass sich die Charakteristik der Daten

ändern wird. Dies ist insbesondere bei der Kompression von Bilddaten der Fall. Eine

Neuinitialisierung der Code-Tabelle muss in den komprimierten Daten allerdings durch Einfügen

eines dafür reservierten Code-Worts kenntlich gemacht werden.

Bei der Komprimierung der Daten muss bei jedem Schritt nach dem String Pc gesucht werden,

also dem aktuellen Präfix plus nächstes Eingabezeichen. Eine sequentielle Suche würde

sehr viel Zeit benötigen, so dass sich die Verwendung einer Hash-Tabelle (siehe Kapitel

11.3) empfiehlt. Dazu wird neben der Code-Tabelle noch eine Hash-Tabelle zur Speicherung

von Verweisen auf die Code-Tabelle aufgebaut.

Eine weitere Verbesserung, allerdings auf Kosten der Ausführungszeit, kann erzielt werden,

wenn man das Verfahren nicht einschrittig auslegt, sondern eine statistische Analyse vorschaltet.

Besonders häufig auftretende Strings können so vorab ermittelt und bereits bei der

Initialisierung der Code-Tabelle berücksichtigt werden.

Der Dekompressions-Algorithmus

Die Dekompression ist zunächst etwas unanschaulicher, aber auch nicht schwieriger zu implementieren

als die Kompression. Zunächst wird wie bei der Kompression eine Code-Tabelle

angelegt, und mit den Eingabezeichen vorbesetzt. Der Dekompressor liest nun ein Zeichen

nach dem anderen ein, sucht den zugehörigen String in der Code-Tabelle auf und gibt ihn

aus. Zusätzlich wird an den im vorherigen Schritt decodierten String das erste Zeichen des

aktuell decodierten Strings angehängt und das Ergebnis in die nächste freie Position der

Code-Tabelle eingetragen. Auf diese Weise wird schrittweise dieselbe Code-Tabelle aufgebaut,

mit der auch der Kompressor gearbeitet hat. Es gibt dabei jedoch eine Komplikation:

Wenn bei der Kompression ein String in die Code-Tabelle eingetragen und im nächsten

Schritt bereits wieder verwendet wurde, so kann er bei der Dekompression an dieser Stelle

noch nicht in der Tabelle enthalten sein. In diesem Fall ist aber klar, dass der fehlende Code

einfach durch Verlängerung des Präfix um das erste Zeichen des zuvor ausgegebenen

Strings entsteht. Der in die Code-Tabelle einzutragende String ist in diesem Sonderfall mit

dem auszugebenden String identisch. Der Algorithmus lautet damit als Pseudo-Code:

LZW-Algorithmus zur Dekompression einer Nachricht

Initialisiere die Code-Tabelle mit den Einzelzeichen

Weise dem Präfix P den Leerstring zu

Wiederhole, solange Eingabezeichen vorhanden sind:

Lies nächstes Eingabezeichen c

Wenn c in der Code-Tabelle enthalten ist:

Gib den zu c gehörenden String aus

Setze k = erstes Zeichen dieses Strings

Trage Pk in die Code-Tabelle ein, falls noch nicht vorhanden

Setze P auf den zu dem Code c gehörigen String

Sonst (Sonderfall):

setze k = erstes Zeichen von P

Gib Pk aus

Trage Pk in die Code-Tabelle ein

Setze P=Pk

Ende der Schleife

Gib letztes Präfix aus

92 3 Codierung

Beispiel: Dekompression

Als Beispiel wird nun das weiter oben gewonnene Kompressions-Ergebnis 013247 des

Strings ABABCBABAB wieder dekomprimiert. Zunächst wird die leere Code-Tabelle mit den

Zeichen A, B und C vorbesetzt. Der Dekompressor liest dann das erste Code-Zeichen (=0)

ein, sucht das zugehörige Zeichen des Quell-Alphabetes in der Code-Tabelle (=A) und gibt

dieses Zeichen aus. Anschließend wird das nächste Zeichen (=1) eingelesen, decodiert (=B)

und ausgegeben. Zusätzlich wird jetzt der String AB, bestehend aus dem zuvor decodierten

Zeichen A und dem soeben decodierten Zeichen B auf die Nächste freie Position, hier also

3, der Code-Tabelle eingetragen. Das als Nächstes eingelesene Zeichen (=3) ergibt den

Ausgabestring AB, der soeben erst in die Code-Tabelle eingetragen wurde. Zusätzlich wird

der String BA, bestehend aus dem Zeichen B des vorhergehenden Schritts und dem ersten

Zeichen des Strings AB, in die Code-Tabelle eingetragen. Die weiteren Schritte der Decodierung

ergeben sich aus der nachstehenden Tabelle.

Tabelle 3.4.9: Decodierung der komprimierten Nachricht 013247 mit dem LZW-Algorithmus. Das

aktuell verarbeitete Zeichen ist jeweils unterstrichen dargestellt. Es wird wieder die ursprüngliche

Nachricht ABABCBABAB aufgebaut.

Schritt Code-String Eintrag in Code-Tabelle Ausgabe-String=Präfix

0 013247 Vorbesetzung -

1 013247 - A

2 013247 AB B

3 013247 BA AB

4 013247 ABC C

5 013247 CB BA

6 013247 BAB BAB

Man erkennt, dass der Dekompressor tatsächlich dieselben Strings in die Code-Tabelle einträgt

wie der Kompressor, allerdings immer einen Schritt später. Der Dekompressor kann

beispielsweise den String AB erst dann eintragen, wenn er auch den Code für B bereits verarbeitet

hat, weil erst dann bekannt ist, dass bei der Komprimierung auf das Zeichen A ein B

folgte. Dieses Nachhinken kann zu dem oben bereits erwähnten Sonderfall führen, dass ein

benötigter Code in der Code-Tabelle noch nicht enthalten ist. In dem betrachteten Beispiel ist

dies in Schritt 6 der Fall. Dort trifft der Dekompressor auf den Code 7, den er in der Code-

Tabelle nicht findet, weil dafür noch kein String eingetragen worden ist. Wenn dieser Fall

eintritt, ist aber bekannt, dass der fehlende String mit demselben Zeichen beginnen muss,

wie der unmittelbar zuvor decodierte und ausgegebene String.

3 Codierung 93

3.4.6 Datenreduktion durch unitäre Transformationen (JPEG)

Die Fourier-Transformation

In vielen technischen Anwendungen werden Daten, insbesondere Messdaten und Bilder, mit

Hilfe der Fourier-Transformation in eine Frequenzdarstellung transformiert. In diesem Kapitel

wird gezeigt, dass auf diese Weise auch eine sehr effiziente Datenkompression erreicht werden

kann. Die Fourier-Transformation wird durch Integrale vermittelt, die im Falle diskreter

Daten durch Summen ersetzt werden können; man spricht dann von der diskreten Fourier-

Transformation, für die es sehr effiziente Algorithmen gibt. Der bekannteste ist der DFFT-

Algorithmus (von Diskrete Fast Fourier Transform). Damit kann man eine aus N Punkten bestehende

Datenmenge f n in ihre Entsprechung F n im Frequenzraum transformieren:

F

u

=

1

N

∑ − 1

f

n

n=

0

e

−2πinu/N

Fourier-Transformation

Die Formel für die Rücktransformation lautet:

N−1

2 /N

f

n

= ∑ Fue

πinu Fourier-Rücktransformation

u=

0

Die Summen in diesen Gleichungen lassen sich durch Multiplikation einer die Exponentialterme

enthaltenden Matrix mit einem Vektor darstellen, dessen Komponenten die zu transformierenden

Daten sind. Die einzelnen Komponenten des transformierten Vektors ergeben

sich also durch Berechnung des Skalarproduktes aus der entsprechenden Matrixzeile mit

dem Datenvektor. Betrachtet man die Zeilen der Matrix als Basisvektoren, so wird durch das

Skalarprodukt diejenige Komponente des Datenvektors transformiert, die in Richtung des

entsprechenden Basisvektors zeigt.

Unitäre und orthogonale Transformationen

Dieses Prinzip soll nun verallgemeinert werden. Dazu wird bei der Fourier-Transformation

die Exponentialfunktion e -i2πnu/N durch eine zunächst beliebige, als Kern der Transformation

bezeichnete Matrix K der Dimension N mit den Komponenten K nu ersetzt und bei der Rücktransformation

durch die zu K inverse Matrix K -1 :

F

f

1

=

N

N−1

∑

fK

u n nu

n=0

N−1

−1

n

= ∑ FuK nu

u=0

allgemeine unitäre Transformation

unitäre Rück-Transformation

Damit sich eine sinnvolle Transformation ergibt, müssen die Basisvektoren des Kerns, also

die Zeilen der Matrix K, einen Vektorraum mit Dimension N aufspannen. Dies ist dann der

Fall, wenn alle N Zeilenvektoren (Basisvektoren) linear unabhängig, also in einer geometrischen

Betrachtungsweise nicht parallel zueinander sind. Besonders einfach wird die mathematische

Beschreibung, wenn die Basisvektoren nicht nur linear unabhängig, sondern orthogonal

sind, also - geometrisch interpretiert - aufeinander senkrecht stehen. Für komplexe

Matrizen bedeutet dies, dass (bis auf den vorgezogenen Normierungsfaktor 1/N) die inverse

Matrix K -1 mit der konjugiert komplexen und transponierten Matrix K *T übereinstimmt:

K

− 1 T

= K

94 3 Codierung

Komplexe Matrizen mit dieser Eigenschaft werden als unitäre Matrizen bezeichnet, dementsprechend

heißen auch die durch sie vermittelten Transformationen unitäre Transformationen.

Insbesondere gehört auch die Fourier-Transformation zur Klasse dieser Transformationen.

Im Falle reeller Matrizen stimmt die inverse Matrix mit der transponierten Matrix überein,

man spricht dann von orthogonalen Matrizen und orthogonalen Transformationen. Ist die

orthogonale Transformationsmatrix außerdem noch symmetrisch, so ist sie mit ihrer Inversen

bzw. Transponierten identisch. Da das Rechnen mit komplexen Zahlen doch einen gewissen

Aufwand bedeutet, werden in der Praxis orthogonale Transformationen mit reellen, möglichst

auch noch symmetrischen Matrizen bevorzugt verwendet. Das bekannteste Beispiel für eine

orthogonale Transformation ist wohl die Drehung von Koordinatensystemen, was bei der

Robotersteuerung oder in CAD-Anwendungen zum täglichen Brot gehört.

Im allgemeinen Fall ist die Berechnung der inversen Matrix recht aufwendig, die Bestimmung

der transponierten Matrix dagegen trivial: man erhält die transponierte Matrix einfach durch

Spiegelung an der Hauptdiagonalen. Damit ist auch sofort klar, dass orthogonale, symmetrische

Matrizen zu sich selbst invers sind, so dass für die Hintransformation und die Rücktransformation

identische Matrizen verwendet werden können.

Hat man einen Datensatz durch eine unitäre bzw. orthogonale Transformation in eine andere

Darstellung überführt, so ist noch stets die gleiche Datenmenge zu speichern, eine Kompression

wurde dadurch also nicht bewirkt. Eine sehr effiziente Möglichkeit zur Datenreduktion

liegt aber darin, dass bei geeigneter Wahl der Transformation manche Komponenten nur

wenig Information tragen und daher weggelassen werden können (siehe Abbildung 3.4.4).

Der Grund dafür ist, dass man orthogonale Transformationen angeben kann, bei denen die

Komponenten des Ergebnisses weitgehend unkorreliert sind, während die zu transformierenden

Daten in der Regel sehr stark miteinander korreliert sind, da sie sich für gewöhnlich

stetig ändern. Anders ausgedrückt: kennt man einige aufeinanderfolgende Werte der zu

transformierenden Ausgangsdaten, so lässt sich der Wert des nächsten Wertes mit hoher

Wahrscheinlichkeit voraussagen; für das Ergebnis einer geeigneten orthogonalen Transformation

gilt das aber nicht mehr.

f

f 2

f 1

X

f’

f 1

f 2

X’

Abbildung 3.4.4:

Durch eine geeignete Koordinatentransformation

wird erreicht, dass die X’-

Komponenten für die beiden Daten f 1 und f 2

zu 0 werden und daher nicht gespeichert

werden müssen. Dies entspricht einer Datenkompression.

Ordnet man den Zeilen des Kerns als Basisfunktionen Schwingungen mit ansteigender Frequenz

zu, so wird ein Datenvektor durch Überlagerungen dieser Basisfunktionen ausgedrückt.

Hohe Frequenzanteile in Daten entstehen durch scharfe Kanten und durch Rauschen.

Werden nun die den hohen Frequenzanteilen entsprechenden Komponenten vernachlässigt,

so führt dies zu einer Rauschunterdrückung, aber – da es sich hierbei im Grunde

um einen Tiefpass-Filter handelt – auch zu einer Kantenverschmierung.

3 Codierung 95

Die Hadamard-Transformation

Die Effizienz des Verfahrens hängt in erster Linie von den gewählten Basisfunktionen ab. Die

einfachste Möglichkeit ergibt sich, wenn man als Basisfunktionen Rechteckschwingungen

wählt, die in diesem Zusammenhang auch als Walsh-Funktionen bezeichnet werden. Die

zugehörige Transformation ist als Hadamard-Transformation bekannt und besonders einfach

und extrem schnell ausführbar, weil die Transformationsmatrix nur die Werte 1 und -1 enthält,

so dass man bei der Transformation völlig ohne Multiplikationen auskommt. Als günstiger

hat sich allerdings die Wahl von Sinus- oder Kosinusfunktionen als Basis erwiesen, da

dann die Resultate in noch höherem Maße unkorreliert sind als bei der Hadamard-

Transformation, so dass höhere Kompressionsraten erreichbar sind.

Die Kosinus-Transformation

Bei der Fourier-Transformation besteht der Kern aus einer komplexen Exponentialfunktion

exp(i2πnu/N), die sich in einen reellen Kosinus-Anteil und einen imaginären Sinus-Anteil zerlegen

lässt:

e i2πnu/N = cos(2πnu/N) + i . sin(2πnu/N)

Die Kosinus- oder Sinus-Funktionen alleine bilden in diesem Fall jedoch keine Basis, da die

Kosinus-Funktionen gerade Funktionen und die Sinus-Funktionen ungerade Funktionen sind.

Mit den Kosinus-Funktionen alleine kann man also nur gerade Funktionen darstellen, das

Ergebnis ist dann rein reell. Mit den Sinus-Funktionen alleine sind nur ungerade Funktionen

darstellbar, und zwar mit rein imaginärem Ergebnis. Für Funktionen bzw. Daten ohne diese

besonderen Symmetrien wird also die komplexe Kombination aus Kosinus- und Sinus-

Termen benötigt.

Weil ein reelles Ergebnis in den meisten Anwendungsfällen bequemer zu handhaben ist,

greift man zu einem Kunstgriff: Man symmetrisiert die zu transformierenden Daten durch

Spiegeln an der vertikalen Koordinatenachse. Nun wird eine Fourier-Transformation über

diesen um den Faktor zwei vergrößerten Datenvektor durchgeführt, wobei sich die Summation

nun über 2N Terme erstreckt. Das Ergebnis ist jetzt aber rein reell und enthält nur Kosinus-Funktionen.

Wegen der künstlich erzeugten geraden Symmetrie lassen sich viele Summanden

zusammenfassen, so dass sich schließlich wieder nur genau so viele Terme ergeben,

wie man bei Summation über die ursprünglichen Daten erhalten hätte, wobei sich aber

die Wellenlängen der Kosinus-Funktionen verglichen mit der Fourier-Transformation verdoppelt

haben. Das Ergebnis ist die rein reelle Kosinus-Transformation [Str02], die in der

Praxis größte Bedeutung erlangt hat. Die Transformations-Formeln lauten:

N−1

u

=

u n [ + ]

F c 2/N∑ fcos(2n 1) π u/2N)

Kosinus-Transformation

n=

0

N−1

∑ [ π ]

f = 2/ N c F cos (2n+

1) u/2N)

n u u

u=

0

mit: u,n = 0,1,...N-1, c u = 1/√2 für u=0, c u = 1 für u>0.

Kosinus-Rücktransformation

Der Transformationskern enthält nun nicht mehr nur die Werte 1 und -1 wie bei der Hadamard-Transformation.

Die Berechnung ist daher wegen der jetzt nötigen Multiplikationen entsprechend

aufwendiger. Der Aufwand lohnt jedoch, da wie schon erwähnt, die Ergebnisse

der Kosinus-Transformation noch weniger korreliert sind als bei der Hadamard-

Transformation und somit eine noch effizientere Datenreduktion ermöglichen. Wegen der

Verfügbarkeit von Signalprozessoren, die in der Lage sind, die nötigen Berechnungen sehr

schnell durchzuführen, hat sich die Kosinus-Transformation als Standard durchgesetzt. Häufig

verwendet man Kerne mit N=8:

96 3 Codierung

C

un

= 0.5 ⋅ c cos[(2n + 1) πu /16]

=

u

⎛1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 ⎞

1.3870 1.1759 0.7857 0.2759 -0.2759 -0.7857 -1.1759 -1.3870

1.3066 0.5412 -0.5412 -1.3066 -1.3066 -0.5412 0.5412 1.3066

1.1759 -0.2759 -1.3870 -0.7857 0.7857 1.3870 0.2759 -1.1759

= 1.0000 -1.0000 -1.0000 1.0000 1.0000 -1.0000 -1.0000 1.0000

0.7857 -1.3870 0.2759 1.1759 -1.1759 -0.2759 1.3870 -0.7857

0.5412 -1.3066 1.3066 -0.5412 -0.5412 1.3066 -1.3066 0.5412

⎝0.2759 -0.7857 1.1759 -1.3870 1.3870 -1.1759 0.7857 -0.2759⎠

Die Transformation entspricht dann einer Multiplikation der Matrix C mit dem Vektor der Bilddaten

(Zeile bzw. Spalte) f:

u

N

=∑ −1

F f C

Fourier-Transformation

n

n=0

N

∑ − 1

c

u

u=

0

nu

f = F C Fourier-Rücktransformation

n

u

−1

nu

Bei der Ausführung der Transformation, geht man am besten durch Erweiterung der Koeffizienten

mit einer Potenz von 2, beispielsweise 4096, zu einer Integer-Darstellung über, so

dass für alle Berechnungen Integer-Arithmetik genügt.

JPEG-Kompression durch Quantisierung der Koeffizienten

Die Kosinustransformation liefert als Ausgabe quadratische Matrizen mit einer zuvor festgelegten

Komponentenzahl, üblicherweise 8×8. Es wird nun angestrebt, diese Einträge möglichst

Platz sparend abzuspeichern, wozu ein Teil der Information so zu entfernen ist, dass

es in den rekonstruierten Daten nur zu geringen, nicht relevanten Änderungen kommt. Bei

der Entscheidung, welche Matrixkomponenten übertragen werden und mit wie vielen Bits sie

dargestellt werden sollen, gibt es prinzipiell zwei verschiedene Möglichkeiten:

Ein Ansatz besteht darin, die Entscheidung von der Position der Komponenten in der Matrix

abhängig zu machen. Man geht dabei von der Überlegung aus, dass die niederfrequenten

Anteile mehr zur Information beitragen als die zu höheren Frequenzen gehörenden Komponenten.

Die Ergebnismatrix wird dementsprechend in verschiedene Zonen aufgeteilt, für die

in einer Bit-Zuordnungstabelle oder Quantisierungstabelle festgelegt wird, wie viele Bits für

die Codierung der Matrixkomponenten in den jeweiligen Zonen zu verwenden sind. Dabei

werden für die niederfrequenten Matrixkomponenten mehr Bits reserviert als für die höherfrequenten

und die höchsten Frequenzen werden oft ganz unterdrückt, was durch den Eintrag

Null gekennzeichnet wird. Die folgende Tabelle zeigt eine mögliche Bit-Zuordnung für

eine 8×8 Matrix, entsprechend einer Datenreduktion um etwa den Faktor 3.

Tabelle 3.4.10: Eine datenkomprimierende Bitzuordnungstabelle (Quantisierungstabelle) für die 8×8

Kosinus-Transformation. Der Kompressionsfaktor beträgt für dieses Beispiel ca. 3.

8 8 7 7 6 5 4 4

8 7 6 5 4 3 2 2

7 6 5 3 2 2 1 1

7 5 3 2 1 1 0 0

6 4 2 1 1 0 0 0

5 3 2 1 0 0 0 0

4 2 1 0 0 0 0 0

4 2 1 0 0 0 0 0

3 Codierung 97

Der zweite Ansatz zur Datenkompression besteht darin, die Quantisierung nicht nach der

Lage der Matrixelemente zu entscheiden, sondern nach deren Größe. Man geht hier von der

Annahme aus, dass Matrixeinträge mit großen Beträgen auch viel Information tragen. Dies

trägt der Tatsache Rechnung, dass scharfe Kanten in Messdaten oder Bildern im Verlauf der

Daten auch zu signifikanten hochfrequenten Komponenten führen, deren Unterdrückung zu

einer Kantenverschmierung führen würde. Alle Matrixelemente werden daher mit einem voreinstellbaren

Schwellwert verglichen und nur übertragen, wenn sie größer sind als dieser

Schwellwert. Allerdings muss dann auch die Position der Matrixelemente mit codiert werden.

Fehlende Einträge werden bei der Rücktransformation wie beim ersten Verfahren durch Null

ergänzt.

Beide Methoden können zu Problemen führen. Das erste Verfahren berücksichtigt nicht,

dass auch hochfrequente Matrixelemente wichtige Information tragen können. Das zweite

Verfahren vermeidet zwar diesen Fehler, codiert aber statt dessen niederfrequente Anteile

nur dann, wenn sie über dem Schwellwert liegen. Erinnert man sich daran, dass die erste

Matrixkomponente den Mittelwert der codierten Daten repräsentiert, so wird deutlich, dass

diese Komponente auch dann nicht ohne Qualitätsverlust weggelassen werden darf, wenn

sie klein ist. Eine optimale Lösung muss demnach beide Methoden kombinieren und die Anzahl

der Bits für die Codierung der einzelnen Matrix-Komponenten in Abhängigkeit von deren

Position und Größe entscheiden.

Die Kosinus-Transformation mit 8×8-Matritzen ist wesentlicher Bestandteil des genormten

JPEG-Standards für die datenreduzierende Codierung von Bilddaten, bei der nach den oben

beschriebenen Strategien kleine und/oder hochfrequente Komponenten auf 0 gesetzt werden.

Dadurch ergeben sich häufig längere Sequenzen von Nullen, die durch eine Lauflängen-Codierung

komprimiert werden. Zusätzlich werden die Koeffizienten aufeinander folgender

8×8-Bereiche mittels Differenz-Codierung weiter komprimiert. Im letzten Schritt steht

dann eine Huffman-Codierung oder eine arithmetische Codierung, mit der die verbleibende

Einzelzeichen-Redundanz eliminiert wird. Für Bilder ergeben sich dann bei Kompressionsraten

um ca. den Faktor 10 gute visuelle Eindrücke, obwohl der Informationsgehalt wesentlich

reduziert wurde. Besonders für Internet-Anwendungen hat dieses Verfahren der Bildkompression

weite Verbreitung gefunden.

Weitere Kompressionsverfahren

Von großer praktischer Bedeutung ist die Kompression bewegter Bilder nach dem MPEG-

Standard (siehe [Wat01] und [Sym98]) Die Kompression von Einzelbildern erfolgt dabei wie

beim JPEG-Verfahren durch Kosinustransformation [Str02]. Es werden jedoch nicht alle Bilder,

sondern nur Stützbilder (beispielsweise jedes vierte) vollständig komprimiert, Zwischenbilder

aber nur aus den Stützbildern interpoliert. Zusätzlich wird durch die Übernahme örtlich

verschobener, aber sonst unveränderter Bildbereiche von einem Bild zum nächsten ein weiterer

Kompressionseffekt erzielt. Insgesamt sind Kompressionsraten bis ca. um den Faktor

100 möglich.

Weitere Methoden der Bilddatenkompression sind die Kompression mit Hilfe der Wavelet-

Transformation [Str02], bei der die zur Bildbeschreibung benötigte Funktionsbasis aus den

Bildern selbst gewonnen wird sowie die fraktale Bildkompression [Fis96], bei der Bilder durch

typische, kleine Bildausschnitte und deren Kombination zu fraktalen Mustern durch Überlagerung

sowie unter Verwendung affiner Abbildungen approximiert werden.

2 Nachricht, Information und Codierung

2 Nachricht, Information und Codierung ... Mehr anzeigen 2 Nachricht, Information und Codierung

Template löschen?

Als Template speichern ?

2 Nachricht, Information und Codierung 2 Nachricht, Information und Codierung