Numerische Lineare Algebra - TU Chemnitz

Numerische Lineare Algebra 

Oliver Ernst 

Professur Numerische Mathematik 

Wintersemester 2013/14

Inhalt I 

1 Organisatorisches 

2 Einleitung 

2.1 Vorbemerkungen 

2.2 Eigenwertaufgaben in den Anwendungen 

3 Das QR-Verfahren 

3.1 Vektoriteration 

3.2 Unterraumiteration 

3.3 Reduktion auf Hessenberg-Gestalt 

3.4 QR Iteration mit impliziten Shifts 

3.5 Konvergenz der Unterraumiteration 

3.6 Konvergenz des QR-Verfahrens 

4 Hermitesche Eigenwertaufgaben 

4.1 Jacobi-Verfahren 

4.2 Bisektion 

4.3 Divide & Conquer - Verfahren 

4.4 Berechnung der Singulärwertzerlegung 

5 Anhang: Grundlagen aus der Linearen Algebra 

5.1 Eigenwerte 

Oliver Ernst (Numerische Mathematik) Numerische Lineare Algebra Wintersemester 2013/14 2 / 177

Inhalt II 

5.2 Störungstheorie 

5.3 Householder-Transformationen und Givens-Rotationen 

5.4 Winkel und Abstand zwischen Unterräumen 


Inhalt 


2 Einleitung 





Einleitung 

Nach dem Satz von Abel-Ruffini sind Polynomgleichungen ab Grad 5 nicht durch 

Wurzelziehen lösbar. Die Nullstellen des Polynoms 

p(z) = z n + a n−1 z n−1 + · · · + a 1 z + a 0 

sind die Eigenwerte seiner Frobenius-Begleitmatrix 

⎡ 

⎤ 

0 −a 0 

1 0 −a 1 

A = 

. .. . .. ⎢ 

. 

∈ C n×n . 

⎥ 

⎣ 1 0 −a n−2 

⎦ 

1 −a n−1 

Ein Verfahren zur Berechnung von Eigenwerten mit endlich vielen Schritten würde 

somit zu einer Formel für die Nullstellen eines Polynomes führen. 

Das in diesem Kapitel betrachtete Verfahren, die QR-Iteration, berechnet die Schur- 

Zerlegung einer n × n Matrix in O(n 3 ) Operationen. 


Inhalt 


2 Einleitung 











Vektoriteration 

Der Prototyp aller numerischer Eigenwertverfahren ist die sog. Vektoriteration nach 

von Mises, auch Potenzmethode (engl. power method) genannt. Es beruht auf der 

Tatsache, dass für (nahezu) jeden Vektor q ∈ C n die Vektorfolge 

q, Aq, A 2 q, A 3 q, . . . 

zunehmend in Richtung eines Eigenvektors von A zum Eigenwert ρ(A) zeigt. In 

seiner einfachsten Form lautet das Verfahren wie folgt: 

Algorithmus 1 : Vektoriteration nach von Mises. 

Gegeben : A ∈ C n×n , q 0 ∈ C n . 

1 for k = 1 to . . . do 

2 z k ← Aq k−1 

3 q k ← z k /‖z k ‖ 2 

4 µ k ← q H k Aq k 

Wie man sieht, wird, allein schon um Gleitpunktüber-/unterlauf zu vermeiden, der 

Vektor zusätzlich in jedem Schritt normiert . 



Ist A diagonalisierbar mit Eigenwerten 

|λ 1 | ≤ |λ 2 | ≤ · · · ≤ |λ n−1 | < |λ n | 

und einer Basis {v j } n j=1 aus zugehörigen Eigenvektoren, so gilt mit Startvektor 

q = γ 1 v 1 + · · · + γ n v n , 

so gilt für die Richtung der Iterierten im k-ten Schritt 

A k q = λ k 1γ 1 v 1 + · · · + λ k nγ n v n 

( ( ) k ( ) ) 

k 

= λ k λ1 

λn−1 

n γ 1 v 1 + · · · + γ n−1 v n−1 + γ n v n 

λ n λ n 

≈ λ k nγ n v n . 

Sofern nur γ n ≠ 0 klingen die übrigen Komponenten der Iterierten (linear) ab mit 

mindestens der Rate |λ n−1 /λ n |. 



Beispiel 

Wir betrachten die Matrix (MATLAB-Notation) 

A = diag(100 : −1 : 1) + 1 triu(ones(100), 1) 

3 

mit Eigenwerten 

Λ(A) = {1, 2, . . . , 100}. 

und wenden die Vektoriteration an mit Startvektoren 

q 0 = ones(100, 1) bzw. 

q 0 = ∑ 99 

j=1 v j. 



Beispiel 

q 0 = ones(100, 1) ‖Aq k − µ k q k ‖ 2 ∡(q k , v 100 ) |100 − µ k | 

10 1 

10 −1 

10 −3 

10 −5 

0 200 400 600 800 1000 



Beispiel 

q 0 = v 1 + · · · + v 99 ‖Aq k − µ k q k ‖ 2 ∡(q k , v 100 ) |100 − µ k | 

∡(q k , v 99 ) |99 − µ k | 

10 0 

10 −2 

10 −4 

10 −6 

10 −8 

10 −10 

0 1000 2000 3000 4000 5000 


Inhalt 


2 Einleitung 











Unterraumiteration 

Vektoriteration und Unterraumiteration 

Die durch die Vektoriteration erzeugte Folge {q k } k≥0 kann ebenso als Folge eindimensionaler 

Unterräume 

S k = span{q k }, k ≥ 0, 

betrachtet werden, die dann einfach charakterisiert sind durch 

S 0 = span{q 0 }, S k = AS k−1 = A k S 0 , k ≥ 1. 

Die Konvergenz der Vektoriteration entspricht dann der Konvergenz der eindimensionalen 

Unterräume S k gegen den dominanten Eigenraum span{v n }. 

Eine naheliegende Verallgemeinerung, die Unterraumiteration (engl. subspace iteration), 

betrachtet dieselbe Iteration mit d-dimensionalen Unterräumen 1 < d ≤ n. 

Wir werden sehen: unter der Voraussetzung |λ n−d+1 | > |λ n−d | konvergiert diese 

Unterraumfolge für (nahzu) jeden Startraum S 0 gegen span{v n−d+1 , . . . , v n }, den 

d-dimensionalen invarianten Unterraum aufgespannt durch die Eigenvektoren der d 

betragsgrößten Eigenwerte, mit der linearen Rate |λ n−d /λ n−d+1 |. 



Invariante Unterräume 

Sei U ⊂ C n ein Unterraum sowie A ∈ C n×n . Mit AU bezeichnen wir den Vektorraum 

AU := {Au : u ∈ U }. 

Klar: dim AU ≤ dim U . 

Ein Unterraum heißt invariant (unter A, oder A-invariant), falls AU ⊂ U . 

Eigenräume von A sind A-invariant. 

Ist das Minimalpolynom von A gegeben durch p(λ) = ∏ m 

j=1 (λ − λ j) nj , so 

sind die Räume 

N (A − λ j I ) nj , j = 1, . . . , m, 

invariant. Ist A nicht diagonalisierbar, so besitzen diese invarianten 

Unterräume keine Basis aus Eigenvektoren. 



Invariante Unterräume 

Bilden die Spalten der Matrix U ∈ C n×d eine Basis des d-dimensionalen 

Unterraumes U , so ist U genau dann A-invariant, wenn es eine Matrix 

B ∈ C d×d gibt mit 

AU = UB. (3.1) 

Gilt (3.1), so ist jeder Eigenwert von B auch Eigenwert von A. Ist x 

Eigenvektor von B zum Eigenwert λ, so ist Ux Eigenvektor von A zum 

Eigenwert λ. 

Gilt (3.1) und sind die Spalten von U orthonormal, so ist B = U H AU . 

Ist der Unterraum U invariant unter A, so gilt 

U ⊥ ist invariant unter A H . 

Ist Λ(A) = {λ 1 , . . . , λ n } und sind λ 1 , . . . , λ d die zu U gehörenden 

Eigenwerte von A, so sind λ d+1 , . . . , λ n die zu U ⊥ gehörenden Eigenwerte 

von A H . 



Verschieben des Ursprungs 

Für einen beliebigen Shift ρ ∈ C besitzt A − ρI dieselben Eigenvektoren wie A, zu 

den verschobenen Eigenwerten {λ − ρ : λ ∈ Λ(A)}. Ordnet man diese so, dass 

|λ 1 − ρ| ≤ |λ 2 − ρ| ≤ · · · ≤ |λ n − ρ|, 

so beträgt die Konvergenzrate der Unterraumiteration für A − ρI nun 

λ n−d − ρ 

∣λ n−d+1 − ρ∣ 

und kann durch Wahl von ρ optimiert werden. 

Typischerweise wählt man als Shift bereits berechnete Näherungen an Eigenwerte 

(von A), und ändert diesen im Lauf der Iteration, die dann lautet 

S k = (A − ρ k I )S k−1 . 



Verschieben des Ursprungs 

m Schritte einer solchen „instationären“ Iteration ergeben also zusammengefasst 

S m = (A − ρ m I )(A − ρ m−1 I ) · · · (A − ρ 1 I )S 0 =: p(A)S 0 

mit einem Polynom p vom Grad m, ein mehrfacher Shift der Ordnung m. Bei zyklischer 

Wiederholung dieser m Schritte spricht man von der durch p(A) erzeugten 

Iteration. 

Umnummerieren der Eigenwerte so, dass 

|p(λ 1 )| ≤ |p(λ 2 )| ≤ · · · ≤ |p(λ n )| 

ergibt nun die Konvergenzrate |p(λ n−d )/p(λ n−d+1 )|. 

In der Praxis ist die Iteration „noch instationärer“, d.h. es werden bei jedem Durchlauf 

m neue Shifts ρ j , also ein anderes Polynom gewählt. Wir betrachten im Weiteren 

der Einfachheit halber den stationären Fall mit einem festen Polynom. 



Orthogonalisierung 

Wir nehmen dabei zunächst an, dass in jedem Durchlauf die Dimension des Unterraums 

erhalten bleibt, d.h. dass 

N (p(A)) ∩ S k = {0}. 

Bilden die Vektoren s (k−1) 

1 , . . . , s (k−1) 

d 

eine Basis von S k−1 , so bilden 

p(A)s (k−1) 

1 , p(A)s (k−1) 

2 , . . . , p(A)s (k−1) 

d 

eine Basis von S k = p(A)S k−1 . Um zu verhindern, dass die so generierten Basisvektoren 

alle gegen einen dominanten Eigenvektor von p(A) konvergieren, werden 

diese in jedem Schritt orthogonalisiert: 

gegeben eine Orthonormalbasis q (k−1) 

1 , . . . , q (k−1) 

d 

von S k−1 , so bilden 

p(A)q (k−1) 

1 , p(A)q (k−1) 

2 , . . . , p(A)q (k−1) 

d 

eine Basis von S k . 

Durch anschliessende Orthonormalisierung (z.B. Gram-Schmidt) erhält man 

eine Orthonormalbasis q (k) 

1 , . . . , q (k) 

d 

von S k . 



Simultane Iteration 

Es ergibt sich die sog. simultane Iteration (engl. simultaneous iteration). 

In Matrixnotation: Fasst man die orthonormalen Basisvektoren von S k−1 zu Q k−1 ∈ 

C n×d zusammen, so lauten diese beiden Schritte 

S k = p(A)Q k−1 , S k = Q k R k , 

wobei letzteres eine QR-Zerlegung von S k in eine Matrix Q k ∈ C n×d mit orthonormalen 

Spalten sowie einer invertierbaren oberen Dreiecksmatrix R k ∈ C d×d 

darstellt. 



Simultane Iteration 

Aufgrund der oberen Dreiecksstruktur von R k bilden die Spalten q (k) 

1 , . . . , q (k) 

d 

von 

Q k nicht nur eine Orthonormalbasis von p(A)S k−1 , es gilt vielmehr 

span{p(A)q (k−1) 

1 , . . . , p(A)q (k−1) } = span{q (k) 

1 , . . . , q (k) 

j }, j = 1, . . . , d. 

j 

Die simultane Iteration erzeugt somit eine Folge geschachtelter Unterräume der 

Dimensionen 1 bis d. 

Ist A diagonalisierbar und sind v 1 , . . . , v n die Eigenvektoren zu den Eigenwerten 

λ 1 , . . . , λ n von A mit 

so gilt 

|p(λ 1 )| ≤ |p(λ 2 )| ≤ · · · ≤ |p(λ n )| 

span{q (k) 

1 , . . . , q (k) 

j } → span{v n−j+1 , . . . , v n }, j = 1, . . . , d, 

sofern |p(λ n−j+1 )| > |p(λ n−j )|. 



QR-Iteration 

Das QR-Verfahren entspricht simultaner Iteration mit d = n beginnend mit 

Q 0 = I . Hierbei wird also eine Folge geschachtelter Unterräume erzeugt, die 

jeweils gegen invariante Unterräume von A konvergieren. 

Alternativ kann das QR-Verfahren als Folge von Orthonormalbasen 

betrachtet werden, bezüglich derer im Grenzfall die Matrix A Schur-Form 

annimmt. Es wird sozusagen das kartesische Koordinatensystem im C n 

geeignet „zurechtrotiert“. 

Neben QR-Zerlegung sind auch andere Transformationen gebrauchlich, etwa 

LR-Zerlegungen. Diese sollten nach Moglichkeit die vorhandene Struktur in A 

erhalten. 



Invarianzerkennung bei QR-Iteration 

Eine Moglichkeit, das Auftreten (hinreichend) invarianter Unterräume im Lauf der 

Iteration zu erkennen ist wie folgt: ist im k-ten Schritt span{q (k) 

1 , . . . , q (k) 

j } A- 

invariant, so sei 

A k := Qk H AQ k . 

Die A-Invarianz von span{q (k) 

1 , . . . , q (k) 

j } führt bei entsprechender Partitionierung 

zu 

[ ] 

A (k) 

1,1 A (k) 

1,2 

A k = 

A (k) 

2,1 A (k) 

2,2 

und, bei näherungsweiser Invarianz, A (k) 

2,1 ≈ O. 

mit 

A (k) 

2,1 = O 



Invarianzerkennung bei QR-Iteration 

Diese Konvergenz wird in bei mehreren Unterräumen gleichzeitig auftreten, sodass 

A k gegen eine block obere Dreiecksform konvergiert: 

⎡ 

⎤ 

B 1,1 B 1,2 · · · B 1,m 

O B 2,2 · · · B 2,1 

A k → ⎢ 

⎣ 

. 

. .. . .. 

⎥ 

. ⎦ 

O · · · O B m,m 

mit (kleinen) quadratischen Diagonalblocken B 1,1 , . . . , B m,m , deren Eigenwerte 

leicht zu bestimmen sind. Im Extremfall besitzen alle Eigenwerte paarweise verschiedene 

Beträge und die Diagonalblöcke sind alle 1 × 1. 



Rekursive Darstellung bei QR-Iteration 

Die Ähnlichkeitstransformation A ↦→ Q H k AQ k muss nicht explizit berechnet werden: 

definiert man 

˜Q k := Q H k−1Q k , 

so ergeben sich unmittelbar 

Q k = ˜Q 1 ˜Q2 · · · ˜Q k sowie A k = ˜Q H k A k−1 ˜Qk , 

d.h. A k kann bei Vorliegen von ˜Q k aus A k−1 berechnet werden. Ferner gilt 

p(A k−1 ) = ˜Q k R k , 

sodass ein QR-Schritt zusammengefasst werden kann als 

p(A k−1 ) = ˜Q k R k , A k = ˜Q H k A k−1 ˜Qk . (3.2) 



Rekursive Darstellung bei QR-Iteration 

Fazit: 

Ein QR-Schritt entspricht einem Schritt simultaner Iteration angewandt auf 

die Unterräume span{e 1 , . . . , e j }, j = 1, . . . , n. Hierauf folgt ein unitärer 

Basiswechsel, bezüglich dessen die Unterräume wieder die Darstellung 

span{e 1 , . . . , e j }, j = 1, . . . , n besitzen. 

Bei der simultanen Iteration bleibt die Matrix A unverändert und die 

Unterräume ändern sich; beim QR-Verfahren ändert sich die Matrix und die 

Unterräume besitzen stets die Darstellung span{e 1 , . . . , e j }, j = 1, . . . , n, 

d.h. die Standardbasis wird zunehmend invariant bezüglich der aktuellen 

Matrix. 



Strukturerhaltung bei QR-Iteration 

Besitzt A spezielle Struktur (reell, Hermitesch, symmetrisch, unitär, 

symplektisch, etc.), so ist diese nach Möglichkeit bei jedem QR-Schritt zu 

erhalten. 

Bei reellen Matrizen kann man komplexe Rechnung durch Shiften mit 

konjugiert-komplexen Paaren vermeiden. In diesem Fall konvergiert A k gegen 

eine block obere Dreiecksmatrix mit Diagonalblöcken der Größe 1 × 1 bzw. 

2 × 2. 

Eine Struktur, die man bei jeder Matrix herstellen und in jedem QR-Schritt 

erhalten kann, ist obere Hessenberg-Gestelt. Dies bringt auch den 

wesentlichen Vorteil, dass ein QR-Schritt mit O(n 2 ) anstatt O(n 3 ) 

arithmetischen Operationen durchgeführt werden kann. Gelingt es, alle 

invarianten Unterräume in O(n) Iterationen zu finden, erfordert das gesamte 

Verfahren somit O(n 3 ) Operationen. 


Inhalt 


2 Einleitung 











Reduktion auf Hessenberg-Gestalt 

Eine Matrix A = [a i,j ] ∈ C n×n heißt obere Hessenberg-Matrix, falls 

a i,j = 0 falls i > j + 1. 

Im 6 × 6-Beispiel: (× bezeichnet beliebige Einträge, i.A. ≠ 0) 

⎡ 

⎤ 

× × × × × × 

× × × × × × 

0 × × × × × 

⎢ 0 0 × × × × 

⎥ 

⎣ 0 0 0 × × × ⎦ 

0 0 0 0 × × 

Diese Gestalt ist stets durch eine untäre Ähnlichkeitstransformation erreichbar. 

Satz 3.1 

Zur jeder Matrix A ∈ C n×n existiert eine unitäre Matrix U ∈ C n×n sodass 

obere Hessenberg-Matrix ist. 

U H AU = H 



Algorithmus 2 : Transformation auf Hessenberg-Gestalt. 

Gegeben : A ∈ C n×n . 

1 for k = 1 to n − 2 do 

2 [v, β] ← house(A(k + 1 : n, k)) 

3 A(k + 1 : n, k : n) ← (I − βvv H )A(k + 1 : n, k : n) 

4 A(1 : n, k + 1 : n) ← A(1 : n, k + 1 : n)(I − βvv H ) 

Dabei liefert die Funktion [v, β] = house(x ) zu x ∈ C n einen Vektor v ∈ C n , den 

sog. Householder-Vektor, mit v 1 = 1 sowie β ∈ R sodass 

P = I − βvv H unitär und Px = ‖x ‖ 2 

x 1 

|x 1 | e 1. 

Dieser Algorithmus erfordert 10n 3 /3 Flops, 4n 3 /3 zusätzliche Flops falls U explizit 

benötigt wird. 



Wir zeigen das Vorgehen der Reduktion auf Hessenberg-Gestalt durch Householder- 

Transformationen anhand einer beliebigen 6 × 6-Matrix A auf. 

Bezeichnet ˜P 1 ∈ C (n−1)×(n−1) eine Householder-Transformation, welche den Vektor 

A(2 : n, 1) auf ein Vielfaches von e 1 ∈ C n−1 abbildet, so ergibt 

⎡ 

⎤ ⎡ 

⎤ 

× × × × × × × × × × × × 

[ ] 

× × × × × × 

× × × × × × 

1 0 

P1 H T 

A = 

× × × × × × 

0 ˜P1 ⎢× × × × × × 

= 

0 × × × × × 

⎥ ⎢ 0 × × × × × 

⎥ 

⎣× × × × × × ⎦ ⎣ 0 × × × × × ⎦ 

× × × × × × 0 × × × × × 

Anschließende Multiplikation von rechts mit P 1 lässt die erste Spalte unverändert, 

sodass wir mit A 1 := P H 1 AP 1 eine zu A unitär ähnliche Matrix erhalten mit Nullen 

unterhalb der ersten Nebendiagonalen in der ersten Spalte. 



Mit der zweiten Spalte verfahren wir analog: bildet die Householder-Matrix ˜P 2 ∈ 

C (n−2)×(n−2) den Vektor A 1 (3 : n, 2) auf ein Vielfaches von e 1 ∈ C n−3 ab, so 

wirkt die unitäre Matrix von links multipliziert 

[ ] 

P2 H I2 O 

= 

O ˜P 2 

nur auf die Zeilen 3 bis n, analog P 3 von rechts multipliziert nur auf Spalten 3 bis 

n, und wir erhalten 

⎡ 

⎤ 

× × × × × × 

× × × × × × 

A 2 = (P 1 P 2 ) H A(P 1 P 2 ) = 

0 × × × × × 

⎢ 0 0 × × × × 

⎥ 

⎣ 0 0 × × × × ⎦ 

0 0 × × × × 



In 2 weiteren Schritten mit immer kleineren Householder-Transformationen 

erhalten wir 

⎡ 

⎤ ⎡ 

⎤ 

× × × × × × 

× × × × × × 

× × × × × × 

× × × × × × 

P 

A 

3 

2 −→ A3 = 

0 × × × × × 

P 4 

⎢ 0 0 × × × × 

−→ A4 = 

0 × × × × × 

⎥ ⎢ 0 0 × × × × 

. 

⎥ 

⎣ 0 0 0 × × × ⎦ ⎣ 0 0 0 × × × ⎦ 

0 0 0 × × × 

0 0 0 0 × × 

Die unitäre Transformation auf obere Hessenberg-Gestalt lautet insgesamt 

A 4 = U H AU , U = P 1 P 2 P 3 P 4 . 


Inhalt 


2 Einleitung 











QR-Schritt mit impliziten Shifts 

Führt man einen QR-Schritt mit einem Shift ρ durch, so vereinfacht sich (3.2) zu 

A k−1 − ρI = Q k R k , A k = Q H k A k−1 Q k . 

(Wir schreiben Q k anstelle von ˜Q k , da wir nur noch die geschlängelten Matrizen 

benötigen.) 

Die letzte Gleichung lässt sich vereinfachen zu 

A k = Q H k (Q k R k + ρI )Q k = R k Q k + ρI . 

Ein einzelner QR-Schritt besteht also im wesentlichen aus einer QR-Zerlegung von 

A k−1 gefolgt von der Multiplikation der QR-Faktoren in umgekehrter Reihenfolge. 

Da A 0 = A in Hessenberg-Gestalt vorliegt, besteht also die erste Aufgabe in einer 

QR-Zerlegung für eine Hessenberg-Matrix. Hierzu sind lediglich (höchstens) n − 1 

Givens-Rotationen erforderlich. 



QR-Zerlegung für Hessenberg-Matrizen 

In unserem 6 × 6-Beispiel wird die obere Dreiecksstruktur nach sukzessiver Multiplikation mit 

Givens-Rotationen G j,j+1 , j = 1, . . . , n − 1, wie folgt erreicht: 

⎡ 

⎤ ⎡ 

⎤ ⎡ 

⎤ 

× × × × × × × × × × × × × × × × × × 

× × × × × × 

0 × × × × × 

0 × × × × × 

0 × × × × × 

G 1,2 

⎢ 0 0 × × × × ⎥ −→ 0 × × × × × 

G 2,3 

⎢ 0 0 × × × × ⎥ −→ 0 0 × × × × 

⎢ 0 0 × × × × ⎥ 

⎢ 

⎣ 

0 0 0 × × × 

0 0 0 0 × × 

⎥ 

⎦ 

⎢ 

⎣ 

0 0 0 × × × 

0 0 0 0 × × 

⎥ 

⎦ 

⎢ 

⎣ 

0 0 0 × × × 

0 0 0 0 × × 

⎡ 

⎤ ⎡ 

⎤ ⎡ 

⎤ 

× × × × × × × × × × × × × × × × × × 

0 × × × × × 

0 × × × × × 

0 × × × × × 

G 3,4 

−→ 0 0 × × × × 

G 4,5 

⎢ 0 0 0 × × × 

−→ 0 0 × × × × 

G 5,6 

⎥ ⎢ 0 0 0 × × × 

−→ 0 0 × × × × 

⎥ ⎢ 0 0 0 × × × 

⎥ 

⎣ 0 0 0 × × × ⎦ ⎣ 0 0 0 0 × × ⎦ ⎣ 0 0 0 0 × × ⎦ 

0 0 0 0 × × 0 0 0 0 × × 0 0 0 0 0 × 

Fasst man alle n − 1 Givens-Rotationen zusammen als Q H := G n−1,n G n−2,n−1 · · · G 1,2 , so 

ergibt sich 

Q H A = R, oder A = QR. 

⎥ 

⎦ 



QR-Zerlegung für Hessenberg-Matrizen 

Die Matrix Q = G H 1,2 · · · G H n−1,n ist aufgrund des Besetzungsmusters ihrer Faktoren 

ebenfalls obere Hessenberg-Matrix. (Dies folgt auch aus dem zu A = QR 

äquivalenten Ausdruck Q = AR −1 .) 

Demzufolge ist mit A 0 auch 

obere Hessenberg-Matrix. 

Satz 3.2 

A 1 = R 1 Q 1 + ρI 

Beim QR-Schritt mit einfachem Shift bleibt die obere Hessenberg-Struktur 

erhalten. 

Eine effiziente Implementierung des QR-Verfahrens arbeitet mit impliziten Shifts, 

d.h. die QR-Zerlegung der Hessenberg-Matrizen wird implizit als Produkt von elementaren 

unitären Matrizen konstruiert. Hierzu ist eine Tatsache hilfreich, die als 

implizites Q-Theorem bekannt ist. 



Unreduzierte Hessenberg-Matrizen 

Definition 3.3 

Eine obere Hessenberg-Matrix H = [h i,j ] n i,j=1 ∈ Cn×n heißt unreduziert (engl. 

unreduced), falls 

h k+1,k ≠ 0 ∀k = 1, 2, . . . , n − 1. 

Satz 3.4 

Ein Eigenwert λ ∈ Λ(A) einer unreduzierten Hessenberg-Matrix A ∈ C n×n 

besitzt geometrische Vielfachheit Eins. 



Implizites Q-Theorem 

Satz 3.5 (Implizites Q-Theorem) 

Seien A ∈ C n×n sowie zwei unitäre Matrizen Q = [q 1 , . . . , q n ] und 

V = [v 1 , . . . , v n ] gegeben, für welche die Matrizen 

H = [h i,j ] = Q H AQ und G = [g i,j ] = V H AV 

obere Hessenberg-Gestalt besitzen. Ferner sei k := min{j : h j+1,j = 0} bzw. 

k = n falls H unreduziert. Gilt dann v 1 = q 1 , so gelten auch 

v j = ϑ j q j mit |ϑ j | = 1, |h j+1,j | = |g j+1,j |, j = 2, . . . , k. 

Falls k < n, so ist auch g k+1,k = 0. 



Implizites Q-Theorem 

Interpretation: Sind G = V H AV und H = Q H AQ zwei unreduzierte Hessenberg- 

Matrizen und besitzen die unitären Matrizen V und Q die gleiche erste Spalte, so 

sind G und H im wesentlichen gleich, d.h. es gilt G = D −1 HD mit einer Diagonalmatrix 

D = diag(ϑ 1 , . . . , ϑ n ), |ϑ j | = 1. 

Die implizite Berechnung der QR-Schritts A k = Q H k A k−1Q k geschieht nun wie 

folgt: 

1 Berechne die erste Spalte von Q k (skalares Vielfaches der ersten Spalte von 

A k−1 − ρI , ergibt sich also durch Nomierung). 

2 Bestimme restliche Spalten von Q k so, dass Q k unitär und A k unreduzierte 

obere Hessenberg-Matrix. 

Das implizite Q-Theorem stellt dann sicher, dass wir dann A k bis auf Faktoren vom 

Betrag eins berechnet haben. 


Inhalt 


2 Einleitung 











Konvergenz 

Praktische Koordinaten 

Sei A ∈ C n×n und U ⊂ C n ein A-invarianter Unterraum der Dimension d. Sei 

U = [U 1 U 2 ] ∈ C n×n so, dass U 1 eine Basis von U und setze B := U −1 AU . 

Wir betrachten U als Koordinatentransformation: ein Vektor mit Darstellungskoordinaten 

x im Ausgangskoordinatensystem besitzt im neuen Koordinatensystem die 

Darstellung U −1 x . 

Dem Unterraum U entspricht der transformierte Unterraum E d = U −1 U . 

Eine Basis von U −1 U ist gegeben durch 

[ ] 

U −1 Id 

U 1 = = [e 

O 1 e 2 · · · e d ] =: E d . 

Aufgrund der B-Invarianz von E d besitzt B Block-Dreiecksform: 

[ ] 

B1,1 B 

B = 

1,2 

mit B 

O B 1,1 ∈ C d×d . 

2,2 


Konvergenz 


Sei S eine Approximation an den A-invarianten Unterraum U . Dann approximiert 

T := U −1 S den B-invarianten Unterraum E d . 

Seien die Spalten von T ∈ C n×d eine ON-Basis von T und setze 

[ ] 

T1,1 

T = 

mit T 

T 1,1 ∈ C d×d . 

2,1 

Nach Satz 5.24 sind die Singulärwerte von E H d T = T 1,1 die Kosinus der Hauptwinkel 

zwischen E d und T . Somit ist T 1,1 genau dann invertierbar, wenn für den 

größten Hauptwinkel ϑ d gilt 

cos ϑ d > 0, was genau dann gilt, wenn dist(E d , T ) = sin ϑ d < 1. 

Ist somit T eine hinreichend gute Approximation an E d , so ist T 1,1 invertierbar 

und es gilt 

[ ] [ ] 

T1,1 I 

T = = T 

T 2,1 X 1,1 mit X := T 2,1 T1,1 −1 . 


Konvergenz 


Die Spalten von [ 

X I ] bilden eine (i. All. nicht ON-) Basis von T . Wir vergleichen 

diese mit der Basis von E d , welche gegeben ist durch die Spalten von [ 

O I ]. 

Lemma 3.6 

Es gilt 

‖X ‖ = tan ϑ d , 

mit ϑ d dem größten Hauptwinkel zwischen E d und T . Somit ist 

dist(E d , T ) = 

‖X ‖ 

√ 

1 + ‖X ‖ 

2 

und, falls T nahe bei E d , 

dist(E d , T ) = sin ϑ d ≈ ϑ d ≈ tan ϑ d = ‖X ‖. 


Konvergenz 

Konvergenzsatz I 

Satz 3.7 (Diagonalisierbarer, stationärer Fall) 

Sei A ∈ C n×n diagonalisierbar, p ein Polynom vom Grad < n und die Eigenwerte 

λ 1 , λ 2 , . . . , λ n von A so nummeriert, dass 

|p(λ 1 )| ≥ |p(λ 2 )| ≥ · · · ≥ |p(λ n )|. 

Für 1 ≤ d < n gelte |p(λ d )| > |p(λ d+1 )|, es sei ρ := 

p(λ d+1 ) 

∣ p(λ d ) ∣ (< 1) 

sowie U und V die zu λ 1 , . . . , λ d bzw. λ d+1 , . . . , λ n gehörenden invarianten 

Unterräume von A. 

Ist S 0 ein d-dimensionaler Unterraum mit S 0 ∩ V = {0}, so konvergiert die 

stationäre Unterraumiteration 

S k = p(A)S k−1 , k = 1, 2, . . . 

gegen U und es existiert eine Konstante C mit 

dist(S k , U ) ≤ Cρ k , k = 1, 2, . . . 


Konvergenz 

Konvergenzsatz II 

Satz 3.8 (Allgemeiner stationärer Fall) 

Seien dieselben Voraussetzungen gegeben wie in Satz 3.7, jedoch A nun nicht 

notwendig diagonalisierbar. 

Dann existiert für jedes ρ < ˆρ < 1 eine Konstante Ĉ = Ĉ(ˆρ), sodass 

dist(S k , U ) ≤ Ĉ ˆρ k , k = 1, 2, . . . 


Konvergenz 

Konvergenzsatz III 

Satz 3.9 (Allgemeiner instationärer Fall) 

Unter den Voraussetzungen von Satz 3.8 sei p 1 , p 2 , . . . eine Folge von Polynomen 

vom Grad m < n mit lim k→∞ p k = p. Ferner gelte 

p k (λ j ) ≠ 0 für alle k und alle j = 1, . . . , d. 

Dann konvergiert die nichtstationäre Unterraumiteration 

S k = p k (A)S k−1 , k = 1, 2, . . . 

gegen U . Für jedes ρ < ˆρ < 1 existiert eine Konstante Ĉ = Ĉ(ˆρ) sodass 

Lemma 3.10 

dist(S k , U ) ≤ Ĉ ˆρ k , k = 1, 2, . . . 

Ist A ∈ C n×n eine unreduzierte Hessenberg-Matrix, d ∈ {1, . . . , n − 1} und 

V ⊂ C n ein A-invarianter Unterraum der Dimension n − d, so ist E d ∩ V = {0}. 


Inhalt 


2 Einleitung 











QR Konvergenz 

Lemma 3.11 

Sei A ∈ C n×n und U ⊂ C n ein d-dimensionaler, A-invarianter Unterraum. 

Sei ferner S ⊂ C n ein d-dimensionaler, U approximierender Unterraum und die 

ersten d Spalten der unitären Matrix Q eine ON-Basis von S . Dann gilt mit 

[ ] 

B := Q H B1,1 B 

AQ = 

1,2 

, B 

B 2,1 B 1,1 ∈ C d×d 

2,2 

die Abschätzung 

‖B 2,1 ‖ ≤ 2 √ 2‖A‖ dist(S , U ). 


QR Konvergenz 

Satz 3.12 

Beim QR-Verfahren angewandt auf A 0 = A ∈ C n×n konvergiere die Folge der 

Shift-Polynome {p k } k∈N ⊂ P m gegen p ∈ P m . Die Eigenwerte {λ j } n j=1 von A 

seien so nummeriert, dass |p(λ 1 )| ≥ |p(λ 2 )| ≥ · · · ≥ |p(λ n )| und für 1 ≤ d < n 

gelte 

|p(λ d )| > |p(λ d+1 )| sowie p k (λ j ) ≠ 0 für j = 1, . . . , d und alle k. 

Seien U und V die zu {λ 1 , . . . , λ d } bzw. {λ d+1 , . . . , λ n } gehörenden invarianten 

Unterräume von A, E d ∩ V = {0} und die QR-Iterierten partitioniert gemäß 

[ ] 

(k) A 1,1 A (k) 

1,2 

A k = 

A (k) 

2,1 A (k) . 

2,2 

Ist ρ := |p(λ d+1 )|/|p(λ d )|(< 1), so existiert für alle ˆρ ∈ (ρ, 1) eine Konstante Ĉ 

sodass 

‖A (k) 

2,1 ‖ ≤ Ĉ ˆρk , k = 1, 2, . . . . 


QR Konvergenz 

Satz 3.13 

Konvergieren unter den Voraussetzungen und Bezeichnungen von Satz 3.12 die 

Blöcke A (k) 

2,1 → O für k → ∞, so konvergieren die Eigenwerte von A(k) 1,1 gegen 

{λ 1 , . . . , λ d } und die von A (k) 

2,2 gegen {λ d+1, . . . , λ n }. 

Die Voraussetzungen von Satz 3.13 gelten typischerweise zugleich für mehrere Werte 

von d, sodass A k dann gegen eine „feinere“ Block-obere-Dreicksform konvergiert. 

Im Extremfall, in dem diese für alle d ∈ {1, . . . , n − 1} erfüllt sind, erhalten wir im 

Grenzwert obere Dreiecksform. 


QR Konvergenz 

In der Praxis besitzen die p k niedrigen Grad m ≪ n. Konvergieren diese gegen ein 

Polynom p dessen Nullstellen Eigenwerte von A sind, so ist für d = n − m die Rate 

ρ = 0 (superlineare Konvergenz) und die Iteration liefert nach wenigen Schritten 

die Block-Dreiecksgestalt 

[ ] 

A1,1 A 1,2 

, A 

O A 2,2 ∈ C m×m . 

2,2 

Für kleines m (etwa m = 2) ist die Berechnung der Eigenwerte von A 2,2 einfach, 

und das QR-Verfahren kann mit der Berechnung de Eigenwerte von A 1,1 fortfahren. 


QR Konvergenz 

Quadratische und Kubische Konvergenz 

Satz 3.14 

Die Matrix A ∈ C n×n sei diagonalisierbar, besitze paarweise verschiedene 

Eigenwerte und die Voraussetzungen von Satz 3.12 seien erfüllt für d = n − m. 

Konvergieren die QR-Iterierten A k gegen eine Matrix mit Block-Dreiecksgestalt, 

so ist diese Konvergenz quadratisch. 

Satz 3.15 

Konvergieren unter den Voraussetzungen von Satz 3.14 die QR-Iterierten 

[ ] 

A (k) 

1,1 A (k) 

1,2 

A k = 

A (k) 

2,1 A (k) 

2,2 

und gilt zusätzlich ‖A (k) 

1,2 ‖ F = ‖A (k) 

2,1 ‖ F , so ist die Konvergenz kubisch. 

Die Voraussetzung von Satz 3.15 ist insbesondere für normale Matrizen, somit auch 

für Hermitesche (symmetrische) Matrizen erfüllt.

Numerische Lineare Algebra - TU Chemnitz

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?