Il teorema ergodico - Matematica e Applicazioni
Il teorema ergodico - Matematica e Applicazioni
Il teorema ergodico - Matematica e Applicazioni
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Facoltà di Scienze Matematiche, Fisiche, Naturali<br />
Corso di Laurea Triennale in <strong>Matematica</strong><br />
a. a. 2009/10<br />
Tesi di Laurea<br />
<strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong><br />
Candidato<br />
Mauro Timini<br />
Relatore<br />
Francesco Caravenna
Indice<br />
Introduzione 1<br />
1 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong> 3<br />
1.1 Richiami di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />
1.2 Impacchettamenti e ricoprimenti . . . . . . . . . . . . . . . . . . . . . . . 8<br />
1.3 Trasformazioni stazionarie ed ergodiche . . . . . . . . . . . . . . . . . . . 10<br />
1.4 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
1.4.1 Enunciato del <strong>teorema</strong> <strong>ergodico</strong> . . . . . . . . . . . . . . . . . . . . 16<br />
1.4.2 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong> : caso binario . . . . . . . . . . . . . . . . . . . 17<br />
1.4.3 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong>: caso generale . . . . . . . . . . . . . . . . . . 20<br />
2 <strong>Applicazioni</strong> ed esempi 31<br />
2.1 Strumenti tecnici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
2.2 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
2.3 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />
iii
Introduzione<br />
In questa tesi dimostriamo un risultato importante relativo al calcolo della probabilità:<br />
il <strong>teorema</strong> <strong>ergodico</strong>. La teoria ergodica ha le sue origini nella meccanica statistica: più<br />
precisamente, venne introdotta da Boltzmann (1844-1906) verso la fine dell’Ottocento,<br />
in riferimento ai sistemi meccanici complessi ai quali era attribuita la proprietà di assumere,<br />
nella loro evoluzione spontanea, tutti gli stati dinamici microscopici compatibili<br />
con il loro stato macroscopico. In base a tale teoria, la media “temporale” di ogni osservabile<br />
del sistema doveva coincidere con la media “spaziale” di tale osservabile rispetto<br />
a un’opportuna distribuzione di probabilità sullo spazio delle configurazioni del sistema.<br />
Una formulazione più tecnica di quest’idea venne fornita poco più tardi da Josiah Willard<br />
Gibbs (1839-1903) ed, in seguito, tale teoria venne sviluppata da un punto di vista<br />
matematico, considerandone gli aspetti probabilistici.<br />
La nostra trattazione riguarda proprio quest’ultimo approccio. <strong>Il</strong> risultato fondamentale<br />
di questa teoria è costituito dal <strong>teorema</strong> <strong>ergodico</strong>, dimostrato da George David<br />
Birkhoff (1884-1944). Tale <strong>teorema</strong> afferma che, data una trasformazione T definita su<br />
uno spazio di probabilità ed a valori nel medesimo, se tale applicazione soddisfa determinate<br />
proprietà, allora la media temporale di ogni osservabile calcolata lungo la traiettoria<br />
{x, T x, T 2 x, . . .} (dove x è un punto dello spazio) coincide, facendo tendere all’infinito<br />
il numero di iterazioni, con l’integrale dell’osservabile rispetto alla misura di probabilità<br />
fissata sullo spazio. In particolare, questo <strong>teorema</strong> fornisce una generalizzazione della<br />
legge dei grandi numeri per un’ampia classe di processi stocastici (ad esempio, per le<br />
catene di Markov), al di là del caso classico di variabili indipendenti ed identicamente<br />
distribuite.<br />
La dimostrazione del <strong>teorema</strong> <strong>ergodico</strong> che forniremo non è quella classica, ma si basa<br />
su alcuni argomenti di tipo combinatorio e discreto, sviluppati in [1, Sez.I.3]. La dimostrazione<br />
è strutturata in due parti: dapprima consideriamo il caso di processi discreti e<br />
poi estendiamo la trattazione a processi stocastici a valori in uno spazio generico.<br />
La tesi è organizzata nel modo seguente:<br />
- Nel Capitolo 1 richiamiamo alcuni concetti di base, sviluppiamo alcuni strumenti<br />
relativi ai ricoprimenti aleatori ed, infine, forniamo la dimostrazione del <strong>teorema</strong><br />
<strong>ergodico</strong>.<br />
- Nel Capitolo 2 presentiamo alcuni modi operativi di dimostrare l’ergodicità (in<br />
particolare definendo le proprietà di mescolanza e di mescolanza debole) ed applichiamo<br />
tali metodi a due casi importanti: i processi i.i.d. e la Catene di Markov.<br />
1
Capitolo 1<br />
<strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong><br />
1.1 Richiami di probabilità<br />
In questo paragrafo richiameremo alcuni concetti di base della teoria del calcolo delle<br />
probabilità che ci saranno utili in seguito. Sia X un insieme. Definiamo σ-algebra su X<br />
un sottoinsieme Σ di P(X) tale che :<br />
i) X ∈ Σ,<br />
ii) A ∈ Σ ⇒ X \ A ∈ Σ, ∀A ∈ Σ,<br />
iii) Se {A n } n∈N è una successione di elementi di Σ, allora ⋃ n∈N A n ∈ Σ.<br />
Si può verificare facilmente che, comunque si scelga X, esistono sempre almeno due<br />
σ-algebre su X : Σ 1 = {∅, X} (σ-algebra banale) e Σ 2 = P(X) (σ-algebra discreta). Dato<br />
un insieme X, pertanto, è sempre possibile associarvi una σ-algebra Σ : si definisce spazio<br />
misurabile la coppia (X, Σ). Sia, dunque, (X, Σ) uno spazio misurabile. Consideriamo<br />
ora un’applicazione<br />
µ : Σ → [0, +∞]<br />
tale che:<br />
i) µ(∅) = 0.<br />
ii) Se {A n } n∈N è una successione di elementi a due a due disgiunti di Σ (cioè tali che<br />
A n ∩ A m = ∅, ∀m, n ∈ N tali che m ≠ n), allora<br />
µ( ⋃ A n ) = ∑ µ(A n ).<br />
n∈N n∈N<br />
Tale funzione viene detta misura su (X, Σ). Uno spazio di misura è una terna (X, Σ, µ),<br />
dove X è un insieme, Σ è una σ-algebra su X e µ è una misura su Σ. Se, inoltre,<br />
supponiamo valga l’ipotesi aggiuntiva µ(X) = 1, allora si dice che µ è una probabilità su<br />
Σ ed (X, Σ, µ) è detto spazio di probabilità. Ora consideriamo due proprietà fondamentali<br />
della misura che risulteranno utili in seguito.<br />
3
4 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Lemma 1 (Continuità dal basso). Sia (X, Σ, µ) uno spazio di misura. Data una successione<br />
{A n } n∈N di elementi di Σ tale che A n ⊆ A n+1 , ∀n ≥ 0, si ha che:<br />
( ⋃<br />
)<br />
µ A n = lim µ(A n)<br />
n→∞<br />
n∈N<br />
Dimostrazione. Definiamo la successione {B m } m∈N in questo modo:<br />
B 0 := A 0 e B m := A m \ A m−1 , ∀m ≥ 1.<br />
Si può osservare facilmente che, dato n ∈ N, A n = ⋃ n<br />
m=0 B m e che, quindi, ⋃ ∞<br />
⋃ n=0 A n =<br />
∞ ⋃ n<br />
n=0 m=0 B m = ⋃ ∞<br />
m=0 B m. Pertanto, in virtù delle proprietà della misura µ si ha che<br />
(<br />
⋃ ∞<br />
µ<br />
n=0<br />
(<br />
⋃ ∞<br />
A n<br />
)= µ<br />
m=0<br />
B m<br />
)=<br />
∞∑<br />
µ(B m )<br />
m=0<br />
= lim<br />
n∑<br />
n→∞<br />
m=0<br />
(<br />
µ(B m ) = lim µ ⋃ n<br />
B m<br />
)= lim µ(A n).<br />
n→∞ n→∞<br />
m=0<br />
Lemma 2 (Continuità dall’alto). Sia (X, Σ, µ) uno spazio di misura. Data una successione<br />
{A n } n∈N di elementi di Σ tale che A n ⊇ A n+1 , ∀n ≥ 0, si ha che:<br />
( ⋂<br />
)<br />
µ A n = lim µ(A n)<br />
n→∞<br />
n∈N<br />
Dimostrazione. Innanzitutto osserviamo che, dato n ∈ N, se A n ⊇ A n+1 , allora A n c ⊆<br />
A n+1 c . Utilizzando la proprietà di continuità dal basso, quindi, possiamo concludere che<br />
( ⋂<br />
) (<br />
µ(X) − µ A n = µ X \ ⋂ (( ⋂<br />
) c ) ( ⋃<br />
)<br />
c<br />
A n<br />
)= µ A n = µ A n = lim µ(A n c )<br />
n→∞<br />
n∈N n∈N<br />
n∈N n∈N<br />
= lim<br />
n→∞ µ(X \ A n) = lim<br />
n→∞ (µ(X) − µ(A n)) = µ(X) − lim<br />
n→∞ µ(A n).<br />
Dunque<br />
( ⋂<br />
)<br />
µ A n = lim µ(A n).<br />
n→∞<br />
n∈N<br />
Un risultato fondamentale che si può derivare dalla proprietà di continuità dal basso<br />
di una misura e che ci sarà di estrema utilità in seguito è dato dal Lemma di Borel-<br />
Cantelli, che ora enunceremo.
1.1. RICHIAMI DI PROBABILITÀ 5<br />
Lemma 3 (Borel-Cantelli). Sia (X, Σ, P ) uno spazio di probabilità. Se {C n } n∈N è una<br />
successione di elementi di Σ tale che ∑ P (C n ) < ∞, allora<br />
( ⋂ ⋃<br />
)<br />
P C m = 0,<br />
n≥1 m≥n<br />
ossia per quasi tutti gli x ∈ X esiste un naturale N = N(x) tale che x /∈ C n , ∀n ≥ N.<br />
Dimostrazione. Sia G n := ⋃ m≥n C m. Osserviamo che G n ⊃ G n+1 , ∀n ∈ N. Per continuità<br />
dal basso, si ha che ( ⋂<br />
)<br />
P G n = lim P (G n).<br />
n→∞<br />
n≥1<br />
Notiamo che<br />
P (G n ) = P ( ⋃ m≥n<br />
C m ) ≤ ∑ m≥n<br />
P (C m ).<br />
Osserviamo che, poichè per ipotesi la serie ∑ P (C n ) converge, allora dev’essere<br />
∑<br />
lim P (C m ) = 0,<br />
( ) ⋂<br />
quindi P<br />
n≥1 G n = 0.<br />
n→∞<br />
m≥n<br />
Siano, ora, (X, Σ) ed (Y, F) due spazi misurabili : una funzione f : X → Y si<br />
dice misurabile se f −1 (A) ∈ Σ, ∀A ∈ F. Dato uno spazio di misura (X, Σ, µ), una<br />
funzione misurabile f a valori reali è detta semplice se esistono a 1 , a 2 , . . . , a n ∈ R ed<br />
A 1 , A 2 , . . . , A n ∈ Σ tali che f(x) = ∑ n<br />
i=1 a iχ Ai (x), ∀x ∈ X. Se una funzione misurabile<br />
è definita su uno spazio di probabilità (X, Σ, P ), allora tale funzione è detta variabile<br />
casuale. Un processo stocastico a tempo discreto è una sequenza X 1 , X 2 , . . . , X n , . . . di<br />
variabili casuali definite su uno spazio di probabilità (X, Σ, P ).<br />
Supponiamo ora che {X n } n∈N sia un processo stocastico definito su uno spazio di probabilità<br />
(X, Σ, P ) ed a valori in uno spazio misurabile (E, E). Si dimostra che, dato<br />
tale spazio misurabile, è ben definito lo spazio prodotto (E N , E N ), ove E N è la σ-algebra<br />
prodotto. L’applicazione<br />
X : (X, Σ, P ) → (E N , E N )<br />
ω ↦→ (X 1 (ω), X 2 (ω), ..., X n (ω), ..)<br />
è misurabile se e solo se X n è misurabile ∀n ∈ N.<br />
Alcuni dei risultati che ora ci apprestiamo a richiamare si basano principalmente sul concetto<br />
di integrale secondo Lebesgue di una funzione misurabile. Al fine di non discostarci<br />
troppo dal nostro lavoro, tuttavia, diamo per scontata la definizione di tale nozione,<br />
essendo particolarmente laboriosa ed essendo facilmente reperibile nella maggior parte<br />
dei testi di base riguardanti la teoria della probabilità (si consideri, a titolo di esempio,<br />
[2, pag. 49]).
6 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Lemma 4 (Diseguaglianza di Markov). Sia f una funzione nonnegativa ed integrabile<br />
su uno spazio di probabilità (X, Σ, µ) e siano δ, ɛ > 0. Se ∫ f dµ ≤ ɛδ, allora f(x) ≤ ɛ,<br />
eccetto che per un insieme di misura al più δ.<br />
Dimostrazione. Sia D := {x ∈ X tali che f(x) > ɛ}. Consideriamo la funzione caratteristica<br />
{ 1 se f(x) > ɛ<br />
χ D (x) =<br />
0 se f(x) ≤ ɛ<br />
ed osserviamo che chiaramente χ D (x) ≤ f(x)<br />
ɛ<br />
, ∀x ∈ X. Dunque<br />
∫<br />
µ(D) = χ D (x)dµ(x)<br />
X<br />
∫<br />
f(x)<br />
≤ dµ(x)(x) = 1 ∫<br />
f(x)dµ(x) ≤ 1 ɛδ = δ.<br />
ɛ<br />
ɛ X<br />
ɛ<br />
X<br />
Ricordiamo, ora, che, dato uno spazio di misura (X, Σ, µ), si definisce L 1 l’insieme<br />
di tutte le funzioni f misurabili su tale spazio e tali che ∫ |f|dµ < +∞. Si prova che tale<br />
insieme è uno spazio vettoriale normato completo.<br />
Ora enunciamo i teoremi di passaggio al limite sotto il segno di integrale: tali teoremi<br />
indicano alcune condizioni necessarie per cui, data una successione convergente di funzioni<br />
misurabili, sia possibile ottenere informazioni riguardo il limite degli integrali della<br />
successione stessa.<br />
Teorema 1 (Teorema di convergenza monotòna). Sia (X, Σ, µ) uno spazio di misura e<br />
sia {f n } n∈N una successione di funzioni misurabili tale che:<br />
i) f n (x) ≥ 0, ∀x ∈ X, ∀n ∈ N<br />
ii) f n (x) ≤ f n+1 (x), ∀x ∈ X, ∀n ∈ N<br />
iii) Esiste una funzione f misurabile nonnegativa tale che<br />
f(x) = lim<br />
n→∞ f n(x), ∀x ∈ X.<br />
Allora<br />
∫<br />
∫<br />
fdµ = lim<br />
n→∞<br />
f n dµ.<br />
Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, §5.3 (pag. 49)]<br />
Ora, data una generica successione {f n } n∈N di funzioni definite su uno spazio misurabile<br />
(X, Σ, µ), definiamo, per ogni elemento x ∈ X, il limite inferiore ed il limite<br />
superiore rispettivamente in questo modo:<br />
• lim inf n∈N f n (x) = sup m∈N inf n≥m f n (x)
1.1. RICHIAMI DI PROBABILITÀ 7<br />
• lim sup n∈N f n (x) = inf m∈N sup n≥m f n (x).<br />
Ora che abbiamo a disposizione questi concetti, possiamo procedere enunciando un lemma<br />
dimostrabile facilmente utilizzando il <strong>teorema</strong> precedente e la proprietà di monotonìa<br />
degli integrali.<br />
Lemma 5 (Lemma di Fatou). Sia (X, Σ, µ) uno spazio di misura e sia {f n } n∈N una<br />
successione di funzioni misurabili nonnegative. Allora<br />
∫<br />
∫<br />
lim inf f ndµ ≤ lim inf f n dµ.<br />
n∈N<br />
n∈N<br />
Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, §5.4 (pag. 52)]<br />
Un altro risultato importante e fondamentale per la nostra trattazione è dato dal<br />
seguente <strong>teorema</strong>.<br />
Teorema 2 (Teorema di convergenza dominata). Sia (X, Σ, µ) uno spazio di misura e<br />
sia {f n } n∈N una successione di funzioni misurabili tali che :<br />
i) f n ∈ L 1 ,∀n ∈ N<br />
ii) Esiste una funzione misurabile f tale che, dato x ∈ X,<br />
lim f n(x) = f(x)<br />
n→∞<br />
iii) Esiste una funzione nonnegativa g ∈ L 1 tale che |f n (x)| ≤ g(x), ∀x ∈ X, ∀n ∈ N<br />
Sotto queste ipotesi, si ha che allora f ∈ L 1 e che lim n→∞<br />
∫<br />
|fn − f|dµ = 0, dunque<br />
lim n→∞<br />
∫<br />
fn dµ = ∫ fdµ.<br />
Dimostrazione. Anche in questo caso, si consiglia di vedere [2, §5.9 (pag. 54)].<br />
Questo <strong>teorema</strong> ci permette di dimostrare un lemma importante che dovremo utilizzare<br />
in seguito e che ci apprestiamo ad enunciare.<br />
Lemma 6 (Integrabilità uniforme). Sia (X, Σ, µ) uno spazio di probabilità e sia f ∈<br />
L 1 (X, Σ, µ). Allora, per ogni η > 0, esiste δ > 0 tale che, comunque si scelga A ∈ Σ, si<br />
ha che, se µ(A) < δ, allora ∫ A<br />
|f(x)|dµ(x) ≤ η.<br />
Dimostrazione. Osserviamo innanzitutto che, per il <strong>teorema</strong> di convergenza dominata,<br />
si ha che<br />
∫<br />
lim<br />
|f(x)|dµ(x) =<br />
M→∞ {x∈X:|f(x)|>M}<br />
∫<br />
= lim |f(x)|χ {x∈X:|f(x)|>M} (x)dµ(x) = 0.<br />
M→∞ X
8 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Dunque questo significa che<br />
∀η > 0, ∃M 0 tale che<br />
∫<br />
{x∈X:|f(x)|>M 0 }<br />
|f(x)|dµ(x) ≤ η 2 .<br />
Sia ora A ∈ Σ, osserviamo che<br />
∫<br />
A<br />
|f(x)|dµ(x)<br />
∫<br />
=<br />
A∩{x∈X:|f(x)|>M 0 }<br />
∫<br />
|f(x)|dµ(x) +<br />
|f(x)|dµ(x)<br />
A∩{x∈X:|f(x)|≤M 0 }<br />
≤ η 2 + M 0P (A ∩ {x ∈ X : |f(x)| ≤ M 0 })<br />
≤ η 2 + M 0P (A). (1.1)<br />
Definiamo, quindi, δ :=<br />
che<br />
η<br />
2M 0<br />
: se A è tale che µ(A) < δ, dunque, dalla (1.1) otteniamo<br />
∫<br />
|f(x)|dµ(x) ≤ η.<br />
A<br />
1.2 Impacchettamenti e ricoprimenti<br />
In questa sottosezione lasciamo momentaneamente in disparte la probabilità per concentrarci<br />
su alcuni risultati di combinatoria necessari nella dimostrazione del <strong>teorema</strong><br />
<strong>ergodico</strong>.<br />
In particolare, consideriamo l’insieme N dei numeri naturali e tutti e soli gli intervalli<br />
del tipo [n, m] = {j ∈ N|n ≤ j ≤ m}.<br />
Definizione 1. Si dice ricoprimento forte di N un insieme C definito da una funzione<br />
a valori interi n ↦→ m(n) (ove m(n) ≥ n, ∀n ∈ N) e formato da tutti gli intervalli nella<br />
forma [n, m(n)], n ∈ N (il termine forte sta ad indicare il fatto che ogni numero naturale<br />
debba essere estremo sinistro di un intervallo appartenente a C).<br />
Osserviamo che ogni ricoprimento forte ammette un sottoricoprimento C ′ formato da<br />
elementi disgiunti di C : è sufficiente, ad esempio, definire tale sottoinsieme come C ′ :=<br />
{[n i , m(n i )], dove n 1 = 1 e n i+1 = 1+m(n i )}, i ≥ 1.<strong>Il</strong> problema che ci poniamo, dunque,<br />
è il seguente : dato un ricoprimento forte C, è possibile ottenere un sottoricoprimento<br />
C ′ di C, formato da intervalli disgiunti, appartenenti ad [1,K] e tali che la loro unione<br />
generi tutto l’intervallo In generale, la risposta è negativa: tuttavia è possibile ottenere<br />
un sottoricoprimento che ci permetta di ricostruire la maggior parte di tale intervallo.<br />
Iniziamo da un caso particolare che ci permetta di verificare immediatamente ed in<br />
maniera diretta l’affermazione appena fatta, così da fissare bene le idee: supponiamo
1.2. IMPACCHETTAMENTI E RICOPRIMENTI 9<br />
che gli intervalli in C abbiano tutti la stessa lunghezza, sia L. In tal caso, definiamo il<br />
sottoricoprimento C ′ in questo modo:<br />
{<br />
}<br />
C ′ (K − L)<br />
= [iL + 1, (i + 1)L] : 0 ≤ i ≤ .<br />
L<br />
Si può osservare facilmente che questo insieme, per come è definito ed essendo costituito<br />
da intervalli consecutivi e disgiunti di lunghezza L, ricopre tutto l’intervallo [1, K] fatta<br />
eccezione per, al massimo, gli ultimi L − 1 elementi.<br />
Inoltre, osserviamo che, dato δ > 0, se K ed L sono tali che K > L δ<br />
, allora la porzione<br />
di intervallo che non viene ricoperta ha cardinalità al massimo L−1 < L < Kδ e pertanto<br />
il rapporto tra la sua lunghezza e quella di [1, K] è strettamente minore di δ.<br />
Ora consideriamo un caso più generale: sia [1, K] un dato intervallo e sia C un<br />
ricoprimento forte i cui elementi abbiano lunghezza variabile.<br />
<strong>Il</strong> nostro obiettivo è far vedere che, se la maggior parte degli intervalli di C aventi<br />
estremo sinistro in [1, K] ha lunghezza non superiore ad L, allora è possibile estrarre un<br />
sottoricoprimento C ′ incluso interamente in [1, K] e tale che l’unione dei suoi elementi<br />
ricostruisca quasi completamente tale intervallo, a meno di una frazione di esso, la quale<br />
non supera comunque un certo valore stimabile. Innanzitutto, è opportuno introdurre<br />
alcune definizioni, al fine di tradurre in termini rigorosi ciò che intendiamo provare e,<br />
quindi, fornire una dimostrazione valida.<br />
Definizione 2. Sia C un ricoprimento forte di N. Un intervallo [1, K] è detto (L, δ)-<br />
fortemente ricoperto se, dati L > 0, δ > 0,<br />
|{n ∈ [1, K] : m(n) − n + 1 > L}|<br />
K<br />
Definizione 3. Una collezione C ′ di intervalli inclusi in un dato intervallo [1, K] è detta<br />
(1 − δ)-impacchettamento di [1,K] se gli intervalli di C ′ sono disgiunti e se la loro unione<br />
ha cardinalità maggiore od uguale a (1 − δ)K.<br />
Ora abbiamo a disposizione tutti gli elementi per dimostrare il lemma principale di<br />
questa sottosezione.<br />
Lemma 7 (Lemma di impacchettamento). Sia C un ricoprimento forte di N e sia<br />
δ > 0 dato. Se K > L δ<br />
e se [1, K] è (L, δ)-fortemente coperto da C, allora esiste un<br />
sottoricoprimento C ′ ⊂ C che è un (1 − 2δ)-impacchettamento di [1, K].<br />
≤ δ.<br />
Dimostrazione. Innanzitutto, per ipotesi sappiamo che K > L δ<br />
e che |{n ∈ [1, K] :<br />
m(n) − n + 1 > L}| ≤ δK. Ora cerchiamo di costruire un (1 − 2δ)-impacchettamento<br />
dell’intervallo [1, K]. L’idea è quella di procedere iterativamente da sinistra a destra,<br />
selezionando ad ogni passo il primo intervallo di lunghezza non superiore ad L e che<br />
sia disgiunto da quello selezionato in precedenza, fermandoci quando l’estremo destro<br />
dell’ultimo intervallo estratto dista da K per una quantità minore di L.Più precisamente,<br />
poniamo m(0) = n 0 = 0 e definiamo per induzione:<br />
n i = min{j ∈ [1 + m(n i−1 ), K − L] : m(j) − j + 1 ≤ L}, ∀i ≥ 1,
10 CAPITOLO 1. IL TEOREMA ERGODICO<br />
fermandoci quando la condizione non è più soddisfatta. Se I è l’insieme degli indici j<br />
che selezioniamo, osserviamo che chiaramente m(n j ) − n j + 1 ≤ L, ∀j ∈ I e che quindi<br />
m(n |I| ) ≤ K. <strong>Il</strong> procedimento si arresta quando si verifica uno dei seguenti casi:<br />
• I è tale che m(n |I| ) > K − L : osserviamo che 1 + m(n |I| ) > K − L, pertanto<br />
non possiamo selezionare ulteriori intervalli disgiunti dai precedenti e di lunghezza<br />
inferiore ad L poiché, anche qualora ve ne fossero, non siamo sicuri che questi siano<br />
inclusi completamente in [1, K], essendo la distanza del loro estremo sinistro da K<br />
inferiore di L<br />
• Non esiste j ∈ [1 + m(n |I| ), K − L], tale che m(j) − j + 1 ≤ L : anche se esistessero<br />
degli intervalli disgiunti dai precedenti ed aventi estremo sinistro a distanza<br />
maggiore di L da K, tuttavia, siccome tali intervalli hanno tutti lunghezza strettamente<br />
maggiore di L, in generale non è detto che siano completamente inclusi in<br />
[1, K].<br />
Ora vogliamo provare che l’insieme C ′ = {[n i , m(n i )] : 1 ≤ i ≤ |I|} sia effettivamente<br />
un (1 − 2δ)-impacchettamento di [1, K]. Innanzitutto, osserviamo che gli elementi di<br />
C ′ sono tra loro disgiunti per costruzione e, in virtù delle osservazioni fatte, sono tutti<br />
inclusi in [1, K]. Resta da provare, pertanto, che la loro unione U abbia lunghezza almeno<br />
(1 − 2δ)K.<br />
Osserviamo che l’intervallo (K − L, K] ha lunghezza massima L − 1 < L < δK. dunque<br />
sicuramente<br />
|(K − L, K] \ U| ≤ δK.<br />
Ora consideriamo l’intervallo [1, K − L]. Per come abbiamo definito C ′ (e per come<br />
abbiamo costruito U), si ha che:<br />
Se j ∈ [1, K − L] \ U, allora m(j) − j + 1 > L.<br />
Ma allora, se applichiamo l’ipotesi di (L, δ)-ricoprimento forte, posso concludere che<br />
Quindi si ha sicuramente che<br />
|[1, K − L] \ U| ≤ δK.<br />
|[1, K] \ U| = |([1, K − L] \ U) ∪ ((K − L, K] \ U)| =<br />
e così facendo abbiamo dimostrato la tesi.<br />
= |[1, K − L] \ U| + |(K − L, K] \ U| ≤ δK + δK = 2δK<br />
1.3 Trasformazioni stazionarie ed ergodiche<br />
In questa sezione consideriamo le funzioni definite su un generico spazio di probabilità<br />
(X, Σ, µ) ed a valori nel medesimo. In particolare, definiamo in maniera rigorosa i concetti<br />
di trasformazione stazionaria e di trasformazione ergodica, insieme ad alcune proprietà<br />
che saranno necessarie in seguito.
1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 11<br />
Definizione 4 (Trasformazione stazionaria). Sia (X, Σ, µ) uno spazio di probabilità.<br />
Un’applicazione T : X → X si dice trasformazione stazionaria se è misurabile e se<br />
µ(T −1 B) = µ(B), ∀B ∈ Σ.<br />
Definizione 5 (Trasformazione ergodica). Una trasformazione stazionaria T si dice<br />
ergodica se, dato B ∈ Σ,<br />
T −1 B = B ⇒ µ(B) = 0 o µ(B) = 1.<br />
Lemma 8 (Definizioni equivalenti di ergodicità). Sia (X, Σ, µ) uno spazio di probabilità.<br />
Data una trasformazione stazionaria T : X → X, sono equivalenti :<br />
a) T è ergodica.<br />
b) T −1 B ⊆ B ⇒ µ(B) = 0 o µ(B) = 1.<br />
c) T −1 B ⊇ B ⇒ µ(B) = 0 o µ(B) = 1.<br />
d) µ(T −1 B∆B) = 0 ⇒ µ(B) = 0 o µ(B) = 1,<br />
ove A∆B = (A ∪ B) \ (A ∩ B) è la differenza simmetrica tra A e B.<br />
e) Se f(T x) = f(x) quasi certamente, allora f è costante quasi certamente.<br />
f) Se f(T x) ≥ f(x) quasi certamente (oppure f(T x) ≤ f(x) quasi certamente), allora<br />
f è costante quasi certamente.<br />
Dimostrazione. Dimostriamo, inizialmente, l’equivalenza di a) e b). Osserviamo che b) ⇒<br />
a) è ovvia : basta notare che, se T : X → X è un’applicazione tale che, dato B ∈ Σ,<br />
T −1 B = B, allora in particolare T −1 B ⊆ B. In virtù delle ipotesi assunte, quindi, si ha<br />
che µ(B) = 0 o µ(B) = 1 e dunque abbiamo dimostrato l’ergodicità di T .<br />
Procediamo ora con la dimostrazione dell’implicazione inversa : sia T una trasformazione<br />
ergodica e sia B ∈ Σ tale che T −1 B ⊆ B. Siccome l’applicazione inversa T −1 preserva<br />
le relazioni insiemistiche, osserviamo che<br />
T −1 B ⊆ B ⇒ T −(n+1) B ⊆ T −n (B), ∀n ∈ N. (1.2)<br />
Prima di proseguire con la dimostrazione osserviamo che ⋂ n≥1 T −n B = ⋂ n≥0 T −n B. Si<br />
può verificare facilmente, infatti, che ⋂ n≥1 T −n B ⊇ ⋂ n≥0 T −n B.: tale disuguaglianza è<br />
banale poiché il secondo membro corrisponde al primo intersecato con un nuovo evento.<br />
La relazione ⋂ n≥1 T −n B ⊆ ⋂ n≥0 T −n B., invece, è facilmente ottenibile a partire da<br />
(1.2).<br />
In base a queste osservazioni, quindi, se definiamo l’insieme C := ⋂ n≥0 T −n B, si può<br />
notare che<br />
( ⋂<br />
)<br />
T −1 C = T −1 T −n B = ⋂ T −1 (T −n B) =<br />
n≥0 n≥0<br />
= ⋂ T −(n+1) B = ⋂ T −n B = ⋂ T −n B = C.<br />
n≥0<br />
n≥1<br />
n≥0
12 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Poichè T è per ipotesi ergodica, dev’essere per forza µ(C) = 0 oppure µ(C) = 1.<br />
Osserviamo che per la continuità dall’alto si ha che<br />
( ⋂<br />
)<br />
µ(C) = µ T −n B = lim µ(T −n B) = lim µ(B) = µ(B).<br />
n→∞ n→∞<br />
n≥0<br />
Dunque µ(B) = 0 oppure µ(B) = 1 ed abbiamo dimostrato anche questa implicazione.<br />
L’equivalenza di b) e c) è immediata. Basta considerare, infatti, che<br />
T −1 B ⊇ B ⇐⇒ (T −1 B) c = T −1 (B c ) ⊆ B c .<br />
Supponendo, pertanto, che valga b), se T −1 B ⊇ B, allora, in virtù dell’osservazione<br />
fatta sopra, µ(B c ) = 0 oppure µ(B c ) = 1, ossia µ(B) = 1 oppure µ(B) = 0 e quindi c)<br />
è verificata. Supponiamo, ora, che valga c) e che T −1 B ⊆ B: quest’ultimo fatto equivale<br />
ad affermare che T −1 B c ⊇ B c . Avendo supposto valida c), dunque, concludiamo che<br />
µ(B c ) = 0 oppure µ(B c ) = 1, ovvero µ(B) = 1 oppure µ(B) = 0 e dunque b) è verificata.<br />
Dimostriamo ora che b) è equivalente a d). Innanzitutto, dimostrare d)⇒b) è semplice:<br />
osserviamo che, se T −1 B ⊆ B, allora<br />
µ(T −1 B∆B) = µ(B \ T −1 B) = µ(B) − µ(T −1 B) = µ(B) − µ(B) = 0.<br />
Se supponiamo valga d), dunque, µ(B) = 0 oppure µ(B) = 1.<br />
Ora proviamo la validità dell’implicazione inversa: supponiamo, dunque, che valga b).<br />
Definiamo C := ⋃ n≥0 T −n B ed osserviamo che<br />
T −1 C = T −1 ( ⋃<br />
n≥0<br />
T −n B<br />
)<br />
= ⋃ T −n B ⊆ ⋃ T −n B = C,<br />
n≥1<br />
n≥0<br />
questo implica che µ(C) = 0 oppure µ(C) = 1. Ora notiamo che, per come abbiamo<br />
definito C e per la proprietà di continuità dall’alto, si ha che<br />
( N<br />
)<br />
µ(C) = lim µ ⋃<br />
(T −n B) . (1.3)<br />
N→∞<br />
Sia C N := ⋃ N<br />
n=0 (T −n B). Ora consideriamo i seguenti risultati che ci saranno utili nel<br />
proseguimento della dimostrazione:<br />
i) Dati due insiemi A e B,<br />
n=0<br />
µ(A) − µ(B)<br />
= µ(A ∩ B) + µ(A \ B) − (µ(B ∩ A) + µ(B \ A))<br />
= µ(A \ B) − µ(B \ A).<br />
Dunque |µ(A) − µ(B)| ≤ µ(A \ B) + µ(B \ A) = µ(A∆B).
1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 13<br />
ii) Dati n insiemi A 1 , A 2 , . . . , A n ed un insieme B, si può verificare che<br />
(<br />
⋃ N N⋃<br />
A n<br />
)∆B ⊆ (A n ∆B).<br />
n=1<br />
n=1<br />
iii) Dati due insiemi A e B, si verfica facilmente che<br />
A∆B ⊆ (A∆C) ∪ (C∆B).<br />
Ora osserviamo che, essendo T stazionaria e poichè l’inversa di un’applicazione preserva<br />
le relazioni insiemistiche, in base alle nostre ipotesi possiamo notare che<br />
0 = µ(T −1 B∆B) = µ(T −1 (T −1 B∆B)) = µ(T −2 B∆T −1 B)<br />
= µ(T −1 (T −2 B∆T −1 B)) = . . . = µ(T −(n−1) B∆T −n B), ∀n ∈ N<br />
In base ad i) e ii), dunque, possiamo notare che<br />
|µ(C N ) − µ(B)| ≤ µ(C N ∆B)<br />
( N<br />
)<br />
⋃<br />
N∑<br />
≤ µ (T −n B∆B) ≤ µ(T −n B∆B). (1.4)<br />
n=0<br />
n=0<br />
Ora osserviamo che, in base a iii), dato n ∈ N,<br />
T −n B∆B ⊆ (T −n B∆T −(n−1) B) ∪ (T −(n−1) B∆B).<br />
Otteniamo, dunque, la seguente diseguaglianza<br />
µ(T −n B∆B)<br />
≤ µ(T −n B∆T −(n−1) B) + µ(T −(n−1) B∆B)<br />
= µ(T −(n−1) B∆B).<br />
Osserviamo che tale maggiorazione può essere ripetuta per tutti gli n ∈ N, così da<br />
ottenere la catena di diseguaglianze:<br />
µ(T −n B∆B) ≤ = µ(T −(n−1) B∆B) ≤ µ(T −(n−2) B∆B)<br />
≤ . . . ≤ µ(T −1 B∆B).<br />
Siccome, per ipotesi, µ(T −1 B∆B) = 0, allora, in base all’osservazione precedente, dev’essere<br />
µ(T −n B∆B) = 0, ∀n ∈ N. Ma allora osserviamo che, per la (1.4), si ha che<br />
|µ(C N ) − µ(B)| = 0, ∀N ∈ N. Dunque µ(C N ) = µ(B), ∀N ∈ N e, tornando alla (1.3),<br />
otteniamo che<br />
µ(C) = lim µ(C N) = lim µ(B) = µ(B).<br />
N→∞ N→∞<br />
Dunque possiamo concludere, in quanto, se µ(C) = µ(B), segue che µ(B) = 1 oppure<br />
µ(B) = 0. La validità di d) a partire da b) è quindi dimostrata.
14 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Ora completiamo la dimostrazione provando che d) ed e) sono equivalenti. Innanzitutto<br />
supponiamo che valga d) e consideriamo una generica funzione semplice<br />
f(x) =<br />
n∑<br />
a i χ Bi (x), ove a i ≠ a j e B i ∩ B j = ∅, ∀i ≠ j, i, j ∈ {1, . . . , n}<br />
i=1<br />
(ricordiamo che ogni funzione semplice può essere espressa in questa forma). Supponiamo<br />
che f(x) = f(T x) quasi certamente. Osserviamo che<br />
f(T x) =<br />
n∑<br />
a i χ Bi (T x) =<br />
i=1<br />
n∑<br />
a i χ T −1 (B i )(x). (1.5)<br />
i=1<br />
Dato i ∈ {1, . . . , n}, se x ∈ (B i ∆T −1 (B i )), ciò significa che x non può appartenere<br />
sia a B i che a T −1 (B i ): in altre parole, non può verificarsi che x e T x appartengano<br />
entrambi all’insieme B i . Questo fatto implica, in base alla (1.5), che sicuramente f(x) ≠<br />
f(T x). Possiamo affermare, dunque, che B i ∆T −1 B i ⊆ {x : f(x) ≠ f(T x)} e che, avendo<br />
supposto f(x) = f(T x) quasi certamente, si ha dunque:<br />
µ(B i ∆T −1 (B i )) ≤ µ({x : f(x) ≠ f(T x)}) = 0 ∀i ∈ {1, . . . , n}<br />
⇒ µ(B i ∆T −1 (B i )) = 0 ∀i ∈ {1, . . . , n}.<br />
Siccome abbiamo supposto che d) sia vera, segue che µ(B i ) = 0 oppure µ(B i ) = 1,<br />
∀i ∈ {1, . . . , n}. Tuttavia, essendo gli insiemi B i a due a due disgiunti, questo significa che<br />
esiste al più un solo indice ¯j ∈ {1, . . . , n} tale che µ(B¯j) = 1 e µ(B i = 0), ∀i ≠ ¯j. Questo<br />
risultato implica che la funzione semplice f, per come è definita, è quasi certamente<br />
costante. Dunque il risultato vale per le funzioni semplici. Sia ora f una funzione generica<br />
per cui supponiamo che f(T x) = f(x) quasi certamente. Definiamo, per ogni numero<br />
naturale n, la funzione<br />
f n (x) :=<br />
+n2<br />
∑<br />
n<br />
k=−n2 n<br />
k<br />
2 n χ{ ( ]}<br />
x:f(x)∈ k−1 (x).<br />
2 n , k<br />
2 n<br />
Osserviamo che si tratta di una funzione semplice e che, per ogni n ∈ N, il valore che<br />
assume f n in ciascun x ∈ X dipende dal valore assunto da f in tale punto. In particolare,<br />
dato n ∈ N e dato x ∈ X, se f(T x) = f(x) allora<br />
f n (T x) =<br />
+n2<br />
∑<br />
n<br />
k=−n2 n<br />
k<br />
2 n χ{ ( ]}<br />
x:f(T x)∈ k−1 (x)<br />
2 n , k<br />
2 n<br />
=<br />
+n2<br />
∑<br />
n<br />
k=−n2 n<br />
k<br />
2 n χ{ [ ]}<br />
x:f(x)∈ k−1 (x) = fn (x).<br />
2 n , k<br />
2 n<br />
Dunque, se f(T x) = f(x) quasi certamente, allora f n (T x) = f n (x) quasi certamente,<br />
∀n ∈ N. Pertanto, in virtù del risultato ottenuto per le funzioni semplici, possiamo
1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 15<br />
affermare che, per ogni numero naturale n, f n (x) = c n ∈ R , ∀x ∈ A n , ove A n è un<br />
insieme tale che µ(A n ) = 1. Notiamo, inoltre, che, fissato x ∈ X, lim n→∞ f n (x) =<br />
f(x). Definiamo, quindi, l’insieme A := ⋂ n≥0 A n ed osserviamo che µ(A) = 1. Infatti<br />
osserviamo che A c = ⋃ n≥0 A n c , quindi µ(A c ) ≤ ∑ n≥0 µ(A n c ) = 0, pertanto µ(A c ) = 0,<br />
ovvero µ(A) = 1. Dunque, se x ∈ A, allora la successione {f n (x)} n∈N è una successione di<br />
numeri reali {c n } n∈N convergente ad f(x). Poichè questo fatto vale per ogni x ∈ A, allora<br />
per forza f(x) dev’essere costante su tutto A, altrimenti si avrebbe che la successione<br />
{c n } n∈N converge a più valori, il che è assurdo. Pertanto f è costante su A, dunque a<br />
meno di un insieme di misura nulla.<br />
Supponiamo ora che e) sia valida e sia B ∈ Σ tale che µ(T −1 B∆B) = 0. Osserviamo che<br />
∫<br />
0 = µ(T −1 B∆B) = |χ T −1 B(x) − χ B (x)|dµ(x),<br />
da cui segue facilmente che<br />
|χ T −1 B(x) − χ B (x)| = 0, q.c. ⇒ χ T −1 B(x) = χ B (x) q.c.<br />
⇐⇒ χ B (T x) = χ B (x) q.c. .<br />
Dunque, supponendo e) vera, segue che χ B (x) è quasi certamente costante. Siccome<br />
tale funzione può assumere i soli valori 0 ed 1, allora o χ B (x) = 1 q.c. (ed in tal caso<br />
µ(B) = 1), oppure χ B (x) = 0 q.c. (ed in tal caso µ(B) = 0). Dunque abbiamo provato<br />
la validità di d).<br />
Ora dimostriamo che e) ed f) sono equivalenti. L’implicazione f) ⇒ e) è ovvia poichè<br />
basta notare che f(T x) = f(x) quasi certamente ⇒ f(T x) ≥ f(x) (oppure f(T x) ≤<br />
f(x)) quasi certamente.<br />
Ora dimostriamo che e) implica f). Supponiamo, dunque, che valga e) che f(T x) ≥<br />
f(x) quasi certamente (nel caso in cui f(T x) ≤ f(x) quasi certamente, si procede in<br />
maniera analoga). Definiamo la funzione g(x) := f(T x) − f(x) : osserviamo che, in virtù<br />
dell’ipotesi, g(x) ≥ 0 quasi certamente. Notiamo che, in virtù della stazionarietà di T<br />
∫<br />
∫<br />
∫<br />
g(x)dµ(x) = f(T x)dµ(x) − f(x)dµ(x) = 0.<br />
In base a queste due proprietà, dunque, dev’essere g(x) = 0 quasi certamente, ma allora<br />
f(T x) = f(x) quasi certamente, dunque f è costante quasi certamente.<br />
Sia ora (E, E) uno spazio misurabile e sia (E N , E N ) lo spazio prodotto definito a<br />
partire da E (costituito dagli elementi (x 1 , x 2 , ..., x n , ...) tali che x n ∈ E, ∀n ∈ N) e<br />
munito della σ-algebra prodotto E N . Definiamo, quindi, l’operazione di shift<br />
T : E N → E N<br />
(x 1 , x 2 , . . . x n , . . .) ↦→ (x 2 , x 3 , . . . , x n , . . .).<br />
Consideriamo ora un processo stocastico {X n } n∈N a valori in E, cioè<br />
X n : (X, Σ, P ) → (E, E), ∀n ∈ N,
16 CAPITOLO 1. IL TEOREMA ERGODICO<br />
ove (X, Σ, P ) è uno spazio di probabilità. Definiamo, su (E N , E N ), la misura di Kolmogorov<br />
per il processo {X n } n∈N in questo modo:<br />
µ(A 1 × A 2 × . . . × A n × . . .) :=<br />
P (X 1 ∈ A 1 , X 2 ∈ A 2 , . . . , X n ∈ A n , . . .), ∀{A i } i∈N , A i ∈ E<br />
(µ è detta legge della successione {X n } n∈N ). Tale processo, dunque, si dice <strong>ergodico</strong> se<br />
l’operazione di shift è ergodica rispetto alla misura di Kolmogorov associata al processo<br />
{X n } n∈N .<br />
1.4 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong><br />
1.4.1 Enunciato del <strong>teorema</strong> <strong>ergodico</strong><br />
Teorema 3 (Teorema <strong>ergodico</strong>). Sia T una trasformazione stazionaria su uno spazio di<br />
probabilità (X, Σ, µ) e sia f una funzione integrabile, allora la media 1 n<br />
∑ n<br />
i=1 f(T i−1 x)<br />
converge quasi certamente ed in L 1 , per n −→ ∞, verso una funzione T -invariante<br />
f ∗ (x).<br />
Corollario 1. Se T è una trasformazione ergodica, allora f ∗ (x) = ∫ fdµ, ∀x ∈ X.<br />
Dimostrazione. Sia f n (x) := 1 n<br />
∑ n<br />
i=1 f(T i−1 x).<br />
Siccome f n converge in L 1 ad f ∗ , allora<br />
∫ ∫<br />
∣∫<br />
∫<br />
∣ f n dµ − f ∗ ∣∣∣<br />
dµ<br />
∣ = (f n − f ∗ )dµ<br />
∣ ≤<br />
|f n − f ∗ |dµ −→ 0, per n → ∞,<br />
dunque ∫ f n dµ −→ ∫ f ∗ dµ, per n → ∞.<br />
Inoltre, notiamo che, ∀n ∈ N,<br />
∫<br />
∫ 1<br />
n∑<br />
f n (x)dµ = f(T i−1 x)dµ = 1 n<br />
n<br />
i=1<br />
n∑<br />
∫<br />
∫<br />
f(T i−1 x)dµ =<br />
poiché, essendo T una trasformazione stazionaria,<br />
∫<br />
∫<br />
f(T n (x))dµ = f(x)dµ, ∀n ∈ N.<br />
i=1<br />
f(x)dµ,<br />
Dunque dev’essere ∫ fdµ = ∫ f ∗ dµ.<br />
Inoltre, se supponiamo che T sia una trasformazione ergodica, essendo f ∗ T −invariante,<br />
allora, in virtù del Lemma 4, f ∗ (x) è costante su tutto il dominio, pertanto f ∗ (x) = c ∈ R,<br />
∀x ∈ X, dunque :<br />
∫<br />
∫<br />
∫<br />
f(x)dµ = f ∗ (x)dµ = cdµ = µ(X)c = c,<br />
pertanto, nel caso in cui T sia anche ergodica la funzione f ∗ (x) (media temporale) è<br />
costante su tutto il dominio ed ha valore pari a ∫ fdµ (media spaziale).
1.4. IL TEOREMA ERGODICO 17<br />
1.4.2 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong> : caso binario<br />
Teorema 4 (Teorema <strong>ergodico</strong>: caso binario). Se {X n } è un processo <strong>ergodico</strong> tale che<br />
{X n } ∈ {0, 1}, ∀n ∈ N, allora la media X 1+X 2 +...+X n<br />
n<br />
converge quasi certamente al valore<br />
costante E(X 1 ) = µ(1) = µ({x : x 1 = 1}).<br />
Dimostrazione. <strong>Il</strong> nostro obiettivo è provare che :<br />
1<br />
n∑<br />
lim x i = µ(1) quasi ovunque, (1.6)<br />
n→∞ n<br />
i=1<br />
ove, ricordiamo, µ(1) = µ{x : x 1 = 1} = E(X 1 ) e µ 1 è la legge di X su {0, 1} N .<br />
Supponiamo, per assurdo, che (1.6) sia falsa.<br />
Più precisamente, supponiamo che l’insieme<br />
B =<br />
{<br />
x : lim sup<br />
n→∞<br />
1<br />
n<br />
}<br />
n∑<br />
x i > µ(1) + ɛ<br />
sia tale che µ(B) > 0 (il caso complementare, in cui si considera l’insieme degli x ∈ X<br />
1<br />
∑<br />
tali che lim inf n<br />
n→∞ n i=1 x i < µ(1) − ɛ, si tratta in modo analogo). Osserviamo che<br />
lim sup<br />
n→∞<br />
Infatti, notiamo che<br />
x 1 + x 2 + ... + x n<br />
n<br />
x 2 + x 3 + ... + x n+1<br />
n<br />
i=1<br />
= lim sup<br />
n→∞<br />
= x 1 + x 2 + ... + x n<br />
n<br />
x 2 + x 3 + ... + x n+1<br />
.<br />
n<br />
x<br />
Inoltre, poichè x n ∈ {0, 1}, ∀n ∈ N, si ha che lim n+1<br />
n→∞ n<br />
− x 1<br />
n<br />
+ x n+1<br />
n − x 1<br />
n .<br />
= 0, dunque<br />
lim sup<br />
n→∞<br />
x 2 + x 3 + ... + x n+1<br />
=<br />
n<br />
lim sup<br />
n→∞<br />
x 1 + x 2 + ... + x n<br />
n<br />
x n+1<br />
+ lim<br />
n→∞ n − x 1<br />
n =<br />
= lim sup<br />
n→∞<br />
x 1 + x 2 + ... + x n<br />
n<br />
Pertanto, se la sequenza (x 1 , x 2 , ..., x n , ..) ∈ B, allora la sequenza, ottenuta tramite uno<br />
shift, (x 2 , x 3 , .., x n , ..) ∈ B e questo fatto vale anche per tutte le operazioni di shift<br />
successive : abbiamo provato, quindi, che l’insieme B è T -invariante e, poichè abbiamo<br />
assunto che µ sia ergodica rispetto a T e che µ(B) > 0, allora deve valere µ(B) = 1.<br />
Supponiamo ora che x = (x 1 , x 2 , .., x n , ..) ∈ B : essendo B un insieme T -invariante,<br />
allora<br />
(x n , x n+1 , .., x n+m , ..) ∈ B, ∀n ∈ N,<br />
⇐⇒ lim sup<br />
m→∞<br />
n+m−1<br />
1 ∑<br />
m<br />
k=n<br />
x k > µ(1) + ɛ, ∀n ∈ N,
18 CAPITOLO 1. IL TEOREMA ERGODICO<br />
dunque per ogni intero n esiste un intero m(n) ≥ n tale che<br />
x n + x n+1 + ... + x m(n)<br />
m(n) − n + 1<br />
> µ(1) + ɛ.<br />
Definiamo, pertanto, la collezione di intervalli<br />
C(x) := {[n, m(n)] : n ∈ N} : (1.7)<br />
tale insieme è un ricoprimento forte di N. Osserviamo, inoltre, che tale insieme è determinato<br />
in modo casuale, al variare dei valori assunti dalla sequenza (x 1 , x 2 , .., x n , ..), i<br />
quali, appunto, sono determinati da una sequenza di variabili casuali . Osserviamo che,<br />
poichè µ(B) = 1, allora<br />
lim sup<br />
n→∞<br />
1<br />
n<br />
n∑<br />
x i > µ(1) + ɛ, quasi certamente,<br />
i=1<br />
ovvero ad eccezione di un sottoinsieme di {0, 1} N avente misura nulla. Dunque possiamo<br />
affermare che quasi certamente esiste un m(1) ∈ N tale che<br />
x 1 + x 2 + ... + x m(1)<br />
m(1)<br />
> µ(1) + ɛ,<br />
questo significa che la variabile casuale m(1) (il cui valore varia al variare dei valori<br />
assunti dal processo <strong>ergodico</strong> {X n } n∈N ) assume quasi certamente un valore finito in N<br />
e, pertanto, è limitata a meno di un sottoinsieme di {0, 1} N avente probabilità piccola<br />
a piacere. Più precisamente, dato δ > 0, esiste un numero L tale che se D := {x =<br />
(x 1 , x 2 , .., x n , ..) : m(1) > L} allora µ(D) < δ 2 .<br />
Definiamo la funzione<br />
g K (x) := 1 K∑<br />
χ D (T i−1 (x)),<br />
K<br />
{ 1 se x ∈ D<br />
ove χ D (x) =<br />
0 se altrimenti.<br />
Ora vogliamo calcolare l’integrale di questa funzione.<br />
Innanzitutto osserviamo che, poichè T è una trasformazione stazionaria, µ = µ ◦ T .<br />
Dunque<br />
i=1<br />
∫<br />
g K (x)dµ = 1 K<br />
K∑<br />
∫<br />
i=1<br />
χ D (T i−1 x)dµ =<br />
= 1 K<br />
K∑<br />
∫<br />
i=1<br />
χ D (x)dµ = 1 Kµ(D) = µ(D).<br />
K<br />
Poichè, quindi, ∫ g K (x)dµ = µ(D) < δ 2 , per la Diseguaglianza di Markov si ha che l’insieme<br />
G K := {x : g K (x) ≤ δ} è tale che µ(G K ) ≥ (1 − δ).
1.4. IL TEOREMA ERGODICO 19<br />
Supponiamo x ∈ G K , allora:<br />
g K (x) = 1 K<br />
K∑<br />
χ D (T i−1 x) ≤ δ.<br />
i=1<br />
Ora osserviamo questo fatto importante: per definizione dell’insieme D, sia x = (x 1 , x 2 , ..., x n , ...),<br />
allora<br />
T n−1 (x) = (x n , x n+1 , .., ..) ∈ D ⇐⇒ m(n) − n + 1 > L<br />
⇐⇒ |[n, m(n)]| > L.<br />
Se x ∈ G K , dunque, possiamo scrivere<br />
g k (x) = 1 K<br />
=<br />
K∑<br />
χ D (T i−1 (x)) =<br />
i=1<br />
|{n ∈ [1, K] : m(n) − n + 1 > L}|<br />
K<br />
=<br />
|{n ∈ [1, K] : |[n, m(n)]| > L}|<br />
K<br />
≤ δ.<br />
Dunque abbiamo provato che, se x ∈ G K , allora l’insieme C(x), definito in (1.7), è un<br />
(L, δ)-ricoprimento forte dell’intervallo [1, K].<br />
In virtù del Lemma di impacchettamento, quindi, esiste un sottoinsieme<br />
C ′ (x) = {[n i , m(n i )] : i ≤ I(x)} ⊂ C(x),<br />
il quale è un (1 − 2δ)-impacchettamento di [1, K]. Poichè le x i sono nonnegative, gli<br />
intervalli di C ′ (x) sono disgiunti e sono tutti contenuti in [1, K], allora:<br />
I(x)<br />
K∑ ∑<br />
x j ≥<br />
j=1<br />
i=1<br />
m(n i )<br />
∑<br />
j=n i<br />
I(x)<br />
∑<br />
≥ (m(n i ) − n i + 1)[µ(1) + ɛ] =<br />
i=1<br />
I(x)<br />
∑<br />
[µ(1) + ɛ] |[n i , m(n i )]| ≥ [µ(1) + ɛ](1 − 2δ)K.<br />
Ora osserviamo che, poichè ovviamente ∑ K<br />
j=1 x j ≥ ( ∑ K<br />
j=1 x j)χ Gk (x), si ha:<br />
(<br />
∑ K ) ( ( K )<br />
∑ )<br />
E x j ≥ E x j χGk (x)<br />
j=1<br />
j=1<br />
≥<br />
≥ E([µ(1) + ɛ](1 − 2δ)Kχ Gk (x)) = [µ(1) + ɛ](1 − 2δ)KE(χ Gk (x)) =<br />
i=1<br />
= [µ(1) + ɛ](1 − 2δ)Kµ(G k ) ≥ [µ(1) + ɛ](1 − 2δ)K(1 − δ),
20 CAPITOLO 1. IL TEOREMA ERGODICO<br />
cosicchè:<br />
( 1<br />
µ(1) = E<br />
K<br />
K∑<br />
)<br />
x j ≥ [µ(1) + ɛ](1 − 2δ)(1 − δ), ∀δ > 0.<br />
j=1<br />
Questo fatto è chiaramente assurdo, poiché, per δ → 0, dovrebbe aversi, per la permanenza<br />
del segno,<br />
µ(1) ≥ µ(1) + ɛ > µ(1)<br />
In questo modo, quindi, abbiamo provato che la (1.6) è vera e, pertanto, abbiamo<br />
dimostarto il <strong>teorema</strong>.<br />
1.4.3 <strong>Il</strong> <strong>teorema</strong> <strong>ergodico</strong>: caso generale<br />
In questa sottosezione dimostriamo la validità del <strong>teorema</strong> <strong>ergodico</strong> nella sua forma più<br />
astratta. Prima di procedere con la dimostrazione vera e propria, tuttavia, è necessario<br />
provare alcuni lemmi.<br />
Lemma 9. Consideriamo uno spazio di probabilità (X, Σ, µ). Siano f ∈ L 1 (X, Σ, µ),<br />
T : X → X una trasformazione stazionaria ed α un numero reale arbitrario. Definiamo<br />
gli insiemi<br />
B =<br />
{<br />
x ∈ X : lim sup<br />
D =<br />
{<br />
n→∞<br />
1<br />
n<br />
x ∈ X : lim<br />
n→∞<br />
allora µ(D) = 1 e B ∩ D = T −n B ∩ D, ∀n ∈ N.<br />
}<br />
n∑<br />
f(T i−1 x) > α<br />
i=1<br />
f(T n x)<br />
n<br />
Dimostrazione. Osserviamo innanzitutto che, siccome f ∈ L 1 , si ha, ∀ɛ > 0 :<br />
= 0<br />
}<br />
,<br />
∫<br />
∞ ><br />
|f|dµ =<br />
∫ +∞<br />
0<br />
µ({x ∈ X : |f(x)| > t})dt =<br />
= ∑ n∈N<br />
∫ ɛn<br />
ɛ(n−1)<br />
µ({x ∈ X : |f(x)| > t})dt ≥ ∑ n∈N<br />
ɛµ({x ∈ X : |f(x)| > ɛn})<br />
(la prima uguaglianza segue da un’applicazione del Teorema di Fubini, mentre l’ultima<br />
diseguaglianza segue dal fatto che il valore µ({x ∈ X : |f(x)| > t}) decresce all’aumentare<br />
di t ∈ [ɛ(n − 1), ɛn]). Dunque si ha che<br />
∑<br />
µ({x ∈ X : |f(x)| > ɛn}) < +∞.<br />
n∈N
1.4. IL TEOREMA ERGODICO 21<br />
Osserviamo che, essendo T una trasformazione stazionaria, allora dev’essere<br />
µ({x ∈ X : |f(x)| > ɛn}) =<br />
Dunque<br />
∑<br />
= µ(T −n ({x ∈ X : |f(x)| > ɛn})) =<br />
n∈N<br />
µ({x ∈ X : |f(T n x)| > ɛn}) = ∑ n∈N<br />
Per il lemma di Borel-Cantelli, quindi, possiamo affermare che<br />
( ⋂<br />
µ<br />
n≥1<br />
Pertanto<br />
⋃<br />
m≥n<br />
)<br />
{x ∈ X : |f(T m x)| > ɛm} =<br />
µ({x ∈ X : |f(T n x)| > ɛn}).<br />
µ({x ∈ X : |f(x)| > ɛn}) < +∞.<br />
= µ({x ∈ X : ∀n ∈ N, ∃m ≥ n tale che |f(T m x)| > ɛm}) = 0<br />
1 = µ({x ∈ X : ∃N = N(x) tale che |f(T n x)| ≤ ɛn, ∀n ≥ N}) =<br />
= µ({x ∈ X : ∃N = N(x) tale che |f(T n x)|<br />
n<br />
≤ ɛ, ∀n ≥ N}).<br />
Ricordiamo che questo risultato vale per ɛ > 0 fissato. Definiamo, quindi, l’insieme<br />
G ɛ := {x ∈ X : ∃N = N(x) tale che |f(T n x)|<br />
n<br />
≤ ɛ, ∀n ≥ N}.<br />
Finora abbiamo provato che µ(G ɛ ) = 1, ∀ɛ > 0. Si può notare facilmente che, dati<br />
ɛ 1 , ɛ 2 > 0, se ɛ 1 < ɛ 2 , allora G ɛ1 ⊆ G ɛ2 . Osserviamo, inoltre, che<br />
⋂<br />
ɛ>0<br />
G ɛ = {x ∈ X : ∀ɛ > 0, ∃N ɛ = N ɛ (x) tale che |f(T n x)|<br />
n<br />
Osserviamo, dunque, che per continuità dall’alto si ha che<br />
( ) ⋂<br />
G ɛ<br />
ɛ>0<br />
µ(D) = µ<br />
≤ ɛ, ∀n ≥ N ɛ }<br />
f(T n x)<br />
= {x ∈ X : lim = 0} = D.<br />
n→∞ n<br />
= lim<br />
ɛ→0<br />
µ(G ɛ ) = 1.<br />
Sia ora x ∈ B ∩ D, ovvero, ricordiamo, sia x ∈ X tale che :<br />
lim sup<br />
n→∞<br />
1<br />
n<br />
n∑<br />
f(T i−1 x) > α e<br />
i=1<br />
f(T n x)<br />
lim = 0.<br />
n→∞ n
22 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Innanzitutto proviamo che T (x) ∈ B. Osserviamo che<br />
1<br />
n<br />
n∑<br />
f(T i−1 (T (x))) = 1 n+1<br />
∑<br />
f(T i−1 x) =<br />
n<br />
i=1<br />
= 1 n<br />
i=1<br />
i=2<br />
n∑<br />
f(T i−1 x) + 1 n+1<br />
∑<br />
f(T i−1 x) − 1 n∑<br />
f(T i−1 x) =<br />
n<br />
n<br />
i=2<br />
i=1<br />
= 1 n∑<br />
( f(T<br />
f(T i−1 n x)<br />
x) + − f(x) )<br />
. (1.8)<br />
n<br />
n n<br />
Notiamo che, per come abbiamo definito l’insieme D e poiché, per ogni x fissato, si ha<br />
f(x)<br />
chiaramente lim n→∞ n<br />
= 0, allora se x ∈ B ∩ D si ha che<br />
i=1<br />
f(T n x)<br />
lim<br />
n→∞ n<br />
−<br />
f(x)<br />
n<br />
f(T n x)<br />
= lim<br />
n→∞ n<br />
−<br />
f(x)<br />
lim<br />
n→∞ n<br />
Dunque, in virtù della (1.8) e del fatto che x ∈ B, abbiamo<br />
= 0 + 0 = 0.<br />
lim sup<br />
n→∞<br />
1<br />
n<br />
n∑<br />
f(T i−1 (T (x))) =<br />
i=1<br />
(<br />
1<br />
n∑<br />
= lim sup<br />
n→∞ n<br />
i=1<br />
n∑<br />
= lim sup<br />
n→∞<br />
i=1<br />
( f(T<br />
f(T i−1 n x)<br />
x) +<br />
n<br />
f(T i−1 x) + lim<br />
n→∞<br />
− f(x) ) ) =<br />
n<br />
( f(T n x)<br />
− f(x) )<br />
=<br />
n n<br />
n∑<br />
= lim sup<br />
n→∞<br />
f(T i−1 x) > α. (1.9)<br />
Dunque T (x) ∈ B. Osserviamo che, inoltre, T (x) ∈ D, poiché, siccome per ipotesi<br />
x ∈ B ∩ D, si ha<br />
f(T n (T (x))) f(T n+1 x) f(T n x)<br />
lim<br />
= lim<br />
= lim = 0 (1.10)<br />
n→∞ n<br />
n→∞ n n→∞ n<br />
Dunque x ∈ B ∩ D ⇒ T (x) ∈ B ∩ D. Osserviamo che, inoltre, per la (1.9) e la (1.10)<br />
vale anche l’implicazione inversa, dunque x ∈ B ∩ D ⇐⇒ T (x) ∈ B ∩ D. Dunque<br />
B ∩D = T −1 (B ∩D) = (T −1 B)∩(T −1 D) = T −1 B ∩D, poiché, per la (1.10), D = T −1 D.<br />
Osserviamo che, iterando questa proprietà, otteniamo che<br />
B ∩ D = T −1 (B ∩ D) = T −1 (T −1 (B ∩ D)) = T −2 (B ∩ D)<br />
dunque B ∩ D = T −n B ∩ D, ∀n ∈ N.<br />
i=1<br />
= T −2 B ∩ T −2 D =T −2 B ∩ D = . . . = T −n B ∩ D = . . .
1.4. IL TEOREMA ERGODICO 23<br />
Lemma 10. Sia T una trasformazione stazionaria su uno spazio di probabilità (X, Σ, µ),<br />
sia f ∈ L 1 (X, Σ, µ) e sia α un numero reale arbitrario. Se definiamo l’insieme<br />
{<br />
}<br />
1<br />
n∑<br />
B = x : lim sup f(T i−1 x) > α ,<br />
n→∞ n<br />
allora<br />
∫<br />
B<br />
i=1<br />
f(x)dµ(x) ≥ αµ(B). (1.11)<br />
Dimostrazione. Se µ(B) = 0, il lemma è banalmente verificato. Consideriamo, dunque,<br />
il caso in cui µ(B) > 0. Definiamo l’insieme<br />
{<br />
}<br />
f(T n x)<br />
D = x ∈ X : lim = 0 .<br />
n→∞ n<br />
Sappiamo, dal lemma precedente, che µ(D) = 1, dunque µ(B ∩ D) = µ(B). Inoltre,<br />
definiamo la misura condizionata<br />
µ B (A) :=<br />
µ(A ∩ B)<br />
, ∀A ∈ Σ<br />
µ(B)<br />
(ricordiamo che abbiamo supposto µ(B) > 0). Osserviamo che, in base a tale definizione<br />
ed alla definizione di integrale, si può concludere facilmente che<br />
∫<br />
f(x)dµ B (x) = 1 ∫<br />
f(x)dµ(x).<br />
µ(B)<br />
B<br />
Siccome nella (1.11) l’integrale è calcolato sull’insieme B, in virtù delle affermazioni<br />
precedenti osserviamo che<br />
∫<br />
∫<br />
∫<br />
f(x)dµ(x) = f(x)dµ(x) = µ(B) f(x)dµ B (x).<br />
B<br />
B∩D<br />
B∩D<br />
Al fine di dimostrare il lemma, dunque, sarà sufficiente far vedere che<br />
∫<br />
f(x)dµ B (x) ≥ α.<br />
B∩D<br />
Ricordiamo, in base al lemma precedente, che B ∩ D = T −n B ∩ D, ∀n ∈ N. Ciò equivale<br />
esattamente ad affermare che, dato x ∈ B ∩ D, per ogni numero naturale n esiste<br />
m(n) ∈ N tale che m(n) ≥ n e che<br />
∑ m(n)<br />
i=n f(T i−1 x)<br />
m(n) − n + 1 > α.<br />
Dunque, per x ∈ B∩D, è sempre definito il ricoprimento forte C(x) = {[n, m(n)] : n ∈ N}.<br />
Osserviamo che, dato x ∈ B, esiste sempre m(1) ∈ N tale che<br />
∑ m(1)<br />
i=1 f(T i−1 x)<br />
> α.<br />
m(1)<br />
B
24 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Questo significa che la variabile aleatoria m(1) è sempre finita, per x ∈ B, dunque è<br />
limitata, a meno di un insieme avente misura µ B piccola a piacere. Pertanto possiamo<br />
affermare che, dato δ > 0, esiste L > 0 tale che l’insieme E := {x ∈ B : m(1) > L} è<br />
tale che µ B (E) < δ 2 . Definiamo, per ogni K > 0, K ∈ N, l’insieme<br />
G K =<br />
{<br />
x ∈ B ∩ D :<br />
1<br />
K<br />
K∑<br />
i=1<br />
}<br />
χ E∩D (T i−1 x) ≤ δ .<br />
Osserviamo che, se definiamo g K (x) := 1 K<br />
∑ K<br />
i=1 χ E∩D(T i−1 x), allora, per la proprietà di<br />
linearità dell’integrale e poiché T è stazionaria e B ∩ D è T -invariante, abbiamo che<br />
∫<br />
g K (x)dµ B (x) = 1 K∑<br />
∫<br />
χ E∩D (T i−1 x)dµ B (x) =<br />
B∩D K<br />
i=1<br />
B∩D<br />
= 1 K∑<br />
∫<br />
χ E∩D (x)dµ B (x) = 1 ∫<br />
K<br />
K K χ E∩D (x)dµ B (x) =<br />
i=1<br />
B∩D<br />
B∩D<br />
= 1 K Kµ B(E ∩ D) = µ B (E).<br />
Per la diseguaglianza di Markov, dunque, si ha che µ B (G K ) ≥ 1 − δ.<br />
Supponiamo di scegliere K > 0 tale che K ≥ L δ<br />
: sotto queste ipotesi possiamo applicare<br />
il lemma di impacchettamento al ricoprimento forte C. Più precisamente, esiste<br />
un sottoricoprimento C ′ (x) = {[n i , m(n i )] : i ≤ I(x)} ⊂ C(x), il quale è un (1 − 2δ)-<br />
impacchettamento dell’intervallo [1, K], e pertanto ricordiamo che si ottiene la seguente<br />
diseguaglianza :<br />
Osserviamo che, per x ∈ G K<br />
K∑<br />
f(T j−1 (x)) ≥<br />
j=1<br />
≥<br />
∑<br />
I(x)<br />
∑<br />
|[n i , m(n i )]| ≥ (1 − 2δ)K.<br />
i=1<br />
j∈[1,K]\ ⋃ [n i ,m(n i )]<br />
∑<br />
j∈[1,K]\ ⋃ [n i ,m(n i )]<br />
=<br />
∑<br />
j∈[1,K]\ ⋃ [n i ,m(n i )]<br />
I(x)<br />
∑<br />
f(T j−1 (x)) +<br />
m(n i )<br />
∑<br />
i=1 j=n(i)<br />
f(T j−1 (x)) ≥<br />
I(x)<br />
∑<br />
f(T j−1 (x)) + (m(n i ) − n i + 1)α =<br />
i=1<br />
I(x)<br />
∑<br />
f(T j−1 (x)) + α |[n i , m(n i )]| ≥<br />
≥<br />
∑<br />
i=1<br />
j∈[1,K]\ ⋃ [n i ,m(n i )]<br />
f(T j−1 (x)) + αK(1 − 2δ).
1.4. IL TEOREMA ERGODICO 25<br />
Ora, nel caso in cui f sia limitata, supponiamo |f(x)| < M, M > 0, in base al risultato<br />
ottenuto dal lemma di impacchettamento posso affermare che<br />
∑<br />
j∈[1,K]\ ⋃ [n i ,m(n i )]<br />
f(T j−1 (x)) ≥<br />
∑<br />
j∈[1,K]\ ⋃ [n i ,m(n i )]<br />
Pertanto, in tale situazione si ha che, per x ∈ G K ,<br />
(−M) ≥<br />
K∑<br />
f(T j−1 (x)) ≥ −2MKδ + αK(1 − 2δ)<br />
j=1<br />
, mentre, per x /∈ G K , si ha che<br />
e quindi<br />
∫<br />
B∩D<br />
j=1<br />
K∑<br />
∫<br />
f(T j−1 (x))dµ B (x) =<br />
B∩D<br />
≥ −2MKδ.<br />
f(x)dµ B (x) ≥ 2MKδ + αK(1 − 2δ).<br />
Dunque, facendo tendere δ a 0, otteniamo il risultato desiderato.<br />
Se, invece, f non è limitata, allora osserviamo che<br />
∫<br />
B∩D<br />
∫<br />
f(x)dµ B (x) =<br />
B∩D<br />
1<br />
K<br />
K∑<br />
f(T j−1 (x))dµ B (x) =<br />
j=1<br />
∫ I(x) m(n<br />
1 ∑ i )<br />
∑<br />
∫<br />
=<br />
f(T j−1 1<br />
K∑<br />
(x))dµ B (x) +<br />
f(T j−1 (x))dµ B (x)+<br />
G K<br />
K<br />
i=1 j=n<br />
(B∩D)\G K<br />
K<br />
i j=1<br />
∫<br />
1 ∑<br />
+<br />
f(T j−1 (x))dµ B (x)+<br />
G K<br />
K<br />
j∈[1,K−L]\ ⋃ [n i ,m(n i )]<br />
∫<br />
1 ∑<br />
+<br />
f(T j−1 (x))dµ B (x).<br />
G K<br />
K<br />
j∈[K−L,K]\ ⋃ [n i ,m(n i )]<br />
Innanzitutto notiamo che, per il lemma di impacchettamento e poiché x ∈ B ∩ D, si ha<br />
∫<br />
G K<br />
1<br />
K<br />
I(x)<br />
∑<br />
m(n i )<br />
∑<br />
f(T j−1 (x))dµ B (x)<br />
i=1 j=n i<br />
∫ I(x)<br />
1 ∑<br />
≥<br />
(m(n i ) − n i + 1)αdµ B (x) ≥ 1 ∫<br />
(1 − 2δ)Kαdµ B (x)<br />
G K<br />
K<br />
K G K<br />
i=1<br />
= 1 K (1 − 2δ)Kαµ B(G K ) = (1 − 2δ)αµ B (G K ).
26 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Sia ora<br />
Osserviamo che<br />
|I 1 | ≤ 1 K<br />
= 1 K<br />
∫<br />
(B∩D)\G K j=1<br />
K∑<br />
∫<br />
j=1<br />
∫<br />
1<br />
K∑<br />
I 1 :=<br />
f(T j−1 (x))dµ B (x).<br />
(B∩D)\G K<br />
K<br />
K ∑<br />
j=1<br />
|f(T j−1 (x))|dµ B (x) =<br />
(B∩D)\G K<br />
|f(T j−1 (x))|dµ B (x) = 1 K<br />
K∑<br />
∫<br />
j=1<br />
T 1−j ((B∩D)\G K )<br />
|f(x)|dµ B (x).<br />
Osserviamo che, poiché f ∈ L 1 , allora |I 1 | < +∞. Inoltre notiamo che, poiché µ(G K ) ≥<br />
1 − δ, allora<br />
µ B ((B ∩ D) \ G K ) = µ B (B ∩ D) − µ B (G K ) ≤ 1 − (1 − δ) = δ.<br />
Essendo per ipotesi T stazionaria, dunque, si ha che<br />
µ(T 1−j ((B ∩ D) \ G K )) = µ((B ∩ D) \ G K ) ≤ δ.<br />
Dunque gli insiemi T 1−j ((B ∩ D) \ G K ), al variare di j ∈ {1, ..., K}, hanno la stessa<br />
misura, la quale è limitata superiormente da δ. Ricordiamo che la scelta di δ > 0, da cui<br />
dipende la definizione dell’insieme G K , è arbitraria. Dunque, per il Lemma 6, scegliamo<br />
δ > 0 tale che, se µ((B ∩ D) \ G k ) < δ, allora è possibile stimare |I 1 | con una quantità<br />
arbitrariamente piccola. Sia ora<br />
∫<br />
I 2 :=<br />
G K<br />
1<br />
K<br />
∑<br />
j∈[1,K−L]\ ⋃ [n i ,m(n i )]<br />
f(T j−1 (x))dµ B (x).<br />
Osserviamo che, per il lemma di impacchettamento, se j ∈ [1, K − L] \ ⋃ [n i ,m(n i )] , allora<br />
m(j) − j + 1 > L. Sotto queste ipotesi, dunque, se x ∈ G K ⊂ B ∩ D, allora T j−1 (x) ∈<br />
E ∩ D, per come abbiamo definito l’insieme E. Dunque, ricordando che T è stazionaria,<br />
si ha che<br />
|I 2 | ≤ 1 ∫<br />
∑<br />
|f(T j−1 (x))|dµ B (x) =<br />
K<br />
G K j∈[1,K−L]\ ⋃ [n i ,m(n i )]<br />
= 1 K<br />
= 1 K<br />
∫<br />
B∩D<br />
j=1<br />
K∑<br />
∫<br />
j=1<br />
K∑<br />
χ E∩D (T j−1 (x))|f(T j−1 (x))|dµ B (x) =<br />
B∩D<br />
= 1 K K ∫<br />
χ E∩D (T j−1 (x))|f(T j−1 (x))|dµ B (x) =<br />
B∩D<br />
∫<br />
χ E∩D (x)|f(x)|dµ B (x) =<br />
E∩D<br />
|f(x)|dµ B (x).
1.4. IL TEOREMA ERGODICO 27<br />
Osserviamo che, in questo caso, all’aumentare di L, µ B (E) = µ B (E ∩ D) è una quantità<br />
sempre minore, dunque per L grande, |I 2 | è arbitrariamente piccolo.<br />
Sia ora<br />
∫<br />
1 ∑<br />
I 3 :=<br />
f(T j−1 (x))dµ B (x).<br />
G K<br />
K<br />
j∈[K−L,K]\ ⋃ [n i ,m(n i )]<br />
Tale valore può essere facilmente maggiorato se osserviamo che, poichè G K ⊂ B ∩ D<br />
|I 3 | ≤ 1 ∑<br />
∫<br />
|f(T j−1 (x))|dµ B (x) ≤<br />
K<br />
j∈(K−L,K]<br />
G K<br />
≤ 1 ∑<br />
∫<br />
|f(T j−1 (x))|dµ B (x) =<br />
K<br />
j∈(K−L,K]<br />
= 1 K<br />
∑<br />
j∈(K−L,K]<br />
B∩D<br />
∫<br />
B∩D<br />
|f(x)|dµ B (x) ≤<br />
≤ 1 K L ∫<br />
B∩D<br />
|f(x)|dµ B (x).<br />
Dunque, per L fissato, se K è sufficientemente grande, I 3 è piccolo. Ora ricordiamo che<br />
vale la relazione<br />
∫<br />
f(x)dµ B (x) ≥ (1 − 2δ)αµ B (G K ) + I 1 + I 2 + I 3<br />
B∩D<br />
≥ (1 − 2δ)α(1 − δ) + I 1 + I 2 + I 3<br />
Ora fissiamo ɛ > 0. In base a tale valore ed alle stime ottenute, pertanto, siano :<br />
- δ 0 tale che, ∀δ ≤ δ 0 , (1 − 2δ)α(1 − δ) > α − ɛ 4 ;<br />
- δ 1 tale che δ 1 < δ 0 e che |I 1 | < ɛ 4 ;<br />
- L 0 sufficientemente grande e tale che |I 2 | < ɛ 4 ;<br />
- K 0 sufficientemente grande e tale che L 0<br />
K 0<br />
< δ 1 e |I 3 | < ɛ 4 .<br />
Per tali valori di δ 1 , L 0 , K 0 , dunque, otteniamo che<br />
∫<br />
f(x)dµ B (x) ≥ α − ɛ 4 − ɛ 4 − ɛ 4 − ɛ 4 = α − ɛ.<br />
B∩D<br />
Ma questo significa che<br />
∫<br />
B∩D f(x)dµ B(x) ≥ α − ɛ, ∀ɛ > 0.<br />
Per ɛ → 0, dunque, e per la permanenza del segno otteniamo che<br />
∫<br />
f(x)dµ B (x) ≥ α,<br />
quindi possiamo concludere.<br />
B∩D
28 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Ora disponiamo di tutti gli strumenti necessari per dimostrare il <strong>teorema</strong> <strong>ergodico</strong>,<br />
di cui riportiamo l’enunciato.<br />
Teorema 5 (Teorema <strong>ergodico</strong>). Sia T una trasformazione stazionaria su uno spazio di<br />
probabilità (X, Σ, µ) e sia f una funzione integrabile, allora la media 1 n<br />
∑ n<br />
i=1 f(T i−1 x)<br />
converge quasi certamente ed in L 1 , per n −→ ∞, verso una funzione T -invariante<br />
f ∗ (x).<br />
Dimostrazione. Ricordiamo che affermare che la successione 1 ∑ n<br />
n i=1 f(T i−1 x) sia convergente<br />
per n → ∞ equivale ad affermare che<br />
1<br />
n∑<br />
lim inf f(T i−1 1<br />
n∑<br />
x) = lim sup f(T i−1 x).<br />
n→∞ n<br />
n→∞ n<br />
i=1<br />
Osserviamo, innanzitutto, che il risultato del lemma precedente rimane vero per qualsiasi<br />
sottoinsieme C ∩ D ⊆ B ∩ D, purchè tale insieme sia T -invariante: si può notare, infatti,<br />
che tutti i passaggi utilizzati nel suddetto lemma rimangono validi qualora si restringa<br />
l’insieme B ∩ D all’insieme C ∩ D. Definiamo pertanto l’insieme<br />
C :=<br />
{<br />
1<br />
x : lim inf<br />
n→∞ n<br />
n∑<br />
i=1<br />
i=1<br />
f(T i−1 x) < α < β < lim sup<br />
n→∞<br />
1<br />
n<br />
n∑<br />
i=1<br />
}<br />
f(T i−1 x) .<br />
Si noti che C ∩ D è T-invariante. In base al lemma precedente, dunque, osserviamo<br />
innanzitutto che<br />
∫<br />
f(x)dµ(x) ≥ βµ(C)<br />
Notiamo inoltre che<br />
lim inf<br />
n→∞<br />
1<br />
n<br />
n∑<br />
i=1<br />
C∩D<br />
f(T i−1 x) < α ⇐⇒ − lim inf<br />
n→∞<br />
1<br />
n<br />
⇐⇒<br />
n∑<br />
f(T i−1 x) > −α<br />
i=1<br />
lim sup<br />
n→∞<br />
Sempre in virtù del lemma precedente, quindi, concludiamo che<br />
Dunque<br />
− ∫ C f(x)dµ(x) ≥ −αµ(C) ⇐⇒ ∫ C<br />
f(x)dµ(x) ≤ αµ(C).<br />
∫<br />
βµ(C) ≤<br />
C<br />
f(x)dµ(x) ≤ αµ(C).<br />
1<br />
n<br />
n∑<br />
(−f(T i−1 x)) > −α .<br />
Siccome α < β, pertanto, la diseguaglianza ottenuta può essere vera se e soltanto se<br />
µ(C)=0. Osserviamo che l’insieme C, per come è definito, dipende dai parametri α e<br />
β, dunque sia C = C α,β . Notiamo, sempre in virtù della definizione di C, che vale la<br />
seguente inclusione:<br />
{<br />
1<br />
n∑<br />
c ⋃<br />
x : ∃ lim f(T x)} i−1 ⊆ C α,β .<br />
n→∞ n<br />
i=1<br />
α,β∈Q,α
1.4. IL TEOREMA ERGODICO 29<br />
Dunque possiamo concludere che la successione 1 n<br />
∑ n<br />
i=1 f(T i−1 x) converge quasi certamente<br />
per n → ∞.<br />
Ora dobbiamo provare che la successione converge in L 1 . Definiamo, innanzitutto,<br />
l’operatore f ↦→ U T (f) in questo modo:<br />
U T (f)(x) := f(T x), ∀x ∈ X, f ∈ L 1 .<br />
Tale operatore è lineare, infatti, date f e g in L 1 , per ogni x ∈ X si ha che<br />
U T (f + g)(x) = (f + g)(T x) = f(T x) + g(T x) = U T (f)(x) + U T (g)(x).<br />
Inoltre osserviamo che, essendo T stazionaria,<br />
∫<br />
∫<br />
‖U T f‖ L 1 = |f(T x)|dµ(x) =<br />
|f(x)|dµ(x) = ‖f‖ L 1.<br />
Dunque, se definiamo, ∀x ∈ X, la media temporale<br />
A n f(x) := 1 n<br />
n∑<br />
i=1<br />
U i−1<br />
T<br />
f(x)<br />
osserviamo che la linearità di A n segue facilmente dalla linearità dell’operatore U T .<br />
Inoltre, notiamo che<br />
‖A n f‖ L 1 = 1 n<br />
∫<br />
|<br />
n∑<br />
i=1<br />
U i−1<br />
T<br />
f(x)|dµ(x) ≤ 1 n<br />
n∑<br />
∫<br />
i=1<br />
= 1 n<br />
|U i−1<br />
T<br />
f(x)|dµ(x)<br />
n∑<br />
∫<br />
i=1<br />
|f(x)|dµ(x) = ‖f‖ L 1. (1.12)<br />
Supponiamo f sia limitata, cioè esista M > 0 tale che |f(x)| ≤ M. Osserviamo che,<br />
allora,<br />
|A n f(x)| ≤ 1 n∑<br />
|U i−1<br />
T<br />
f(x)| = 1 n∑<br />
|f(T i−1 x)| ≤ 1 nM = M.<br />
n<br />
n<br />
n<br />
i=1<br />
Siccome abbiamo provato che A n f converge quasi certamente, dunque, poichè |A n f| è<br />
limitata, per il <strong>teorema</strong> di convergenza dominata si ha che A n f converge in L 1 . Dunque<br />
il <strong>teorema</strong> è provato se f è limitata.<br />
Consideriamo ora il caso generale: sia f ∈ L 1 , in generale non limitata. Dato ɛ > 0,<br />
dunque, sia g ɛ un’approssimazione limitata di f, tale che ‖f − g ɛ ‖ ≤ ɛ 3<br />
(si può scegliere,<br />
ad esempio, g ɛ (x) = f(x)χ {|f(x)|≤M} , prendendo M = M ɛ sufficientemente grande). Ora<br />
osserviamo che<br />
‖f − A n f‖ L 1 ≤ ‖f − g‖ L 1 + ‖g − A n g‖ L 1 + ‖A n g − A n f‖ L 1.<br />
Ora notiamo che, in virtù di quanto osservato nella (1.12),<br />
i=1<br />
‖A n g − A n f‖ L 1 = ‖A n (g − f)‖ L 1 ≤ ‖g − f‖ L 1.
30 CAPITOLO 1. IL TEOREMA ERGODICO<br />
Osserviamo inoltre che, poichè, essendo g limitata, A n g → g in L 1 , allora, per ɛ > 0,<br />
esiste n ɛ ∈ N tale che ‖g − A n g‖ L 1 ≤ ɛ 3 , ∀n ≥ n ɛ. Dunque possiamo concludere che,<br />
fissato ɛ > 0, per ogni n ≥ n ɛ si ha che<br />
‖f − A n f‖ ≤ 2‖g − f‖ L 1 + ‖A n g − g‖ L 1 ≤ 2 ɛ 3 + ɛ 3 = ɛ,<br />
ovvero A n f → f in L 1 .
Capitolo 2<br />
<strong>Applicazioni</strong> ed esempi<br />
In questo capitolo utilizzeremo la teoria sviluppata finora al fine di dimostrare l’ergodicità<br />
di alcuni prarticolari processi stocastici.<br />
2.1 Strumenti tecnici<br />
In questa sezione richiamiamo alcuni concetti di calcolo delle probabilità necessari al<br />
nostro scopo. Sia, innanzitutto, (X, Σ, µ) uno spazio di misura e consideriamo un’ applicazione<br />
T : X → X. Tale funzione è detta mescolante se<br />
lim µ(T −n C ∩ D) = µ(C)µ(D), ∀C, D ∈ Σ. (2.1)<br />
n→∞<br />
Un processo stocastico, dunque, si dice mescolante se l’operazione di shift è mescolante<br />
rispetto alla misura di Kolmogorov associata a tale processo.<br />
Lemma 11. Sia (X, Σ, µ) uno spazio di misura e sia T : X → X un’applicazione. Se T<br />
è mescolante, allora T è ergodica.<br />
Dimostrazione. Sia C ∈ Σ tale che T −1 C = C: osserviamo che, poiché C = T −1 C =<br />
. . . = T −n C = . . ., allora T −n C ∩ D = C ∩ D, ∀D ∈ Σ, ∀n ∈ N. Essendo T mescolante,<br />
quindi, in virtù della (2.9) otteniamo che µ(C ∩ D) = µ(C)µ(D), ∀D ∈ Σ. Se poniamo<br />
C = D, quindi, otteniamo che µ(C) = µ(C) 2 e questo è vero se e soltanto se µ(C) = 0<br />
oppure µ(C) = 1.<br />
Introduciamo ora il concetto di mescolanza debole. Un’applicazione T : X → X è<br />
detta debolmente mescolante se<br />
lim<br />
N→∞<br />
1<br />
N<br />
N∑<br />
µ(T −j C ∩ D) = µ(C)µ(D), ∀C, D ∈ Σ.<br />
j=1<br />
Vediamo che, in questo caso, la condizione di mescolanza debole non solo implica la<br />
condizione di ergodicità, ma è anche del tutto equivalente a quest’ultima.<br />
31
32 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />
Lemma 12. Sia (X, Σ, µ) uno spazio di misura. Allora T : X → X una trasformazione<br />
debolmente mescolante ⇐⇒ T è ergodica.<br />
Dimostrazione. Consideriamo separatamente le due implicazioni.<br />
[=⇒]Sia C ∈ Σ tale che T −1 C = C, osserviamo che allora C = T −1 C = . . . = T −n C, . . .,<br />
dunque la condizione di mescolanza debole implica che<br />
lim<br />
N→∞<br />
1<br />
N<br />
N∑<br />
j=1<br />
µ(T −j 1<br />
C ∩ D) = lim<br />
N→∞ N<br />
N∑<br />
µ(C ∩ D)<br />
j=1<br />
1<br />
= lim Nµ(C ∩ D) = µ(C ∩ D) = µ(C)µ(D) ∀D ∈ Σ.<br />
N→∞ N<br />
Se, quindi, poniamo D = C, otteniamo che µ(C) = µ(C) 2 , ovvero µ(C) = 0 oppure<br />
µ(C) = 1.<br />
[⇐=]Supponiamo che T sia una trasformazione ergodica. In virtù del <strong>teorema</strong> <strong>ergodico</strong>,<br />
quindi, si ha che per ogni funzione integrabile f deve vale<br />
1<br />
lim<br />
n→∞ n<br />
n∑<br />
∫<br />
f(T j x) =<br />
j=1<br />
fdµ,<br />
quasi certamente ed in L 1 . Ora siano C, D ∈ Σ e poniamo f(x) = χ C (x). In virtù<br />
dell’osservazione precedente si ha che<br />
1<br />
n∑<br />
lim χ C (T j 1<br />
n∑<br />
∫<br />
x) = lim χ<br />
n→∞ n<br />
n→∞ n T −j C(x) = χ C (x)dµ = µ(C), (2.2)<br />
j=1<br />
j=1<br />
quasi certamente ed in L 1 . Osserviamo ora che<br />
1<br />
N<br />
N∑<br />
µ(T −j C ∩ D) = 1 N<br />
j=1<br />
N∑<br />
∫<br />
j=1<br />
∫<br />
χ T −j C∩D(x)dµ(x) =<br />
∫<br />
=<br />
1<br />
N∑<br />
χ<br />
N T −j C∩D(x)dµ(x)<br />
j=1<br />
1<br />
N∑<br />
χ<br />
N T −j C(x)χ D (x)dµ(x).<br />
j=1<br />
Ora, in base alla (2.2) ed osservando che, ovviamente, |χ T −j C(x)| ≤ 1, ∀j, e che, quindi,<br />
1<br />
N<br />
∑ N<br />
j=1 χ T −j C(x)χ D (x) è limitata, in base al <strong>teorema</strong> di convergenza dominata si ha<br />
che<br />
lim<br />
N→∞<br />
1<br />
N<br />
N∑<br />
j=1<br />
∫<br />
µ(T −j 1<br />
C ∩ D)χ D (x) = lim<br />
N→∞ D N<br />
N∑<br />
χ T −j C(x)dµ(x)<br />
j=1<br />
∫<br />
=<br />
D<br />
µ(C)dµ(x)χ D (x) = µ(C)µ(D).<br />
Dunque abbiamo provato che, se T è una trasformazione ergodica, allora è debolmente<br />
mescolante.
2.1. STRUMENTI TECNICI 33<br />
A questo punto, disponiamo di ulteriori strumenti che possono essere utili nel determinare<br />
se una data applicazione sia ergodica (e, nel caso della mescolanza debole,<br />
possiamo anche verificare che non lo sia). Ai fini pratici, tuttavia, la verifica delle proprietà<br />
di mescolanza e di mescolanza debole può essere complicata, dato che deve valere<br />
per una coppia generica di elementi appartenenti alla σ-algebra che stiamo considerando.<br />
A tal proposito, un aiuto notevole per la verifica di tali proprietà è fornito da un risultato,<br />
la cui dimostrazione richiede la conoscenza di alcune definizioni di base e dell’enunciato<br />
del lemma di Dynkin.<br />
Definizione 6 (Base di una σ-algebra). Sia X un insieme e sia Σ una σ-algebra. Un<br />
sottoinsieme I ⊆ Σ è detto base di Σ se<br />
• Σ è generata da I<br />
• A ∩ B ∈ I, ∀A, B ∈ I<br />
Definizione 7. Sia X un insieme. Un sottoinsieme D ⊆ X è detto classe monotona su<br />
X se soddisfa le seguenti condizioni:<br />
• X ∈ D.<br />
• Se A, B ∈ D ed A ⊆ B, allora B \ A ∈ D.<br />
• Se {A n } n∈N è una successione di elementi di D tale che A n ⊆ A n+1 , ∀n ≥ 1, allora<br />
⋃<br />
n∈N A n ∈ D.<br />
Ora che disponiamo di queste definizioni, possiamo procedere enunciando il seguente<br />
lemma.<br />
Lemma 13 (Lemma di Dynkin). Sia X un insieme, sia Σ una σ-algebra su X e sia I<br />
una base di Σ. Ogni classe monotòna D su X contenente I contiene anche Σ.<br />
Dimostrazione. Si veda, ad esempio, [2, §A1.3 (pag. 193)].<br />
Ora, grazie a questi strumenti, possiamo enunciare e dimostrare un <strong>teorema</strong> che<br />
risulterà molto utile al fine di dimostrare l’ergodicità di alcuni tipi di processi stocastici.<br />
Teorema 6. Sia (X, Σ, µ) uno spazio di misura e sia T : X → X un’applicazione stazionaria.<br />
Se la condizone di mescolanza (rispettivamente di mescolanza debole) è soddisfatta<br />
per ogni C, D appartenenti ad una base di Σ, allora tale condizione (rispettivamente la<br />
condizione di mescolanza debole) è valida per ogni C, D ∈ Σ.<br />
Dimostrazione. Dimostriamo il <strong>teorema</strong> relativamente alla proprietà di mescolanza: la<br />
proprietà di mescolanza debole si tratta in modo analogo.<br />
Sia, dunque, I una base di Σ : dobbiamo provare che se, per ogni C, D ∈ I,<br />
lim µ(T −n C ∩ D) = µ(C)µ(D), (2.3)<br />
n→∞
34 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />
allora tale proprietà è valida per ogni C, D ∈ Σ.<br />
Innanzitutto dimostriamo che la (2.3) vale per ogni coppia C, D,con C ∈ I e D ∈ Σ.<br />
Sia, pertanto, C ∈ I fissato e definiamo l’insieme<br />
Γ C := { D ∈ Σ : lim<br />
n→∞ µ(T −n C ∩ D) = µ(C)µ(D) } .<br />
Dimostriamo che Γ C è una classe monotòna. Chiaramente X ∈ Γ C , poichè T è stazionaria,<br />
dunque<br />
lim µ(T −n C ∩ X) = lim µ(T −n C) = lim µ(C) = µ(C) = µ(C)µ(X).<br />
n→∞ n→∞ n→∞<br />
Innanzitutto, siano D 1 , D 2 ∈ Γ C tali che D 1 ⊆ D 2 , osserviamo che, dalla definizione di<br />
Γ C , segue che<br />
lim µ(T −n C ∩ (D 2 \ D 1 )) = lim µ((T −n C ∩ D 2 ) \ (T −n C ∩ D 1 ))<br />
n→∞ n→∞<br />
= lim µ(T −n C ∩ D 2 ) − lim (T −n C ∩ D 1 ) = µ(C)µ(D 2 ) − µ(C)µ(D 1 )<br />
n→∞ n→∞<br />
= µ(C)(µ(D 2 ) − µ(D 1 )) = µ(C)µ(D 2 \ D 1 )<br />
dunque D 2 \ D 1 ∈ Γ C .<br />
Sia, ora, {D m } m∈N una successione di elementi di Γ C tale che D m ⊆ D m+1 , ∀n ≥ 1<br />
e sia D := ⋃ m∈N D m: proviamo che D ∈ Γ C . Ricordiamo che, per la continuità dal<br />
basso, si ha che lim m→∞ µ(D m ) = µ(D). Sia, dunque, ɛ > 0 e sia m ɛ ∈ N tale che<br />
|µ(D) − µ(D mɛ )| < ɛ. Osserviamo che, per ogni n ∈ N,<br />
|µ(T −n C ∩ D) − µ(T −n C ∩ D mɛ )| = |µ(T −n C ∩ (D \ D mɛ )|<br />
dunque<br />
≤ µ(D \ D mɛ ) = µ(D) − µ(D mɛ ) < ɛ<br />
µ(T −n C ∩ D mɛ ) − ɛ ≤ µ(T −n C ∩ D) ≤ µ(T −n C ∩ D mɛ ) + ɛ.<br />
Osserviamo che, poichè D mɛ ∈ Γ C , per ipotesi<br />
dunque<br />
lim<br />
n→∞ µ(T −n C ∩ D mɛ ) = µ(C)µ(D mɛ ),<br />
lim sup µ(T −n C ∩ D) ≤ µ(C)µ(D mɛ ) + ɛ ≤ µ(C)µ(D) + 2ɛ<br />
n→∞<br />
lim inf<br />
n→∞ µ(T −n C ∩ D) ≥ µ(C)µ(D mɛ ) − ɛ ≥ µ(C)µ(D) − 2ɛ.<br />
Questo fatto vale per ogni ɛ > 0 (e per il corrispondente n ɛ ), dunque, facendo tendere ɛ<br />
a 0, otteniamo che<br />
µ(C)µ(D) ≤ lim inf µ(T −n C ∩ D) ≤ lim sup µ(T −n C ∩ D) ≤ µ(C)µ(D).<br />
n→∞<br />
n→∞
2.2. PROCESSI STAZIONARI 35<br />
Quindi esiste lim n→∞ µ(T −n C ∩ D) = µ(D)µ(C) e dunque D ∈ Γ C . Dunque abbiamo<br />
provato che Γ C è una classe monotòna: in virtù del lemma di Dynkin, dunque, Γ C ⊇ Σ,<br />
ovvero la relazione (2.3) è soddisfatta per ogni C ∈ I e per ogni D ∈ Σ. Viceversa, se,<br />
fissato D ∈ Σ, definiamo l’insieme<br />
˜Γ D := { C ∈ Σ : lim<br />
n→∞ µ(T −n C ∩ D) = µ(C)µ(D) } .<br />
Si noti che ˜Γ D ⊇ I. Si dimostra in maniera simile che ˜Γ D è una classe monotòna: basta<br />
osservare che, per ogni n ∈ N, l’applicazione T −n preserva le relazioni insiemistiche ed è<br />
chiusa rispetto all’unione ed all’intersezione, dunque si procede analogamente a quanto<br />
fatto prima. Quindi ˜Γ D ⊇ Σ e la relazione (2.3) è valida per ogni coppia C, D tale che<br />
C ∈ Σ e D ∈ Σ.<br />
Ora che disponiamo di tutti gli strumenti necessari, possiamo procedere con alcuni<br />
esempi concreti di processi ergodici.<br />
2.2 Processi stazionari<br />
Sia (X, Σ, P ) uno spazio di probabilità e sia {X n } n∈N un processo stocastico a valori in<br />
uno spazio di misurabile (E, E), ossia tale che<br />
X n : (X, Σ, P ) → (E, E), ∀n ∈ N.<br />
Supponiamo che tale sequenza sia costituita da variabili casuali indipendenti ed identicamente<br />
distribuite, ovvero:<br />
P (X n ∈ A n |X n−1 ∈ A n−1 , . . . , X 1 ∈ A 1 ) = P (X n ∈ A n ) · . . . P (X 1 ∈ A 1 ),<br />
∀n ≥ 1, ∀A 1 , . . . , A n ∈ E<br />
Notiamo che un processo stocastico i.i.d. è stazionario, infatti, dati A m , A m+1 , . . . , A n ∈<br />
E, ove m, n ∈ N, m < n, si ha che<br />
P (X m ∈ A m , X m+1 ∈ A m+1 , . . . , X n ∈ A n )<br />
= P (X m ∈ A m ) · P (X m+1 ∈ A m+1 ) · . . . · P (X 1 ∈ A 1 )<br />
= P (X m+1 ∈ A m ) · P (X m+2 ∈ A m+1 ) · . . . · P (X 2 ∈ A 1 )<br />
= P (X m+1 ∈ A m , X m+2 ∈ A m+1 , . . . , X 2 ∈ A 1 ).<br />
Consideriamo ora l’operazione di shift definita sullo spazio prodotto E n , munito della<br />
σ-algebra prodotto E n<br />
T : E N → E N<br />
(x 1 , x 2 , . . . x n , . . .) ↦→ (x 2 , x 3 , . . . , x n , . . .).<br />
<strong>Il</strong> nostro obiettivo è dimostrare che la trasformazione di shift è ergodica rispetto alla<br />
misura di Kolmogorov associata al processo {X n } n∈N . Innanzitutto, proviamo a vedere
36 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />
se tale operazione gode della proprietà di mescolanza. Si dimostra che una base della<br />
σ-algebra prodotto E n è data dall’insieme costituito dagli elementi del tipo<br />
A 1 × . . . × A n := {(x 1 , . . . , x n , . . .) : x m ∈ A m , . . . , x n ∈ A n },<br />
(a tal proposito, si legga [1, pag.2]. Siano, quindi<br />
C := A 1 × . . . × A n<br />
D = B 1 × . . . × B n .<br />
Osserviamo che, dato N ∈ N tale che N > n,<br />
Dunque<br />
ove m, n ∈ N, m ≤ n, A m , . . . , A n ∈ E<br />
T −N C = {(x 1 , . . . , x n , . . .) : x N+1 ∈ A 1 , . . . , x N+n ∈ A n }.<br />
T −N C ∩ D = {(x 1 , . . . , x n , . . .) : x 1 ∈ B 1 , . . . , x n ∈ B n , x N+1 ∈ A 1 , . . . , x N+n ∈ A n },<br />
pertanto, in virtù dell’indipendenza delle X n e dalla proprietà di stazionarietà del processo<br />
stocastico<br />
µ(T −N C ∩ D) = P (X 1 ∈ B 1 , . . . , X n ∈ B n , X N+1 ∈ A 1 , . . . , X N+n ∈ A n )<br />
= P (X 1 ∈ B 1 , . . . , X n ∈ B n ) · P (X N+1 ∈ A 1 , . . . , X N+n ∈ A n )<br />
= µ(D)µ(T −N C) = µ(D)µ(C)<br />
Dunque la proprietà di mescolanza è soddisfatta e, pertanto, le successioni di variabili<br />
casuali indipendenti ed identicamente distribuite sono processi ergodici.<br />
2.3 Catene di Markov<br />
Sia (X, Σ, P ) uno spazio di probabilità e sia A un insieme di cardinalità finita.<br />
Consideriamo un processo stocastico {X n } n∈N , definito su (X, Σ, P ) ed a valori in E e<br />
supponiamo che per ogni naturale n ≥ 2 e per ogni sequenza a n , a n−1 , a n−2 , ..., a 1 di<br />
elementi di E (per cui entrambi i membri siano ben definiti) si abbia che<br />
P (X n = a n |X n−1 = a n−1 )<br />
= P (X n = a n |X n−1 = a n−1 , X n−2 = a n−2 , ..., X 1 = a 1 ) :<br />
(2.4)<br />
tale processo si dice catena di Markov.<br />
Supponendo, inoltre, che il processo considerato sia tale che, comunque presi a, b ∈ E,<br />
P (X n = a|X n−1 = b) non dipenda dalla scelta di n ∈ N, diciamo che la catena di Markov<br />
considerata è omogenea.
2.3. CATENE DI MARKOV 37<br />
Sotto queste ipotesi, ricordiamo innanzitutto che E è un insieme finito, dunque possiamo<br />
supporre che, se |E| = n, E = {a 1 , a 2 , ..., a n }, n ∈ N.<br />
Definiamo, quindi, la matrice :<br />
⎡<br />
⎤<br />
M a1 a 1<br />
M a1 a 2<br />
. . . M a1 a n<br />
M a2 a 1<br />
M a2 a 2<br />
. . . M a2 a n<br />
A = ⎢<br />
⎥<br />
⎣ . . . . ⎦<br />
M ana1 . . . . . . M anan (2.5)<br />
tale che :<br />
M ai a j<br />
:= P (X n = a j |X n−1 = a i ),<br />
per ogni i, j ∈ {1, 2, .., m − 1, m}.<br />
Ricordiamo che, nelle ipotesi fatte, il valore di ciascun elemento della matrice è lo stesso<br />
al variare di n ∈ N.<br />
Osserviamo che la matrice, detta matrice di transizione, per come l’abbiamo definita,<br />
soddisfa le seguenti proprietà :<br />
• M ai a j<br />
∈ [0, 1], ∀a i , a j ∈ E;<br />
• ∑ a j ∈E M a i a j<br />
= ∑ a j ∈E P (X n = a j |X n−1 = a i ) = 1, ∀a i ∈ E.<br />
Definiamo, ora, per ogni a ∈ E, la funzione<br />
µ 1 (a) := P (X 1 = a) = P ({ω ∈ X : X 1 (ω) = a}).<br />
<strong>Il</strong> vettore così ottenuto<br />
µ 1 := ( µ 1 (a 1 ), µ 1 (a 2 ), . . . µ 1 (a n ) )<br />
è detto distribuzione iniziale del processo stocastico {X n } n∈N .<br />
La distribuzione iniziale si dice stazionaria se, per ogni a i ∈ E,<br />
µ 1 (a i ) = P (X 1 = a i ) = P (X j = a i ), ∀j. (2.6)<br />
Osserviamo che tale proprietà è soddisfatta se e solo se si ha che µ 1 M = µ 1 .<br />
Infatti, consideriamo a titolo d’esempio la prima entrata del vettore ottenuto moltiplicando<br />
µ 1 per M, il suo valore è dato da:
38 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />
(µ 1 M) a1 = µ 1 (a 1 )M a1 a 1<br />
+ µ 1 (a 2 )M a2 a 1<br />
+ µ 1 (a 3 )M a3 a 1<br />
+ ... + µ 1 (a n )M ana 1<br />
= P (X 1 = a 1 )P (X 2 = a 1 |X 1 = a 1 ) + P (X 1 = a 2 )P (X 2 = a 1 |X 1 = a 2 )<br />
+ P (X 1 = a 3 )P (X 2 = a 1 |X 1 = a 3 ) + ... + P (X 1 = a n )P (X 2 = a 1 |X 1 = a n )<br />
= P (X 1 = a 1 , X 2 = a 1 ) + P (X 1 = a 2 , X 2 = a 1 )<br />
+ P (X 1 = a 3 , X 2 = a 1 ) + ... + P (X 1 = a n , X 2 = a 1 ) = P (X 2 = a 1 ) (2.7)<br />
Dunque se µ 1 M = µ 1 si ha P (X 2 = a 1 ) = P (X 1 = a 1 ). Dunque, è sufficiente tenere<br />
conto di questo risultato e della proprietà di omogeneità della catena di Markov per<br />
sostituire le occorrenze della variabile X 1 con la variabile X 2 e quelle della variabile X 2<br />
con la variabile X 3 , ottenendo P (X 2 = a 1 ) = P (X 3 = a 1 ) ed iterare il procedimento fino<br />
ad ottenere P (X 1 = a 1 ) = P (X j = a 1 ), ∀j ∈ {1, ..., n}.<br />
Lo stesso discorso può essere fatto per tutti gli altri valori del vettore risultante, cosicchè<br />
si può verificare direttamente che la (2.6) è equivalente a µ 1 M = µ 1 .<br />
Ora che abbiamo definito le proprietà di una catena di Markov, individuiamo, nella<br />
proposizione seguente, le condizioni necessarie e sufficienti affinchè tale processo sia stazionario.<br />
Proposizione 1. Una catena di Markov {X n } n∈N , le cui variabili sono definite su uno<br />
spazio di probabilità (X, Σ, P ) ed assumono valori in un insieme finito E, è un processo<br />
stazionario se e solo se è omogenea e la sua distribuzione iniziale µ 1 è stazionaria.<br />
Dimostrazione. Dimostriamo separatamente le due implicazioni:<br />
⇒ Supponiamo che valga la condizione di stazionarietà, ossia, ricordiamo,<br />
P (X i = a i , m ≤ i ≤ n) = P (X i+1 = a i , m ≤ i ≤ n), ∀m, n ∈ N, ∀a m , ..., a n ∈ E.<br />
Osserviamo che la validità dell’affermazione precedente implica che<br />
µ 1 (a) = P (X 1 = a) = P (X 2 = a) = ... = P (X n = a), .., ∀a ∈ E<br />
e ciò, per quanto visto in precedenza, corrisponde esattamente ad affermare che la<br />
distribuzione iniziale è stazionaria.<br />
Per quanto riguarda, invece, l’omogeneità della catena di Markov considerata, basta<br />
osservare che, dati n ∈ N ed a, b ∈ E, la stazionarietà comporta che :<br />
P (X n = a|X n−1 = b) = P (X n = a, X n−1 = b)<br />
P (X n−1 = b)<br />
= P (X n+1 = a, X n = b)<br />
P (X n = b)<br />
= P (X n+1 = a|X n = b),
2.3. CATENE DI MARKOV 39<br />
dunque, in generale, P (X n = a|X n−1 = b) è indipendente da n.<br />
⇐ Supponiamo che valga la proprietà di omogeneità e che la distribuzione iniziale<br />
sia stazionaria. Sotto queste ipotesi, dunque, è possibile osservare che, dato n ∈<br />
N ed a 1 , ..., a n ∈ E :<br />
P (X i = a i , m ≤ i ≤ n)<br />
= µ 1 (a 1 )P (X 2 = a 2 |X 1 = a 1 ) · P (X 3 = a 3 |X 2 = a 2 )<br />
· ... · P (X n = a n |X n−1 = a n−1 )<br />
= P (X 2 = a 1 ) · P (X 3 = a 2 |X 2 = a 1 ) · P (X 4 = a 3 |X 3 = a 2 )<br />
· . . . · P (X n+1 = a n |X n = a n−1 )<br />
= P (X i+1 = a i , m ≤ i ≤ n)<br />
Sia ora {X n } n∈N una catena di Markov omogenea ed avente distribuzione iniziale<br />
stazionaria e sia A ∈ M n×n la corrispondente matrice di transizione, Tale matrice è<br />
detta irriducibile se, per ogni coppia di indici (i, j), ove i, j ∈ {1 . . . , n}, esiste una<br />
sequenza i 0 , i 1 , . . . , i l di elementi appartenenti ad {1 . . . , n} tale che i 0 = i, i l = j ed<br />
Ai m i m+1 > 0, per m = 0, 1, . . . , l − 1.<br />
Osserviamo che, in virtù delle ipotesi fatte e della definizione di Catena di Markov,<br />
supporre che valga tale condizione equivale ad affermare che, se ad un dato istante la<br />
catena di Markov assume il valore a i , allora la probabilità che, in un istante futuro, la<br />
catena possa assumere il valore a j è strettamente positiva. Infatti assumiamo che, dato<br />
k ∈ N, P (X k = a i ) > 0, allora<br />
P (X k+1 = a i1 , X k = a i ) = P (X k+1 = a i1 |X k = a i )P (X k = a i )<br />
Dunque<br />
P (X k+2 = a i2 , X k+1 = a i1 , X k = a i )<br />
= A i0 i 1<br />
P (X k = a i ) > 0.<br />
= P (X k+2 = a i2 |X k+1 = a i1 , X k = a i )P (X k+1 = a i1 , X k = a i )<br />
= P (X k+2 = a i2 |X k+1 = a i1 )P (X k+1 = a i1 , X k = a i )<br />
A i1 i 2<br />
P (X k+1 = a i1 , X k = a i ) > 0<br />
Iterando il procedimento e sfruttando la definizione di Catena di Markov, quindi, si<br />
ottiene che<br />
P (X k+l = a j , X k+l−1 = a il−1 , . . . , X k = a i ) > 0,<br />
dunque P (X k+l = a j ) > 0. Ora vogliamo dimostrare che la condizione di ergodicità di<br />
una catena di Markov omogenea ed avente distribuzione iniziale stazionaria equivale alla<br />
condizione di irriducibilità della corrispondente matrice di transizione.
40 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />
Teorema 7. Sia {X n } n∈N una catena di Markov definita su uno spazio di probabilità<br />
(X, Σ, P ) ed a valori in uno spazio finito E, omogenea ed avente distribuzione iniziale<br />
stazionaria e positiva in ogni punto di E. Allora tale catena è ergodica se e solo se la<br />
corrispondente matrice di transizione A è irriducibile.<br />
Dimostrazione. Dimostriamo entrambe le implicazioni separatamente.<br />
⇐ Supponiamo innanzitutto che A sia irriducibile. Osserviamo che dalla condizione<br />
di irriducibilità seguono due fatti fondamentali di algebra lineare, che ci limitiamo<br />
ad elencare:<br />
– Esiste, a meno di multipli, uno ed un solo vettore π tale che πA = π. Notiamo<br />
che, poichè abbiamo supposto che, se µ 1 è il vettore distribuzione iniziale,<br />
µ 1 A = µ 1 , allora per l’unicità di π dev’essere per forza π = µ 1 .<br />
– Vale la seguente uguaglianza:<br />
lim<br />
N→∞<br />
N−1<br />
1 ∑<br />
N<br />
k=0<br />
M k+1 = P, (2.8)<br />
ove P è la matrice avente tutte le colonne uguali al vettore π.<br />
Proviamo che la catena di Markov soddifa la condizione di debole mescolanza,<br />
ovvero, dati due insiemi misurabili<br />
C = [c m 1 ] = {(x 1, x 2 , . . . , x k , . . .) : x 1 = c 1 , . . . , x m = c m }<br />
D = [d n 1 ] = {(x 1, x 2 , . . . , x k , . . .) : x 1 = d 1 , . . . , x n = d n },<br />
(ove m, n ∈ N e c 1 , . . . , c m , d 1 , . . . , d n ∈ E), dimostriamo che<br />
lim<br />
N→∞<br />
1<br />
N<br />
N∑<br />
µ(T −j C ∩ D) = µ(C)µ(D). (2.9)<br />
j=1<br />
Osserviamo che questo fatto equivale a dimostrare che<br />
lim<br />
N→∞<br />
N+n−1<br />
1 ∑<br />
N<br />
j=n<br />
Osserviamo che, dato k > 0,<br />
Ora notiamo che<br />
µ(T −j C ∩ D) = lim<br />
N→∞<br />
N−1<br />
1 ∑<br />
N<br />
k=0<br />
µ(T −k−n C ∩ D) = µ(C)µ(D)<br />
T −k−n C = [b n+k+m<br />
n+k+1 ], ove b n+k+i = c i , 1 ≤ i ≤ m.<br />
µ([d n 1 ]∩[b n+k+m<br />
n+k+1 ]) = P (X 1 = d 1 , . . . , X n = d n , X n+k+1 = c 1 , . . . X n+k+m = c m ).
2.3. CATENE DI MARKOV 41<br />
Utilizzando, dunque, la definizione di catena di Markov e facendo dei semplici<br />
calcoli si può osservare che<br />
µ([d n 1 ] ∩ [b n+k+m<br />
n+k+1 ]) = P (X 1 = d 1 , . . . , X n = d n , X n+k+1 = c 1 , . . . X n+k+m = c m )<br />
∑<br />
=<br />
P (X 1 = d 1 , . . . , X n+1 = d n+1 , . . . , X n+k = d n+k , . . . , X n+k+m = c m )<br />
=<br />
(d n+1 ,...,d n+k )<br />
∑<br />
(d n+1 ,...,d n+k )<br />
(P (X 1 = d 1 , . . . , X n = d n )·P (X n+k+1 = c 1 , . . . , X n+1 = d n+1 |X n = d n )<br />
· P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 ))<br />
∑<br />
= P (X 1 = d 1 , . . . , X n = d n )·<br />
P (X n+k+1 = c 1 , . . . , X n+1 = d n+1 |X n = d n )<br />
(d n+1 ,...,d n+k )<br />
· P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 )<br />
ove d n+1 , . . . , d n+k ∈ E. Ora notiamo che, sempre utilizzando la definizione di<br />
catena di Markov, possiamo facilmente osservare che<br />
U := P (X 1 = d 1 , . . . , X n = d n ) = µ(D)<br />
V :=<br />
=<br />
= P (X 1 = d 1 ) · P (X 2 = d 2 |X 1 = d 1 ) · . . . · P (X n = d n |X n−1 = d n−1 )<br />
∑<br />
(d n+1 ,...,d n+k )<br />
∑<br />
(d n+1 ,...,d n+k )<br />
n−1<br />
∏<br />
= µ 1 (d 1 )A d1 d 2 · . . . · A dn−1 d n<br />
= µ 1 (d 1 ) A di d i+1<br />
.<br />
P (X n+k+1 = c 1 , X n+k = d n+k , . . . , X n+1 = d n+1 |X n = d n )<br />
P (X n+1 = d n+1 |X n = d n ) · . . . · P (X n+k+1 = c 1 |X n+k = d n+k )<br />
=<br />
∑<br />
(d n+1 ,...,d n+k )<br />
i=1<br />
( n+k−1 ∏<br />
A di d i+1<br />
)·A dn+k c 1<br />
.<br />
i=n<br />
Osserviamo che, tramite alcune operazioni di algebra lineare, si può verificare che<br />
tale valore coincide con il termine in posizione (d n , c 1 ) della matrice A k , sia [A k ] dnc 1<br />
.<br />
W := P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 )<br />
= P (X n+k+2 = c 2 |X n+k+1 = c 1 ) · . . . · P (X n+k+m = c m |X n+k+m−1 = c m−1 )<br />
m∏<br />
=<br />
Dunque<br />
µ([d n 1 ] ∩ [b n+k+m<br />
n+k+1 ]) = µ(D)[Ak+1 ] dnc 1<br />
∏<br />
m A ci c i+1<br />
i=1<br />
i=1<br />
A ci c i+1
42 CAPITOLO 2. APPLICAZIONI ED ESEMPI<br />
Osserviamo che, in base a alla (2.8), si ha che<br />
lim<br />
N→∞<br />
dunque, in virtù della (2.8)<br />
lim<br />
N→∞<br />
N−1<br />
1 ∑<br />
N<br />
k=0<br />
1<br />
N<br />
N∑<br />
[A k+1 ] dnc1 = π(c 1 ) = µ(c 1 ),<br />
k=1<br />
µ(T −k−n D ∩ C) = lim<br />
N→∞<br />
k=0<br />
i=1<br />
N−1<br />
1 ∑<br />
N<br />
k=0<br />
µ([d n 1 ] ∩ [b n+k+m<br />
n+k+1 ])<br />
N−1<br />
1<br />
= lim<br />
N→∞ N µ(D) ∑ ∏<br />
m m∏<br />
[A k+1 ] dnc1 A ci c i+1<br />
= µ(D)µ(c 1 ) A ci c i+1<br />
= µ(D)µ(C).<br />
Dunque, essendo la condizione espressa dalla (2.9) soddisfatta, T è una trasformazione<br />
ergodica.<br />
⇒ Supponiamo che la catena di Markov sia ergodica. Supponiamo che µ(a j ) > 0, ∀j<br />
e sia P i = {x : x 1 = a i }. Osserviamo che, se B = T −1 P j ∪ T −2 P j ∪ . . ., allora<br />
P (B) > 0 e T −1 B = T −2 P j ∪ T −3 P j ∪ . . . ⊆ B. In virtù dell’ipotesi di ergodicità,<br />
quindi, µ(B) = 1, dunque µ(B ∩ P j ) > 0, ∀j. Osserviamo che<br />
( ⋃<br />
)<br />
µ(B ∩ P i ) = µ (T −n P j ∩ P i ) > 0,<br />
n∈N<br />
i=1<br />
dunque ∃¯n ∈ N tale che µ(T −¯n P j ∩ P i ) > 0. Osserviamo che<br />
µ(T −¯n P j ∩ P i ) = µ({(x 1 , . . . , x k , . . .) : x¯n = a j , x 1 = a i })<br />
= P (X¯n = a j , X 1 = a i ) = P (X¯n = a j |X 1 = a i )P (X 1 = a i ) > 0<br />
Dunque P (X¯n = a j |X 1 = a i ) > 0, pertanto dev’esserci una sequenza i 0 , i 1 , . . . , i¯n<br />
tale che i 0 = i, i¯n = j ed Ai m i m+1 = P (X m+1 = a im+1 |X m = a im ) > 0, ∀m ∈<br />
0, . . . , ¯n − 1.
Bibliografia<br />
[1] P. C. Shields, The Ergodic Theory of Discrete Sample Paths, American Mathematical<br />
Society (1996).<br />
[2] D.Williams, Probability with Martingales, Cambridge University Press (1991).<br />
43