Il teorema ergodico - Matematica e Applicazioni

Facoltà di Scienze Matematiche, Fisiche, Naturali 

Corso di Laurea Triennale in Matematica 

a. a. 2009/10 

Tesi di Laurea 

Il teorema ergodico 

Candidato 

Mauro Timini 

Relatore 

Francesco Caravenna

Indice 

Introduzione 1 

1 Il teorema ergodico 3 

1.1 Richiami di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

1.2 Impacchettamenti e ricoprimenti . . . . . . . . . . . . . . . . . . . . . . . 8 

1.3 Trasformazioni stazionarie ed ergodiche . . . . . . . . . . . . . . . . . . . 10 

1.4 Il teorema ergodico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

1.4.1 Enunciato del teorema ergodico . . . . . . . . . . . . . . . . . . . . 16 

1.4.2 Il teorema ergodico : caso binario . . . . . . . . . . . . . . . . . . . 17 

1.4.3 Il teorema ergodico: caso generale . . . . . . . . . . . . . . . . . . 20 

2 Applicazioni ed esempi 31 

2.1 Strumenti tecnici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

2.2 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

2.3 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

iii

Introduzione 

In questa tesi dimostriamo un risultato importante relativo al calcolo della probabilità: 

il teorema ergodico. La teoria ergodica ha le sue origini nella meccanica statistica: più 

precisamente, venne introdotta da Boltzmann (1844-1906) verso la fine dell’Ottocento, 

in riferimento ai sistemi meccanici complessi ai quali era attribuita la proprietà di assumere, 

nella loro evoluzione spontanea, tutti gli stati dinamici microscopici compatibili 

con il loro stato macroscopico. In base a tale teoria, la media “temporale” di ogni osservabile 

del sistema doveva coincidere con la media “spaziale” di tale osservabile rispetto 

a un’opportuna distribuzione di probabilità sullo spazio delle configurazioni del sistema. 

Una formulazione più tecnica di quest’idea venne fornita poco più tardi da Josiah Willard 

Gibbs (1839-1903) ed, in seguito, tale teoria venne sviluppata da un punto di vista 

matematico, considerandone gli aspetti probabilistici. 

La nostra trattazione riguarda proprio quest’ultimo approccio. Il risultato fondamentale 

di questa teoria è costituito dal teorema ergodico, dimostrato da George David 

Birkhoff (1884-1944). Tale teorema afferma che, data una trasformazione T definita su 

uno spazio di probabilità ed a valori nel medesimo, se tale applicazione soddisfa determinate 

proprietà, allora la media temporale di ogni osservabile calcolata lungo la traiettoria 

{x, T x, T 2 x, . . .} (dove x è un punto dello spazio) coincide, facendo tendere all’infinito 

il numero di iterazioni, con l’integrale dell’osservabile rispetto alla misura di probabilità 

fissata sullo spazio. In particolare, questo teorema fornisce una generalizzazione della 

legge dei grandi numeri per un’ampia classe di processi stocastici (ad esempio, per le 

catene di Markov), al di là del caso classico di variabili indipendenti ed identicamente 

distribuite. 

La dimostrazione del teorema ergodico che forniremo non è quella classica, ma si basa 

su alcuni argomenti di tipo combinatorio e discreto, sviluppati in [1, Sez.I.3]. La dimostrazione 

è strutturata in due parti: dapprima consideriamo il caso di processi discreti e 

poi estendiamo la trattazione a processi stocastici a valori in uno spazio generico. 

La tesi è organizzata nel modo seguente: 

- Nel Capitolo 1 richiamiamo alcuni concetti di base, sviluppiamo alcuni strumenti 

relativi ai ricoprimenti aleatori ed, infine, forniamo la dimostrazione del teorema 

ergodico. 

- Nel Capitolo 2 presentiamo alcuni modi operativi di dimostrare l’ergodicità (in 

particolare definendo le proprietà di mescolanza e di mescolanza debole) ed applichiamo 

tali metodi a due casi importanti: i processi i.i.d. e la Catene di Markov. 

1

Capitolo 1 

Il teorema ergodico 

1.1 Richiami di probabilità 

In questo paragrafo richiameremo alcuni concetti di base della teoria del calcolo delle 

probabilità che ci saranno utili in seguito. Sia X un insieme. Definiamo σ-algebra su X 

un sottoinsieme Σ di P(X) tale che : 

i) X ∈ Σ, 

ii) A ∈ Σ ⇒ X \ A ∈ Σ, ∀A ∈ Σ, 

iii) Se {A n } n∈N è una successione di elementi di Σ, allora ⋃ n∈N A n ∈ Σ. 

Si può verificare facilmente che, comunque si scelga X, esistono sempre almeno due 

σ-algebre su X : Σ 1 = {∅, X} (σ-algebra banale) e Σ 2 = P(X) (σ-algebra discreta). Dato 

un insieme X, pertanto, è sempre possibile associarvi una σ-algebra Σ : si definisce spazio 

misurabile la coppia (X, Σ). Sia, dunque, (X, Σ) uno spazio misurabile. Consideriamo 

ora un’applicazione 

µ : Σ → [0, +∞] 

tale che: 

i) µ(∅) = 0. 

ii) Se {A n } n∈N è una successione di elementi a due a due disgiunti di Σ (cioè tali che 

A n ∩ A m = ∅, ∀m, n ∈ N tali che m ≠ n), allora 

µ( ⋃ A n ) = ∑ µ(A n ). 

n∈N n∈N 

Tale funzione viene detta misura su (X, Σ). Uno spazio di misura è una terna (X, Σ, µ), 

dove X è un insieme, Σ è una σ-algebra su X e µ è una misura su Σ. Se, inoltre, 

supponiamo valga l’ipotesi aggiuntiva µ(X) = 1, allora si dice che µ è una probabilità su 

Σ ed (X, Σ, µ) è detto spazio di probabilità. Ora consideriamo due proprietà fondamentali 

della misura che risulteranno utili in seguito. 

3

4 CAPITOLO 1. IL TEOREMA ERGODICO 

Lemma 1 (Continuità dal basso). Sia (X, Σ, µ) uno spazio di misura. Data una successione 

{A n } n∈N di elementi di Σ tale che A n ⊆ A n+1 , ∀n ≥ 0, si ha che: 

( ⋃ 

) 

µ A n = lim µ(A n) 

n→∞ 

n∈N 

Dimostrazione. Definiamo la successione {B m } m∈N in questo modo: 

B 0 := A 0 e B m := A m \ A m−1 , ∀m ≥ 1. 

Si può osservare facilmente che, dato n ∈ N, A n = ⋃ n 

m=0 B m e che, quindi, ⋃ ∞ 

⋃ n=0 A n = 

∞ ⋃ n 

n=0 m=0 B m = ⋃ ∞ 

m=0 B m. Pertanto, in virtù delle proprietà della misura µ si ha che 

( 

⋃ ∞ 

µ 

n=0 

( 

⋃ ∞ 

A n 

)= µ 

m=0 

B m 

)= 

∞∑ 

µ(B m ) 

m=0 

= lim 

n∑ 

n→∞ 

m=0 

( 

µ(B m ) = lim µ ⋃ n 

B m 

)= lim µ(A n). 

n→∞ n→∞ 

m=0 

Lemma 2 (Continuità dall’alto). Sia (X, Σ, µ) uno spazio di misura. Data una successione 

{A n } n∈N di elementi di Σ tale che A n ⊇ A n+1 , ∀n ≥ 0, si ha che: 

( ⋂ 

) 

µ A n = lim µ(A n) 

n→∞ 

n∈N 

Dimostrazione. Innanzitutto osserviamo che, dato n ∈ N, se A n ⊇ A n+1 , allora A n c ⊆ 

A n+1 c . Utilizzando la proprietà di continuità dal basso, quindi, possiamo concludere che 

( ⋂ 

) ( 

µ(X) − µ A n = µ X \ ⋂ (( ⋂ 

) c ) ( ⋃ 

) 

c 

A n 

)= µ A n = µ A n = lim µ(A n c ) 

n→∞ 

n∈N n∈N 

n∈N n∈N 

= lim 

n→∞ µ(X \ A n) = lim 

n→∞ (µ(X) − µ(A n)) = µ(X) − lim 

n→∞ µ(A n). 

Dunque 

( ⋂ 

) 

µ A n = lim µ(A n). 

n→∞ 

n∈N 

Un risultato fondamentale che si può derivare dalla proprietà di continuità dal basso 

di una misura e che ci sarà di estrema utilità in seguito è dato dal Lemma di Borel- 

Cantelli, che ora enunceremo.

1.1. RICHIAMI DI PROBABILITÀ 5 

Lemma 3 (Borel-Cantelli). Sia (X, Σ, P ) uno spazio di probabilità. Se {C n } n∈N è una 

successione di elementi di Σ tale che ∑ P (C n ) < ∞, allora 

( ⋂ ⋃ 

) 

P C m = 0, 

n≥1 m≥n 

ossia per quasi tutti gli x ∈ X esiste un naturale N = N(x) tale che x /∈ C n , ∀n ≥ N. 

Dimostrazione. Sia G n := ⋃ m≥n C m. Osserviamo che G n ⊃ G n+1 , ∀n ∈ N. Per continuità 

dal basso, si ha che ( ⋂ 

) 

P G n = lim P (G n). 

n→∞ 

n≥1 

Notiamo che 

P (G n ) = P ( ⋃ m≥n 

C m ) ≤ ∑ m≥n 

P (C m ). 

Osserviamo che, poichè per ipotesi la serie ∑ P (C n ) converge, allora dev’essere 

∑ 

lim P (C m ) = 0, 

( ) ⋂ 

quindi P 

n≥1 G n = 0. 

n→∞ 

m≥n 

Siano, ora, (X, Σ) ed (Y, F) due spazi misurabili : una funzione f : X → Y si 

dice misurabile se f −1 (A) ∈ Σ, ∀A ∈ F. Dato uno spazio di misura (X, Σ, µ), una 

funzione misurabile f a valori reali è detta semplice se esistono a 1 , a 2 , . . . , a n ∈ R ed 

A 1 , A 2 , . . . , A n ∈ Σ tali che f(x) = ∑ n 

i=1 a iχ Ai (x), ∀x ∈ X. Se una funzione misurabile 

è definita su uno spazio di probabilità (X, Σ, P ), allora tale funzione è detta variabile 

casuale. Un processo stocastico a tempo discreto è una sequenza X 1 , X 2 , . . . , X n , . . . di 

variabili casuali definite su uno spazio di probabilità (X, Σ, P ). 

Supponiamo ora che {X n } n∈N sia un processo stocastico definito su uno spazio di probabilità 

(X, Σ, P ) ed a valori in uno spazio misurabile (E, E). Si dimostra che, dato 

tale spazio misurabile, è ben definito lo spazio prodotto (E N , E N ), ove E N è la σ-algebra 

prodotto. L’applicazione 

X : (X, Σ, P ) → (E N , E N ) 

ω ↦→ (X 1 (ω), X 2 (ω), ..., X n (ω), ..) 

è misurabile se e solo se X n è misurabile ∀n ∈ N. 

Alcuni dei risultati che ora ci apprestiamo a richiamare si basano principalmente sul concetto 

di integrale secondo Lebesgue di una funzione misurabile. Al fine di non discostarci 

troppo dal nostro lavoro, tuttavia, diamo per scontata la definizione di tale nozione, 

essendo particolarmente laboriosa ed essendo facilmente reperibile nella maggior parte 

dei testi di base riguardanti la teoria della probabilità (si consideri, a titolo di esempio, 

[2, pag. 49]).


Lemma 4 (Diseguaglianza di Markov). Sia f una funzione nonnegativa ed integrabile 

su uno spazio di probabilità (X, Σ, µ) e siano δ, ɛ > 0. Se ∫ f dµ ≤ ɛδ, allora f(x) ≤ ɛ, 

eccetto che per un insieme di misura al più δ. 

Dimostrazione. Sia D := {x ∈ X tali che f(x) > ɛ}. Consideriamo la funzione caratteristica 

{ 1 se f(x) > ɛ 

χ D (x) = 

0 se f(x) ≤ ɛ 

ed osserviamo che chiaramente χ D (x) ≤ f(x) 

ɛ 

, ∀x ∈ X. Dunque 

∫ 

µ(D) = χ D (x)dµ(x) 

X 

∫ 

f(x) 

≤ dµ(x)(x) = 1 ∫ 

f(x)dµ(x) ≤ 1 ɛδ = δ. 

ɛ 

ɛ X 

ɛ 

X 

Ricordiamo, ora, che, dato uno spazio di misura (X, Σ, µ), si definisce L 1 l’insieme 

di tutte le funzioni f misurabili su tale spazio e tali che ∫ |f|dµ < +∞. Si prova che tale 

insieme è uno spazio vettoriale normato completo. 

Ora enunciamo i teoremi di passaggio al limite sotto il segno di integrale: tali teoremi 

indicano alcune condizioni necessarie per cui, data una successione convergente di funzioni 

misurabili, sia possibile ottenere informazioni riguardo il limite degli integrali della 

successione stessa. 

Teorema 1 (Teorema di convergenza monotòna). Sia (X, Σ, µ) uno spazio di misura e 

sia {f n } n∈N una successione di funzioni misurabili tale che: 

i) f n (x) ≥ 0, ∀x ∈ X, ∀n ∈ N 

ii) f n (x) ≤ f n+1 (x), ∀x ∈ X, ∀n ∈ N 

iii) Esiste una funzione f misurabile nonnegativa tale che 

f(x) = lim 

n→∞ f n(x), ∀x ∈ X. 

Allora 

∫ 

∫ 

fdµ = lim 

n→∞ 

f n dµ. 

Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, §5.3 (pag. 49)] 

Ora, data una generica successione {f n } n∈N di funzioni definite su uno spazio misurabile 

(X, Σ, µ), definiamo, per ogni elemento x ∈ X, il limite inferiore ed il limite 

superiore rispettivamente in questo modo: 

• lim inf n∈N f n (x) = sup m∈N inf n≥m f n (x)

1.1. RICHIAMI DI PROBABILITÀ 7 

• lim sup n∈N f n (x) = inf m∈N sup n≥m f n (x). 

Ora che abbiamo a disposizione questi concetti, possiamo procedere enunciando un lemma 

dimostrabile facilmente utilizzando il teorema precedente e la proprietà di monotonìa 

degli integrali. 

Lemma 5 (Lemma di Fatou). Sia (X, Σ, µ) uno spazio di misura e sia {f n } n∈N una 

successione di funzioni misurabili nonnegative. Allora 

∫ 

∫ 

lim inf f ndµ ≤ lim inf f n dµ. 

n∈N 

n∈N 

Dimostrazione. Per la dimostrazione si veda, ad esempio, [2, §5.4 (pag. 52)] 

Un altro risultato importante e fondamentale per la nostra trattazione è dato dal 

seguente teorema. 

Teorema 2 (Teorema di convergenza dominata). Sia (X, Σ, µ) uno spazio di misura e 

sia {f n } n∈N una successione di funzioni misurabili tali che : 

i) f n ∈ L 1 ,∀n ∈ N 

ii) Esiste una funzione misurabile f tale che, dato x ∈ X, 

lim f n(x) = f(x) 

n→∞ 

iii) Esiste una funzione nonnegativa g ∈ L 1 tale che |f n (x)| ≤ g(x), ∀x ∈ X, ∀n ∈ N 

Sotto queste ipotesi, si ha che allora f ∈ L 1 e che lim n→∞ 

∫ 

|fn − f|dµ = 0, dunque 

lim n→∞ 

∫ 

fn dµ = ∫ fdµ. 

Dimostrazione. Anche in questo caso, si consiglia di vedere [2, §5.9 (pag. 54)]. 

Questo teorema ci permette di dimostrare un lemma importante che dovremo utilizzare 

in seguito e che ci apprestiamo ad enunciare. 

Lemma 6 (Integrabilità uniforme). Sia (X, Σ, µ) uno spazio di probabilità e sia f ∈ 

L 1 (X, Σ, µ). Allora, per ogni η > 0, esiste δ > 0 tale che, comunque si scelga A ∈ Σ, si 

ha che, se µ(A) < δ, allora ∫ A 

|f(x)|dµ(x) ≤ η. 

Dimostrazione. Osserviamo innanzitutto che, per il teorema di convergenza dominata, 

si ha che 

∫ 

lim 

|f(x)|dµ(x) = 

M→∞ {x∈X:|f(x)|>M} 

∫ 

= lim |f(x)|χ {x∈X:|f(x)|>M} (x)dµ(x) = 0. 

M→∞ X


Dunque questo significa che 

∀η > 0, ∃M 0 tale che 

∫ 

{x∈X:|f(x)|>M 0 } 

|f(x)|dµ(x) ≤ η 2 . 

Sia ora A ∈ Σ, osserviamo che 

∫ 

A 

|f(x)|dµ(x) 

∫ 

= 

A∩{x∈X:|f(x)|>M 0 } 

∫ 

|f(x)|dµ(x) + 

|f(x)|dµ(x) 

A∩{x∈X:|f(x)|≤M 0 } 

≤ η 2 + M 0P (A ∩ {x ∈ X : |f(x)| ≤ M 0 }) 

≤ η 2 + M 0P (A). (1.1) 

Definiamo, quindi, δ := 

che 

η 

2M 0 

: se A è tale che µ(A) < δ, dunque, dalla (1.1) otteniamo 

∫ 

|f(x)|dµ(x) ≤ η. 

A 

1.2 Impacchettamenti e ricoprimenti 

In questa sottosezione lasciamo momentaneamente in disparte la probabilità per concentrarci 

su alcuni risultati di combinatoria necessari nella dimostrazione del teorema 

ergodico. 

In particolare, consideriamo l’insieme N dei numeri naturali e tutti e soli gli intervalli 

del tipo [n, m] = {j ∈ N|n ≤ j ≤ m}. 

Definizione 1. Si dice ricoprimento forte di N un insieme C definito da una funzione 

a valori interi n ↦→ m(n) (ove m(n) ≥ n, ∀n ∈ N) e formato da tutti gli intervalli nella 

forma [n, m(n)], n ∈ N (il termine forte sta ad indicare il fatto che ogni numero naturale 

debba essere estremo sinistro di un intervallo appartenente a C). 

Osserviamo che ogni ricoprimento forte ammette un sottoricoprimento C ′ formato da 

elementi disgiunti di C : è sufficiente, ad esempio, definire tale sottoinsieme come C ′ := 

{[n i , m(n i )], dove n 1 = 1 e n i+1 = 1+m(n i )}, i ≥ 1.Il problema che ci poniamo, dunque, 

è il seguente : dato un ricoprimento forte C, è possibile ottenere un sottoricoprimento 

C ′ di C, formato da intervalli disgiunti, appartenenti ad [1,K] e tali che la loro unione 

generi tutto l’intervallo In generale, la risposta è negativa: tuttavia è possibile ottenere 

un sottoricoprimento che ci permetta di ricostruire la maggior parte di tale intervallo. 

Iniziamo da un caso particolare che ci permetta di verificare immediatamente ed in 

maniera diretta l’affermazione appena fatta, così da fissare bene le idee: supponiamo

1.2. IMPACCHETTAMENTI E RICOPRIMENTI 9 

che gli intervalli in C abbiano tutti la stessa lunghezza, sia L. In tal caso, definiamo il 

sottoricoprimento C ′ in questo modo: 

{ 

} 

C ′ (K − L) 

= [iL + 1, (i + 1)L] : 0 ≤ i ≤ . 

L 

Si può osservare facilmente che questo insieme, per come è definito ed essendo costituito 

da intervalli consecutivi e disgiunti di lunghezza L, ricopre tutto l’intervallo [1, K] fatta 

eccezione per, al massimo, gli ultimi L − 1 elementi. 

Inoltre, osserviamo che, dato δ > 0, se K ed L sono tali che K > L δ 

, allora la porzione 

di intervallo che non viene ricoperta ha cardinalità al massimo L−1 < L < Kδ e pertanto 

il rapporto tra la sua lunghezza e quella di [1, K] è strettamente minore di δ. 

Ora consideriamo un caso più generale: sia [1, K] un dato intervallo e sia C un 

ricoprimento forte i cui elementi abbiano lunghezza variabile. 

Il nostro obiettivo è far vedere che, se la maggior parte degli intervalli di C aventi 

estremo sinistro in [1, K] ha lunghezza non superiore ad L, allora è possibile estrarre un 

sottoricoprimento C ′ incluso interamente in [1, K] e tale che l’unione dei suoi elementi 

ricostruisca quasi completamente tale intervallo, a meno di una frazione di esso, la quale 

non supera comunque un certo valore stimabile. Innanzitutto, è opportuno introdurre 

alcune definizioni, al fine di tradurre in termini rigorosi ciò che intendiamo provare e, 

quindi, fornire una dimostrazione valida. 

Definizione 2. Sia C un ricoprimento forte di N. Un intervallo [1, K] è detto (L, δ)- 

fortemente ricoperto se, dati L > 0, δ > 0, 

|{n ∈ [1, K] : m(n) − n + 1 > L}| 

K 

Definizione 3. Una collezione C ′ di intervalli inclusi in un dato intervallo [1, K] è detta 

(1 − δ)-impacchettamento di [1,K] se gli intervalli di C ′ sono disgiunti e se la loro unione 

ha cardinalità maggiore od uguale a (1 − δ)K. 

Ora abbiamo a disposizione tutti gli elementi per dimostrare il lemma principale di 

questa sottosezione. 

Lemma 7 (Lemma di impacchettamento). Sia C un ricoprimento forte di N e sia 

δ > 0 dato. Se K > L δ 

e se [1, K] è (L, δ)-fortemente coperto da C, allora esiste un 

sottoricoprimento C ′ ⊂ C che è un (1 − 2δ)-impacchettamento di [1, K]. 

≤ δ. 

Dimostrazione. Innanzitutto, per ipotesi sappiamo che K > L δ 

e che |{n ∈ [1, K] : 

m(n) − n + 1 > L}| ≤ δK. Ora cerchiamo di costruire un (1 − 2δ)-impacchettamento 

dell’intervallo [1, K]. L’idea è quella di procedere iterativamente da sinistra a destra, 

selezionando ad ogni passo il primo intervallo di lunghezza non superiore ad L e che 

sia disgiunto da quello selezionato in precedenza, fermandoci quando l’estremo destro 

dell’ultimo intervallo estratto dista da K per una quantità minore di L.Più precisamente, 

poniamo m(0) = n 0 = 0 e definiamo per induzione: 

n i = min{j ∈ [1 + m(n i−1 ), K − L] : m(j) − j + 1 ≤ L}, ∀i ≥ 1,


fermandoci quando la condizione non è più soddisfatta. Se I è l’insieme degli indici j 

che selezioniamo, osserviamo che chiaramente m(n j ) − n j + 1 ≤ L, ∀j ∈ I e che quindi 

m(n |I| ) ≤ K. Il procedimento si arresta quando si verifica uno dei seguenti casi: 

• I è tale che m(n |I| ) > K − L : osserviamo che 1 + m(n |I| ) > K − L, pertanto 

non possiamo selezionare ulteriori intervalli disgiunti dai precedenti e di lunghezza 

inferiore ad L poiché, anche qualora ve ne fossero, non siamo sicuri che questi siano 

inclusi completamente in [1, K], essendo la distanza del loro estremo sinistro da K 

inferiore di L 

• Non esiste j ∈ [1 + m(n |I| ), K − L], tale che m(j) − j + 1 ≤ L : anche se esistessero 

degli intervalli disgiunti dai precedenti ed aventi estremo sinistro a distanza 

maggiore di L da K, tuttavia, siccome tali intervalli hanno tutti lunghezza strettamente 

maggiore di L, in generale non è detto che siano completamente inclusi in 

[1, K]. 

Ora vogliamo provare che l’insieme C ′ = {[n i , m(n i )] : 1 ≤ i ≤ |I|} sia effettivamente 

un (1 − 2δ)-impacchettamento di [1, K]. Innanzitutto, osserviamo che gli elementi di 

C ′ sono tra loro disgiunti per costruzione e, in virtù delle osservazioni fatte, sono tutti 

inclusi in [1, K]. Resta da provare, pertanto, che la loro unione U abbia lunghezza almeno 

(1 − 2δ)K. 

Osserviamo che l’intervallo (K − L, K] ha lunghezza massima L − 1 < L < δK. dunque 

sicuramente 

|(K − L, K] \ U| ≤ δK. 

Ora consideriamo l’intervallo [1, K − L]. Per come abbiamo definito C ′ (e per come 

abbiamo costruito U), si ha che: 

Se j ∈ [1, K − L] \ U, allora m(j) − j + 1 > L. 

Ma allora, se applichiamo l’ipotesi di (L, δ)-ricoprimento forte, posso concludere che 

Quindi si ha sicuramente che 

|[1, K − L] \ U| ≤ δK. 

|[1, K] \ U| = |([1, K − L] \ U) ∪ ((K − L, K] \ U)| = 

e così facendo abbiamo dimostrato la tesi. 

= |[1, K − L] \ U| + |(K − L, K] \ U| ≤ δK + δK = 2δK 

1.3 Trasformazioni stazionarie ed ergodiche 

In questa sezione consideriamo le funzioni definite su un generico spazio di probabilità 

(X, Σ, µ) ed a valori nel medesimo. In particolare, definiamo in maniera rigorosa i concetti 

di trasformazione stazionaria e di trasformazione ergodica, insieme ad alcune proprietà 

che saranno necessarie in seguito.

1.3. TRASFORMAZIONI STAZIONARIE ED ERGODICHE 11 

Definizione 4 (Trasformazione stazionaria). Sia (X, Σ, µ) uno spazio di probabilità. 

Un’applicazione T : X → X si dice trasformazione stazionaria se è misurabile e se 

µ(T −1 B) = µ(B), ∀B ∈ Σ. 

Definizione 5 (Trasformazione ergodica). Una trasformazione stazionaria T si dice 

ergodica se, dato B ∈ Σ, 

T −1 B = B ⇒ µ(B) = 0 o µ(B) = 1. 

Lemma 8 (Definizioni equivalenti di ergodicità). Sia (X, Σ, µ) uno spazio di probabilità. 

Data una trasformazione stazionaria T : X → X, sono equivalenti : 

a) T è ergodica. 

b) T −1 B ⊆ B ⇒ µ(B) = 0 o µ(B) = 1. 

c) T −1 B ⊇ B ⇒ µ(B) = 0 o µ(B) = 1. 

d) µ(T −1 B∆B) = 0 ⇒ µ(B) = 0 o µ(B) = 1, 

ove A∆B = (A ∪ B) \ (A ∩ B) è la differenza simmetrica tra A e B. 

e) Se f(T x) = f(x) quasi certamente, allora f è costante quasi certamente. 

f) Se f(T x) ≥ f(x) quasi certamente (oppure f(T x) ≤ f(x) quasi certamente), allora 

f è costante quasi certamente. 

Dimostrazione. Dimostriamo, inizialmente, l’equivalenza di a) e b). Osserviamo che b) ⇒ 

a) è ovvia : basta notare che, se T : X → X è un’applicazione tale che, dato B ∈ Σ, 

T −1 B = B, allora in particolare T −1 B ⊆ B. In virtù delle ipotesi assunte, quindi, si ha 

che µ(B) = 0 o µ(B) = 1 e dunque abbiamo dimostrato l’ergodicità di T . 

Procediamo ora con la dimostrazione dell’implicazione inversa : sia T una trasformazione 

ergodica e sia B ∈ Σ tale che T −1 B ⊆ B. Siccome l’applicazione inversa T −1 preserva 

le relazioni insiemistiche, osserviamo che 

T −1 B ⊆ B ⇒ T −(n+1) B ⊆ T −n (B), ∀n ∈ N. (1.2) 

Prima di proseguire con la dimostrazione osserviamo che ⋂ n≥1 T −n B = ⋂ n≥0 T −n B. Si 

può verificare facilmente, infatti, che ⋂ n≥1 T −n B ⊇ ⋂ n≥0 T −n B.: tale disuguaglianza è 

banale poiché il secondo membro corrisponde al primo intersecato con un nuovo evento. 

La relazione ⋂ n≥1 T −n B ⊆ ⋂ n≥0 T −n B., invece, è facilmente ottenibile a partire da 

(1.2). 

In base a queste osservazioni, quindi, se definiamo l’insieme C := ⋂ n≥0 T −n B, si può 

notare che 

( ⋂ 

) 

T −1 C = T −1 T −n B = ⋂ T −1 (T −n B) = 

n≥0 n≥0 

= ⋂ T −(n+1) B = ⋂ T −n B = ⋂ T −n B = C. 

n≥0 

n≥1 

n≥0


Poichè T è per ipotesi ergodica, dev’essere per forza µ(C) = 0 oppure µ(C) = 1. 

Osserviamo che per la continuità dall’alto si ha che 

( ⋂ 

) 

µ(C) = µ T −n B = lim µ(T −n B) = lim µ(B) = µ(B). 

n→∞ n→∞ 

n≥0 

Dunque µ(B) = 0 oppure µ(B) = 1 ed abbiamo dimostrato anche questa implicazione. 

L’equivalenza di b) e c) è immediata. Basta considerare, infatti, che 

T −1 B ⊇ B ⇐⇒ (T −1 B) c = T −1 (B c ) ⊆ B c . 

Supponendo, pertanto, che valga b), se T −1 B ⊇ B, allora, in virtù dell’osservazione 

fatta sopra, µ(B c ) = 0 oppure µ(B c ) = 1, ossia µ(B) = 1 oppure µ(B) = 0 e quindi c) 

è verificata. Supponiamo, ora, che valga c) e che T −1 B ⊆ B: quest’ultimo fatto equivale 

ad affermare che T −1 B c ⊇ B c . Avendo supposto valida c), dunque, concludiamo che 

µ(B c ) = 0 oppure µ(B c ) = 1, ovvero µ(B) = 1 oppure µ(B) = 0 e dunque b) è verificata. 

Dimostriamo ora che b) è equivalente a d). Innanzitutto, dimostrare d)⇒b) è semplice: 

osserviamo che, se T −1 B ⊆ B, allora 

µ(T −1 B∆B) = µ(B \ T −1 B) = µ(B) − µ(T −1 B) = µ(B) − µ(B) = 0. 

Se supponiamo valga d), dunque, µ(B) = 0 oppure µ(B) = 1. 

Ora proviamo la validità dell’implicazione inversa: supponiamo, dunque, che valga b). 

Definiamo C := ⋃ n≥0 T −n B ed osserviamo che 

T −1 C = T −1 ( ⋃ 

n≥0 

T −n B 

) 

= ⋃ T −n B ⊆ ⋃ T −n B = C, 

n≥1 

n≥0 

questo implica che µ(C) = 0 oppure µ(C) = 1. Ora notiamo che, per come abbiamo 

definito C e per la proprietà di continuità dall’alto, si ha che 

( N 

) 

µ(C) = lim µ ⋃ 

(T −n B) . (1.3) 

N→∞ 

Sia C N := ⋃ N 

n=0 (T −n B). Ora consideriamo i seguenti risultati che ci saranno utili nel 

proseguimento della dimostrazione: 

i) Dati due insiemi A e B, 

n=0 

µ(A) − µ(B) 

= µ(A ∩ B) + µ(A \ B) − (µ(B ∩ A) + µ(B \ A)) 

= µ(A \ B) − µ(B \ A). 

Dunque |µ(A) − µ(B)| ≤ µ(A \ B) + µ(B \ A) = µ(A∆B).


ii) Dati n insiemi A 1 , A 2 , . . . , A n ed un insieme B, si può verificare che 

( 

⋃ N N⋃ 

A n 

)∆B ⊆ (A n ∆B). 

n=1 

n=1 

iii) Dati due insiemi A e B, si verfica facilmente che 

A∆B ⊆ (A∆C) ∪ (C∆B). 

Ora osserviamo che, essendo T stazionaria e poichè l’inversa di un’applicazione preserva 

le relazioni insiemistiche, in base alle nostre ipotesi possiamo notare che 

0 = µ(T −1 B∆B) = µ(T −1 (T −1 B∆B)) = µ(T −2 B∆T −1 B) 

= µ(T −1 (T −2 B∆T −1 B)) = . . . = µ(T −(n−1) B∆T −n B), ∀n ∈ N 

In base ad i) e ii), dunque, possiamo notare che 

|µ(C N ) − µ(B)| ≤ µ(C N ∆B) 

( N 

) 

⋃ 

N∑ 

≤ µ (T −n B∆B) ≤ µ(T −n B∆B). (1.4) 

n=0 

n=0 

Ora osserviamo che, in base a iii), dato n ∈ N, 

T −n B∆B ⊆ (T −n B∆T −(n−1) B) ∪ (T −(n−1) B∆B). 

Otteniamo, dunque, la seguente diseguaglianza 

µ(T −n B∆B) 

≤ µ(T −n B∆T −(n−1) B) + µ(T −(n−1) B∆B) 

= µ(T −(n−1) B∆B). 

Osserviamo che tale maggiorazione può essere ripetuta per tutti gli n ∈ N, così da 

ottenere la catena di diseguaglianze: 

µ(T −n B∆B) ≤ = µ(T −(n−1) B∆B) ≤ µ(T −(n−2) B∆B) 

≤ . . . ≤ µ(T −1 B∆B). 

Siccome, per ipotesi, µ(T −1 B∆B) = 0, allora, in base all’osservazione precedente, dev’essere 

µ(T −n B∆B) = 0, ∀n ∈ N. Ma allora osserviamo che, per la (1.4), si ha che 

|µ(C N ) − µ(B)| = 0, ∀N ∈ N. Dunque µ(C N ) = µ(B), ∀N ∈ N e, tornando alla (1.3), 

otteniamo che 

µ(C) = lim µ(C N) = lim µ(B) = µ(B). 

N→∞ N→∞ 

Dunque possiamo concludere, in quanto, se µ(C) = µ(B), segue che µ(B) = 1 oppure 

µ(B) = 0. La validità di d) a partire da b) è quindi dimostrata.


Ora completiamo la dimostrazione provando che d) ed e) sono equivalenti. Innanzitutto 

supponiamo che valga d) e consideriamo una generica funzione semplice 

f(x) = 

n∑ 

a i χ Bi (x), ove a i ≠ a j e B i ∩ B j = ∅, ∀i ≠ j, i, j ∈ {1, . . . , n} 

i=1 

(ricordiamo che ogni funzione semplice può essere espressa in questa forma). Supponiamo 

che f(x) = f(T x) quasi certamente. Osserviamo che 

f(T x) = 

n∑ 

a i χ Bi (T x) = 

i=1 

n∑ 

a i χ T −1 (B i )(x). (1.5) 

i=1 

Dato i ∈ {1, . . . , n}, se x ∈ (B i ∆T −1 (B i )), ciò significa che x non può appartenere 

sia a B i che a T −1 (B i ): in altre parole, non può verificarsi che x e T x appartengano 

entrambi all’insieme B i . Questo fatto implica, in base alla (1.5), che sicuramente f(x) ≠ 

f(T x). Possiamo affermare, dunque, che B i ∆T −1 B i ⊆ {x : f(x) ≠ f(T x)} e che, avendo 

supposto f(x) = f(T x) quasi certamente, si ha dunque: 

µ(B i ∆T −1 (B i )) ≤ µ({x : f(x) ≠ f(T x)}) = 0 ∀i ∈ {1, . . . , n} 

⇒ µ(B i ∆T −1 (B i )) = 0 ∀i ∈ {1, . . . , n}. 

Siccome abbiamo supposto che d) sia vera, segue che µ(B i ) = 0 oppure µ(B i ) = 1, 

∀i ∈ {1, . . . , n}. Tuttavia, essendo gli insiemi B i a due a due disgiunti, questo significa che 

esiste al più un solo indice ¯j ∈ {1, . . . , n} tale che µ(B¯j) = 1 e µ(B i = 0), ∀i ≠ ¯j. Questo 

risultato implica che la funzione semplice f, per come è definita, è quasi certamente 

costante. Dunque il risultato vale per le funzioni semplici. Sia ora f una funzione generica 

per cui supponiamo che f(T x) = f(x) quasi certamente. Definiamo, per ogni numero 

naturale n, la funzione 

f n (x) := 

+n2 

∑ 

n 

k=−n2 n 

k 

2 n χ{ ( ]} 

x:f(x)∈ k−1 (x). 

2 n , k 

2 n 

Osserviamo che si tratta di una funzione semplice e che, per ogni n ∈ N, il valore che 

assume f n in ciascun x ∈ X dipende dal valore assunto da f in tale punto. In particolare, 

dato n ∈ N e dato x ∈ X, se f(T x) = f(x) allora 

f n (T x) = 

+n2 

∑ 

n 

k=−n2 n 

k 

2 n χ{ ( ]} 

x:f(T x)∈ k−1 (x) 

2 n , k 

2 n 

= 

+n2 

∑ 

n 

k=−n2 n 

k 

2 n χ{ [ ]} 

x:f(x)∈ k−1 (x) = fn (x). 

2 n , k 

2 n 

Dunque, se f(T x) = f(x) quasi certamente, allora f n (T x) = f n (x) quasi certamente, 

∀n ∈ N. Pertanto, in virtù del risultato ottenuto per le funzioni semplici, possiamo


affermare che, per ogni numero naturale n, f n (x) = c n ∈ R , ∀x ∈ A n , ove A n è un 

insieme tale che µ(A n ) = 1. Notiamo, inoltre, che, fissato x ∈ X, lim n→∞ f n (x) = 

f(x). Definiamo, quindi, l’insieme A := ⋂ n≥0 A n ed osserviamo che µ(A) = 1. Infatti 

osserviamo che A c = ⋃ n≥0 A n c , quindi µ(A c ) ≤ ∑ n≥0 µ(A n c ) = 0, pertanto µ(A c ) = 0, 

ovvero µ(A) = 1. Dunque, se x ∈ A, allora la successione {f n (x)} n∈N è una successione di 

numeri reali {c n } n∈N convergente ad f(x). Poichè questo fatto vale per ogni x ∈ A, allora 

per forza f(x) dev’essere costante su tutto A, altrimenti si avrebbe che la successione 

{c n } n∈N converge a più valori, il che è assurdo. Pertanto f è costante su A, dunque a 

meno di un insieme di misura nulla. 

Supponiamo ora che e) sia valida e sia B ∈ Σ tale che µ(T −1 B∆B) = 0. Osserviamo che 

∫ 

0 = µ(T −1 B∆B) = |χ T −1 B(x) − χ B (x)|dµ(x), 

da cui segue facilmente che 

|χ T −1 B(x) − χ B (x)| = 0, q.c. ⇒ χ T −1 B(x) = χ B (x) q.c. 

⇐⇒ χ B (T x) = χ B (x) q.c. . 

Dunque, supponendo e) vera, segue che χ B (x) è quasi certamente costante. Siccome 

tale funzione può assumere i soli valori 0 ed 1, allora o χ B (x) = 1 q.c. (ed in tal caso 

µ(B) = 1), oppure χ B (x) = 0 q.c. (ed in tal caso µ(B) = 0). Dunque abbiamo provato 

la validità di d). 

Ora dimostriamo che e) ed f) sono equivalenti. L’implicazione f) ⇒ e) è ovvia poichè 

basta notare che f(T x) = f(x) quasi certamente ⇒ f(T x) ≥ f(x) (oppure f(T x) ≤ 

f(x)) quasi certamente. 

Ora dimostriamo che e) implica f). Supponiamo, dunque, che valga e) che f(T x) ≥ 

f(x) quasi certamente (nel caso in cui f(T x) ≤ f(x) quasi certamente, si procede in 

maniera analoga). Definiamo la funzione g(x) := f(T x) − f(x) : osserviamo che, in virtù 

dell’ipotesi, g(x) ≥ 0 quasi certamente. Notiamo che, in virtù della stazionarietà di T 

∫ 

∫ 

∫ 

g(x)dµ(x) = f(T x)dµ(x) − f(x)dµ(x) = 0. 

In base a queste due proprietà, dunque, dev’essere g(x) = 0 quasi certamente, ma allora 

f(T x) = f(x) quasi certamente, dunque f è costante quasi certamente. 

Sia ora (E, E) uno spazio misurabile e sia (E N , E N ) lo spazio prodotto definito a 

partire da E (costituito dagli elementi (x 1 , x 2 , ..., x n , ...) tali che x n ∈ E, ∀n ∈ N) e 

munito della σ-algebra prodotto E N . Definiamo, quindi, l’operazione di shift 

T : E N → E N 

(x 1 , x 2 , . . . x n , . . .) ↦→ (x 2 , x 3 , . . . , x n , . . .). 

Consideriamo ora un processo stocastico {X n } n∈N a valori in E, cioè 

X n : (X, Σ, P ) → (E, E), ∀n ∈ N,


ove (X, Σ, P ) è uno spazio di probabilità. Definiamo, su (E N , E N ), la misura di Kolmogorov 

per il processo {X n } n∈N in questo modo: 

µ(A 1 × A 2 × . . . × A n × . . .) := 

P (X 1 ∈ A 1 , X 2 ∈ A 2 , . . . , X n ∈ A n , . . .), ∀{A i } i∈N , A i ∈ E 

(µ è detta legge della successione {X n } n∈N ). Tale processo, dunque, si dice ergodico se 

l’operazione di shift è ergodica rispetto alla misura di Kolmogorov associata al processo 

{X n } n∈N . 

1.4 Il teorema ergodico 

1.4.1 Enunciato del teorema ergodico 

Teorema 3 (Teorema ergodico). Sia T una trasformazione stazionaria su uno spazio di 

probabilità (X, Σ, µ) e sia f una funzione integrabile, allora la media 1 n 

∑ n 

i=1 f(T i−1 x) 

converge quasi certamente ed in L 1 , per n −→ ∞, verso una funzione T -invariante 

f ∗ (x). 

Corollario 1. Se T è una trasformazione ergodica, allora f ∗ (x) = ∫ fdµ, ∀x ∈ X. 

Dimostrazione. Sia f n (x) := 1 n 

∑ n 

i=1 f(T i−1 x). 

Siccome f n converge in L 1 ad f ∗ , allora 

∫ ∫ 

∣∫ 

∫ 

∣ f n dµ − f ∗ ∣∣∣ 

dµ 

∣ = (f n − f ∗ )dµ 

∣ ≤ 

|f n − f ∗ |dµ −→ 0, per n → ∞, 

dunque ∫ f n dµ −→ ∫ f ∗ dµ, per n → ∞. 

Inoltre, notiamo che, ∀n ∈ N, 

∫ 

∫ 1 

n∑ 

f n (x)dµ = f(T i−1 x)dµ = 1 n 

n 

i=1 

n∑ 

∫ 

∫ 

f(T i−1 x)dµ = 

poiché, essendo T una trasformazione stazionaria, 

∫ 

∫ 

f(T n (x))dµ = f(x)dµ, ∀n ∈ N. 

i=1 

f(x)dµ, 

Dunque dev’essere ∫ fdµ = ∫ f ∗ dµ. 

Inoltre, se supponiamo che T sia una trasformazione ergodica, essendo f ∗ T −invariante, 

allora, in virtù del Lemma 4, f ∗ (x) è costante su tutto il dominio, pertanto f ∗ (x) = c ∈ R, 

∀x ∈ X, dunque : 

∫ 

∫ 

∫ 

f(x)dµ = f ∗ (x)dµ = cdµ = µ(X)c = c, 

pertanto, nel caso in cui T sia anche ergodica la funzione f ∗ (x) (media temporale) è 

costante su tutto il dominio ed ha valore pari a ∫ fdµ (media spaziale).

1.4. IL TEOREMA ERGODICO 17 

1.4.2 Il teorema ergodico : caso binario 

Teorema 4 (Teorema ergodico: caso binario). Se {X n } è un processo ergodico tale che 

{X n } ∈ {0, 1}, ∀n ∈ N, allora la media X 1+X 2 +...+X n 

n 

converge quasi certamente al valore 

costante E(X 1 ) = µ(1) = µ({x : x 1 = 1}). 

Dimostrazione. Il nostro obiettivo è provare che : 

1 

n∑ 

lim x i = µ(1) quasi ovunque, (1.6) 

n→∞ n 

i=1 

ove, ricordiamo, µ(1) = µ{x : x 1 = 1} = E(X 1 ) e µ 1 è la legge di X su {0, 1} N . 

Supponiamo, per assurdo, che (1.6) sia falsa. 

Più precisamente, supponiamo che l’insieme 

B = 

{ 

x : lim sup 

n→∞ 

1 

n 

} 

n∑ 

x i > µ(1) + ɛ 

sia tale che µ(B) > 0 (il caso complementare, in cui si considera l’insieme degli x ∈ X 

1 

∑ 

tali che lim inf n 

n→∞ n i=1 x i < µ(1) − ɛ, si tratta in modo analogo). Osserviamo che 

lim sup 

n→∞ 

Infatti, notiamo che 

x 1 + x 2 + ... + x n 

n 

x 2 + x 3 + ... + x n+1 

n 

i=1 

= lim sup 

n→∞ 

= x 1 + x 2 + ... + x n 

n 

x 2 + x 3 + ... + x n+1 

. 

n 

x 

Inoltre, poichè x n ∈ {0, 1}, ∀n ∈ N, si ha che lim n+1 

n→∞ n 

− x 1 

n 

+ x n+1 

n − x 1 

n . 

= 0, dunque 

lim sup 

n→∞ 

x 2 + x 3 + ... + x n+1 

= 

n 

lim sup 

n→∞ 

x 1 + x 2 + ... + x n 

n 

x n+1 

+ lim 

n→∞ n − x 1 

n = 

= lim sup 

n→∞ 

x 1 + x 2 + ... + x n 

n 

Pertanto, se la sequenza (x 1 , x 2 , ..., x n , ..) ∈ B, allora la sequenza, ottenuta tramite uno 

shift, (x 2 , x 3 , .., x n , ..) ∈ B e questo fatto vale anche per tutte le operazioni di shift 

successive : abbiamo provato, quindi, che l’insieme B è T -invariante e, poichè abbiamo 

assunto che µ sia ergodica rispetto a T e che µ(B) > 0, allora deve valere µ(B) = 1. 

Supponiamo ora che x = (x 1 , x 2 , .., x n , ..) ∈ B : essendo B un insieme T -invariante, 

allora 

(x n , x n+1 , .., x n+m , ..) ∈ B, ∀n ∈ N, 

⇐⇒ lim sup 

m→∞ 

n+m−1 

1 ∑ 

m 

k=n 

x k > µ(1) + ɛ, ∀n ∈ N,


dunque per ogni intero n esiste un intero m(n) ≥ n tale che 

x n + x n+1 + ... + x m(n) 

m(n) − n + 1 

> µ(1) + ɛ. 

Definiamo, pertanto, la collezione di intervalli 

C(x) := {[n, m(n)] : n ∈ N} : (1.7) 

tale insieme è un ricoprimento forte di N. Osserviamo, inoltre, che tale insieme è determinato 

in modo casuale, al variare dei valori assunti dalla sequenza (x 1 , x 2 , .., x n , ..), i 

quali, appunto, sono determinati da una sequenza di variabili casuali . Osserviamo che, 

poichè µ(B) = 1, allora 

lim sup 

n→∞ 

1 

n 

n∑ 

x i > µ(1) + ɛ, quasi certamente, 

i=1 

ovvero ad eccezione di un sottoinsieme di {0, 1} N avente misura nulla. Dunque possiamo 

affermare che quasi certamente esiste un m(1) ∈ N tale che 

x 1 + x 2 + ... + x m(1) 

m(1) 

> µ(1) + ɛ, 

questo significa che la variabile casuale m(1) (il cui valore varia al variare dei valori 

assunti dal processo ergodico {X n } n∈N ) assume quasi certamente un valore finito in N 

e, pertanto, è limitata a meno di un sottoinsieme di {0, 1} N avente probabilità piccola 

a piacere. Più precisamente, dato δ > 0, esiste un numero L tale che se D := {x = 

(x 1 , x 2 , .., x n , ..) : m(1) > L} allora µ(D) < δ 2 . 

Definiamo la funzione 

g K (x) := 1 K∑ 

χ D (T i−1 (x)), 

K 

{ 1 se x ∈ D 

ove χ D (x) = 

0 se altrimenti. 

Ora vogliamo calcolare l’integrale di questa funzione. 

Innanzitutto osserviamo che, poichè T è una trasformazione stazionaria, µ = µ ◦ T . 

Dunque 

i=1 

∫ 

g K (x)dµ = 1 K 

K∑ 

∫ 

i=1 

χ D (T i−1 x)dµ = 

= 1 K 

K∑ 

∫ 

i=1 

χ D (x)dµ = 1 Kµ(D) = µ(D). 

K 

Poichè, quindi, ∫ g K (x)dµ = µ(D) < δ 2 , per la Diseguaglianza di Markov si ha che l’insieme 

G K := {x : g K (x) ≤ δ} è tale che µ(G K ) ≥ (1 − δ).


Supponiamo x ∈ G K , allora: 

g K (x) = 1 K 

K∑ 

χ D (T i−1 x) ≤ δ. 

i=1 

Ora osserviamo questo fatto importante: per definizione dell’insieme D, sia x = (x 1 , x 2 , ..., x n , ...), 

allora 

T n−1 (x) = (x n , x n+1 , .., ..) ∈ D ⇐⇒ m(n) − n + 1 > L 

⇐⇒ |[n, m(n)]| > L. 

Se x ∈ G K , dunque, possiamo scrivere 

g k (x) = 1 K 

= 

K∑ 

χ D (T i−1 (x)) = 

i=1 

|{n ∈ [1, K] : m(n) − n + 1 > L}| 

K 

= 

|{n ∈ [1, K] : |[n, m(n)]| > L}| 

K 

≤ δ. 

Dunque abbiamo provato che, se x ∈ G K , allora l’insieme C(x), definito in (1.7), è un 

(L, δ)-ricoprimento forte dell’intervallo [1, K]. 

In virtù del Lemma di impacchettamento, quindi, esiste un sottoinsieme 

C ′ (x) = {[n i , m(n i )] : i ≤ I(x)} ⊂ C(x), 

il quale è un (1 − 2δ)-impacchettamento di [1, K]. Poichè le x i sono nonnegative, gli 

intervalli di C ′ (x) sono disgiunti e sono tutti contenuti in [1, K], allora: 

I(x) 

K∑ ∑ 

x j ≥ 

j=1 

i=1 

m(n i ) 

∑ 

j=n i 

I(x) 

∑ 

≥ (m(n i ) − n i + 1)[µ(1) + ɛ] = 

i=1 

I(x) 

∑ 

[µ(1) + ɛ] |[n i , m(n i )]| ≥ [µ(1) + ɛ](1 − 2δ)K. 

Ora osserviamo che, poichè ovviamente ∑ K 

j=1 x j ≥ ( ∑ K 

j=1 x j)χ Gk (x), si ha: 

( 

∑ K ) ( ( K ) 

∑ ) 

E x j ≥ E x j χGk (x) 

j=1 

j=1 

≥ 

≥ E([µ(1) + ɛ](1 − 2δ)Kχ Gk (x)) = [µ(1) + ɛ](1 − 2δ)KE(χ Gk (x)) = 

i=1 

= [µ(1) + ɛ](1 − 2δ)Kµ(G k ) ≥ [µ(1) + ɛ](1 − 2δ)K(1 − δ),


cosicchè: 

( 1 

µ(1) = E 

K 

K∑ 

) 

x j ≥ [µ(1) + ɛ](1 − 2δ)(1 − δ), ∀δ > 0. 

j=1 

Questo fatto è chiaramente assurdo, poiché, per δ → 0, dovrebbe aversi, per la permanenza 

del segno, 

µ(1) ≥ µ(1) + ɛ > µ(1) 

In questo modo, quindi, abbiamo provato che la (1.6) è vera e, pertanto, abbiamo 

dimostarto il teorema. 

1.4.3 Il teorema ergodico: caso generale 

In questa sottosezione dimostriamo la validità del teorema ergodico nella sua forma più 

astratta. Prima di procedere con la dimostrazione vera e propria, tuttavia, è necessario 

provare alcuni lemmi. 

Lemma 9. Consideriamo uno spazio di probabilità (X, Σ, µ). Siano f ∈ L 1 (X, Σ, µ), 

T : X → X una trasformazione stazionaria ed α un numero reale arbitrario. Definiamo 

gli insiemi 

B = 

{ 

x ∈ X : lim sup 

D = 

{ 

n→∞ 

1 

n 

x ∈ X : lim 

n→∞ 

allora µ(D) = 1 e B ∩ D = T −n B ∩ D, ∀n ∈ N. 

} 

n∑ 

f(T i−1 x) > α 

i=1 

f(T n x) 

n 

Dimostrazione. Osserviamo innanzitutto che, siccome f ∈ L 1 , si ha, ∀ɛ > 0 : 

= 0 

} 

, 

∫ 

∞ > 

|f|dµ = 

∫ +∞ 

0 

µ({x ∈ X : |f(x)| > t})dt = 

= ∑ n∈N 

∫ ɛn 

ɛ(n−1) 

µ({x ∈ X : |f(x)| > t})dt ≥ ∑ n∈N 

ɛµ({x ∈ X : |f(x)| > ɛn}) 

(la prima uguaglianza segue da un’applicazione del Teorema di Fubini, mentre l’ultima 

diseguaglianza segue dal fatto che il valore µ({x ∈ X : |f(x)| > t}) decresce all’aumentare 

di t ∈ [ɛ(n − 1), ɛn]). Dunque si ha che 

∑ 

µ({x ∈ X : |f(x)| > ɛn}) < +∞. 

n∈N


Osserviamo che, essendo T una trasformazione stazionaria, allora dev’essere 

µ({x ∈ X : |f(x)| > ɛn}) = 

Dunque 

∑ 

= µ(T −n ({x ∈ X : |f(x)| > ɛn})) = 

n∈N 

µ({x ∈ X : |f(T n x)| > ɛn}) = ∑ n∈N 

Per il lemma di Borel-Cantelli, quindi, possiamo affermare che 

( ⋂ 

µ 

n≥1 

Pertanto 

⋃ 

m≥n 

) 

{x ∈ X : |f(T m x)| > ɛm} = 

µ({x ∈ X : |f(T n x)| > ɛn}). 

µ({x ∈ X : |f(x)| > ɛn}) < +∞. 

= µ({x ∈ X : ∀n ∈ N, ∃m ≥ n tale che |f(T m x)| > ɛm}) = 0 

1 = µ({x ∈ X : ∃N = N(x) tale che |f(T n x)| ≤ ɛn, ∀n ≥ N}) = 

= µ({x ∈ X : ∃N = N(x) tale che |f(T n x)| 

n 

≤ ɛ, ∀n ≥ N}). 

Ricordiamo che questo risultato vale per ɛ > 0 fissato. Definiamo, quindi, l’insieme 

G ɛ := {x ∈ X : ∃N = N(x) tale che |f(T n x)| 

n 

≤ ɛ, ∀n ≥ N}. 

Finora abbiamo provato che µ(G ɛ ) = 1, ∀ɛ > 0. Si può notare facilmente che, dati 

ɛ 1 , ɛ 2 > 0, se ɛ 1 < ɛ 2 , allora G ɛ1 ⊆ G ɛ2 . Osserviamo, inoltre, che 

⋂ 

ɛ>0 

G ɛ = {x ∈ X : ∀ɛ > 0, ∃N ɛ = N ɛ (x) tale che |f(T n x)| 

n 

Osserviamo, dunque, che per continuità dall’alto si ha che 

( ) ⋂ 

G ɛ 

ɛ>0 

µ(D) = µ 

≤ ɛ, ∀n ≥ N ɛ } 

f(T n x) 

= {x ∈ X : lim = 0} = D. 

n→∞ n 

= lim 

ɛ→0 

µ(G ɛ ) = 1. 

Sia ora x ∈ B ∩ D, ovvero, ricordiamo, sia x ∈ X tale che : 

lim sup 

n→∞ 

1 

n 

n∑ 

f(T i−1 x) > α e 

i=1 

f(T n x) 

lim = 0. 

n→∞ n


Innanzitutto proviamo che T (x) ∈ B. Osserviamo che 

1 

n 

n∑ 

f(T i−1 (T (x))) = 1 n+1 

∑ 

f(T i−1 x) = 

n 

i=1 

= 1 n 

i=1 

i=2 

n∑ 

f(T i−1 x) + 1 n+1 

∑ 

f(T i−1 x) − 1 n∑ 

f(T i−1 x) = 

n 

n 

i=2 

i=1 

= 1 n∑ 

( f(T 

f(T i−1 n x) 

x) + − f(x) ) 

. (1.8) 

n 

n n 

Notiamo che, per come abbiamo definito l’insieme D e poiché, per ogni x fissato, si ha 

f(x) 

chiaramente lim n→∞ n 

= 0, allora se x ∈ B ∩ D si ha che 

i=1 

f(T n x) 

lim 

n→∞ n 

− 

f(x) 

n 

f(T n x) 

= lim 

n→∞ n 

− 

f(x) 

lim 

n→∞ n 

Dunque, in virtù della (1.8) e del fatto che x ∈ B, abbiamo 

= 0 + 0 = 0. 

lim sup 

n→∞ 

1 

n 

n∑ 

f(T i−1 (T (x))) = 

i=1 

( 

1 

n∑ 

= lim sup 

n→∞ n 

i=1 

n∑ 

= lim sup 

n→∞ 

i=1 

( f(T 

f(T i−1 n x) 

x) + 

n 

f(T i−1 x) + lim 

n→∞ 

− f(x) ) ) = 

n 

( f(T n x) 

− f(x) ) 

= 

n n 

n∑ 

= lim sup 

n→∞ 

f(T i−1 x) > α. (1.9) 

Dunque T (x) ∈ B. Osserviamo che, inoltre, T (x) ∈ D, poiché, siccome per ipotesi 

x ∈ B ∩ D, si ha 

f(T n (T (x))) f(T n+1 x) f(T n x) 

lim 

= lim 

= lim = 0 (1.10) 

n→∞ n 

n→∞ n n→∞ n 

Dunque x ∈ B ∩ D ⇒ T (x) ∈ B ∩ D. Osserviamo che, inoltre, per la (1.9) e la (1.10) 

vale anche l’implicazione inversa, dunque x ∈ B ∩ D ⇐⇒ T (x) ∈ B ∩ D. Dunque 

B ∩D = T −1 (B ∩D) = (T −1 B)∩(T −1 D) = T −1 B ∩D, poiché, per la (1.10), D = T −1 D. 

Osserviamo che, iterando questa proprietà, otteniamo che 

B ∩ D = T −1 (B ∩ D) = T −1 (T −1 (B ∩ D)) = T −2 (B ∩ D) 

dunque B ∩ D = T −n B ∩ D, ∀n ∈ N. 

i=1 

= T −2 B ∩ T −2 D =T −2 B ∩ D = . . . = T −n B ∩ D = . . .


Lemma 10. Sia T una trasformazione stazionaria su uno spazio di probabilità (X, Σ, µ), 

sia f ∈ L 1 (X, Σ, µ) e sia α un numero reale arbitrario. Se definiamo l’insieme 

{ 

} 

1 

n∑ 

B = x : lim sup f(T i−1 x) > α , 

n→∞ n 

allora 

∫ 

B 

i=1 

f(x)dµ(x) ≥ αµ(B). (1.11) 

Dimostrazione. Se µ(B) = 0, il lemma è banalmente verificato. Consideriamo, dunque, 

il caso in cui µ(B) > 0. Definiamo l’insieme 

{ 

} 

f(T n x) 

D = x ∈ X : lim = 0 . 

n→∞ n 

Sappiamo, dal lemma precedente, che µ(D) = 1, dunque µ(B ∩ D) = µ(B). Inoltre, 

definiamo la misura condizionata 

µ B (A) := 

µ(A ∩ B) 

, ∀A ∈ Σ 

µ(B) 

(ricordiamo che abbiamo supposto µ(B) > 0). Osserviamo che, in base a tale definizione 

ed alla definizione di integrale, si può concludere facilmente che 

∫ 

f(x)dµ B (x) = 1 ∫ 

f(x)dµ(x). 

µ(B) 

B 

Siccome nella (1.11) l’integrale è calcolato sull’insieme B, in virtù delle affermazioni 

precedenti osserviamo che 

∫ 

∫ 

∫ 

f(x)dµ(x) = f(x)dµ(x) = µ(B) f(x)dµ B (x). 

B 

B∩D 

B∩D 

Al fine di dimostrare il lemma, dunque, sarà sufficiente far vedere che 

∫ 

f(x)dµ B (x) ≥ α. 

B∩D 

Ricordiamo, in base al lemma precedente, che B ∩ D = T −n B ∩ D, ∀n ∈ N. Ciò equivale 

esattamente ad affermare che, dato x ∈ B ∩ D, per ogni numero naturale n esiste 

m(n) ∈ N tale che m(n) ≥ n e che 

∑ m(n) 

i=n f(T i−1 x) 

m(n) − n + 1 > α. 

Dunque, per x ∈ B∩D, è sempre definito il ricoprimento forte C(x) = {[n, m(n)] : n ∈ N}. 

Osserviamo che, dato x ∈ B, esiste sempre m(1) ∈ N tale che 

∑ m(1) 

i=1 f(T i−1 x) 

> α. 

m(1) 

B


Questo significa che la variabile aleatoria m(1) è sempre finita, per x ∈ B, dunque è 

limitata, a meno di un insieme avente misura µ B piccola a piacere. Pertanto possiamo 

affermare che, dato δ > 0, esiste L > 0 tale che l’insieme E := {x ∈ B : m(1) > L} è 

tale che µ B (E) < δ 2 . Definiamo, per ogni K > 0, K ∈ N, l’insieme 

G K = 

{ 

x ∈ B ∩ D : 

1 

K 

K∑ 

i=1 

} 

χ E∩D (T i−1 x) ≤ δ . 

Osserviamo che, se definiamo g K (x) := 1 K 

∑ K 

i=1 χ E∩D(T i−1 x), allora, per la proprietà di 

linearità dell’integrale e poiché T è stazionaria e B ∩ D è T -invariante, abbiamo che 

∫ 

g K (x)dµ B (x) = 1 K∑ 

∫ 

χ E∩D (T i−1 x)dµ B (x) = 

B∩D K 

i=1 

B∩D 

= 1 K∑ 

∫ 

χ E∩D (x)dµ B (x) = 1 ∫ 

K 

K K χ E∩D (x)dµ B (x) = 

i=1 

B∩D 

B∩D 

= 1 K Kµ B(E ∩ D) = µ B (E). 

Per la diseguaglianza di Markov, dunque, si ha che µ B (G K ) ≥ 1 − δ. 

Supponiamo di scegliere K > 0 tale che K ≥ L δ 

: sotto queste ipotesi possiamo applicare 

il lemma di impacchettamento al ricoprimento forte C. Più precisamente, esiste 

un sottoricoprimento C ′ (x) = {[n i , m(n i )] : i ≤ I(x)} ⊂ C(x), il quale è un (1 − 2δ)- 

impacchettamento dell’intervallo [1, K], e pertanto ricordiamo che si ottiene la seguente 

diseguaglianza : 

Osserviamo che, per x ∈ G K 

K∑ 

f(T j−1 (x)) ≥ 

j=1 

≥ 

∑ 

I(x) 

∑ 

|[n i , m(n i )]| ≥ (1 − 2δ)K. 

i=1 

j∈[1,K]\ ⋃ [n i ,m(n i )] 

∑ 

j∈[1,K]\ ⋃ [n i ,m(n i )] 

= 

∑ 

j∈[1,K]\ ⋃ [n i ,m(n i )] 

I(x) 

∑ 

f(T j−1 (x)) + 

m(n i ) 

∑ 

i=1 j=n(i) 

f(T j−1 (x)) ≥ 

I(x) 

∑ 

f(T j−1 (x)) + (m(n i ) − n i + 1)α = 

i=1 

I(x) 

∑ 

f(T j−1 (x)) + α |[n i , m(n i )]| ≥ 

≥ 

∑ 

i=1 

j∈[1,K]\ ⋃ [n i ,m(n i )] 

f(T j−1 (x)) + αK(1 − 2δ).


Ora, nel caso in cui f sia limitata, supponiamo |f(x)| < M, M > 0, in base al risultato 

ottenuto dal lemma di impacchettamento posso affermare che 

∑ 

j∈[1,K]\ ⋃ [n i ,m(n i )] 

f(T j−1 (x)) ≥ 

∑ 

j∈[1,K]\ ⋃ [n i ,m(n i )] 

Pertanto, in tale situazione si ha che, per x ∈ G K , 

(−M) ≥ 

K∑ 

f(T j−1 (x)) ≥ −2MKδ + αK(1 − 2δ) 

j=1 

, mentre, per x /∈ G K , si ha che 

e quindi 

∫ 

B∩D 

j=1 

K∑ 

∫ 

f(T j−1 (x))dµ B (x) = 

B∩D 

≥ −2MKδ. 

f(x)dµ B (x) ≥ 2MKδ + αK(1 − 2δ). 

Dunque, facendo tendere δ a 0, otteniamo il risultato desiderato. 

Se, invece, f non è limitata, allora osserviamo che 

∫ 

B∩D 

∫ 

f(x)dµ B (x) = 

B∩D 

1 

K 

K∑ 

f(T j−1 (x))dµ B (x) = 

j=1 

∫ I(x) m(n 

1 ∑ i ) 

∑ 

∫ 

= 

f(T j−1 1 

K∑ 

(x))dµ B (x) + 

f(T j−1 (x))dµ B (x)+ 

G K 

K 

i=1 j=n 

(B∩D)\G K 

K 

i j=1 

∫ 

1 ∑ 

+ 

f(T j−1 (x))dµ B (x)+ 

G K 

K 

j∈[1,K−L]\ ⋃ [n i ,m(n i )] 

∫ 

1 ∑ 

+ 

f(T j−1 (x))dµ B (x). 

G K 

K 

j∈[K−L,K]\ ⋃ [n i ,m(n i )] 

Innanzitutto notiamo che, per il lemma di impacchettamento e poiché x ∈ B ∩ D, si ha 

∫ 

G K 

1 

K 

I(x) 

∑ 

m(n i ) 

∑ 

f(T j−1 (x))dµ B (x) 

i=1 j=n i 

∫ I(x) 

1 ∑ 

≥ 

(m(n i ) − n i + 1)αdµ B (x) ≥ 1 ∫ 

(1 − 2δ)Kαdµ B (x) 

G K 

K 

K G K 

i=1 

= 1 K (1 − 2δ)Kαµ B(G K ) = (1 − 2δ)αµ B (G K ).


Sia ora 

Osserviamo che 

|I 1 | ≤ 1 K 

= 1 K 

∫ 

(B∩D)\G K j=1 

K∑ 

∫ 

j=1 

∫ 

1 

K∑ 

I 1 := 

f(T j−1 (x))dµ B (x). 

(B∩D)\G K 

K 

K ∑ 

j=1 

|f(T j−1 (x))|dµ B (x) = 

(B∩D)\G K 

|f(T j−1 (x))|dµ B (x) = 1 K 

K∑ 

∫ 

j=1 

T 1−j ((B∩D)\G K ) 

|f(x)|dµ B (x). 

Osserviamo che, poiché f ∈ L 1 , allora |I 1 | < +∞. Inoltre notiamo che, poiché µ(G K ) ≥ 

1 − δ, allora 

µ B ((B ∩ D) \ G K ) = µ B (B ∩ D) − µ B (G K ) ≤ 1 − (1 − δ) = δ. 

Essendo per ipotesi T stazionaria, dunque, si ha che 

µ(T 1−j ((B ∩ D) \ G K )) = µ((B ∩ D) \ G K ) ≤ δ. 

Dunque gli insiemi T 1−j ((B ∩ D) \ G K ), al variare di j ∈ {1, ..., K}, hanno la stessa 

misura, la quale è limitata superiormente da δ. Ricordiamo che la scelta di δ > 0, da cui 

dipende la definizione dell’insieme G K , è arbitraria. Dunque, per il Lemma 6, scegliamo 

δ > 0 tale che, se µ((B ∩ D) \ G k ) < δ, allora è possibile stimare |I 1 | con una quantità 

arbitrariamente piccola. Sia ora 

∫ 

I 2 := 

G K 

1 

K 

∑ 

j∈[1,K−L]\ ⋃ [n i ,m(n i )] 

f(T j−1 (x))dµ B (x). 

Osserviamo che, per il lemma di impacchettamento, se j ∈ [1, K − L] \ ⋃ [n i ,m(n i )] , allora 

m(j) − j + 1 > L. Sotto queste ipotesi, dunque, se x ∈ G K ⊂ B ∩ D, allora T j−1 (x) ∈ 

E ∩ D, per come abbiamo definito l’insieme E. Dunque, ricordando che T è stazionaria, 

si ha che 

|I 2 | ≤ 1 ∫ 

∑ 

|f(T j−1 (x))|dµ B (x) = 

K 

G K j∈[1,K−L]\ ⋃ [n i ,m(n i )] 

= 1 K 

= 1 K 

∫ 

B∩D 

j=1 

K∑ 

∫ 

j=1 

K∑ 

χ E∩D (T j−1 (x))|f(T j−1 (x))|dµ B (x) = 

B∩D 

= 1 K K ∫ 

χ E∩D (T j−1 (x))|f(T j−1 (x))|dµ B (x) = 

B∩D 

∫ 

χ E∩D (x)|f(x)|dµ B (x) = 

E∩D 

|f(x)|dµ B (x).


Osserviamo che, in questo caso, all’aumentare di L, µ B (E) = µ B (E ∩ D) è una quantità 

sempre minore, dunque per L grande, |I 2 | è arbitrariamente piccolo. 

Sia ora 

∫ 

1 ∑ 

I 3 := 

f(T j−1 (x))dµ B (x). 

G K 

K 

j∈[K−L,K]\ ⋃ [n i ,m(n i )] 

Tale valore può essere facilmente maggiorato se osserviamo che, poichè G K ⊂ B ∩ D 

|I 3 | ≤ 1 ∑ 

∫ 

|f(T j−1 (x))|dµ B (x) ≤ 

K 

j∈(K−L,K] 

G K 

≤ 1 ∑ 

∫ 

|f(T j−1 (x))|dµ B (x) = 

K 

j∈(K−L,K] 

= 1 K 

∑ 

j∈(K−L,K] 

B∩D 

∫ 

B∩D 

|f(x)|dµ B (x) ≤ 

≤ 1 K L ∫ 

B∩D 

|f(x)|dµ B (x). 

Dunque, per L fissato, se K è sufficientemente grande, I 3 è piccolo. Ora ricordiamo che 

vale la relazione 

∫ 

f(x)dµ B (x) ≥ (1 − 2δ)αµ B (G K ) + I 1 + I 2 + I 3 

B∩D 

≥ (1 − 2δ)α(1 − δ) + I 1 + I 2 + I 3 

Ora fissiamo ɛ > 0. In base a tale valore ed alle stime ottenute, pertanto, siano : 

- δ 0 tale che, ∀δ ≤ δ 0 , (1 − 2δ)α(1 − δ) > α − ɛ 4 ; 

- δ 1 tale che δ 1 < δ 0 e che |I 1 | < ɛ 4 ; 

- L 0 sufficientemente grande e tale che |I 2 | < ɛ 4 ; 

- K 0 sufficientemente grande e tale che L 0 

K 0 

< δ 1 e |I 3 | < ɛ 4 . 

Per tali valori di δ 1 , L 0 , K 0 , dunque, otteniamo che 

∫ 

f(x)dµ B (x) ≥ α − ɛ 4 − ɛ 4 − ɛ 4 − ɛ 4 = α − ɛ. 

B∩D 

Ma questo significa che 

∫ 

B∩D f(x)dµ B(x) ≥ α − ɛ, ∀ɛ > 0. 

Per ɛ → 0, dunque, e per la permanenza del segno otteniamo che 

∫ 

f(x)dµ B (x) ≥ α, 

quindi possiamo concludere. 

B∩D


Ora disponiamo di tutti gli strumenti necessari per dimostrare il teorema ergodico, 

di cui riportiamo l’enunciato. 

Teorema 5 (Teorema ergodico). Sia T una trasformazione stazionaria su uno spazio di 

probabilità (X, Σ, µ) e sia f una funzione integrabile, allora la media 1 n 

∑ n 

i=1 f(T i−1 x) 

converge quasi certamente ed in L 1 , per n −→ ∞, verso una funzione T -invariante 

f ∗ (x). 

Dimostrazione. Ricordiamo che affermare che la successione 1 ∑ n 

n i=1 f(T i−1 x) sia convergente 

per n → ∞ equivale ad affermare che 

1 

n∑ 

lim inf f(T i−1 1 

n∑ 

x) = lim sup f(T i−1 x). 

n→∞ n 

n→∞ n 

i=1 

Osserviamo, innanzitutto, che il risultato del lemma precedente rimane vero per qualsiasi 

sottoinsieme C ∩ D ⊆ B ∩ D, purchè tale insieme sia T -invariante: si può notare, infatti, 

che tutti i passaggi utilizzati nel suddetto lemma rimangono validi qualora si restringa 

l’insieme B ∩ D all’insieme C ∩ D. Definiamo pertanto l’insieme 

C := 

{ 

1 

x : lim inf 

n→∞ n 

n∑ 

i=1 

i=1 

f(T i−1 x) < α < β < lim sup 

n→∞ 

1 

n 

n∑ 

i=1 

} 

f(T i−1 x) . 

Si noti che C ∩ D è T-invariante. In base al lemma precedente, dunque, osserviamo 

innanzitutto che 

∫ 

f(x)dµ(x) ≥ βµ(C) 

Notiamo inoltre che 

lim inf 

n→∞ 

1 

n 

n∑ 

i=1 

C∩D 

f(T i−1 x) < α ⇐⇒ − lim inf 

n→∞ 

1 

n 

⇐⇒ 

n∑ 

f(T i−1 x) > −α 

i=1 

lim sup 

n→∞ 

Sempre in virtù del lemma precedente, quindi, concludiamo che 

Dunque 

− ∫ C f(x)dµ(x) ≥ −αµ(C) ⇐⇒ ∫ C 

f(x)dµ(x) ≤ αµ(C). 

∫ 

βµ(C) ≤ 

C 

f(x)dµ(x) ≤ αµ(C). 

1 

n 

n∑ 

(−f(T i−1 x)) > −α . 

Siccome α < β, pertanto, la diseguaglianza ottenuta può essere vera se e soltanto se 

µ(C)=0. Osserviamo che l’insieme C, per come è definito, dipende dai parametri α e 

β, dunque sia C = C α,β . Notiamo, sempre in virtù della definizione di C, che vale la 

seguente inclusione: 

{ 

1 

n∑ 

c ⋃ 

x : ∃ lim f(T x)} i−1 ⊆ C α,β . 

n→∞ n 

i=1 

α,β∈Q,α


Dunque possiamo concludere che la successione 1 n 

∑ n 

i=1 f(T i−1 x) converge quasi certamente 

per n → ∞. 

Ora dobbiamo provare che la successione converge in L 1 . Definiamo, innanzitutto, 

l’operatore f ↦→ U T (f) in questo modo: 

U T (f)(x) := f(T x), ∀x ∈ X, f ∈ L 1 . 

Tale operatore è lineare, infatti, date f e g in L 1 , per ogni x ∈ X si ha che 

U T (f + g)(x) = (f + g)(T x) = f(T x) + g(T x) = U T (f)(x) + U T (g)(x). 

Inoltre osserviamo che, essendo T stazionaria, 

∫ 

∫ 

‖U T f‖ L 1 = |f(T x)|dµ(x) = 

|f(x)|dµ(x) = ‖f‖ L 1. 

Dunque, se definiamo, ∀x ∈ X, la media temporale 

A n f(x) := 1 n 

n∑ 

i=1 

U i−1 

T 

f(x) 

osserviamo che la linearità di A n segue facilmente dalla linearità dell’operatore U T . 

Inoltre, notiamo che 

‖A n f‖ L 1 = 1 n 

∫ 

| 

n∑ 

i=1 

U i−1 

T 

f(x)|dµ(x) ≤ 1 n 

n∑ 

∫ 

i=1 

= 1 n 

|U i−1 

T 

f(x)|dµ(x) 

n∑ 

∫ 

i=1 

|f(x)|dµ(x) = ‖f‖ L 1. (1.12) 

Supponiamo f sia limitata, cioè esista M > 0 tale che |f(x)| ≤ M. Osserviamo che, 

allora, 

|A n f(x)| ≤ 1 n∑ 

|U i−1 

T 

f(x)| = 1 n∑ 

|f(T i−1 x)| ≤ 1 nM = M. 

n 

n 

n 

i=1 

Siccome abbiamo provato che A n f converge quasi certamente, dunque, poichè |A n f| è 

limitata, per il teorema di convergenza dominata si ha che A n f converge in L 1 . Dunque 

il teorema è provato se f è limitata. 

Consideriamo ora il caso generale: sia f ∈ L 1 , in generale non limitata. Dato ɛ > 0, 

dunque, sia g ɛ un’approssimazione limitata di f, tale che ‖f − g ɛ ‖ ≤ ɛ 3 

(si può scegliere, 

ad esempio, g ɛ (x) = f(x)χ {|f(x)|≤M} , prendendo M = M ɛ sufficientemente grande). Ora 

osserviamo che 

‖f − A n f‖ L 1 ≤ ‖f − g‖ L 1 + ‖g − A n g‖ L 1 + ‖A n g − A n f‖ L 1. 

Ora notiamo che, in virtù di quanto osservato nella (1.12), 

i=1 

‖A n g − A n f‖ L 1 = ‖A n (g − f)‖ L 1 ≤ ‖g − f‖ L 1.


Osserviamo inoltre che, poichè, essendo g limitata, A n g → g in L 1 , allora, per ɛ > 0, 

esiste n ɛ ∈ N tale che ‖g − A n g‖ L 1 ≤ ɛ 3 , ∀n ≥ n ɛ. Dunque possiamo concludere che, 

fissato ɛ > 0, per ogni n ≥ n ɛ si ha che 

‖f − A n f‖ ≤ 2‖g − f‖ L 1 + ‖A n g − g‖ L 1 ≤ 2 ɛ 3 + ɛ 3 = ɛ, 

ovvero A n f → f in L 1 .

Capitolo 2 

Applicazioni ed esempi 

In questo capitolo utilizzeremo la teoria sviluppata finora al fine di dimostrare l’ergodicità 

di alcuni prarticolari processi stocastici. 

2.1 Strumenti tecnici 

In questa sezione richiamiamo alcuni concetti di calcolo delle probabilità necessari al 

nostro scopo. Sia, innanzitutto, (X, Σ, µ) uno spazio di misura e consideriamo un’ applicazione 

T : X → X. Tale funzione è detta mescolante se 

lim µ(T −n C ∩ D) = µ(C)µ(D), ∀C, D ∈ Σ. (2.1) 

n→∞ 

Un processo stocastico, dunque, si dice mescolante se l’operazione di shift è mescolante 

rispetto alla misura di Kolmogorov associata a tale processo. 

Lemma 11. Sia (X, Σ, µ) uno spazio di misura e sia T : X → X un’applicazione. Se T 

è mescolante, allora T è ergodica. 

Dimostrazione. Sia C ∈ Σ tale che T −1 C = C: osserviamo che, poiché C = T −1 C = 

. . . = T −n C = . . ., allora T −n C ∩ D = C ∩ D, ∀D ∈ Σ, ∀n ∈ N. Essendo T mescolante, 

quindi, in virtù della (2.9) otteniamo che µ(C ∩ D) = µ(C)µ(D), ∀D ∈ Σ. Se poniamo 

C = D, quindi, otteniamo che µ(C) = µ(C) 2 e questo è vero se e soltanto se µ(C) = 0 

oppure µ(C) = 1. 

Introduciamo ora il concetto di mescolanza debole. Un’applicazione T : X → X è 

detta debolmente mescolante se 

lim 

N→∞ 

1 

N 

N∑ 

µ(T −j C ∩ D) = µ(C)µ(D), ∀C, D ∈ Σ. 

j=1 

Vediamo che, in questo caso, la condizione di mescolanza debole non solo implica la 

condizione di ergodicità, ma è anche del tutto equivalente a quest’ultima. 

31

32 CAPITOLO 2. APPLICAZIONI ED ESEMPI 

Lemma 12. Sia (X, Σ, µ) uno spazio di misura. Allora T : X → X una trasformazione 

debolmente mescolante ⇐⇒ T è ergodica. 

Dimostrazione. Consideriamo separatamente le due implicazioni. 

[=⇒]Sia C ∈ Σ tale che T −1 C = C, osserviamo che allora C = T −1 C = . . . = T −n C, . . ., 

dunque la condizione di mescolanza debole implica che 

lim 

N→∞ 

1 

N 

N∑ 

j=1 

µ(T −j 1 

C ∩ D) = lim 

N→∞ N 

N∑ 

µ(C ∩ D) 

j=1 

1 

= lim Nµ(C ∩ D) = µ(C ∩ D) = µ(C)µ(D) ∀D ∈ Σ. 

N→∞ N 

Se, quindi, poniamo D = C, otteniamo che µ(C) = µ(C) 2 , ovvero µ(C) = 0 oppure 

µ(C) = 1. 

[⇐=]Supponiamo che T sia una trasformazione ergodica. In virtù del teorema ergodico, 

quindi, si ha che per ogni funzione integrabile f deve vale 

1 

lim 

n→∞ n 

n∑ 

∫ 

f(T j x) = 

j=1 

fdµ, 

quasi certamente ed in L 1 . Ora siano C, D ∈ Σ e poniamo f(x) = χ C (x). In virtù 

dell’osservazione precedente si ha che 

1 

n∑ 

lim χ C (T j 1 

n∑ 

∫ 

x) = lim χ 

n→∞ n 

n→∞ n T −j C(x) = χ C (x)dµ = µ(C), (2.2) 

j=1 

j=1 

quasi certamente ed in L 1 . Osserviamo ora che 

1 

N 

N∑ 

µ(T −j C ∩ D) = 1 N 

j=1 

N∑ 

∫ 

j=1 

∫ 

χ T −j C∩D(x)dµ(x) = 

∫ 

= 

1 

N∑ 

χ 

N T −j C∩D(x)dµ(x) 

j=1 

1 

N∑ 

χ 

N T −j C(x)χ D (x)dµ(x). 

j=1 

Ora, in base alla (2.2) ed osservando che, ovviamente, |χ T −j C(x)| ≤ 1, ∀j, e che, quindi, 

1 

N 

∑ N 

j=1 χ T −j C(x)χ D (x) è limitata, in base al teorema di convergenza dominata si ha 

che 

lim 

N→∞ 

1 

N 

N∑ 

j=1 

∫ 

µ(T −j 1 

C ∩ D)χ D (x) = lim 

N→∞ D N 

N∑ 

χ T −j C(x)dµ(x) 

j=1 

∫ 

= 

D 

µ(C)dµ(x)χ D (x) = µ(C)µ(D). 

Dunque abbiamo provato che, se T è una trasformazione ergodica, allora è debolmente 

mescolante.

2.1. STRUMENTI TECNICI 33 

A questo punto, disponiamo di ulteriori strumenti che possono essere utili nel determinare 

se una data applicazione sia ergodica (e, nel caso della mescolanza debole, 

possiamo anche verificare che non lo sia). Ai fini pratici, tuttavia, la verifica delle proprietà 

di mescolanza e di mescolanza debole può essere complicata, dato che deve valere 

per una coppia generica di elementi appartenenti alla σ-algebra che stiamo considerando. 

A tal proposito, un aiuto notevole per la verifica di tali proprietà è fornito da un risultato, 

la cui dimostrazione richiede la conoscenza di alcune definizioni di base e dell’enunciato 

del lemma di Dynkin. 

Definizione 6 (Base di una σ-algebra). Sia X un insieme e sia Σ una σ-algebra. Un 

sottoinsieme I ⊆ Σ è detto base di Σ se 

• Σ è generata da I 

• A ∩ B ∈ I, ∀A, B ∈ I 

Definizione 7. Sia X un insieme. Un sottoinsieme D ⊆ X è detto classe monotona su 

X se soddisfa le seguenti condizioni: 

• X ∈ D. 

• Se A, B ∈ D ed A ⊆ B, allora B \ A ∈ D. 

• Se {A n } n∈N è una successione di elementi di D tale che A n ⊆ A n+1 , ∀n ≥ 1, allora 

⋃ 

n∈N A n ∈ D. 

Ora che disponiamo di queste definizioni, possiamo procedere enunciando il seguente 

lemma. 

Lemma 13 (Lemma di Dynkin). Sia X un insieme, sia Σ una σ-algebra su X e sia I 

una base di Σ. Ogni classe monotòna D su X contenente I contiene anche Σ. 

Dimostrazione. Si veda, ad esempio, [2, §A1.3 (pag. 193)]. 

Ora, grazie a questi strumenti, possiamo enunciare e dimostrare un teorema che 

risulterà molto utile al fine di dimostrare l’ergodicità di alcuni tipi di processi stocastici. 

Teorema 6. Sia (X, Σ, µ) uno spazio di misura e sia T : X → X un’applicazione stazionaria. 

Se la condizone di mescolanza (rispettivamente di mescolanza debole) è soddisfatta 

per ogni C, D appartenenti ad una base di Σ, allora tale condizione (rispettivamente la 

condizione di mescolanza debole) è valida per ogni C, D ∈ Σ. 

Dimostrazione. Dimostriamo il teorema relativamente alla proprietà di mescolanza: la 

proprietà di mescolanza debole si tratta in modo analogo. 

Sia, dunque, I una base di Σ : dobbiamo provare che se, per ogni C, D ∈ I, 

lim µ(T −n C ∩ D) = µ(C)µ(D), (2.3) 

n→∞


allora tale proprietà è valida per ogni C, D ∈ Σ. 

Innanzitutto dimostriamo che la (2.3) vale per ogni coppia C, D,con C ∈ I e D ∈ Σ. 

Sia, pertanto, C ∈ I fissato e definiamo l’insieme 

Γ C := { D ∈ Σ : lim 

n→∞ µ(T −n C ∩ D) = µ(C)µ(D) } . 

Dimostriamo che Γ C è una classe monotòna. Chiaramente X ∈ Γ C , poichè T è stazionaria, 

dunque 

lim µ(T −n C ∩ X) = lim µ(T −n C) = lim µ(C) = µ(C) = µ(C)µ(X). 

n→∞ n→∞ n→∞ 

Innanzitutto, siano D 1 , D 2 ∈ Γ C tali che D 1 ⊆ D 2 , osserviamo che, dalla definizione di 

Γ C , segue che 

lim µ(T −n C ∩ (D 2 \ D 1 )) = lim µ((T −n C ∩ D 2 ) \ (T −n C ∩ D 1 )) 

n→∞ n→∞ 

= lim µ(T −n C ∩ D 2 ) − lim (T −n C ∩ D 1 ) = µ(C)µ(D 2 ) − µ(C)µ(D 1 ) 

n→∞ n→∞ 

= µ(C)(µ(D 2 ) − µ(D 1 )) = µ(C)µ(D 2 \ D 1 ) 

dunque D 2 \ D 1 ∈ Γ C . 

Sia, ora, {D m } m∈N una successione di elementi di Γ C tale che D m ⊆ D m+1 , ∀n ≥ 1 

e sia D := ⋃ m∈N D m: proviamo che D ∈ Γ C . Ricordiamo che, per la continuità dal 

basso, si ha che lim m→∞ µ(D m ) = µ(D). Sia, dunque, ɛ > 0 e sia m ɛ ∈ N tale che 

|µ(D) − µ(D mɛ )| < ɛ. Osserviamo che, per ogni n ∈ N, 

|µ(T −n C ∩ D) − µ(T −n C ∩ D mɛ )| = |µ(T −n C ∩ (D \ D mɛ )| 

dunque 

≤ µ(D \ D mɛ ) = µ(D) − µ(D mɛ ) < ɛ 

µ(T −n C ∩ D mɛ ) − ɛ ≤ µ(T −n C ∩ D) ≤ µ(T −n C ∩ D mɛ ) + ɛ. 

Osserviamo che, poichè D mɛ ∈ Γ C , per ipotesi 

dunque 

lim 

n→∞ µ(T −n C ∩ D mɛ ) = µ(C)µ(D mɛ ), 

lim sup µ(T −n C ∩ D) ≤ µ(C)µ(D mɛ ) + ɛ ≤ µ(C)µ(D) + 2ɛ 

n→∞ 

lim inf 

n→∞ µ(T −n C ∩ D) ≥ µ(C)µ(D mɛ ) − ɛ ≥ µ(C)µ(D) − 2ɛ. 

Questo fatto vale per ogni ɛ > 0 (e per il corrispondente n ɛ ), dunque, facendo tendere ɛ 

a 0, otteniamo che 

µ(C)µ(D) ≤ lim inf µ(T −n C ∩ D) ≤ lim sup µ(T −n C ∩ D) ≤ µ(C)µ(D). 

n→∞ 

n→∞

2.2. PROCESSI STAZIONARI 35 

Quindi esiste lim n→∞ µ(T −n C ∩ D) = µ(D)µ(C) e dunque D ∈ Γ C . Dunque abbiamo 

provato che Γ C è una classe monotòna: in virtù del lemma di Dynkin, dunque, Γ C ⊇ Σ, 

ovvero la relazione (2.3) è soddisfatta per ogni C ∈ I e per ogni D ∈ Σ. Viceversa, se, 

fissato D ∈ Σ, definiamo l’insieme 

˜Γ D := { C ∈ Σ : lim 

n→∞ µ(T −n C ∩ D) = µ(C)µ(D) } . 

Si noti che ˜Γ D ⊇ I. Si dimostra in maniera simile che ˜Γ D è una classe monotòna: basta 

osservare che, per ogni n ∈ N, l’applicazione T −n preserva le relazioni insiemistiche ed è 

chiusa rispetto all’unione ed all’intersezione, dunque si procede analogamente a quanto 

fatto prima. Quindi ˜Γ D ⊇ Σ e la relazione (2.3) è valida per ogni coppia C, D tale che 

C ∈ Σ e D ∈ Σ. 

Ora che disponiamo di tutti gli strumenti necessari, possiamo procedere con alcuni 

esempi concreti di processi ergodici. 

2.2 Processi stazionari 

Sia (X, Σ, P ) uno spazio di probabilità e sia {X n } n∈N un processo stocastico a valori in 

uno spazio di misurabile (E, E), ossia tale che 

X n : (X, Σ, P ) → (E, E), ∀n ∈ N. 

Supponiamo che tale sequenza sia costituita da variabili casuali indipendenti ed identicamente 

distribuite, ovvero: 

P (X n ∈ A n |X n−1 ∈ A n−1 , . . . , X 1 ∈ A 1 ) = P (X n ∈ A n ) · . . . P (X 1 ∈ A 1 ), 

∀n ≥ 1, ∀A 1 , . . . , A n ∈ E 

Notiamo che un processo stocastico i.i.d. è stazionario, infatti, dati A m , A m+1 , . . . , A n ∈ 

E, ove m, n ∈ N, m < n, si ha che 

P (X m ∈ A m , X m+1 ∈ A m+1 , . . . , X n ∈ A n ) 

= P (X m ∈ A m ) · P (X m+1 ∈ A m+1 ) · . . . · P (X 1 ∈ A 1 ) 

= P (X m+1 ∈ A m ) · P (X m+2 ∈ A m+1 ) · . . . · P (X 2 ∈ A 1 ) 

= P (X m+1 ∈ A m , X m+2 ∈ A m+1 , . . . , X 2 ∈ A 1 ). 

Consideriamo ora l’operazione di shift definita sullo spazio prodotto E n , munito della 

σ-algebra prodotto E n 

T : E N → E N 

(x 1 , x 2 , . . . x n , . . .) ↦→ (x 2 , x 3 , . . . , x n , . . .). 

Il nostro obiettivo è dimostrare che la trasformazione di shift è ergodica rispetto alla 

misura di Kolmogorov associata al processo {X n } n∈N . Innanzitutto, proviamo a vedere


se tale operazione gode della proprietà di mescolanza. Si dimostra che una base della 

σ-algebra prodotto E n è data dall’insieme costituito dagli elementi del tipo 

A 1 × . . . × A n := {(x 1 , . . . , x n , . . .) : x m ∈ A m , . . . , x n ∈ A n }, 

(a tal proposito, si legga [1, pag.2]. Siano, quindi 

C := A 1 × . . . × A n 

D = B 1 × . . . × B n . 

Osserviamo che, dato N ∈ N tale che N > n, 

Dunque 

ove m, n ∈ N, m ≤ n, A m , . . . , A n ∈ E 

T −N C = {(x 1 , . . . , x n , . . .) : x N+1 ∈ A 1 , . . . , x N+n ∈ A n }. 

T −N C ∩ D = {(x 1 , . . . , x n , . . .) : x 1 ∈ B 1 , . . . , x n ∈ B n , x N+1 ∈ A 1 , . . . , x N+n ∈ A n }, 

pertanto, in virtù dell’indipendenza delle X n e dalla proprietà di stazionarietà del processo 

stocastico 

µ(T −N C ∩ D) = P (X 1 ∈ B 1 , . . . , X n ∈ B n , X N+1 ∈ A 1 , . . . , X N+n ∈ A n ) 

= P (X 1 ∈ B 1 , . . . , X n ∈ B n ) · P (X N+1 ∈ A 1 , . . . , X N+n ∈ A n ) 

= µ(D)µ(T −N C) = µ(D)µ(C) 

Dunque la proprietà di mescolanza è soddisfatta e, pertanto, le successioni di variabili 

casuali indipendenti ed identicamente distribuite sono processi ergodici. 

2.3 Catene di Markov 

Sia (X, Σ, P ) uno spazio di probabilità e sia A un insieme di cardinalità finita. 

Consideriamo un processo stocastico {X n } n∈N , definito su (X, Σ, P ) ed a valori in E e 

supponiamo che per ogni naturale n ≥ 2 e per ogni sequenza a n , a n−1 , a n−2 , ..., a 1 di 

elementi di E (per cui entrambi i membri siano ben definiti) si abbia che 

P (X n = a n |X n−1 = a n−1 ) 

= P (X n = a n |X n−1 = a n−1 , X n−2 = a n−2 , ..., X 1 = a 1 ) : 

(2.4) 

tale processo si dice catena di Markov. 

Supponendo, inoltre, che il processo considerato sia tale che, comunque presi a, b ∈ E, 

P (X n = a|X n−1 = b) non dipenda dalla scelta di n ∈ N, diciamo che la catena di Markov 

considerata è omogenea.

2.3. CATENE DI MARKOV 37 

Sotto queste ipotesi, ricordiamo innanzitutto che E è un insieme finito, dunque possiamo 

supporre che, se |E| = n, E = {a 1 , a 2 , ..., a n }, n ∈ N. 

Definiamo, quindi, la matrice : 

⎡ 

⎤ 

M a1 a 1 

M a1 a 2 

. . . M a1 a n 

M a2 a 1 

M a2 a 2 

. . . M a2 a n 

A = ⎢ 

⎥ 

⎣ . . . . ⎦ 

M ana1 . . . . . . M anan (2.5) 

tale che : 

M ai a j 

:= P (X n = a j |X n−1 = a i ), 

per ogni i, j ∈ {1, 2, .., m − 1, m}. 

Ricordiamo che, nelle ipotesi fatte, il valore di ciascun elemento della matrice è lo stesso 

al variare di n ∈ N. 

Osserviamo che la matrice, detta matrice di transizione, per come l’abbiamo definita, 

soddisfa le seguenti proprietà : 

• M ai a j 

∈ [0, 1], ∀a i , a j ∈ E; 

• ∑ a j ∈E M a i a j 

= ∑ a j ∈E P (X n = a j |X n−1 = a i ) = 1, ∀a i ∈ E. 

Definiamo, ora, per ogni a ∈ E, la funzione 

µ 1 (a) := P (X 1 = a) = P ({ω ∈ X : X 1 (ω) = a}). 

Il vettore così ottenuto 

µ 1 := ( µ 1 (a 1 ), µ 1 (a 2 ), . . . µ 1 (a n ) ) 

è detto distribuzione iniziale del processo stocastico {X n } n∈N . 

La distribuzione iniziale si dice stazionaria se, per ogni a i ∈ E, 

µ 1 (a i ) = P (X 1 = a i ) = P (X j = a i ), ∀j. (2.6) 

Osserviamo che tale proprietà è soddisfatta se e solo se si ha che µ 1 M = µ 1 . 

Infatti, consideriamo a titolo d’esempio la prima entrata del vettore ottenuto moltiplicando 

µ 1 per M, il suo valore è dato da:


(µ 1 M) a1 = µ 1 (a 1 )M a1 a 1 

+ µ 1 (a 2 )M a2 a 1 

+ µ 1 (a 3 )M a3 a 1 

+ ... + µ 1 (a n )M ana 1 

= P (X 1 = a 1 )P (X 2 = a 1 |X 1 = a 1 ) + P (X 1 = a 2 )P (X 2 = a 1 |X 1 = a 2 ) 

+ P (X 1 = a 3 )P (X 2 = a 1 |X 1 = a 3 ) + ... + P (X 1 = a n )P (X 2 = a 1 |X 1 = a n ) 

= P (X 1 = a 1 , X 2 = a 1 ) + P (X 1 = a 2 , X 2 = a 1 ) 

+ P (X 1 = a 3 , X 2 = a 1 ) + ... + P (X 1 = a n , X 2 = a 1 ) = P (X 2 = a 1 ) (2.7) 

Dunque se µ 1 M = µ 1 si ha P (X 2 = a 1 ) = P (X 1 = a 1 ). Dunque, è sufficiente tenere 

conto di questo risultato e della proprietà di omogeneità della catena di Markov per 

sostituire le occorrenze della variabile X 1 con la variabile X 2 e quelle della variabile X 2 

con la variabile X 3 , ottenendo P (X 2 = a 1 ) = P (X 3 = a 1 ) ed iterare il procedimento fino 

ad ottenere P (X 1 = a 1 ) = P (X j = a 1 ), ∀j ∈ {1, ..., n}. 

Lo stesso discorso può essere fatto per tutti gli altri valori del vettore risultante, cosicchè 

si può verificare direttamente che la (2.6) è equivalente a µ 1 M = µ 1 . 

Ora che abbiamo definito le proprietà di una catena di Markov, individuiamo, nella 

proposizione seguente, le condizioni necessarie e sufficienti affinchè tale processo sia stazionario. 

Proposizione 1. Una catena di Markov {X n } n∈N , le cui variabili sono definite su uno 

spazio di probabilità (X, Σ, P ) ed assumono valori in un insieme finito E, è un processo 

stazionario se e solo se è omogenea e la sua distribuzione iniziale µ 1 è stazionaria. 

Dimostrazione. Dimostriamo separatamente le due implicazioni: 

⇒ Supponiamo che valga la condizione di stazionarietà, ossia, ricordiamo, 

P (X i = a i , m ≤ i ≤ n) = P (X i+1 = a i , m ≤ i ≤ n), ∀m, n ∈ N, ∀a m , ..., a n ∈ E. 

Osserviamo che la validità dell’affermazione precedente implica che 

µ 1 (a) = P (X 1 = a) = P (X 2 = a) = ... = P (X n = a), .., ∀a ∈ E 

e ciò, per quanto visto in precedenza, corrisponde esattamente ad affermare che la 

distribuzione iniziale è stazionaria. 

Per quanto riguarda, invece, l’omogeneità della catena di Markov considerata, basta 

osservare che, dati n ∈ N ed a, b ∈ E, la stazionarietà comporta che : 

P (X n = a|X n−1 = b) = P (X n = a, X n−1 = b) 

P (X n−1 = b) 

= P (X n+1 = a, X n = b) 

P (X n = b) 

= P (X n+1 = a|X n = b),


dunque, in generale, P (X n = a|X n−1 = b) è indipendente da n. 

⇐ Supponiamo che valga la proprietà di omogeneità e che la distribuzione iniziale 

sia stazionaria. Sotto queste ipotesi, dunque, è possibile osservare che, dato n ∈ 

N ed a 1 , ..., a n ∈ E : 

P (X i = a i , m ≤ i ≤ n) 

= µ 1 (a 1 )P (X 2 = a 2 |X 1 = a 1 ) · P (X 3 = a 3 |X 2 = a 2 ) 

· ... · P (X n = a n |X n−1 = a n−1 ) 

= P (X 2 = a 1 ) · P (X 3 = a 2 |X 2 = a 1 ) · P (X 4 = a 3 |X 3 = a 2 ) 

· . . . · P (X n+1 = a n |X n = a n−1 ) 

= P (X i+1 = a i , m ≤ i ≤ n) 

Sia ora {X n } n∈N una catena di Markov omogenea ed avente distribuzione iniziale 

stazionaria e sia A ∈ M n×n la corrispondente matrice di transizione, Tale matrice è 

detta irriducibile se, per ogni coppia di indici (i, j), ove i, j ∈ {1 . . . , n}, esiste una 

sequenza i 0 , i 1 , . . . , i l di elementi appartenenti ad {1 . . . , n} tale che i 0 = i, i l = j ed 

Ai m i m+1 > 0, per m = 0, 1, . . . , l − 1. 

Osserviamo che, in virtù delle ipotesi fatte e della definizione di Catena di Markov, 

supporre che valga tale condizione equivale ad affermare che, se ad un dato istante la 

catena di Markov assume il valore a i , allora la probabilità che, in un istante futuro, la 

catena possa assumere il valore a j è strettamente positiva. Infatti assumiamo che, dato 

k ∈ N, P (X k = a i ) > 0, allora 

P (X k+1 = a i1 , X k = a i ) = P (X k+1 = a i1 |X k = a i )P (X k = a i ) 

Dunque 

P (X k+2 = a i2 , X k+1 = a i1 , X k = a i ) 

= A i0 i 1 

P (X k = a i ) > 0. 

= P (X k+2 = a i2 |X k+1 = a i1 , X k = a i )P (X k+1 = a i1 , X k = a i ) 

= P (X k+2 = a i2 |X k+1 = a i1 )P (X k+1 = a i1 , X k = a i ) 

A i1 i 2 

P (X k+1 = a i1 , X k = a i ) > 0 

Iterando il procedimento e sfruttando la definizione di Catena di Markov, quindi, si 

ottiene che 

P (X k+l = a j , X k+l−1 = a il−1 , . . . , X k = a i ) > 0, 

dunque P (X k+l = a j ) > 0. Ora vogliamo dimostrare che la condizione di ergodicità di 

una catena di Markov omogenea ed avente distribuzione iniziale stazionaria equivale alla 

condizione di irriducibilità della corrispondente matrice di transizione.


Teorema 7. Sia {X n } n∈N una catena di Markov definita su uno spazio di probabilità 

(X, Σ, P ) ed a valori in uno spazio finito E, omogenea ed avente distribuzione iniziale 

stazionaria e positiva in ogni punto di E. Allora tale catena è ergodica se e solo se la 

corrispondente matrice di transizione A è irriducibile. 

Dimostrazione. Dimostriamo entrambe le implicazioni separatamente. 

⇐ Supponiamo innanzitutto che A sia irriducibile. Osserviamo che dalla condizione 

di irriducibilità seguono due fatti fondamentali di algebra lineare, che ci limitiamo 

ad elencare: 

– Esiste, a meno di multipli, uno ed un solo vettore π tale che πA = π. Notiamo 

che, poichè abbiamo supposto che, se µ 1 è il vettore distribuzione iniziale, 

µ 1 A = µ 1 , allora per l’unicità di π dev’essere per forza π = µ 1 . 

– Vale la seguente uguaglianza: 

lim 

N→∞ 

N−1 

1 ∑ 

N 

k=0 

M k+1 = P, (2.8) 

ove P è la matrice avente tutte le colonne uguali al vettore π. 

Proviamo che la catena di Markov soddifa la condizione di debole mescolanza, 

ovvero, dati due insiemi misurabili 

C = [c m 1 ] = {(x 1, x 2 , . . . , x k , . . .) : x 1 = c 1 , . . . , x m = c m } 

D = [d n 1 ] = {(x 1, x 2 , . . . , x k , . . .) : x 1 = d 1 , . . . , x n = d n }, 

(ove m, n ∈ N e c 1 , . . . , c m , d 1 , . . . , d n ∈ E), dimostriamo che 

lim 

N→∞ 

1 

N 

N∑ 

µ(T −j C ∩ D) = µ(C)µ(D). (2.9) 

j=1 

Osserviamo che questo fatto equivale a dimostrare che 

lim 

N→∞ 

N+n−1 

1 ∑ 

N 

j=n 

Osserviamo che, dato k > 0, 

Ora notiamo che 

µ(T −j C ∩ D) = lim 

N→∞ 

N−1 

1 ∑ 

N 

k=0 

µ(T −k−n C ∩ D) = µ(C)µ(D) 

T −k−n C = [b n+k+m 

n+k+1 ], ove b n+k+i = c i , 1 ≤ i ≤ m. 

µ([d n 1 ]∩[b n+k+m 

n+k+1 ]) = P (X 1 = d 1 , . . . , X n = d n , X n+k+1 = c 1 , . . . X n+k+m = c m ).


Utilizzando, dunque, la definizione di catena di Markov e facendo dei semplici 

calcoli si può osservare che 

µ([d n 1 ] ∩ [b n+k+m 

n+k+1 ]) = P (X 1 = d 1 , . . . , X n = d n , X n+k+1 = c 1 , . . . X n+k+m = c m ) 

∑ 

= 

P (X 1 = d 1 , . . . , X n+1 = d n+1 , . . . , X n+k = d n+k , . . . , X n+k+m = c m ) 

= 

(d n+1 ,...,d n+k ) 

∑ 

(d n+1 ,...,d n+k ) 

(P (X 1 = d 1 , . . . , X n = d n )·P (X n+k+1 = c 1 , . . . , X n+1 = d n+1 |X n = d n ) 

· P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 )) 

∑ 

= P (X 1 = d 1 , . . . , X n = d n )· 

P (X n+k+1 = c 1 , . . . , X n+1 = d n+1 |X n = d n ) 

(d n+1 ,...,d n+k ) 

· P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 ) 

ove d n+1 , . . . , d n+k ∈ E. Ora notiamo che, sempre utilizzando la definizione di 

catena di Markov, possiamo facilmente osservare che 

U := P (X 1 = d 1 , . . . , X n = d n ) = µ(D) 

V := 

= 

= P (X 1 = d 1 ) · P (X 2 = d 2 |X 1 = d 1 ) · . . . · P (X n = d n |X n−1 = d n−1 ) 

∑ 

(d n+1 ,...,d n+k ) 

∑ 

(d n+1 ,...,d n+k ) 

n−1 

∏ 

= µ 1 (d 1 )A d1 d 2 · . . . · A dn−1 d n 

= µ 1 (d 1 ) A di d i+1 

. 

P (X n+k+1 = c 1 , X n+k = d n+k , . . . , X n+1 = d n+1 |X n = d n ) 

P (X n+1 = d n+1 |X n = d n ) · . . . · P (X n+k+1 = c 1 |X n+k = d n+k ) 

= 

∑ 

(d n+1 ,...,d n+k ) 

i=1 

( n+k−1 ∏ 

A di d i+1 

)·A dn+k c 1 

. 

i=n 

Osserviamo che, tramite alcune operazioni di algebra lineare, si può verificare che 

tale valore coincide con il termine in posizione (d n , c 1 ) della matrice A k , sia [A k ] dnc 1 

. 

W := P (X n+k+m = c m , . . . X n+k+2 = c 2 |X n+k+1 = c 1 ) 

= P (X n+k+2 = c 2 |X n+k+1 = c 1 ) · . . . · P (X n+k+m = c m |X n+k+m−1 = c m−1 ) 

m∏ 

= 

Dunque 

µ([d n 1 ] ∩ [b n+k+m 

n+k+1 ]) = µ(D)[Ak+1 ] dnc 1 

∏ 

m A ci c i+1 

i=1 

i=1 

A ci c i+1


Osserviamo che, in base a alla (2.8), si ha che 

lim 

N→∞ 

dunque, in virtù della (2.8) 

lim 

N→∞ 

N−1 

1 ∑ 

N 

k=0 

1 

N 

N∑ 

[A k+1 ] dnc1 = π(c 1 ) = µ(c 1 ), 

k=1 

µ(T −k−n D ∩ C) = lim 

N→∞ 

k=0 

i=1 

N−1 

1 ∑ 

N 

k=0 

µ([d n 1 ] ∩ [b n+k+m 

n+k+1 ]) 

N−1 

1 

= lim 

N→∞ N µ(D) ∑ ∏ 

m m∏ 

[A k+1 ] dnc1 A ci c i+1 

= µ(D)µ(c 1 ) A ci c i+1 

= µ(D)µ(C). 

Dunque, essendo la condizione espressa dalla (2.9) soddisfatta, T è una trasformazione 

ergodica. 

⇒ Supponiamo che la catena di Markov sia ergodica. Supponiamo che µ(a j ) > 0, ∀j 

e sia P i = {x : x 1 = a i }. Osserviamo che, se B = T −1 P j ∪ T −2 P j ∪ . . ., allora 

P (B) > 0 e T −1 B = T −2 P j ∪ T −3 P j ∪ . . . ⊆ B. In virtù dell’ipotesi di ergodicità, 

quindi, µ(B) = 1, dunque µ(B ∩ P j ) > 0, ∀j. Osserviamo che 

( ⋃ 

) 

µ(B ∩ P i ) = µ (T −n P j ∩ P i ) > 0, 

n∈N 

i=1 

dunque ∃¯n ∈ N tale che µ(T −¯n P j ∩ P i ) > 0. Osserviamo che 

µ(T −¯n P j ∩ P i ) = µ({(x 1 , . . . , x k , . . .) : x¯n = a j , x 1 = a i }) 

= P (X¯n = a j , X 1 = a i ) = P (X¯n = a j |X 1 = a i )P (X 1 = a i ) > 0 

Dunque P (X¯n = a j |X 1 = a i ) > 0, pertanto dev’esserci una sequenza i 0 , i 1 , . . . , i¯n 

tale che i 0 = i, i¯n = j ed Ai m i m+1 = P (X m+1 = a im+1 |X m = a im ) > 0, ∀m ∈ 

0, . . . , ¯n − 1.

Bibliografia 

[1] P. C. Shields, The Ergodic Theory of Discrete Sample Paths, American Mathematical 

Society (1996). 

[2] D.Williams, Probability with Martingales, Cambridge University Press (1991). 

43

Il teorema ergodico - Matematica e Applicazioni

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?