10.07.2015 Views

Introduzione all'Inferenza su Processi Stocastici - Bruno de Finetti

Introduzione all'Inferenza su Processi Stocastici - Bruno de Finetti

Introduzione all'Inferenza su Processi Stocastici - Bruno de Finetti

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

UN’ INTRODUZIONE ALL’INFERENZA SU PROCESSI STOCASTICIIl piu’ semplice problema (statico) di inferenza statistica parametrica e’ quello in cui ladistribuzione di probabilita’ comune a tutti i numeri aleatori (n.a.) osservabili X(t), t ≥ 1 , dipen<strong>de</strong>da un parametro non noto Θ di cui si cerca una valutazione numerica approssimata (stima) <strong>su</strong>llabase <strong>de</strong>i valori di un numero prefissato n di osservazioni (o mi<strong>su</strong>razioni) X(t) = x(t), t =1,2,......... ......n. In altri termini, per il parametro incognito Θ si cerca uno stimatore S dipen<strong>de</strong>nte dain.a. X(1),..............., X(n) che goda di buone proprieta’. Ovviamente queste ultime <strong>de</strong>vono garantireche la probabilita’ di rilevanti errori di stima Θ - S sia opportunamente piccola. E’ noto che taleobiettivo viene perseguito in vari modi ai quali corrispondono vari procedimenti o metodi di stimapuntuale; i piu’ usati sono il “metodo di massima verosimiglianza”, il “metodo <strong>de</strong>i momenti”, il“metodo di minima varianza”, ................. .Quando il parametro incognito Θ varia con t, cioe’ quando esso costituisce un processostocastico {Θ(t), t ≥ 1}, il problema inferenziale as<strong>su</strong>me un carattere dinamico: per ogni t, si trattadi trovare uno stimatore S(t) = ξ[X(1),X(2),...........,X(t)] per il n.a. Θ(t) che abbia buone proprieta’nel senso anzi<strong>de</strong>tto. La forma funzionale ξ[.,.,............,.] <strong>de</strong>llo stimatore dipen<strong>de</strong>, ovviamente, dalmetodo di stima adottato. Nel problema dinamico di stima che abbiamo ora introdotto compaionodue processi stocastici: l’insieme di variabili osservabili, o processo di osservazione, {X(t) ; t ≥ 1}e l’insieme <strong>de</strong>i parametri incogniti, o processo <strong>de</strong>lle variabili di stato, {Θ(t) ; t ≥ 1}. La maggioreo minore complessita’ <strong>de</strong>l problema di stima dipen<strong>de</strong> naturalmente dalle caratteristiche <strong>de</strong>i dueprocessi stocastici e dal tipo di relazione <strong>su</strong>ssistente tra essi.Per un semplice esempio di problema inferenziale dinamico si pensi che X(t) rappresenti ilnumero aleatorio di chiamate telefoniche <strong>su</strong> una data linea nel periodo t-esimo, con riferimento aduna sequenza di periodi <strong>de</strong>lla stessa durata (per esempio oraria). La distribuzione di probabilita’n[ Θ ( t)]Θ ( t)comune a tutte le variabili osservabili X(t) sia di tipo poissoniano P{ X ( t)= n} = . e− , oven!Θ(t) e’ l’intensita’ non nota <strong>de</strong>lle chiamate nel t-esimo periodo, cioe’ il numero medio di chiamatein quel periodo. Il problema di inferenza statistica in questo caso consiste nella stima <strong>de</strong>lle intensita’Θ(t), per ogni t, <strong>su</strong>lla base <strong>de</strong>lle osservazioni <strong>de</strong>i valori di X(1),............,X(t) , fissate che siano lecaratteristiche <strong>de</strong>i due processi {X(t)} e {Θ(t)}.Da quanto abbiamo <strong>de</strong>tto finora si intuisce la centralita’ <strong>de</strong>lla nozione di processo stocastico:presenteremo quindi sommariamente tale nozione e <strong>de</strong>scriveremo alcune principali tipologie diprocessi.La nozione di processo stocasticoDal punto di vista matematico, fissato uno spazio di probabilità (Ω,A,P), un processo stocastico<strong>de</strong>ve essere consi<strong>de</strong>rato una funzione di due variabili, X ( ω , t),ω ∈ Ω , t ∈ T,tale che:1) per ogni fissato valore t’ di t, in T , X (.,t')è un numero aleatorio, cioè una funzione reale,− 1A-mi<strong>su</strong>rabile, <strong>de</strong>finita in Ω, con funzione di ripartizione Ft'( x)= P{Xt'( − ∞ , x]};2) per ogni fissato valore ω’ di ω, in Ω, X (ω ',.)è una funzione <strong>de</strong>terministica <strong>de</strong>finita in T e<strong>de</strong>nominata "traiettoria" o "realizzazione" <strong>de</strong>l processo X(t).Da qui nascono le due interpretazioni <strong>de</strong>l processo stocastico quale "famiglia di numeri aleatori",secondo la 1), e quale "funzione aleatoria", secondo la 2).Come per un numero aleatorio, anche per un processo stocastico si possono individuare più (inteoria infiniti) livelli di conoscenza o di specificazione: quello massimale comporta la conoscenza1


<strong>de</strong>lla "legge temporale", cioè <strong>de</strong>lla totalità <strong>de</strong>lle funzioni di ripartizione congiunte di dimensionefinita Ft 1, t2,........, t( x1 , x2,........., x )nn , n ≥ 1, t j ∈ T per ogni j.Per i processi a parametro discreto in cui T = Z + (cioè per le sequenze illimitate {X t ; t≥ 1} dinumeri aleatori), tale famiglia di distribuzioni può essere sostituita dalla più semplice <strong>su</strong>ccessioneF x ), F ( x , x ), F ( x , x , ), .................... che soddisfi la seguente condizione di1( 1 1,2 1 2 1,2,3 1 2x3coerenza:Teorema di A.N.Kolmogorov: condizione necessaria e <strong>su</strong>fficiente affinchè tale <strong>su</strong>ccessione difunzioni di ripartizione costituisca la legge temporale di un processo stocastico a parametro discretoè che ogni elemento <strong>de</strong>lla <strong>su</strong>ccessione sia implicato dai <strong>su</strong>ccessivi come loro distribuzionemarginale e che implichi i prece<strong>de</strong>nti come <strong>su</strong>e distribuzioni marginali.Un livello di conoscenza inferiore al prece<strong>de</strong>nte e molto usato nelle applicazioni è quello checomporta la conoscenza <strong>de</strong>i soli momenti <strong>de</strong>l primo e secondo ordine <strong>de</strong>i numeri aleatori X t , e cioè<strong>de</strong>lle speranze matematiche, <strong>de</strong>lle varianze e <strong>de</strong>lle covarianze. Si <strong>de</strong>finiscono per il processo {X t; t ≥ 1} le due funzioni: la funzione valor medio ϕ(t) = E(X t ) e la funzione di covarianzaψ(s,t) = Cov (X s ,X t ) ; quest'ultima soddisfa le seguenti proprietà generali:1) ψ(t,t) = Var(X t ) ≥ 0 , ∀t ;2) |ψ(s,t)| ≤ [ψ (s,s) .ψ (t,t) ] 1/2 ;3) ψ(s,t) = ψ(t,s) ;N∑4) a . a . ψ(s,t) ≥ 0; ∀N , a ∈ R N .s,t=1stLe principali categorie di processi stocastici sono i processi markoviani, quelli stazionari ed iprocessi martingala; i fondamenti teorici di tali processi sono stati posti negli anni venti e trenta <strong>de</strong>lsecolo ventesimo. I contributi principali sono dovuti a P.Lèvy, A.N.Kolmogorov, A.Y.Khintchine,W.Feller, B. <strong>de</strong> <strong>Finetti</strong>, H.Cramèr, H.Wold, J.L.Doob e altri.+La nostra esposizione riguar<strong>de</strong>ra’ soprattutto i processi a parametro discreto { X t; t ∈ Z } anchese, occasionalmente, parleremo di alcuni processi a parametro continuo { X ( t),t ∈ R }; a questopunto introduciamo sinteticamente le <strong>de</strong>finizioni <strong>de</strong>i tre tipi di processi <strong>su</strong>d<strong>de</strong>tti quando il parametro+operativo t as<strong>su</strong>me valori in Z :α) il processo {t1 t2 ......... tnX t; t∈Z+} e’ markoviano se per ogni scelta <strong>de</strong>ll’intero n e <strong>de</strong>lla sequenza< < < ri<strong>su</strong>lta F ( xt / xt ,........., xt ) F ( xt / xt)β) il processo {( )X t; t∈t1, t2,........., t n ri<strong>su</strong>lta ( t, ,........., )1 t2t n+intero tale che ogni t j+ h ∈ Z ;Z+= ;n 1 n−1 n n−1} e’ stazionario se per ogni scelta <strong>de</strong>ll’intero n e <strong>de</strong>lla sequenzaF x x x = F ( xt h, xt h,.........,xt h )+ + + , ove h e’ un qualunque1 2+γ) il processo { X t; t ∈ Z } e’ una martingala se per ogni intero positivo t ≥ 1 ri<strong>su</strong>lta E[⏐X t ⏐] < ∞E( X / X ,.............., X ) = X .e t 1 t − 1 t − 1n2


<strong>Processi</strong> stocastici <strong>de</strong>l secondo ordineCominciando con i processi stocastici a parametro discreto{t; 0,1,2,........}Y t èuna sequenza aleatoria <strong>de</strong>l secondo ordine se i numeri aleatori che la costituiscono hanno2momenti secondi finiti; formalmente: E( Yt) < ∞ , ∀ t.La totalità <strong>de</strong>i n.a. di questo tipo <strong>de</strong>finiti in uno spazio di probabilità ( Ω , A, P)si indica con H =L ( Ω , A, P)e tale insieme costituisce uno spazio di Hilbert con funzione prodotto – interno2X , Y = E( X. Y ) e normaX X X E XY t = diremo che { }2= , = ( ) ; si <strong>de</strong>finiscono anche la distanza tra dueelementi di H come d( X , Y ) = X − Y e l’ortogonalità , X ⊥ Y , tra due elementi di H che èverificata se e solo se X , Y = 0. Spesso per semplicità si consi<strong>de</strong>ra anziché H, lo spazio di HilbertH0 <strong>de</strong>i n.a. <strong>de</strong>finiti in ( Ω , A, P), dotati di momento secondo finito e aventi valor medio nullo: inquesto caso è X , Y = Cov( X , Y ) , X = Var( X ) , d( X , Y ) = Var( X − Y ) e infineX ⊥ Y ↔ Cov( X , Y ) = 0 .Supponiamo che i n.a. <strong>de</strong>lla sequenza { Yt; t = 0,1,2,........} siano elementi di H0 : diremo che essiconvergono in norma al n.a. Y ∈ H0se d( Yt, Y) = Yt− Y → 0 per t → ∞ ; poiché èd( Y , Y) Y Y E( Y Y)2t=t− =t− si ha che la convergenza in norma coinci<strong>de</strong> con la convergenza inmedia quadraticaYtq . m .⎯ ⎯ ⎯→ Y .Le <strong>de</strong>finizioni <strong>su</strong>d<strong>de</strong>tte si applicano allo stesso modo a processi stocastici a parametro continuo{ Y ( t); t ∈ T ⊆ R}<strong>de</strong>tti anche “funzioni aleatorie”. Per questi processi esiste un “calcolo differenzialein media quadratica” basato <strong>su</strong>lle nozioni di convergenza, continuità, <strong>de</strong>rivabilità e integrabilità inmedia quadratica:- convergenza ad Y per t → τ :2lim E[ Y ( t) Y ] 0− = ;- continuità per t → τ :2lim E[ Y ( t) Y ( τ )] 0− = ;⎧ 1⎫∃ Z = Y '( t), lim E ⎨ Y( t + h) − Y ( t) − Z ⎬ = 0 per h → 0 ;⎩ h⎭- <strong>de</strong>rivabilità in t : [ ]bn−1⎧⎫∃ Z = Y ( t) dt, lim E Y ( t ). t − t − Z ⎬ = 0⎩ i = 0⎭- integrabilità <strong>su</strong> (a,b) : ∫⎨ ∑ i [ i + 1 i ]per [ ti1ti]amax+− → 0 in corrispon<strong>de</strong>nza ad una sequenza di partizioni Pn sempre più fini di (a,b) ,iove P ( a t t t b)n= =0


Per qualche semplice esempio in proposito si consi<strong>de</strong>rino i seguenti casi ove A1 e A sono due22 2 22numeri aleatori: se Y ( t) = A1. t è Y '( t)= A1; se X ( t) = Y ( t) = A . t si ha X '( t) = 2. A . t ; se Z( t ) =X '( t) = 2. A . t si ha21t2 2∫ Z( s) ds = A1. t ; se 1 201W ( t) = sin A . t + cos A . t si ha W '( t) = A1 .cos A1. t −A2 .sin A2. t . Invitiamo il lettore ad essere cauto <strong>su</strong>ll’evi<strong>de</strong>nte analogia <strong>de</strong>i <strong>su</strong>d<strong>de</strong>tti ri<strong>su</strong>ltati con leregole ben note concernenti la <strong>de</strong>rivazione e l’integrazione di funzioni <strong>de</strong>terministiche; ognuno <strong>de</strong>iri<strong>su</strong>ltati enunciati andrebbe dimostrato <strong>su</strong>lla base <strong>de</strong>lle <strong>de</strong>finizioni <strong>de</strong>l calcolo in media quadratica.Si è già <strong>de</strong>tto che i tipi principali di processi stocastici sono quelli stazionari, markoviani emartingale: esistono versioni analoghe di queste condizioni per i processi <strong>de</strong>l secondo ordine:- si parla di stazionarietà <strong>de</strong>l secondo ordine quando la funzione valor medio ϕ Y( t ) ècostante e quando la funzione di covarianza ψ ( s Y, t ) dipen<strong>de</strong> soltanto dalla differenza s – t<strong>de</strong>gli argomenti;- si parla di markovianità <strong>de</strong>l secondo ordine quando per ogni n e ogni n.a. X dipen<strong>de</strong>ntedai n.a. { Yt; t = n, n + 1,..........} si ha E2 ( X / Yn , Yn − 1,........., Y1 ) = E2( X / Yn) , ove E ( X / Y )2 èl’approssimatore ottimale <strong>de</strong>i minimi quadrati per X in termini di Y;- si parla di martingalità <strong>de</strong>l secondo ordine se <strong>su</strong>ssistono per ogni n le condizioniE2( Yn / Y1 , Y2 ,........., Yn − 1) = Yn− 1.Ovviamente E2( Yn / Y1,............., Y n − 1)indical’approssimatore ottimale <strong>de</strong>i minimi quadrati per Yn in termini di Y1,..............,Y n − 1.I processi stocastici <strong>de</strong>l secondo ordine sono spesso impiegati nelle applicazioni in quanto la lorospecificazione riguarda soltanto i momenti <strong>de</strong>l primo e secondo ordine, e cioè valori medi, varianzee covarianze, senza chiamare in causa i momenti di ordine <strong>su</strong>periore al secondo o addirittura ledistribuzioni di probabilità congiunte finite-dimensionali. Ad esempio, l’Analisi <strong>de</strong>lle serietemporali (o storiche), disciplina statistica molto usata sia nelle Scienze naturali che in quellesociali, usa mo<strong>de</strong>lli lineari nei quali sia l’input che l’output sono costituiti da processi (a parametrodiscreto) <strong>de</strong>l secondo ordine. Più precisamente, i mo<strong>de</strong>lli matematici usati sono equazioni alledifferenze finite lineari e stocastiche Y − a . Y = Z + b . Zpt i t − i t j t − ji= 1 j = 1q∑ ∑ ove il processo input { Zt; t ≥ 0}specificato dalle funzioni valor medio ϕ ( t ) e di covarianza ψ ( s , t ) . Ovviamente la soluzione<strong>de</strong>ll’equazione, e cioè il processo { Yt; t ≥ 0}quella di { ; 0}Alcuni esempi.tZZ, non può avere una specificazione più <strong>de</strong>ttagliata diZ t ≥ : ri<strong>su</strong>lteranno quindi <strong>de</strong>terminate le sole due funzioni ϕ ( t ) e ψ ( s , t ) .1) Processo di “rumore bianco”(white noise): si tratta di un processo a parametro discretocostituito da n.a. equi (con valor medio zero), aventi una me<strong>de</strong>sima varianzaσ e2mutuamente non correlati; viene solitamente indicato con Yt≈ WN(0, σY) .2) Processo di “passeggiata aleatoria” (random walk): si tratta di un processo <strong>de</strong>finito dallaequazione alle differenze2Y = Y + ε ; ε ≈ WN(0, σ ); Y = 0.t t − 1 t tε 0YY12 Yè4


3) Processo “autoregressivo <strong>de</strong>l primo ordine” o AR(1):2Yt = a. Yt − 1+ εt; εt≈ WN(0, σε);Cov( Y , ε ) ≡ 0; Y ≈ ( m , σ ) .20 t0 0 0Cenni <strong>su</strong>i processi markovianiLa condizione di dipen<strong>de</strong>nza markoviana è stata introdotta da A. Markov nel 1906, ma furonoA.N.Kolmogorov nel 1931 e, più tardi, W.Feller ad impostare rigorosamente la teoria <strong>de</strong>i processistocastici markoviani. Nel seguito distingueremo il caso di numeri aleatori con un insieme discretodi valori possibili (<strong>de</strong>tti anche “stati”) da quello di n.a. con un insieme continuo di valori e iprocessi a tempo discreto da quelli a tempo continuo.Fissati arbitrariamente n valori t 1< t 2< ......... < tn<strong>de</strong>l parametro operativo la condizione didipen<strong>de</strong>nza markoviana è espressa dalla F ( xt / xt ,........., xt ) F ( xt / xt)n 1 n−1 n n−1= o dalla corrispon<strong>de</strong>nteuguaglianza tra le <strong>de</strong>nsità di probabilità se queste esistono. Questa condizione ha la seguentenotevole implicazione per le distribuzioni congiunte che <strong>su</strong>pporremo dotate di <strong>de</strong>nsità:( ,.........., ) = t t ( t/t,..........,t ) . ( t,..........,t ) = f ( x / ) . ( ,.........., )txt f xt xtf x x f x x x f x x1 n n 1 n−1 1 n−1=n n− 1 1 n− 1= ……………………………………………………………………………. =n= f ( xt ) . f ( x / )1 txj t j − 1∏ ,j = 2il chè significa che le distribuzioni congiunte <strong>de</strong>l processo markoviano sono <strong>de</strong>terminate dalledistribuzioni univariate marginali e dalle distribuzioni univariate condizionali. Una secondanotevole implicazione è la seguente: se si <strong>su</strong>ppone che sia s < τ < t si ha( / ) = ( , / ) = ( / , ) . ( / ) = ( / ) . ( / )∫ ∫ ∫ ,f x x f x x x dx f x x x f x x dx f x x f x x dxt s t τ s τ t τ s τ s τ t τ τ s τR R Re tale relazione costituisce una condizione di coerenza per le distribuzioni univariate condizionali,f x / xnota in letteratura come condizione di Chapman – Kolmogorov. Le <strong>de</strong>nsità condizionate ( )sono <strong>de</strong>tte “<strong>de</strong>nsità di transizione dallo stato xs allo stato xt ”.a) Catene di Markov omogenee con un numero finito di stati.Il tipo più semplice di processo markoviano è <strong>de</strong>nominato “catena markoviana omogenea” ed ècostituito da una <strong>su</strong>ccessione di n.a. {X n ; n ≥ 0}, aventi ciascuno lo stesso insieme finito di Nvalori possibili, caratterizzata per ogni n ≥ 0 dalla condizione di dipen<strong>de</strong>nza markoviana omogenea:Prob{X n+1 = j / (X 0 = a) ∧ (X 1 = b) ∧ ……..∧ (X n = i)} = Prob{X n+1 = j / X n = i} = p ij (n) ,Se le probabilità <strong>su</strong>bordinate p ij (n), <strong>de</strong>tte “di transizione dallo stato i allo stato j”, non dipendonodall’indice n allora si parla di “dipen<strong>de</strong>nza markoviana omogenea”. Si verifica facilmente che in talcaso la struttura probabilistica <strong>de</strong>l processo è univocamente <strong>de</strong>terminata dalla matrice N × N <strong>de</strong>lleprobabilità <strong>su</strong>bordinate P = [p ij ] e dalla distribuzione <strong>de</strong>l n.a. X 0 , <strong>de</strong>tta “distribuzione iniziale”.Ovviamente, la somma <strong>de</strong>gli elementi di ogni riga di P è uguale a 1(matrice “stocastica”).ts5


Indicata con il vettore riga a(0) la distribuzione di X 0 , quella a(1) <strong>de</strong>l n.a. X 1 è data dal prodottoa(1) = a(0) . P e, in generale, quella di X n da a(n) = a(0) . P n = a(n-1) . P . L’elemento generico<strong>de</strong>lla matrice P n (n), pij , è <strong>de</strong>tto “probabilità <strong>su</strong>bordinata di transizione da i a j in n passi” e soddisfa,come si prova facilmente, la condizione di Chapman – Kolmogorov:p( n)ij=N∑h=1p( n−m)ih( m)hj. p ,per ogni intero positivo m < n .Una catena markoviana è <strong>de</strong>tta “regolare” se esiste un intero n 0 tale che per ogni n > n 0 tutti glielementi di P n ri<strong>su</strong>ltano positivi; per le catene regolari <strong>su</strong>ssiste il seguente importante ri<strong>su</strong>ltato:Teorema di Markov: la matrice P n converge, al divergere di n, ad una matrice U con elementipositivi, cioè ri<strong>su</strong>lta p → u j > 0 per ogni i; le righe di U quindi sono tutte uguali e la somma(n)ij<strong>de</strong>gli elementi di riga è unitaria. Indicata con u la generica riga di U, è u . P = u , per cui u è <strong>de</strong>ttadistribuzione stazionaria.Alcuni esempi.Si consi<strong>de</strong>ri innanzitutto il seguente schema generale di estrazioni ripetute da un’urna contenenteinizialmente b palline bianche ed r palline rosse: si sceglie a caso una pallina dall’urna e, assieme a<strong>de</strong>ssa, si immettono nell’urna c palline <strong>de</strong>llo stesso colore di quella estratta e d palline di coloreopposto; dopo la prima estrazione nell’urna ci sono quindi b+r+c+d palline. Si effettua una secondaestrazione ca<strong>su</strong>ale con la stessa procedura e così via: in generale la composizione <strong>de</strong>ll’urna variacolpo per colpo. Alcuni mo<strong>de</strong>lli particolari sono i seguenti:a) c = d = 0 (estrazioni ripetute con reimbussolamento <strong>de</strong>lla pallina estratta);b) c = -1, d = 0 (estrazioni ripetute senza reimbussolamento);c) c > 0, d = 0 (urna di Pòlya – mo<strong>de</strong>lli di contagio positivo);d) c = -1, d = 1 (urna di Ehrenfest).L’ultimo mo<strong>de</strong>llo realizza una catena di Markov nel senso che le variabili aleatorie X n checontano il numero di palline bianche nell’urna dopo le prime n estrazioni costituiscono una catenadi Markov caratterizzata dalle probabilità <strong>su</strong>bordinate di transizione p i,i+1 = (b+r-i) / (b+r) , p i,i-1 =i / (b+r) e p i,j = 0 se j è diverso da i+1 e i-1. E’ facile costruire la corrispon<strong>de</strong>nte matrice P se sitiene presente che il numero <strong>de</strong>gli stati è N = b+r+1.Si verifica facilmente che le variabili X n nel mo<strong>de</strong>llo <strong>de</strong>ll’urna di Pòlya costituiscono ancora unacatena di Markov, mentre invece le variabili Y n (indicatori di eventi) che as<strong>su</strong>mono i valori 1 e 0 aseconda che dall’urna di Pòlya sia estratta, al colpo n-mo, una pallina bianca o rossa non verificanola condizione di dipen<strong>de</strong>nza markoviana, ma costituiscono un processo stazionario scambiabile.Infine, le variabili Z n che <strong>de</strong>notano le proporzioni di palline bianche dopo n estrazioni dall’urna diPòlya costituiscono un processo martingala.Un esempio di catena di Markov con un’infinità numerabile di stati (e precisamente l’insieme<strong>de</strong>gli interi non negativi) è costituito dal processo di passeggiata aleatoria Yt = Yt − 1+ Et, Y0= 0,ove gli eventi , 1,tE t ≥ sono as<strong>su</strong>nti indipen<strong>de</strong>nti e ugualmente probabili con P( E t)b) <strong>Processi</strong> a tempo continuo con un insieme discreto di stati { s i } .≡ p .6


In questi processi le probabilità di transizione in un intervallo di tempo di ampiezza t dallo statosi allo stato sj , P ⎡⎣ X ( t + τ ) = sj/ X ( τ ) = s ⎤i ⎦ , sono indicate con pij( t ) ,per ogni τ, e soddisfano leseguenti condizioni:∑ ∑ .p ( t) ≥ 0; p ( t) = 1, ∀ t; p ( t + τ ) = p ( t). p ( τ )ij ij ij ih hjjhSe il numero di stati è finito, l’ultima condizione (le relazioni di Chapman – Kolmogorov) puòessere espressa dalla P( t + τ ) = P( t). P( τ ) , ove P( t) = ⎡ ⎣ p ( t)⎤ ⎦ , as<strong>su</strong>mendo che sia P(0)= I . Ilteorema di Markov stabilisce ora che l’ipotesi pij( t ) > 0 , per ogni i, j, t , implica l’esistenza di unamatrice U tale che U = lim P( t) e U. P( t)= U . Come nel caso prece<strong>de</strong>nte e sempre nell’ipotesi chet → ∞gli stati siano finiti, indicata con il vettore riga a (0) la distribuzione di X(0) è:Esempio: il processo di Poisson.a( t) = a(0). P( t) = a(0). P( τ ). P( t − τ ) = a( τ ). P( t − τ ) .L’insieme <strong>de</strong>gli stati è ora l’insieme <strong>de</strong>gli interi non negativi e le variabili <strong>de</strong>l processo, N(t),contano il numero di eventi (di un tipo fissato) che si verificano nell’intervallo di tempo [0, t]. Sias<strong>su</strong>me N(0) = 0 e che gli incrementi <strong>de</strong>l processo N(t) – N(s) siano stocasticamente indipen<strong>de</strong>nti eomogenei (o stazionari): ciò significa che se è t 1< t 2≤ t 3< t 4 gli incrementiijN( t ) − N( t ) e4 3N( t2) − N( t1)sono indipen<strong>de</strong>nti e che N ( t ) − N ( s ) e N ( t + τ ) − N ( s + τ ) sono ugualmentedistribuiti qualunque sia τ . Sotto ipotesi non molto restrittive ri<strong>su</strong>lta che{ }− λ t nP N( t) = n = e .( λ . t) / n!ove λ > 0 è l’unico parametro <strong>de</strong>lla distribuzione; esso è <strong>de</strong>tto “intensità <strong>de</strong>l processo <strong>de</strong>gli arrivi” erappresenta il numero medio di eventi nell’intervallo di tempo unitario. Si calcola facilmente che èE N( t) = Var N( t) = λ . t .[ ] [ ]Indicato con Ti il tempo di attesa tra l’ (i-1)-esimo e l’ i-esimo evento, si prova che tali n.a. sono− tindipen<strong>de</strong>nti e ugualmente distribuiti con <strong>de</strong>nsità di probabilità esponenziale negativa f ( t) = λ . e λ.E’ evi<strong>de</strong>nte che { N t n} { T t} { T t}( ) = =n≤ ∧n+1> .Semplici generalizzazioni <strong>de</strong>l processo di Poisson introducono ai processi di puro ingresso(facendo dipen<strong>de</strong>re l’intensità λ dallo stato j raggiunto) e ai processi di ingresso e uscita, o dinascita e morte, (introducendo oltre alle intensità di ingresso λ j anche intensità di uscita µ j ). Si vedain proposito, per esempio, il capitolo XVII <strong>de</strong>l primo volume di “An introduction to probabilitytheory and its applications” di W.Feller.Se si generalizzano ulteriormente i processi markoviani, eliminando l’ipotesi di omogeneità neltempo, le probabilità di transizione da i a j in un intervallo di tempo (s,t) non dipendono più dallasola ampiezza <strong>de</strong>ll’intervallo t-s, ma da entrambi gli estremi s e t e quindi dovranno essere indicatecol simbolo P ij (s,t). Esse verificano le condizioni P ij (s,t) ≥ 0 , ∑ P ij (s,t) = 1 e le relazioni dijChapman – Kolmogorov: P ij (s,t) = ∑hP ih (s,τ) . P hj (τ,t) , s < τ < t .7


c) <strong>Processi</strong> a tempo discreto e spazio <strong>de</strong>gli stati continuo.As<strong>su</strong>meremo che lo spazio <strong>de</strong>gli stati sia R, ma gli sviluppi formali che seguono nonvarierebbero se esso fosse un arbitrario spazio cartesiano, per esempio R n .Nel caso di un processo markoviano a parametro discreto le probabilità di transizione sonoespresse da una funzione (stochastic kernel) K(x,S) = Prob {X n+1 ∈ S / X n = x} di due argomenti, x∈ R ed S ⊂ R; fissato x, K(x, .) è una probabilità <strong>su</strong>i sottoinsiemi boreliani di R, mentre fissato S,K( . ,S) è una funzione di Baire in R.Frequentemente nelle applicazioni è K(x,S) = ∫ k(x,y) dy e la funzione k(x,y) (stochasticS<strong>de</strong>nsity kernel) è <strong>de</strong>finita in R 2 . Le relazioni di Chapman – Kolmogorov per le funzioni K e k sonorispettivamente: K (m+n) (x,S) = ∫ K (m) (x,dy). K (n) (y,S) e k (m+n) (x,y) = ∫ k (m) (x,z). k (n) (z,y) dz .RRPonendo m = 1 e facendo crescere n si ottiene una <strong>de</strong>finizione ricorsiva di ( n) ( n)K ( x, S) e k ( x, y ) ;per esempio si hanno lek (2) ( x, y) = ∫ k( x, z). k( z, y)dz,Un esempio: sia k(x,y) = λ . y λ-1 / x λ , per 0 < y < x ; si ha facilmenteR(3) (2)k ( x, y) k( x, z). k ( z, y)dz= ∫ e così via.Red inoltre, se S = [a , b] èk (n) λ(x,y) =n. yλ − 1[ log( x / y)]Γ ( n).xλn−1K( x , [a,b] ) = ∫ b ak(x,y) dy = ( b λ - a λ ) / x λ .d)<strong>Processi</strong> a tempo continuo e spazio <strong>de</strong>gli stati continuo.Per un processo markoviano omogeneo a parametro continuo <strong>de</strong>noteremo con Q t (x,S) leprobabilità di transizioneQ t (x,S) = Prob { X(t+τ) ∈ S / X(τ) = x} , ∀ τ .Esse soddisfano le condizioni Q t (x,S) ≥ 0 , Q t (x,R) = 1 e le relazioni di Chapman – Kolmogorov :Q t (x,S) = ∫RQ t-τ (x,dy) . Q τ (y,S) , 0 < τ < t .Un primo esempio molto importante è costituito dal processo di Poisson composto. Si tratta diun processo markoviano a parametro continuo molto usato nelle applicazioni la cui interpretazioneè tipicamente la seguente: si pensi ad un n.a. N(t) di eventi (o arrivi) osservabili nel periodo ditempo [0, t] a ciascuno <strong>de</strong>i quali sia associato un “effetto” aleatorio Y j e interessi conoscere ladistribuzione <strong>de</strong>ll’effetto complessivo S(t) = ∑N ( t)j = 0Y . Se indichiamo con {p nt ; n ≥ 0} la distribuzionedi probabilità di N(t) e con F Y (y) la funzione di ripartizione (f.d.r.) comune ai n.a. Y j cheas<strong>su</strong>miamo essere anche mutuamente indipen<strong>de</strong>nti si ha che la distribuzione di ∑alla:jN ( t)j = 0Y ha f.d.r. dataj8


Prob {S(t) ≤ x} = ∑n≥0P [ N(t)= n].P[S(t)≤ x / N = n]= ∑ove il simbolo FY n∗(x)indica la f.d.r. <strong>de</strong>lla distribuzione <strong>de</strong>lla somma ∑n≥0nj = 0p . F ( x),Y jntn∗Ydi n ad<strong>de</strong>ndi (poiché peripotesi è Y 0 = 0 ) i.i.d . Il nome di “processo di Poisson composto” è appropriato se la distribuzione{p nt ; n ≥ 0} è poissoniana con parametro λt .Il carattere markoviano di {S(t)} si dimostra facilmente osservando che se 0 < t 1


- di Poisson con ϕ(ξ) = exp[λ(e iξ - 1)] e φ n (ξ) = exp[λ(e iξ - 1)/n] ,- dalla distribuzione normale con ϕ(ξ) = exp (iξµ - σ 2 ξ 2 /2) e φ n (ξ) = exp [(iξµ - σ 2 ξ 2 /2)/n] ,⎛ ξ ⎞- dalla distribuzione Gamma con ϕ(ξ) =⎜ −i⎛ iξ⎞1β⎟ e φ n (ξ) =⎜ 1 −⎝ ⎠β⎟ ,⎝ ⎠- dalla distribuzione di Poisson composto con ϕ X (ξ) = exp{λ[ϕ Y (ξ) – 1]} e φ n (ξ) =exp{λ[ϕ Y (ξ) – 1]/n} .− α− α / nUn altro esempio importante è costituito dal processo “pseudo – poissoniano” {X(t); t ≥ 0 }caratterizzato dalle funzioni di transizioneQ t (x,S) = ∑ ∞ ⎡− α t ne .( α . t)⎤( n)⎢⎥ . K ( x,S),= 0 ⎢⎣n!n⎥⎦ove K(x,S) è una fissata probabilità di transizione di una catena markoviana {Z n ; n ≥ 0} ed {N(t)}è un processo di Poisson con n.a. N(t) indipen<strong>de</strong>nti dai n.a. Z n ; è allora X(t) = Z N(t) .Se K(x,S) =λ − 1 − λ∫ λ . y . x dysi prova che la corrispon<strong>de</strong>nte probabilità di transizione Q t (x,S) haS− αλ − 1e t . α λ t.y<strong>de</strong>nsità espressa dalla q t (x,y) = . I1(2α λ t.log(x / y))λ, ove ∑ ∞ 12k+ 1I1 ( z)=.( z / 2)èx . log( x / y)k!Γ ( k + 2)k = 0la funzione di Bessel di ordine 1, per 0 < y < x ed una massa concentrata pari a e -λt in y = 0 .Chiaramente, un caso particolare <strong>de</strong>l processo pseudo-poissoniano è costituito dal processo diPoisson composto se le variabili Zn <strong>de</strong>lla catena markoviana sono somme di n.a. Yj indipen<strong>de</strong>nti ei<strong>de</strong>nticamente distribuiti.Cenni <strong>su</strong>i processi con incrementi stazionari e indipen<strong>de</strong>ntiI più semplici processi stocastici di questo tipo, a parametro discreto, sono quelli <strong>de</strong>nominati“processi di passeggiata aleatoria” e <strong>de</strong>finiti dalle S n = ∑nX kk = 1, n ≥ 1, ove i n.a. X k sono indipen<strong>de</strong>ntie ugualmente distribuiti (brevemente i.i.d.); per completezza si pone S 0 = 0. Equivalentemente, ilprocesso {S n } può essere <strong>de</strong>finito dalle S 0 = 0, S n = S n-1 + X n , n ≥ 1. Si tratta, ovviamente, diprocessi markoviani e, più precisamente, di catene markoviane.Per un primo esempio si as<strong>su</strong>ma X k = | E k |, con eventi E k indipen<strong>de</strong>nti e ugualmente probabili(processo bernoulliano); in tal caso S n è la frequenza di <strong>su</strong>ccesso <strong>su</strong> n eventi associata a {X k } e peril processo {S k } si hanno i ben noti ri<strong>su</strong>ltatia) Teorema di Bernoulli : p - lim [S n /n] = P(E 1 ) ;S n.P(E )dn−1b) Teorema di <strong>de</strong> Moivre – Laplace : → N(0;1)n.P(E ).[1 − P(E )]Se, più in generale, i n.a. X k , non necessariamente indicatori di eventi, hanno valor medio E(X k )2= µ e varianza Var (X k ) = σ finiti <strong>su</strong>ssistono i seguenti teoremi che generalizzano i ri<strong>su</strong>ltatiprece<strong>de</strong>nti:c) Legge <strong>de</strong>bole <strong>de</strong>i grandi numeri: p – lim [S n /n] = µ ;11.10


S n.dn− µd) Teorema centrale limite: → N(0;1) .2n.σPer quanto concerne i momenti fino al secondo ordine <strong>de</strong>l processo {S k } si ha che la funzionevalor medio ϕ S (n) = E(S n ) = n.µ è crescente con n e che la funzione di covarianza è data dalla2 2ψ S (m,n) = Cov (S m , S n ) = min (m. σ , n. σ ) .Gli incrementi <strong>de</strong>l processo {S k } sono dati dai n.a. S n – S n-1 = X n per n > 1 e S 1 – S 0 = S 1 = X 1 :come si è già as<strong>su</strong>nto, essi sono i.i.d.Il processo in cui X k = | E k | con punto iniziale l’origine e P(E k ) = p, ∀k, può <strong>de</strong>scriversi comeuna catena di Markov con un’infinità numerabile di stati (i numeri interi, positivi nulli e negativi) ematrice di transizione con elementi tutti nulli salvo per p j,j+1 = p e p j,j-1 = 1-p , ∀j.Un processo a parametro continuo {S(t); t∈R} ha incrementi indipen<strong>de</strong>nti e stazionari se,consi<strong>de</strong>rata un’arbitraria partizione <strong>de</strong>ll’intervallo [s, s + t], s = t 0 < t 1 < ………< t n = s + t , gliincrementi S(t k ) – S(t k-1 ), k = 1,…..,n , sono mutuamente indipen<strong>de</strong>nti e la loro distribuzionedipen<strong>de</strong> soltanto dalle differenze t k – t k-1 .Si <strong>su</strong>pponga ora che gli intervalli [t k – t k-1 ] abbiano la me<strong>de</strong>sima lunghezza di modo che gliincrementi ∆ k = S(t k ) – S(t k-1 ) siano ugualmente distribuiti: dalla S(s + t) – S(s) = ∑nk = 1∆kdiscen<strong>de</strong>che la distribuzione di S(s + t) – S(s) è uguale alla convoluzione n-ma <strong>de</strong>lla comune distribuzione<strong>de</strong>i ∆ k . Poiché il numero n <strong>de</strong>gli intervalli [t k – t k-1 ] è arbitrario, l’incremento S(s + t) – S(s) hanecessariamente una distribuzione “infinitamente divisibile”.Ripren<strong>de</strong>ndo quanto già <strong>de</strong>tto, un n.a. Z, la <strong>su</strong>a funzione di ripartizione F Z (z) e la <strong>su</strong>a funzioneiuzcaratteristica Ф(u) = E[exp(iuZ)] = ∫ e dFZ( z)Rn*esistono n.a. η 1 , η 2 ,……., η n i.i.d. tali che F ( z)F ( z)sono infinitamente divisibili se per ogni n ≥ 1Z=η , oppure Ф1Z (u) = [Ф η (u)] n . Alcunedistribuzioni infinitamente divisibili (inf. div.) sono la normale, la gamma e la distribuzione diCauchy tra quelle continue e la binomiale negativa (e quindi la geometrica), la distribuzione diPoisson e quella di Poisson composto tra quelle discrete.La caratterizzazione <strong>de</strong>lle distribuzioni inf. div. è stata ottenuta nei primi anni 30 attraverso illavoro di B. <strong>de</strong> <strong>Finetti</strong>, A.N. Kolmogorov, P. Lèvy e, più tardi, di W. Feller e A.Y. Khintchine.Di fondamentale importanza è il seguente ri<strong>su</strong>ltatoTeorema: sia {Ф n (u); n ≥ 1} una <strong>su</strong>ccessione di funzioni caratteristiche; condizione necessaria e<strong>su</strong>fficiente affinchè esista una funzione limite continua Ф(u) = lim [Ф n (u)] n è che esista, continua,la funzione limite lim n.[Ф n(u) – 1] = χ(u) e in tal caso si ha Ф(u) = exp{- χ(u)}.Ricordando che exp{ n.[Ф n(u) – 1] } è la funzione caratteristica <strong>de</strong>lla distribuzione di Poissoncomposto con intensità n e funzione caratteristica <strong>de</strong>lla distribuzione <strong>de</strong>gli effetti Ф n (u), il teoremaafferma che ogni distribuzione inf. div. è rappresentabile come limite di una opportuna <strong>su</strong>ccessionedi distribuzioni di Poisson composto. Inoltre esso afferma che ogni limite continuo di una<strong>su</strong>ccessione di funzioni caratteristiche inf. div. è esso stesso inf. div..Tra le distribuzioni inf. div. sono importanti le distribuzioni stabili ; tra quelle sopra indicatesono stabili soltanto la normale e quella di Cauchy. Esse sono <strong>de</strong>finite al modo seguente: una11


distribuzione F e la <strong>su</strong>a funzione caratteristica Ф sono stabili se, per ogni n ≥ 1 esistono costanti a n >0 e b n tali che [Ф F (u)] n = Ф an.F+ bn (u) = exp{i.b n .u} . Ф F (a n .u) cioè, a parole, se la distribuzione <strong>de</strong>llasomma di n numeri aleatori X i indipen<strong>de</strong>nti con distribuzione F ( la cui funzione caratteristica è[Ф F (u)] n ) coinci<strong>de</strong> con quella <strong>de</strong>l n.a. a n .X 1 + b n (con funzione caratteristica exp{i.b n .u} . Ф F (a n .u)).Si dimostrano le due seguenti proposizioni concernenti le distribuzioni stabili:- le costanti a n hanno la forma a n = n 1/α , con 0 < α ≤ 2 : per la distribuzione normale è α = 2mentre per quella di Cauchy è α = 1;- le distribuzioni stabili simmetriche hanno funzione caratteristica avente la forma Ф(u) =α1 2exp{ − γα. u } con γα reale positivo : per la distribuzione N(0 ; 1) è Ф(u) = exp{ − u }2mentre per quella di Cauchy è Ф(u) = exp{-θ . u }, ove è θ > 0 .Presentiamo ora alcuni esempi di processi {S(t)} con incrementi indipen<strong>de</strong>nti e stazionari:t- processi di Poisson composto, ove Prob{S(t) ≤ s} = ( ke t)k∑ − λλF* ( )k!s ;k- processi di Poisson: si ricavano dai prece<strong>de</strong>nti specificando che la distribuzione F <strong>de</strong>glieffetti è concentrata in 1; in tal caso è Ф S(t) (u) = exp{λt[e iu – 1]} in quanto e iua è la funzionecaratteristica <strong>de</strong>lla distribuzione concentrata in a ;- processi di Wiener – Lèvy (o di moto browniano) caratterizzati dall’ipotesi S(0) = 0 e dal2fatto che gli incrementi S(s+t) – S(s) = S(t) – S(0) = S(t) hanno distribuzione N(0 ; σ . t ) .Cenni <strong>su</strong>i processi stocastici martingalaUn processo stocastico {X t } è <strong>de</strong>tto essere una martingala se per ogni intero positivot ≥ 1 si ha E[⏐X t ⏐] < ∞ ed è verificata (con probabilità 1) la condizione:E( X / X ,.............., X ) = X .t 1 t − 1 t − 1E’ facile verificare che <strong>su</strong>ssiste, per ogni t, l’uguaglianza E[X t ] = E[X t-1 ] e che, per s interopositivo, è Cov(X t , X t-s ) = Var(X t-s ). Si ha inoltre E( Xt + h/ X1,.............., Xt − 1)= Xt − 1per ogni hintero non negativo, cosicchè ogni sottosequenza Xt, X ,............., ,............1 tX2t ndi un processomartingala è una martingala.Una <strong>de</strong>finizione più flessibile di martingala è la seguente: il processo {Xt} è una martingalarispetto al processo {Y t } se E[⏐X t ⏐] < ∞ e se E[X t+1 / Y 1 ,……..,Y t ] = X t per ogni t. Una<strong>de</strong>finizione ancora più generale di martingala è quella rispetto ad una sequenza crescente di σ-algebre di eventi anziché rispetto a sequenze di vettori (Y 1 ,…..……,Y t ). Noi ci atterremo peraltroalla prima, più semplice, <strong>de</strong>finizione.Teorema di rappresentazione: il processo {X t } è una martingala se e solo se X t = Y 1 + Y 2 +………+ Y t + c ove c è una costante e i n.a. Y t sono assolutamente equi [E(Y 1 ) = 0 e E(Y t /Y 1 ,…..,Y t-1 ) = 0, ∀ t] . In forza di questo ri<strong>su</strong>ltato, n.a. Y t assolutamente equi sono <strong>de</strong>tti “differenze, o12


incrementi, di martingala”. Si dimostra che le differenze di martingala sono n.a. equi e mutuamentenon correlati.Teorema di convergenza: se i momenti secondi <strong>de</strong>i n.a. X t <strong>de</strong>l processo martingala sonoequilimitati, cioè se esiste un numero reale m per cui è E[X t2] ≤ m < ∞ , allora esiste un n.a. Xverso cui la martingala converge, con probabilità 1, al divergere di t. Inoltre è E(X) = E(X t ) per ognit.Alcuni esempi :1) Le somme <strong>su</strong>ccessive di n.a. Z t equi e stocasticamente indipen<strong>de</strong>nti costituiscono una martingala(è lo schema di un gioco equo): infatti i n.a. Z t sono anche assolutamente equi per cui, ponendoc = 0 e X t = Z 1 + Z 2 + ………+ Z t si ha che X t è una martingala per il teorema dirappresentazione.2) Le proporzioni X t di palline bianche dopo ogni estrazione ca<strong>su</strong>ale da un’urna di Polya(contenente inizialmente b palline bianche ed r palline rosse, essendo c le nuove pallineimmesse nell’urna, <strong>de</strong>llo stesso colore di quella appena estratta) costituiscono una martingala.3) La <strong>su</strong>ccessione <strong>de</strong>lle funzioni di regressione X t = E[Z / Y 1 ,……..,Y t ] di un n.a. Z rispetto ai n.a.Y 1 ,……..,Y t ,…… è un processo martingala . Occorre, in questo esempio, adottare per i n.a. X tla <strong>de</strong>finizione di martingala rispetto alla sequenza Y 1 , Y 2 ,…..,Y t ,….. .Ritornando all’esempio 1), e consi<strong>de</strong>rando che X t sia una martingala rispetto a {Z t }, èopportuno tener conto <strong>de</strong>lla possibilità che un giocatore <strong>de</strong>cida colpo per colpo se giocare o noall’epoca n: si può far questo introducendo una “funzione di <strong>de</strong>cisione” {ε n }, ove ε n = 0 oppure ε n =1 a seconda che il giocatore <strong>de</strong>cida di non giocare, o giocare, la partita n-ma. Indicando con W n ilguadagno totale nelle prime n partite si ha W n = W n-1 + ε n . Z n = W n-1 + ε n .(X n – X n-1 ).n 1Osserviamo che in generale W n-1 ≠ X n-1 = ∑ − Z t perché il giocatore può <strong>de</strong>ci<strong>de</strong>re di non giocaret = 1qualcuna <strong>de</strong>lle prime n-1 partite; se, per esempio, è uguale a 1 solo la prima variabile <strong>de</strong>cisionale ε 1mentre tutte le <strong>su</strong>ccessive n-2 sono nulle si ha W n-1 = Z 1 = X 1 .Poiché, a partire dall’equazione sopra scritta, è:E(W n / Z 1 ,……..,Z n-1 ) = W n-1 + ε n . [E(X n / Z 1 ,……..,Z n-1 ) – X n-1 ] ,e ricordando che {X n } è una martingala rispetto a {Z n } ri<strong>su</strong>lta E(W n /Z 1 ,….,Z n-1 ) = W n-1 cosicchèanche {W n } è una martingala rispetto a {Z n }. Tale ri<strong>su</strong>ltato è noto comeTeorema di impossibilità (di modificare la struttura di martingala): qualunque funzione di<strong>de</strong>cisione {ε n } trasforma una martingala {X n } in una nuova martingala {W n }.Una particolare funzione di <strong>de</strong>cisione {ε t } è quella in cui esiste un intero n tale che ε t = 1 perogni t ≤ n e ε t = 0 se t > n. Tipicamente, l’intero n è consi<strong>de</strong>rato aleatorio (e <strong>de</strong>notato N) di modoche si ha ε t = 1 se N > t-1 mentre ε t = 0 se N ≤ t-1 .Ovviamente, neanche l’introduzione di un tempo aleatorio di arresto (stopping time) modificala proprietà di martingala. Aggiungiamo alcune altre nozioni collegate a quella di martingala.Un processo {X t } è <strong>de</strong>tto costituire una <strong>su</strong>b-martingala (<strong>su</strong>per-martingala) se soddisfa lecondizioni E( Xt/ X1,.............., Xt − 1)≥ Xt − 1 (≤ X t-1 ). Sussiste l’importante teorema:“se u(.) è una funzione convessa ed {X t } una martingala allora il processo {u(X t )} è una <strong>su</strong>bmartingalaa condizione che esista finita la E [⎜u(X t )⎪] per ogni t ”.13


Un processo {X t } è una martingala in senso lato se E 2 [X t / X 1 ,……..,X t-1 ] = X t-1 ove il primomembro indica l’approssimazione lineare <strong>de</strong>i minimi quadrati di X t rispetto ai n.a. X 1 ,……..,X t-1 .Si dimostra che un processo {X t } è una martingala in senso lato se e solo se X t = Y 1 +………+Y t +c ove i n.a. Y t sono equi e mutuamente ortogonali.Il processo martingala presentato nel terzo esempio è costituito da approssimatori <strong>de</strong>i minimiquadrati X t = E[Z / Y 1 ,……..,Y t ] <strong>de</strong>l n.a. Z in termini di funzioni arbitrarie <strong>de</strong>i n.a. Y t <strong>su</strong>ppostiosservabili. La condizione E(Z 2 ) < ∞ implica la E(X t2 ) ≤ m < ∞ per ogni t e dunque la convergenzain media quadratica di { X t } ad un n.a. X: quest’ultimo dovrebbe potersi interpretare comeapprossimatore ottimale in quanto utilizza la totalità <strong>de</strong>i n.a. osservabili Y t . Inoltre, è naturalepensare che al crescere <strong>de</strong>lla numerosità <strong>de</strong>lla sequenza Y 1 ,……..,Y t migliori progressivamentel’approssimazione di Z perché si utilizza una quantità di informazione crescente: è infatti quantoviene stabilito dal seguente teorema.Teorema: posto D t = [E(Z – X t ) 2 ] 1/2 , al crescere di t la sequenza {D t } <strong>de</strong>cresce e ten<strong>de</strong> ad un limiteD, mentre la sequenza {E(X t2 )} cresce ten<strong>de</strong>ndo al limite E(Z 2 ) – D 2 . La dimostrazione è semplicese si ricorda che E[Z / Y 1 ,……..,Y t ] è interpretabile come proiezione ortogonale di Z <strong>su</strong>lsottospazio lineare chiuso <strong>de</strong>ll’insieme <strong>de</strong>i n.a. con momento secondo finito costituito dalle funzioniψ(Y 1 ,……..,Y t ) tali che sia E[ψ(Y 1 ,……..,Y t )] 2 < ∞. Intanto ri<strong>su</strong>lta 0 ≤ D t ≤ [E(Z 2 )] 1/2 e poiché lasequenza {Dt} <strong>de</strong>cresce al crescere di t esiste un limite D. Inoltre, per la proprietà di ortogonalità diZ - E[Z / Y 1 ,……..,Y t ] nei confronti di tutte le funzioni ψ(Y 1 ,……..,Y t ) si ha Z – Xt ⊥ Xt e dunqueE(Z 2 ) = D t2+ E(X t2 ). Ri<strong>su</strong>lta quindi che E(X t2 ) ↑ E(Z 2 ) – D 2 .Cenni <strong>su</strong>i processi stazionariXtt ≥ è stazionario in senso stretto se le <strong>su</strong>edistribuzioni congiunte finite-dimensionali soddisfano la seguente condizione di invarianzaUn processo stocastico a parametro discreto { ; 1}F ( x , x ,........., x ) = F ( xt + h, xt + h,.........,xt + h )t1 t2t n1 2per ogni intero n, ogni sequenza di interi distinti ( )( , ,........., )t1 t2t nnt1, t2,........., t n e ogni vettore di numeri realix x x . Ne discen<strong>de</strong> che i numeri aleatori <strong>de</strong>lla sequenza { X ; t ≥ 1}distribuiti, le coppie di n.a. ( , )distribuite, …………. .sttsono ugualmenteX X aventi uguale differenza <strong>de</strong>gli indici s – t sono ugualmenteUn processo stocastico a parametro discreto { ; 1}hanno momenti secondi finiti e se1) la funzione valor medio è costante, cioè se X( t)E ( Xt ) E ( X1)2) la funzione di covarianza ( s, t) Cov ( X , X )X s tXtt ≥ è stazionario in senso lato se i n.a. Xtϕ = ≡ ,Ψ = dipen<strong>de</strong> da s e t solo attraverso s – t .Da quanto <strong>de</strong>tto si ricava che la stazionarietà in senso stretto implica quella in senso lato soltantose i n.a. Xt hanno tutti momenti secondi finiti; l’implicazione inversa <strong>su</strong>ssiste solo quando ledistribuzioni congiunte dipendono dai soli momenti <strong>de</strong>l primo e secondo ordine, come acca<strong>de</strong> peresempio alle distribuzioni di tipo Gaussiano e Stu<strong>de</strong>nt – t .14


Un primo esempio di processo stazionario in entrambi i sensi è costituito da una sequenza di n.a.indipen<strong>de</strong>nti e ugualmente distribuiti con varianza finita σ . La funzione di covarianza Ψ ( s , t ) hadue valori, Ψ ( s X, t2) = 0 se s ≠ t e ΨX( s, t)≡ σX se s = t . I casi più significativi di stazionarietàsono però quelli in cui i n.a. Xt sono mutuamente dipen<strong>de</strong>nti: l’esempio più prossimo al prece<strong>de</strong>nteè dato da una sequenza di n.a. ugualmente distribuiti con una funzione di covarianza con due valori,Ψ ( s X, t ) = γ ≠ 20 se s ≠ t e ΨX( s, t)≡ σX se s = t (nel seguito useremo il termine di “scambiabilità<strong>de</strong>l secondo ordine” per indicare un mo<strong>de</strong>llo di questo tipo).a) Funzione di covarianza e funzione spettraleLo studio <strong>de</strong>i processi stazionari (<strong>de</strong>l secondo ordine) può avvenire da due diversi punti di vista:l’approccio temporale che utilizza la funzione di covarianza quale strumento principale el’approccio frequenziale (o spettrale) che utilizza quale strumento principale la funzione spettrale,<strong>de</strong>finita come la trasformata di Fourier <strong>de</strong>lla funzione di covarianza. Si ha in proposito il seguenteTeorema: se { ; 1}X t ≥ è un processo stazionario in senso lato, a valori reali, con funzione valortmedio i<strong>de</strong>nticamente nulla e funzione di covarianza Ψ (h), h ∈ Z, si ha :a) Ψ (h)è semi-<strong>de</strong>finita positiva, cioè soddisfa, per ogni intero positivo N ed ogni sequenza diXnumeri reali ( a 1,..........., aN ), la condizione ∑Nii,j = 1X2Xa . a . Ψ ( i − j)≥ 0 e, viceversa, ogni funzione<strong>de</strong>finita in Z e semi-<strong>de</strong>finita positiva è la funzione di covarianza di un processo stazionario;b) esiste una funzione (spettrale) F(λ), a valori reali, monotona non <strong>de</strong>crescente e limitata, tale cheπΨ (h) ha la rappresentazione Ψ (h)= ∫ cos( λ h)d F(λ) ; la corrispon<strong>de</strong>nza tra l’insieme−XXπ<strong>de</strong>lle ΨX(h)e quello <strong>de</strong>lle funzioni spettrali F(λ) può essere resa biunivoca imponendo, peresempio, l’ulteriore condizione F(-π) = 0 e as<strong>su</strong>mendo F(λ) continua a <strong>de</strong>stra in ogni eventualepunto di discontinuità;c) se ΨX(h)è assolutamente sommabile, cioè se verifica la condizione ∑ + ∞ ΨX(h)< +∞ , allora− ∞esiste f(λ) = F’(λ), <strong>de</strong>tta <strong>de</strong>nsità spettrale, continua in (-π , π), simmetrica rispetto a λ = 0, taleπche Ψ (h)= ∫ −Xπcos( λ h ) . f(λ) dλ e che f(λ) = (2π) –1 . ∑ + ∞ cos(λ h) . ΨX(h).h= − ∞Per la dimostrazione di questo teorema e <strong>de</strong>gli altri che seguiranno rinviamo il lettore peresempio al testo di P.J.Brockwell e R.A.Davis “Time Series: Theory and Methods” <strong>de</strong>lla Springer.Vediamo ora alcuni esempi di processi stazionari e di funzioni spettrali:1. <strong>Processi</strong> con numeri aleatori i.i.d. e dotati di momento secondo finito: la funzione dicovarianza Ψ (h)as<strong>su</strong>me il valore σ se h = 0 ed è nulla per gli altri valori di h; laXcorrispon<strong>de</strong>nte <strong>de</strong>nsità spettrale è i<strong>de</strong>nticamente uguale a2processo WN (0 ; σ ) ha la me<strong>de</strong>sima <strong>de</strong>nsità spettrale.2XjX2σX / 2π. Si noti che anche il2. Processo armonico X t = Y.cos(λt) + Z.sin(λt) , 0 < λ < π , ove le speranze matematiche diY e Z sono as<strong>su</strong>nte nulle, le varianze sono as<strong>su</strong>nte uguali e <strong>de</strong>notate con σ 2 e la loroX15


covarianza è as<strong>su</strong>nta nulla; il parametro λ, <strong>de</strong>nominato “frequenza angolare”, è as<strong>su</strong>ntopositivo e non maggiore di π. E’ immediato provare che è ϕ(t) = 0 e si trova facilmente laψ(s,t) = σ 2 . cos λ(t-s) . Dal momento che questa funzione di covarianza non è assolutamentesommabile, non esiste una corrispon<strong>de</strong>nte <strong>de</strong>nsità spettrale. La funzione spettrale F(λ)corrispon<strong>de</strong>nte alla ψ(s,t) è una funzione a gradini con discontinuità in -λ e λ e l’ampiezza2<strong>de</strong>i salti è pari a σX /2 . Questo stesso processo stocastico può avere altre duerappresentazioni equivalenti; la prima è X t = V. sin (λt + η) , ove il nuovo parametro η,<strong>de</strong>tto “spostamento di fase”, è <strong>de</strong>finito ponendo Y = V.sin η e Z = V.cos η , con V =(Y 2 + Z 2 ) 1/2 , di modo che è banalmente sin η = Y/V e cos η = Z/V .La seconda rappresentazione alternativa è X t = A*.e -iλt + A .e iλt , ove si è posto A =(Y– iZ)/2 e ove A* <strong>de</strong>nota il numero complesso coniugato di A. Questa secondarappresentazione introduce formalmente la frequenza angolare negativa -λ e numeri aleatoria valori complessi, ma si vedrà nel seguito che tale complicazione formale consenteun’effettiva semplificazione negli sviluppi matematici.3. <strong>Processi</strong> ottenuti da somme finite di processi armonici.NSia X t = ∑j = 1( Y j .cos λ j t + Z j .sin λ j t ), ove 0< λ 1 < ……. < λ N < π ; i numeri aleatori Y j e Z jabbiano speranza matematica nulla, varianza pari a σ 2 j e siano tutti mutuamente non correlati.La funzione valor medio di {X t } è i<strong>de</strong>nticamente nulla e la <strong>su</strong>a funzione di covarianza è data daNψ(s,t) = ∑j = 1σ 2 j . cos λ j (t-s) . La corrispon<strong>de</strong>nte funzione spettrale F(λ) ha 2N discontinuità,simmetriche rispetto a λ = 0, di ampiezza2σj/ 2 e ri<strong>su</strong>lta F(π) = ∑N2σj .j = 1Come per il prece<strong>de</strong>nte processo armonico, <strong>su</strong>ssistono altre due rappresentazioni possibili perl’attuale processo : X t = ∑Nj = 1V j . sin (λ j t + η j ) e X t = ∑Nj=− NA j . exp (iλ j t) . Nell’ultimarappresentazione, le condizioni affinchè {X t } sia un processo a valori reali sono A j = (Y j –iZ j )/2se j ≥ 0 , A -j = A j * e λ -j = - λ j .Tale processo può essere esteso ad un numero infinito di ad<strong>de</strong>ndi se si <strong>su</strong>ppone finita la somma<strong>de</strong>lla serie <strong>de</strong>lle varianze σ 2 j ; questa estensione ha una rilevante importanza dal punto di vistateorico per la rappresentazione di processi stazionari “con spettro discreto”.Sussiste in proposito il seguente teorema di E.E. Slutskij (1938): ogni processo stazionario insenso lato con funzione valor medio nulla e funzione spettrale costante a tratti (spettro discreto)può essere rappresentato secondo laXt=∑ ∞ j = 1b .( Y .cos λ t + Z .sin λ t),jjjjjcon∑ ∞ j = 12jb < ∞ , ove i n.a. Y j e Z j sono tutti equi, mutuamente non correlati con V(Y j ) = V(Z j ) =2σj . La generalizzazione di questo ri<strong>su</strong>ltato a tutti i processi stazionari in senso lato confunzione valor medio nulla e funzione spettrale arbitraria è dovuta a Kolmogorov, Cramér eLoève.16


4) Processo MA(1) : Xt = ε t +b.ε t-1 con ε t ∼ WN (0 ; σ ) . Si ha Ψ (0)=2εX2 2( 1 b ). σε+ ,Ψ (1) =Xb , mentre Ψ (h)= 0 per h > 1. Evi<strong>de</strong>ntemente esiste una <strong>de</strong>nsità spettrale, poiché2. σεX∑ + ∞ ∞ −ΨX(h)=2 2( 1 b ). σε2+ + 2b σ , e la <strong>su</strong>a espressione è :.εf(λ) =2σε (2π) –1 .(1+2b.cos λ+ b 2 ) .b) Filtri lineari invariantiSi <strong>de</strong>finisce “filtro lineare invariante” applicato ad un processo stocastico { ; 1}Y t ≥ unatrasformazione lineare X t = ∑ + ∞ c . Y j t − j <strong>de</strong>l processo {Yt} con coefficienti c j indipen<strong>de</strong>nti da t e talij = − ∞da soddisfare una qualche condizione <strong>de</strong>l tipo ∑ + ∞j = − ∞Sussiste il seguente:c 2 j < ∞ o ∑ + ∞j = − ∞cj < ∞ .Teorema: se la <strong>su</strong>ccessione di coefficienti { c j } è assolutamente sommabile e il processo {Yt} èstazionario in senso lato allora {Xt} è stazionario in senso lato con funzione di autocovarianzatΨX∑ + ∞ jj,k = − ∞( h)= c . c . Ψ ( h − j + k)e funzione spettrale verificante la dF X (λ) =kYH (λ )2.dF Y (λ) , oveH(λ) è la funzione di trasferimento <strong>de</strong>l filtro <strong>de</strong>finita dalla H(λ) = ∑ + ∞ c e − ijλj. . Se esiste la <strong>de</strong>nsitàj = − ∞spettrale f Y (λ) allora esiste anche f X (λ) che verifica la relazione f X (λ) =Nell’esempio 4) è H(λ) = 1 + b.exp(-iλ) e222σ ε.(1 + 2b .cos λ + b ) / 2π, essendo σ ε/ 2π5. Processo AR(1) : X t – a.X t-1 = εt , con { ε t }∼ WN (0 ;22H (λ ) . f Y (λ) .H (λ ) = 1 + 2bcos(λ) + b 2 per cui si ha f X (λ) =la <strong>de</strong>nsità spettrale <strong>de</strong>l processo { ε t }.σ ) e a < 1 .2Sostituendo in X t = a.X t-1 + εt a X t-1 l’espressione a.X t-2 + εt − 1 si ottiene X t = a . X t − 2+ εt+ a.εt − 1 ;ncontinuando allo stesso modo le sostituzioni si perviene alla X t = ∑ − ka . Xt − n+ εt+ a . εt − k .k = 1Passando al limite per n ten<strong>de</strong>nte all’infinito si ha X t = ∑ ∞ kεt+ a . εt − k , dalla quale il processo{X t }k = 1appare ottenuto con l’applicazione al processo {ε t } di un filtro lineare invariante. La funzione ditrasferimento di questo filtro è la H(λ) = 1+ ∑ + ∞k =(1 – 2a.cos λ + a 2 ) -1 . Si ha dunque f X (λ) =1a k . e2− ikλ2ε= ( 1 −n 1− iλ − 12a . e ) e ri<strong>su</strong>lta H (λ ) =2 2 − 1H (λ ) . f Y (λ) = σ ε.(1 − 2a .cos λ + a ) / 2π.6. Processo ARMA (1 , 1) : X t – a.X t-1 = εt + b. εt − 1 , con { ε t }∼ WN (0 ; σ ) e a < 1 .2ε17


E’ opportuno riguardare il mo<strong>de</strong>llo <strong>su</strong>d<strong>de</strong>tto come un mo<strong>de</strong>llo AR(1), X t – a.X t-1 = Y t , con Y t = εt +2b. εt − 1 . Per quanto già visto, {Yt} è un processo stazionario con <strong>de</strong>nsità spettrale f Y (λ) = σε (1 +2bcos λ + b 2 ) / 2π per cui è:f X (λ) =2H (λ ) . f Y (λ) =22σ ε (1 + 2b.cosλ + b ).2 .2π(1 − 2a.cosλ + a )c) Cenni <strong>su</strong>i processi scambiabili in senso latoVedremo che i processi scambiabili sono una sottoclasse di processi stazionari; se si <strong>su</strong>ppongonofiniti i momenti secondi <strong>de</strong>i n.a. X t di un processo scambiabile, ha senso consi<strong>de</strong>rare la condizionedi scambiabilità in senso lato: essa è caratterizzata dal fatto che la funzione valor medio ϕX(t)è2costante e la funzione di covarianza ψX(h)ha soltanto i due valori ψX(0)= σX e ψX(h)= γ > 0 seh è diverso da 0. Evi<strong>de</strong>ntemente la ψX(h)non è assolutamente sommabile e si prova che lafunzione spettrale F(λ) ha una discontinuità nell’origine e che la <strong>su</strong>a espressione è F(λ) = γ. F 1 (λ) +2( σ X - γ ). F 2 (λ) , ove F 1 (λ) è una funzione di ripartizione che concentra la massa unitarianell’origine ed F 2 (λ) una funzione di ripartizione con <strong>de</strong>nsità uniforme in [-π , π].7. Sia X t = Y + ε t ove { ε t } è un processo WN ( 0 ;2σ ε ) . Il n.a. Y abbia valor medio nullo,2varianza σ Y e sia non correlato con ciascun n.a. ε t . E’ facile verificare che E (X t ) ≡ 0 e che lafunzione di covarianza ΨX(h)ha due valori: Ψ X (0)2 22= σ Y + σ ε e ΨX(h)= σ Y se h ≠ 0. Siamo in2 2presenza di una funzione di covarianza a due valori, per cui, ponendo σ Y + σ2 2ε = σ e σ Y = γ , la2funzione spettrale è la F(λ) = γ. F 1 (λ) + ( σ - γ ). F 2 (λ) . In altri termini, il processo {X t } èscambiabile in senso lato.Si può provare il seguente teorema di rappresentazione : tutti e soli i processi stocasticiscambiabili in senso lato sono rappresentabili come X t = Y + ε t ove i n.a. a secondo membro hannole caratteristiche <strong>su</strong>d<strong>de</strong>tte con Var (Y) = Ψ (h), con h ≠ 0, e σ = Ψ X (0)- Ψ (h).X2εXd) <strong>Processi</strong> stazionari a valori complessiNEsempio: Xt = ∑j = 1A . exp( iλ t), ove i n.a. complessi A j sono equi, con varianzajjmentre i numeri certi λ j appartengono all’intervallo (-π , π]. Si trova facilmente che i n.a.equi e che la loro funzione di covarianza ha l’espressioneψXN∑j = 1j2σj e non correlati,2( h)= σ .exp( iλh). Lacorrispon<strong>de</strong>nte funzione spettrale è costante a tratti con discontinuità di ampiezzaλ j ; naturalmente è∑2F X( λN) = FX( π ) = σj .Nj = 1jXt sono2σj nei punti λ =18


F XForniremo ora due espressioni formali equivalenti per (h)∑j:λ j ≤ λπψ e per il processo { X }Xt: poiché è2( λ ) = σj possiamo scrivere ψX(h)= ∫ exp( iλ h)d FX(λ ) e rappresentare quindi ψX(h)come un integrale di Stieltjes con funzione peso F X(λ ) . Ponendo invece Z(λ) = ∑ j:≤ λscrivereπXt = ∫− π− πλ jA jsi puòexp( iλ h)d Z(λ) : si tratta di un integrale stocastico, <strong>de</strong>l tipo <strong>de</strong>tto “integrale diWiener”, rispetto al processo{Z(λ)}. Quest’ultimo è un processo a parametro continuo <strong>de</strong>finito in(-π , π] con funzione valor medio i<strong>de</strong>nticamente nulla e con incrementi non correlati; inoltre è2E Z(λ ) = F ( λ ) . Viene <strong>de</strong>nominato “processo spettrale” associato a {Xt}.XIl fatto notevole è che le due <strong>su</strong>d<strong>de</strong>tte rappresentazioni <strong>su</strong>ssistono, con diverse funzionipeso F (λ ) e Z(λ), per tutti i processi stazionari in covarianza con valori complessi e conmomenti secondi assoluti finiti. Sono entrambe rappresentazioni nel dominio frequenziale ospettrale e costituiscono <strong>de</strong>composizioni <strong>de</strong>lla funzione di covarianza e <strong>de</strong>l processo stazionario incomponenti cicliche di frequenze angolari λ ∈ (-π , π] .Diamo ora gli enunciati <strong>de</strong>i corrispon<strong>de</strong>nti teoremi:Teorema di Herglotz: la funzione di covarianza di un processo { Yt} stazionario in senso lato conE Y t2< +∞ , in quanto funzione semi<strong>de</strong>finita positiva, è rappresentabile comeπψY(h) = ∫ exp( i λ h)d FY(λ ) ,− πove FY(λ ) è a valori reali, monotona non <strong>de</strong>crescente e limitata. Solitamente si as<strong>su</strong>me anche cheessa sia continua a <strong>de</strong>stra negli eventuali punti di discontinuità e che F ( − π ) = 0 .Teorema di Kolmogorov, Cramér, Loève: ad ogni processo { Yt} stazionario in senso lato con2E Y t < +∞ e funzione valor medio nulla può essere associato un processo stocastico{Z Y (λ)}, λ ∈(-π , π], con incrementi non correlati tale cheove E [Z Y (λ)] = 0, E ZY(λ ) = FY(λ ) , E2πY t = ∫ exp( iλ t)d Z Y (λ) ,− π2dZY(λ ) = d FY(λ )Infine enunceremo un terzo fondamentale teorema concernente i processi stazionari incovarianza con funzione valor medio i<strong>de</strong>nticamente nulla:YTeorema di H. Wold: ogni processo { Yt} stazionario in senso lato convalor medio nulla può essere rappresentato al modo seguenteE Y t2< +∞ e funzioneY = V + ∑ γ . εt t j t − jj = 0∞19


ove { ε t }∼ WN (0 ; σ ) ,2ε∞2∑ γj< ∞ , γ0= 1, ( t s )j = 0Cov V , ε ≡ 0 e ove il processo stocastico { V }“<strong>de</strong>terministico” nel senso che esso è completamente <strong>de</strong>terminato dal <strong>su</strong>o passato.tèSi può affermare che il teorema di H. Wold costituisce il fondamento probabilistico <strong>de</strong>lla tecnicastatistica nota come Analisi <strong>de</strong>lle serie temporali (o <strong>de</strong>lle serie storiche).e) <strong>Processi</strong> scambiabili e parzialmente scambiabiliLa nozione di processo scambiabile è stata introdotta da B. <strong>de</strong> <strong>Finetti</strong> nel 1928 con unacomunicazione al Congresso Internazionale <strong>de</strong>i Matematici di Bologna dal titolo “Funzionecaratteristica di un fenomeno aleatorio” con la quale:- introdusse la nozione di processo stocastico scambiabile,- dimostrò il corrispon<strong>de</strong>nte teorema di rappresentazione e- risolse il problema <strong>de</strong>ll’inferenza statistica in ipotesi di scambiabilità <strong>de</strong>lle variabili osservabilifornendo una giustificazione razionale <strong>de</strong>l principio di induzione .Mentre la mo<strong>de</strong>sta frase iniziale <strong>de</strong>lla <strong>su</strong>d<strong>de</strong>tta comunicazione – “Scopo di questacomunicazione è di mostrare come il metodo <strong>de</strong>lla funzione caratteristica, già cosìvantaggiosamente introdotto nella teoria <strong>de</strong>lle variabili ca<strong>su</strong>ali, si presti pure assai utilmente allostudio <strong>de</strong>i fenomeni aleatori” – non lascia trasparire i notevoli contributi innovativi in essacontenuti, la frase finale - “Queste conclusioni e questi esempi possono chiarire l’influenza che<strong>su</strong>lla valutazione di una probabilità esercitano i dati <strong>de</strong>ll’esperienza.” – fa intrave<strong>de</strong>re che la ragioneprincipale <strong>de</strong>lla introduzione <strong>de</strong>lla nozione di scambiabilità era stata l’intenzione di chiarire lecondizioni in cui l’osservazione di una frequenza <strong>su</strong> una sequenza di prove fornisce coerentementela base per una valutazione di probabilità o per una previsione <strong>de</strong>lla frequenza <strong>su</strong> una sequenza diprove ancora da eseguire. In altri termini l’autore chiarisce l’insieme di ipotesi che giustifica il“principio di induzione”, cioè la propensione a valutare la probabilità di un evento En + 1 in termini<strong>de</strong>lla frequenza relativa di <strong>su</strong>ccesso osservata <strong>su</strong> n eventi analoghi ad En + 1 ; formalmente:nm⎧⎫P( En+ 1/ K)≅ se K = ⎨ ∑ Ej= m⎬.n⎩ j = 1⎭Dal punto di vista formale, i processi scambiabili sono caratterizzati dalla condizione diinvarianza <strong>de</strong>lle distribuzioni congiunte rispetto a permutazioni arbitrarie <strong>de</strong>gli indici <strong>de</strong>i n.a., cioèdall’invarianza <strong>de</strong>lle distribuzioni rispetto all’ordine <strong>de</strong>i n.a. . Si richie<strong>de</strong> cioè che siaF ( x ,.........., x ) = F ( x ,..........., x )1,.........., n 1 n j1,............, jn1nper ogni intero positivo n ≥ 1, per ogni permutazione ( j 1,............., jn ) <strong>de</strong>lla sequenza (1,………..,n)e per ogni sequenza di argomenti ( x 1,.........., xn ). Per quanto concerne i momenti fino al secondoordine si ha evi<strong>de</strong>ntemente ϕX(t)= E( Xt) ≡ E( X1)e ψX( s,t)= Cov( Xs, Xt) = ψX( s − t)= σ 2 oψX( s − t) = γ > 0 a seconda che sia s – t = 0 o, rispettivamente, s – t ≠ 0 . La <strong>su</strong>d<strong>de</strong>tta <strong>de</strong>finizioneimplica che ogni insieme finito di n n.a. distinti Xt abbia la stessa distribuzione di probabilitàcongiunta, cioèF ( x ,.........., x ) = F ( x ,..........., x ) ,t1 ,.........., tn1 n n 1n20


qualunque sia l’intero positivo n, la sequenza di interi positivi distinti ( t 1,..........., t n ) e la sequenzadi argomenti ( x 1,..........., xn ) e ove Fn indica la funzione di ripartizione congiunta per un qualunqueinsieme di n n.a. distinti.Dal punto di vista interpretativo la condizione di scambiabilita’ traduce l’i<strong>de</strong>a di analogia oequivalenza tra i n.a. osservabili Xt in modo ben piu’ efficace <strong>de</strong>lla condizione di indipen<strong>de</strong>nzastocastica e uguale distribuzione <strong>de</strong>gli stessi: infatti, se gli Xt sono as<strong>su</strong>nti mutuamenteindipen<strong>de</strong>nti l’apprendimento dall’esperienza non puo’ avvenire. Per il caso Xt =E K P Edi indipen<strong>de</strong>nza tra gli eventi equivale ad as<strong>su</strong>mere che sia ( ) ( )Et l’as<strong>su</strong>nzioneP / n+ 1≡n+1 qualunque sial’evento osservabile K riguardante gli eventi E1,...............,En. Per contro, l’as<strong>su</strong>nzione discambiabilita’ tra gli eventi introduce tipicamente una dipen<strong>de</strong>nza stocastica tra essi e questamimplica la P( E n + 1/ K ) ≅ , come facilmente si puo’ provare.nSussiste un importante teorema di rappresentazione per i processi scambiabili illimitati, cioècostituiti da una infinità numerabile di n.a. X .tTeorema di B. <strong>de</strong> <strong>Finetti</strong>: tutti e soli i processi scambiabili illimitati { Xt; t ≥ 1} sono combinazioniωlineari (o misture) di processi stocastici { Xt( ) ; t ≥ 1}, ω ∈ Ω , i cui n.a. sono indipen<strong>de</strong>nti e dotati di( )una comune funzione di ripartizione F ω ( x)nel senso che esiste una funzione di ripartizione G(ω)tale che per ogni intero positivo n ed ogni sequenza finita di indici ( t 1,..........., t n ) <strong>su</strong>ssiste la( ω )⎡n⎤( ω )Ft 1,.........., t( x1 ,.........., x ) (1,............, ) ( )nn= ∫ F x xndG ω = ∫ ⎢ ∏ F ( xj) ⎥ dG( ω ) .ΩΩ ⎣ j = 1⎦In questa se<strong>de</strong> ci limitiamo a fornire due semplici esemplificazioni <strong>de</strong>l <strong>su</strong>d<strong>de</strong>tto teorema di( )rappresentazione: nel primo esempio le funzioni di ripartizione univariate F ω siano tutte di tiponormale o Gaussiano con valor medio ω e varianza unitaria; <strong>su</strong>pponiamo ancora che G(ω) sia lafunzione di ripartizione di una distribuzione normale con parametri 2µ e σ . Si ha allora:⎡n⎤− 1/ 2 2Ft 1,.........., t( x1,..........., x ) (2 ) .exp{ ( ) / 2} ( )nn= ∫ ⎢ ∏ π − xj− ω ⎥ dG ω =R ⎣ j = 1⎦=n2− n / 2⎡ 12⎤ ⎡ 2 − 1/ 2 σ2 ⎤(2 π ) ∫ ⎢ exp{ − ∑ ( xj− ω ) } ⎥ . (2 π σ ) .exp{ ( ω µ ) } dω2⎢ − −j 12⎥R ⎣=⎦ ⎣⎦dalla quale si ricava, con facili calcoli, che Ft ( ,........., )1 ,.........., tx xn 1n corrispon<strong>de</strong> ad una distribuzionenormale n – dimensionale caratterizzata da valori medi tutti uguali a μ, varianze tutte uguali a221+ σ e covarianze tutte uguali a σ .Nel secondo esempio i n.a.Xt siano indicatori di eventiil prodotto logico A { E ' ' '1E2 ........... En}Et scambiabili per i quali si consi<strong>de</strong>ra= ∧ ∧ ∧ implicante l’evento { E = m}; <strong>su</strong>pponiamo ancheche sia noto il valore logico (vero o falso) di ogni evento <strong>de</strong>l prodotto logico A. Le funzioni din∑j = 1j21


( ωripartizione F) ( x)sono i<strong>de</strong>nticamente nulle per x < 0, uguali a ω per 0 ≤ x < 1 e i<strong>de</strong>nticamenteuguali a 1 per x > 1. Se as<strong>su</strong>miamo che G( ω ) sia la funzione di ripartizione di una distribuzioneBeta con parametri numericiα e β l’applicazione <strong>de</strong>l teorema di rappresentazione fornisce la1mn− m ⎡ Γ ( α + β ) α − 1 β − 1 ⎤P( A) = ∫ ⎡⎣ ω .(1 − ω ) ⎤⎦ . ⎢ω .(1 − ω ) dωΓ ( α ). Γ ( β )⎥0⎣⎦m( α )m.( β )n−mdalla quale si ricava, con facili calcoli, che è P( A)=, ove ∏ − 1( α )m= ( α + j).( α + β )nj = 0La condizione di scambiabilità parziale è stata introdotta sempre da B. <strong>de</strong> <strong>Finetti</strong> nel 1937 ed èpiù flessibile rispetto a quella di scambiabilità e quindi più adatta a mo<strong>de</strong>llizzare schemi nei qualil’analogia tra le unità campionarie non è consi<strong>de</strong>rata perfetta. Si pensi a mi<strong>su</strong>razioni ripetute di unastessa gran<strong>de</strong>zza effettuate con strumenti di mi<strong>su</strong>ra aventi precisioni diverse, a rischi assicurativi(per esempio contratti R.C.A.) giudicati non omogenei (per esempio per la diversa cilindrata <strong>de</strong>gliautoveicoli), ai ri<strong>su</strong>ltati aleatori di lanci ripetuti di monete diverse e così via.Il mo<strong>de</strong>llo più semplice di processo parzialmente scambiabile consiste di un insieme finito (peresempio una coppia, o una terna,...........) di processi stocastici scambiabili, tra loro correlati. Siconsi<strong>de</strong>rino, per semplicità, due processi stocastici distinti { X t; t ≥ 1}e { Y t; t ≥ 1}ciascuno <strong>de</strong>i qualiè <strong>su</strong>pposto essere scambiabile. Circa i legami di dipen<strong>de</strong>nza stocastica tra i due processi si possonoipotizzare tante situazioni diverse: i casi limite sono quello di indipen<strong>de</strong>nza tra essi e, all’opposto,quello di scambiabilità semplice generalizzata (in cui non c’è bisogno di consi<strong>de</strong>rare distinti i n.a.<strong>de</strong>l primo da quelli <strong>de</strong>l secondo processo). Tra queste situazioni limite c’è tutta la gamma disituazioni di scambiabilità parziale non banale: ciò che le accomuna è la condizione di ugualecovarianza tra ogni n.a. Xt <strong>de</strong>l primo processo e tutti i n.a. Ys <strong>de</strong>l secondo, cioè Cov(X t ,Y s ) = γ2 2per ogni coppia di valori (t,s) <strong>de</strong>gli indici. Ovviamente dovrà essere γ ≤ σ . σ .Dal punto di vista formale, i processi parzialmente scambiabili (costituiti da due processiscambiabili) sono caratterizzati dalla seguente proprieta’ di invarianza <strong>de</strong>lle distribuzioni congiunte:F( x .., x ; y ,............, y ) = F ( x ,............, x ; y ,............, y )t,.........1tns1sm1n 1per ogni coppia di interi non negativi n, m e ogni coppia di sequenze di interi positivi distintit ,..... 1 ........., t e s .......... 1.......,ns mSussiste il seguente ri<strong>su</strong>ltato dovuto a B. De <strong>Finetti</strong>:.Teorema di rappresentazione: tutti e soli i processi parzialmente scambiabili illimitati (costituitida due processi scambiabili componenti) sono combinazioni lineari (o misture) di processi stocastici( )i cui n.a. sono indipen<strong>de</strong>nti, con una funzione di ripartizione F ω 1( x)comune a tutti i n.a. Xt e una( )funzione di ripartizione F η2( y)comune a tutti i n.a. Ys nel senso che esiste una distribuzionecongiunta G ( ω , η ) tale che sian( )⎡m⎡⎤ω ⎤ ( η )F ( xt,...........,x ; ,............, ) = ∫ ∫{ } ⎢ ∏ 1( ) ⎥ . ⎢ ∏ 2( ) ⎥ ( ω , η )1 ty yF x F y dGn s1smtω , ηis j⎣ i = 1⎦ ⎣ j = 1⎦per ogni coppia di interi non negativi (n,m) e ogni coppia di sequenze di interi positivi t1,..............,t e s .......... 1.......,ns m.22XYm


APPENDICE n. 1 : Cenni <strong>su</strong>i processi di ramificazione (Branching processes)E’ un esempio di processo a catena markoviana con un insieme numerabile di stati. Si pensi ad un individuo(essere umano, animale, particella <strong>su</strong>batomica, …..) idoneo a “generare” un numero aleatorio di discen<strong>de</strong>nti: essocostituisce la generazione zero mentre i <strong>su</strong>oi discen<strong>de</strong>nti formano la prima generazione; i discen<strong>de</strong>nti <strong>de</strong>i discen<strong>de</strong>ntiformano la seconda generazione e così via.Il parametro operativo individua le <strong>su</strong>ccessive generazioni cosicché si ha: X 0 = 1, X 1 <strong>de</strong>nota il numero di discen<strong>de</strong>nticostituenti la prima generazione, X 2 il numero di individui <strong>de</strong>lla seconda generazione, etc. Supporremo che i numeri didiscen<strong>de</strong>nti di differenti individui, appartenenti alla stessa o a differenti generazioni, siano stocasticamente indipen<strong>de</strong>ntitra loro e dotati <strong>de</strong>lla me<strong>de</strong>sima distribuzione di probabilità {p j ; j ≥ 0} <strong>de</strong>lla quale indicheremo con G(s) = ∑jla funzione generatrice (p.g.f.). Per evitare casi banali as<strong>su</strong>meremo p 0 > 0 e p 0 + p 1 < 1.Per quanto <strong>de</strong>tto si ha:X nX+= ∑ Z = Z + Z + ......... +n 1 i 1 2X,ni=1ove Z i indica il numero di discen<strong>de</strong>nti generati dall’ i-esimo individuo <strong>de</strong>lla generazione X n ; gli ad<strong>de</strong>ndi Z i sono as<strong>su</strong>ntii.i.d. con la comune distribuzione {p j } e p.g.f. G(s).Il carattere markoviano <strong>de</strong>l processo {X n } è chiaramente rivelato dalle:∩ nk nn+ 1=n+1/i=i ] = Prob [i=1∑i=1Prob [ X k ( X k )Per quanto concerne le probabilità non condizionate si ha:p k (n+1) = Prob [ X n= k∑ ∞j = 0+ 1 ] = Pr ( Xn= k / Xn= j )= Pr ( Z + Z2+ ........ + Zj= k )ZZ i= k n + 1 ] = Prob [ Xn+ 1= kn+1/ Xn= kn] .ob =+ 1.Pr ob(Xn= j)∑ ob .Pr ob(Xn= j)javendo indicato con p jk le probabilità <strong>su</strong>bordinate Prob (1 = ∑j∑i= 1espressione indica la convoluzione j-ma di {p j } con se stessa.Indicando con F n+1 (s) la p.g.f. di X n+1 , la prece<strong>de</strong>nte relazione equivale allaZi=jpjk .pj (n) ,p .jjsk ) = Prob ( Xn + 1= k / Xn= j ) = {p k } j* ove l’ultimajF n+1 (s) = ∑ G ( s).pj( n)= F n [G(s)] ,jrelazione ricorrente per le funzioni generatrici <strong>de</strong>lle probabilità <strong>de</strong>i n.a. X n che può anche scriversiF n+1 (s) = G [F n (s)]poiché, essendo X 0 = 1 e quindi F 0 (s) = s, si ha F 1 (s) = F 0 [G(s)] = G(s), F 2 (s) = F 1 [G(s)] = G[G(s)] = G (2) (s) (secondaiterata di G) e, in generale, F n+1 (s) = G (n+1) (s) = G[G (n) (s)] = G[F n (s)].La relazione ricorrente F n+1 (s) = F n [G(s)] = G[F n (s)] ha un’importanza fondamentale nella teoria <strong>de</strong>i processi diramificazione anche se, da un punto di vista operativo, non può essere impiegata per la <strong>de</strong>terminazione <strong>de</strong>lle F n (s). Essapuò però fornire informazioni importanti <strong>su</strong>i momenti <strong>de</strong>i n.a. X n : indicati con µ e ν la speranza matematica e lavarianza <strong>de</strong>lla distribuzione {p j }, si ricavano facilmente le relazioni E(X n+1 ) = µ . E(X n ) e Var(X n+1 ) = µ 2 Var(X n ) + νE(X n ) .24


Un problema importante concerne la possibilità di estinzione <strong>de</strong>ll’insieme <strong>de</strong>i discen<strong>de</strong>nti, cioè la possibilità che in.a. X n siano <strong>de</strong>finitivamente nulli. In proposito <strong>su</strong>ssiste il seguente ri<strong>su</strong>ltato dovuto a Steffensen (1930):Teorema : la probabilità ξ di estinzione in tempo finito è data dalla più piccola radice positiva <strong>de</strong>ll’equazione G(x) = x.Se µ = G’(1) ≤ 1 allora è ξ = 1 e l’estinzione è certa; se µ > 1 allora ξ < 1 e la probabilità che la popolazione crescain<strong>de</strong>finitamente è data da 1 - ξ.Una traccia di dimostrazione si ricava dalle seguenti consi<strong>de</strong>razioni:1) innanzitutto la <strong>su</strong>ccessione <strong>de</strong>lle p 0 (n) = Prob (X n = 0) è monotona e limitata cosicché esiste il relativo limite ξper n → ∞ ;2) dalla relazione F n+1 (s) = G [F n (s)] si ricava la p 0 (n+1) = G[p 0 (n)] e passando al limite si ottiene ξ = G(ξ) ;3) si verifica facilmente che G(s) è concava verso l’alto e quindi monotona crescente; poiché G(0) = p 0 > 0 peripotesi e G(1) = 1, si ha che l’esistenza di una o due radici <strong>de</strong>ll’equazione G(x) = x in [0 , 1] dipen<strong>de</strong> dal fattoche G’(1) = µ sia ≤ o > di 1; quindi, se µ ≤ 1 è ξ = 1 mentre se µ > 1 allora ξ < 1 e la probabilità che lapopolazione cresca in<strong>de</strong>finitamente è 1-ξ.Un esempio: G(s) = (ps + q) / (1 + r – rs) , con p + q = 1 e p, q, r non negativi.Si ricava µ = G’(s) = p + r ; inoltre è p 0 = q / (1-r) , p 1 = (p+r) / (1+r) 2 , p 2 = r / (1+r) 3 e in generale p n = r n-1 / (1+r)n+1. L’equazione G(s) = s ha due radici pari a q/r e 1; essendo ξ = min (q/r , 1) è ξ = (q/r) se p+r > 1.In una ricerca riguardante l’estinzione <strong>de</strong>i cognomi familiari per i maschi bianchi <strong>de</strong>gli USA nel 1920, Lotka trovòche la p.g.f. <strong>su</strong>d<strong>de</strong>tta con q/(1+r) = 0.4981 e r/(1+r) = 0.5586 rappresentava bene il fenomeno concreto. Si ottiene, pertale funzione, µ = 1.14 e ξ = 0.89 : a parole, un cognome di un maschio bianco aveva negli USA <strong>de</strong>l 1920 unaprobabilità di estinzione pari a 0.89, mentre quella di non estinzione era 0.11 .APPENDICE N. 2 : Urna di Pòlya ed alcuni processi stocastici associatiCom’è noto, è <strong>de</strong>tta “urna di Pòlya” un sistema di estrazioni ca<strong>su</strong>ali da un’urna contenente inizialmente b pallinebianche ed r palline rosse; dopo un’estrazione ca<strong>su</strong>ale di una pallina, questa viene rimessa nell’urna assieme a c palline<strong>de</strong>llo stesso colore di quella estratta: è chiaro che la composizione <strong>de</strong>ll’urna varia colpo per colpo. Consi<strong>de</strong>reremo treprocessi stocastici associati alla sequenza potenzialmente illimitata di estrazioni <strong>su</strong>ccessive dall’urna:a) il processo {Y n ; n ≥ 1} <strong>de</strong>i ri<strong>su</strong>ltati <strong>de</strong>lle <strong>su</strong>ccessive estrazioni, ove Y n = 1 o 0 a seconda che l’ennesimaestrazione dia pallina bianca oppure rossa;b) il processo {X n ; n ≥ 1} relativo al numero di palline bianche nell’urna dopo le estrazioni <strong>su</strong>ccessive, ove X nindica il numero di palline bianche presenti nell’urna dopo le prime n estrazioni;c) il processo {Z n ; n ≥ 1} <strong>de</strong>lle frazioni o percentuali di palline bianche nell’urna dopo le <strong>su</strong>ccessive estrazioni; èchiaramente Z n = X n / (b + r + n.c) , in quanto dopo n estrazioni le palline nell’urna sono b+ r + n.c .Si vedrà che il processo <strong>su</strong>b a) è stazionario, anzi scambiabile, il processo <strong>su</strong>b b) è markoviano e che infine ilprocesso <strong>su</strong>b c) è una martingala; ovviamente tutti i processi sono a parametro discreto. Sono quindi rappresentate,nello schema di estrazioni <strong>su</strong>d<strong>de</strong>tto, le tre principali categorie di processi stocastici. Per motivi di semplicità, nel seguito<strong>su</strong>pporremo c = 1 di modo che il numero complessivo di palline nell’urna, dopo ogni estrazione, aumenta di un’unità;dopo n estrazioni le palline nell’urna passano dalle iniziali b + r a b + r + n, quelle bianche da b a b + S n e quelle rosseda r a r + n – S n , ove S n indica il numero aleatorio Y 1 + ……..+ Y n , cioè il numero di palline bianche uscito dall’urnanelle prime n estrazioni <strong>su</strong>ccessive. Porremo inoltre X 0 = b e Z 0 = b / (b + r) .E’ abbastanza evi<strong>de</strong>nte che lo schema <strong>de</strong>ll’urna di Pòlya può costituire un mo<strong>de</strong>llo semplificato per fenomeni dicontagio: infatti dopo l’estrazione di una pallina bianca (o rossa) aumenta il numero e la percentuale di bianche (orosse) nell’urna per cui aumenta anche la probabilità di un’altra estrazione di pallina bianca (o rossa) al colpo<strong>su</strong>ccessivo.Cominceremo a fare alcune consi<strong>de</strong>razioni di carattere generale: con riferimento ad un generico prodotto logico <strong>de</strong>i' ''primi n eventi E1 ∧ E2∧ ....... ∧ En, ove h eventi sono affermati ed n-h sono negati, in un ordinamento qualsiasi <strong>de</strong>lle' ''affermazioni e negazioni, e valutando la probabilità P( E1 ∧ E2∧ ....... ∧ En) secondo la procedura sequenziale' ''''P( E1 ∧ E2∧ ....... ∧ En) = P( E1).P( E '/ E 2 1)…………P( ' ''En/ E1∧ ........ ∧ En−1)25


ci si ren<strong>de</strong> conto facilmente che <strong>de</strong>i prodotti logici <strong>su</strong>bordinanti conta, per la valutazione, soltanto il numero <strong>de</strong>gli eventicoinvolti e quello <strong>de</strong>gli eventi affermati, o negati; l’ordine <strong>de</strong>lle affermazioni e negazioni è irrilevante. Ciò comporta,come si può dimostrare, che ogni prodotto logico di n eventi distinti (non necessariamente i primi n) implicante l’evento{ S n = h} ha la me<strong>de</strong>sima probabilità che dipen<strong>de</strong> solo dagli interi n ed h:' ''P( E1 ∧ E2∧ ....... ∧ En) =( b+ h − 1)h.(r + n − h − 1)n−h( b +r +n − 1)n,ove il simbolo (n) h sta per (n) h = n.(n-1).(n-2)……..(n-h+1) . Evi<strong>de</strong>ntemente, la probabilità <strong>de</strong>ll’evento {S n = h} è datadalla⎛ n ⎞' ''⎛ n ⎞ ( b + h − 1)h.(r + n − h − 1)n−hP( S n= h)= ⎜ ⎟ . P( E1 ∧ E2∧ ....... ∧ En) = ⎜ ⎟ .⎝ h ⎠⎝ h ⎠ ( b + r + n − 1)nche viene <strong>de</strong>nominata “distribuzione di Pòlya”. I valori <strong>de</strong>lla speranza matematica e <strong>de</strong>lla varianza sono dati dallen.b/(b+r) e, rispettivamente, n.b.r.(b+r+n) / (b+r) 2 .(b+r+1) .Consi<strong>de</strong>rando ora i processi {X n ; n ≥ 1} e {Z n ; n ≥ 1}, avendo posto X 0 = b e Z 0 = b/(b+r) , si ha che il n.a. X n puòas<strong>su</strong>mere tutti i valori interi compresi tra b e b+n con probabilità che, come facilmente si verifica, dipendono soltantodal valore di S n ; precisamente, l’evento {X n = b+h} si verifica quando e solo quando S n = h e ciò acca<strong>de</strong> con laprobabilità espressa sopra. In corrispon<strong>de</strong>nza è vero l’evento Z n = (b+h) / (b+r+n) . Per quanto concerne le probabilità<strong>su</strong>bordinate P(X n+1 = j / X n = b+h) , queste sono diverse da zero solo se j = b+h e j = b+h+1 e ri<strong>su</strong>lta:P( Xn+1=j / Xa seconda che j = b+h oppure j = b+h+1 .n=b +h)=( r + n +( b +h)/(b +h) /( b +r + n)r + n)Proveremo ora alcune proposizioni riguardanti il carattere <strong>de</strong>i tre processi indicati in prece<strong>de</strong>nza:Proposizione 1: il processo {Y n ; n ≥ 1} è stazionario scambiabile.Dobbiamo provare che le distribuzioni congiunte finite-dimensionali <strong>de</strong>i n.a. sono invarianti per traslazione rigidanei valori <strong>de</strong>l parametro operativo (condizione di stazionarietà) e addirittura che ogni n-pla di variabili distinte ha lastessa distribuzione congiunta (condizione di scambiabilità). Poiché i n.a. Y n sono indicatori di eventi, la distribuzione' ''congiunta <strong>de</strong>lla sequenza (Y 1 ,………., Y n ) è costituita dalle probabilità <strong>de</strong>i prodotti logici E1 ∧ E2∧ ....... ∧ Enchedipendono, come si è già stabilito, dalla coppia (n, h), oppure dalla coppia equivalente (h, n-h), e non da quali eventi' ''' ''sono stati consi<strong>de</strong>rati. Pertanto non solo è P( E1 ∧ E2∧ ....... ∧ En) = P( Ei∧ Ei∧ ....... ∧ Ei) ove (i 1 ,……,i n ) è1 2n' ''un’arbitraria permutazione <strong>de</strong>gli indici (1,…….,n) ma anche P( E1 ∧ E2∧ ....... ∧ En) = P( Eove (j 1 ,……,j n ) è un’arbitraria n-pla di interi distinti, essendo comunque vero l’evento {n∑k = 1E∧ E ∧ ....... ∧ E )' ''j1 j2jnL’invarianza <strong>de</strong>lle valutazioni di probabilità rispetto alla scelta <strong>de</strong>i numeri aleatori <strong>de</strong>l processo rivela lascambiabilità <strong>de</strong>llo stesso e, a maggior ragione, la <strong>su</strong>a stazionarietà.Proposizione 2: il processo {X n ; n ≥ 1} è markoviano.Ricordiamo che la markovianità <strong>de</strong>l processo <strong>su</strong>ssiste se, per ogni intero n e ogni scelta <strong>de</strong>i valori <strong>de</strong>i n.a., le⎡⎤valutazioni di probabilità <strong>su</strong>bordinate soddisfano le condizioni ⎢ +=+ ∩ nP Xn 1xn1/ ( Xj= xj) ⎥ =⎣j = 1⎦= P [ Xn+ 1= xn+1/ Xn= xn] . Nel nostro caso porremo xj= b + hj essendo h1≤ h2≤ ......... ≤ hn+1 . Nell’ipotesiche, dopo le prime n estrazioni, si sia arrivati ad avere nell’urna b + h palline bianche, qualunque sia stata la sequenza( h 1,........, h n) , avremonj k=h }.26


+ n − hn⎡⎤⎢ += ++ ∩ nb + r + nP Xn 1b hn1/ ( Xj= b + hj) ⎥ =,⎣j = 1⎦ b + hnb + r + na seconda che sia hn+ 1= hnoppure hn+ 1= hn+ 1 . Dal fatto che nelle espressioni <strong>su</strong>d<strong>de</strong>tte non compaiano gli hjprece<strong>de</strong>nti ad hn discen<strong>de</strong> la dipen<strong>de</strong>nza markoviana tra i n.a. X n ; dal fatto che nelle espressioni compare l’indice ndiscen<strong>de</strong> che la dipen<strong>de</strong>nza markoviana non è omogenea.Proposizione 3: il processo {Z n ; n ≥ 1} è una martingala.Per dimostrare che <strong>su</strong>ssistono, per ogni intero n, le condizioniE =( Zn+ 1/ Z1,Z2,........,Zn) Zn occorre provareche in corrispon<strong>de</strong>nza ad ogni possibile evento concernente i n.a. <strong>su</strong>bordinanti la speranza matematica <strong>su</strong>bordinata diZn+ 1 coinci<strong>de</strong> con il valore ipotizzato per Zn . Consi<strong>de</strong>reremo pertanto il valor medio condizionato relativo ad unan−ipotesi qualsiasi, ∩ 1 ( Zj= z j) , per i primi n-1 numeri Zj congiuntamente allaj = 1⎪⎧E⎨Z⎪⎩⎡n−1⎤ b + h ⎪⎫/ ⎢∩ ( Zj= zj) ⎥ ( Zn= ) ⎬⎣ j = 1⎦ b + r + n ⎪⎭n + 1 ∩=e quindi la tesi.b + hb + r + n +.1r + n −b + r +h+nZn = (b+h) / (b+r+n); si ha allora:b + h + 1b + r + n +.1b + h=b + r + nb + hb + r + nIl mo<strong>de</strong>llo di Ehrenfest : un approfondimentoSi è già introdotto brevemente il mo<strong>de</strong>llo <strong>de</strong>ll’urna di Ehrenfest presentando i primi esempi di catene markoviane:esso era caratterizzato dai parametri c = -1 e d = 1. A parole, ad ogni estrazione ca<strong>su</strong>ale di una pallina da un’urnacontenente inizialmente b palline bianche ed r palline rosse si sostituiva nell’urna la pallina estratta con un’altra <strong>de</strong>lcolore opposto. Indicato con X n il numero di palline bianche nell’urna dopo n estrazioni <strong>su</strong>ccessive, il processo {X n }ri<strong>su</strong>ltava essere una catena di Markov, con b+r+1 stati, caratterizzata dalle probabilità <strong>su</strong>bordinate di transizione:p i,i-1 = i / (b+r) , p i,i+1 = (b+r-i) / (b+r) e p i,j = 0 se j è diverso da i-1 e i+1.Consi<strong>de</strong>reremo ora una generalizzazione <strong>de</strong>l <strong>su</strong>d<strong>de</strong>tto schema consistente nell’ipotesi che la pallina scelta possavenire rimessa nell’urna, senza cambiamento di colore, con probabilità assegnata; precisamente si <strong>su</strong>ppone che ladinamica <strong>de</strong>lla composizione <strong>de</strong>ll’urna sia stocastica e regolata dalla matrice di transizioneB RB ⎡1− α α ⎤(*) ⎢⎥ ,R ⎣ β 1 − β ⎦secondo la quale vi è probabilità pari a 1-α , se la pallina scelta è di colore bianco, e 1- β , se di colore rosso, che essasia rimessa nell’urna, mantenendo quindi la composizione di palline bianche e rosse prece<strong>de</strong>nte. Essa cambia invece dicolore con probabilità rispettive α e β .Un diverso tipo di <strong>de</strong>scrizione <strong>de</strong>llo schema di Ehrenfest preve<strong>de</strong> due urne (I e II) al posto di una, in sostituzione <strong>de</strong>idue colori, bianco e rosso, <strong>de</strong>lle palline: le b+r = N palline, ora <strong>de</strong>l me<strong>de</strong>simo colore, sono distribuite tra le due urne, bnella I ed r nella II. Quando una di esse viene scelta, con probabilità 1/N, viene poi posta nell’altra urna con probabilitàα o β a seconda che essa sia stata estratta dall’urna I o II, o rimessa al <strong>su</strong>o posto con probabilità rispettive 1-α o 1-β .In entrambi i tipi di <strong>de</strong>scrizione un’ulteriore perfezionamento può essere introdotto dichiarando eventualmentedistinguibili tra loro le palline, per esempio pensandole numerate da 1 a N; in questo caso il numero <strong>de</strong>gli stati <strong>de</strong>llacatena di Markov sale da N+1 a 2 N .27


Se le palline non sono distinguibili, allo scopo di <strong>de</strong>terminare la matrice P di transizione <strong>de</strong>lla catena di Markov{X n }, si <strong>su</strong>pponga che siano i, i ≠ 0 e i ≠ N, le palline nell’urna I (oppure i le palline bianche nell’unica urna); si trovanofacilmente i seguenti valori per gli elementi <strong>de</strong>lla riga corrispon<strong>de</strong>nte di P:p i,i-1 =iαNi N − i, p i,i = ( 1 − α ) + (1 − β )N NN − i, p i,i+1 = βNe p i,j = 0 se j ≠ i-1, i , i+1;ovviamente, se i = 0 oppure i = N è p 0,1 = p N,N-1 = 1.Supponendo invece che le palline siano tra loro distinguibili e che nell’urna I si trovino quelle numerate con n 1 ,…….,n i e nell’urna II quelle numerate con m 1 ,…….,m N-i (<strong>de</strong>noteremo con K lo stato appena <strong>de</strong>scritto se i è diverso da 0o da N) allora la riga corrispon<strong>de</strong>nte <strong>de</strong>lla matrice di transizione P avrà i seguenti elementi:a) α /N in corrispon<strong>de</strong>nza ad ogni stato K h ’ (h=1,…….,i) che differisce da K per il fatto che le palline nell’urna I sonole n 1 ,…, n h-1 , n h+1 ….,n i e quelle nell’urna II sono le m 1 ,…….,m N-i , n h (la pallina numero n h è stata estratta e postanell’urna II);i N − ib) ( 1−α ) + (1 − β ) in corrispon<strong>de</strong>nza allo stato K (si tratta <strong>de</strong>lla P(K/K) );N Nc) β /N in corrispon<strong>de</strong>nza ad ogni stato K k “ (k=1,……,N-i) che differisce da K per il fatto che le palline nell’urna Isono le n 1 ,……., n i , m k e quelle nell’urna II sono le m 1 ,…, m k-1 , m k+1 ,….,m N-i (la pallina numero m k è stata estratta e postanell’urna I).Nell’ipotesi di N palline non distinguibili, si prova che gli N+1 autovalori di P (matrice quadrata con N+1 righe ecolonne) sono tutti distinti e appartenenti all’intervallo [-1, 1]; gli estremi –1 e 1 sono autovalori e la differenza tra dueautovalori <strong>su</strong>ccessivi è pari a 2/N. Indicando con Λ la matrice diagonale <strong>de</strong>gli autovalori e con V la matrice <strong>de</strong>icorrispon<strong>de</strong>nti autovettori (di lunghezza unitaria) si ha la seguente ben nota rappresentazione spettrale <strong>de</strong>lla potenza n-n n − 1ma di P: P = V.Λ . V ; in teoria essa consente la <strong>de</strong>terminazione <strong>de</strong>lle probabilità <strong>su</strong>bordinate di transizione in npassi e quindi, assegnata la distribuzione di X 0 , quella <strong>de</strong>lla distribuzione di ogni X n , n ≥ 1.In alternativa, la funzione generatrice <strong>de</strong>lle probabilità G n (s) di X n è data, come si può provare, dalla G n (s) =X 0 N − X 0[(1 − α ). s + α ] .[ β . s + (1 − β )] , ove αn e βn sono elementi <strong>de</strong>lla matricennnn⎡1− αnαn ⎤(**) ⎢⎥⎣ βn1 − βn ⎦n1 ⎡ β α ⎤ (1 − α − β ) ⎡ α − α ⎤= . ⎢ ⎥ +.α + β+⎢⎥⎣ β α ⎦ α β ⎣ − β β ⎦potenza n-ma <strong>de</strong>lla matrice (*) sopra specificata; si noti che i numeratori <strong>de</strong>i due coefficienti scalari sono gli autovaloridi (*) e che il secondo membro <strong>de</strong>lla (**) corrispon<strong>de</strong> alla rappresentazione spettrale <strong>de</strong>lla matrice a primo membro.Per una intuitiva giustificazione <strong>de</strong>ll’espressione di G n (s) si <strong>su</strong>pponga che sia X 0 = j (j palline inizialmente presentijnell’urna I): il primo fattore <strong>de</strong>l prodotto è allora [( 1 − αn). s + αn] che è la funzione generatrice di una distribuzionebinomiale B(j, 1-αn), le cui probabilità riguardano le eventualità che un certo numero <strong>de</strong>lle j palline inizialmenteN − jnell’urna I si trovino nella stessa urna dopo n passi. Il secondo fattore è dato da [ β . + (1 − β )] ed è la funzionegeneratrice di B(N-j,βn) le cui probabilità riguardano le eventualità che un certo numero di palline <strong>de</strong>ll’urna II sitrovino nella I dopo n passi. I due fattori sono moltiplicati a causa <strong>de</strong>ll’indipen<strong>de</strong>nza <strong>de</strong>lle traiettorie <strong>de</strong>lle singolepalline.β⎡⎤⎢ α + β α + β ⎥Al divergere di n la matrice (**) ten<strong>de</strong> alla ⎢⎥ le cui righe esprimono la distribuzione stazionaria⎢ β α ⎥⎢⎣α + β α + β ⎥⎦di equilibrio (se α e β sono entrambi diversi da 0 e da 1). In corrispon<strong>de</strong>nza, la funzione generatrice G n (s) ten<strong>de</strong> alla:αn sn28


⎛ βα ⎞G n (s) = ⎜ . s + ⎟ ,⎝ α + β α + β ⎠che è la funzione generatrice <strong>de</strong>lla distribuzione binomiale B(N,Nαβ+β).29


Cenni <strong>su</strong>i mo<strong>de</strong>lli lineari dinamici stocastici a tempo discreto1) Rappresentazioni per mo<strong>de</strong>lli lineari dinamici <strong>de</strong>terministiciI mo<strong>de</strong>lli lineari sono la categoria più semplice di mo<strong>de</strong>lli dinamici e ciò spiega la loro ampiautilizzazione nelle applicazioni. Esiste per essi una teoria <strong>su</strong>fficientemente generale <strong>de</strong>lla qualetenteremo di fornire gli elementi introduttivi. Bisogna <strong>su</strong>bito distinguere i mo<strong>de</strong>lli a tempo discretoda quelli a tempo continuo: i primi sono tipicamente impiegati nella rappresentazione <strong>de</strong>i fenomenieconomici; i secondi in quella <strong>de</strong>i fenomeni fisici. I tipi principali di mo<strong>de</strong>lli matematici lineari perl’analisi dinamica sono i seguenti:1) equazioni (e sistemi di equazioni) differenziali e alle differenze finite;2) mo<strong>de</strong>lli nello spazio <strong>de</strong>gli stati ( o markoviani );3) mo<strong>de</strong>lli input – output (<strong>de</strong>finiti in termini <strong>de</strong>lla funzione di trasferimento).Per prima cosa tratteremo <strong>de</strong>i mo<strong>de</strong>lli lineari dinamici a tempo discreto per i quali, conriferimento all’elenco prece<strong>de</strong>nte, il primo tipo di rappresentazione è costituito da equazioni alledifferenze finite, lineari, con coefficienti costanti:py − ∑ a . y = u , t = 1,2,.......... ,t j t − j tj = 1ove {u t } è una <strong>su</strong>ccessione nota ed i coefficienti aj sono fissati, mentre { y t } è la <strong>su</strong>ccessioneincognita che va <strong>de</strong>terminata risolvendo l’equazione dopo aver fissato una “condizione iniziale”,per esempio la sequenza iniziale ( y1,..............,yp ) <strong>de</strong>lla { y t }.La seconda rappresentazione, corrispon<strong>de</strong>nte alla prece<strong>de</strong>nte, preve<strong>de</strong> l’introduzione <strong>de</strong>lle“variabili di stato”equazioni seguenti:(1)( p)x , h = 1,…..,p , per il cui vettore x t = [ ] T(h)tx t = F . x t-1 + b . u ty t = h T . x tx t,..............,x t<strong>su</strong>ssistono leove F è una matrice quadrata di dimensione (p,p), b ed h sono vettori colonna p-dimensionali. Lascelta <strong>de</strong>lle variabili di stato, per uno stesso mo<strong>de</strong>llo, non è unica; nel nostro caso una scelta(1)( p)possibile è la seguente: x = y , ……, xt= yp . In corrispon<strong>de</strong>nza, si ha:ttF =⎡ a1 a2 a3a p ⎤⎢1 0 0 0⎥⎢⎥⎢ 0 1 0 0 ⎥⎢⎥⎢⎥⎢⎣ 0 0 0 1 0 ⎥⎦, b =⎡ 1⎤⎢0⎥⎢ ⎥⎢ 0⎥⎢ ⎥⎢ 0⎥⎢⎣ 0⎥⎦, h =⎡ 1⎤⎢ ⎥⎢0⎥⎢ 0⎥⎢ ⎥⎢ 0⎥⎢⎣ 0⎥⎦.In questa seconda rappresentazione, l’equazione alle differenze lineare di ordine p <strong>de</strong>lla prima ètrasformata in una equazione vettoriale alle differenze, lineare, <strong>de</strong>l primo ordine.30


Il terzo tipo di rappresentazione, molto usato nelle scienze ingegneristiche, si ottiene applicandola “trasformazione Z” ad entrambi i membri <strong>de</strong>lla prima equazione alle differenze ottenendol’espressioneY ( z)= H ( z).U ( z)ove H(z) rappresenta la “funzione di trasferimento” <strong>de</strong>l sistema; essa ha la seguente espressione intermini <strong>de</strong>i coefficienti <strong>de</strong>ll’equazione alle differenze:pH ( z) (1 a . z − )−= − ∑jj1.j = 1La <strong>de</strong>nominazione di rappresentazione “input – output” corrispon<strong>de</strong> all’interpretazione di U(z)come input di un “trasformatore”, <strong>de</strong>scritto dalla funzione di trasferimento H(z), e a quella di Y(z)come output <strong>de</strong>llo stesso.Dal momento che nel seguito non impiegheremo questa rappresentazione ci limitiamo a dire chela “trasformazione Z” sostituisce alle <strong>su</strong>ccessioni numeriche { y t; t ≥ 0}e { u t; t ≥ 0}le funzioni divariabile complessa ∑ ∞ − jY ( z)= y j. z e ∑ ∞ U ( z)=j = 0j =0u j. z− jEsempio: l’equazione <strong>de</strong>lla produzione aggregata nel mo<strong>de</strong>llo di P.A. Samuelson.Prendiamo in consi<strong>de</strong>razione il mo<strong>de</strong>llo economico di P.A. Samuelson costituito dalle seguentiequazioni:ove Y , Ct t tC = β . Y , I = γ .( C − C ), Y = C + I + G ,t t − 1 t t t − 1 t t t te I (produzione, con<strong>su</strong>mo e investimento aggregati) sono variabili endogene, mentreGt (spesa <strong>de</strong>lla pubblica amministrazione) è l’unica variabile esogena <strong>de</strong>l mo<strong>de</strong>llo. La terzaequazione, con le sostituzioni indicate dalle{ [ ]}Y = C + I + G = β . Y + γ ( β . Y ) − ( β . Y ) + G = β .(1 + γ ) Y − β . γ . Y + G ,t t t t t − 1 t − 1 t − 2 t t − 1 t − 2 tcostituisce un’equazione alle differenze finite <strong>de</strong>l secondo ordine, lineare, a coefficienti costantinella <strong>su</strong>ccessione incognita <strong>de</strong>i livelli <strong>de</strong>lla produzione aggregata { Y t}.A questa prima rappresentazione corrispon<strong>de</strong> la seguente rappresentazione in termini <strong>de</strong>llevariabili di statoX , componenti <strong>de</strong>l vettore X t :(1)(2)t= Yte Xt= Yt− 1⎡ β .(1 + γ ) − β . γ ⎤X t = ⎢.1 0⎥⎣⎦X t-1 +⎡ 1⎤⎢ .G0⎥⎣ ⎦t,Y = (1 0) . X t .tAffermiamo che la risoluzione <strong>de</strong>l <strong>su</strong>d<strong>de</strong>tto sistema di equazioni fornisce, se le condizioniiniziali poste nei due casi sono coerenti, la stessa soluzione <strong>de</strong>lla prece<strong>de</strong>nte equazione alledifferenze <strong>de</strong>l secondo ordine.31


2) Rappresentazioni per mo<strong>de</strong>lli lineari dinamici stocasticiQuando qualche elemento <strong>de</strong>l mo<strong>de</strong>llo dinamico, uno o piu’ coefficienti oppure l’input { ut}oppure la condizione iniziale (o anche piu’ elementi tra questi) non e’ noto con certezza allora siparla di mo<strong>de</strong>llo dinamico stocastico. L’elemento non completamente noto <strong>de</strong>v’essere alloracaratterizzato in senso probabilistico e cio’ implica che anche la soluzione { y t} possa esserecaratterizzata solo probabilisticamente.u <strong>de</strong>l mo<strong>de</strong>llo non e’ noto con certezza esso va consi<strong>de</strong>rato unSe, per esempio, l’input { }tU e <strong>de</strong>finito probabilisticamente <strong>su</strong>lla base <strong>de</strong>lle informazioni disponibili: sequeste consentono di specificare soltanto la funzione valor medio ϕU( t)= { E(Ut); t ≥ 1}e lafunzione di covarianza ψU( s,t)= { Cov[Us, Ut]; s,t ≥ 1}di { Ut} anche la specificazione <strong>de</strong>l processostocastico output { Yt} sara’ limitata alle funzioni ϕY(t)e ψY( s,t). Ovviamente, il livello dispecificazione probabilistica <strong>de</strong>ll’output non puo’ essere piu’ elevato di quello <strong>de</strong>ll’input.processo stocastico { }tLe rappresentazioni gia’ menzionate nel paragrafo prece<strong>de</strong>nte diventano ora, se l’input e’ unU :1) un’equazione alle differenze finite, lineare, stocasticaprocesso stocastico { }te, rispettivamente,Yt−p∑j = 1a . Yjt − j= Ut, t =2) un sistema di due equazioni lineari stocasticheX t = F . X t-1 + b . U t ,Y t = h T . X t .1,2,................La risoluzione <strong>de</strong>l mo<strong>de</strong>llo in ciascuna <strong>de</strong>lle due forme prece<strong>de</strong>nti, fissata che sia la condizioneiniziale, non fornisce la corrispon<strong>de</strong>nte <strong>su</strong>ccessione <strong>de</strong>i livelli per l’output, ma la corrispon<strong>de</strong>nte<strong>su</strong>ccessione <strong>de</strong>i livelli aleatori { Y t; t ≥ 1}con un livello di specificazione probabilistica non<strong>su</strong>periore a quello <strong>de</strong>l processo stocastico input { U t; t ≥ 1}. Un semplice esempio si ottiene2<strong>su</strong>pponendo che { U t; t ≥ 1}sia un processo White Noise (0; σU ) : l’equazione 1) o ilcorrispon<strong>de</strong>nte sistema 2) caratterizzano il processo { Y t; t ≥ 1}come un processo AR(p) la cuieventuale stazionarieta’ asintotica dipen<strong>de</strong> dalla ben nota condizione che le radici <strong>de</strong>ll’equazionep∑tt − jcaratteristica λ − a .λ = 0 siano tutte minori di 1 in modulo.j = 1jEsempio: la produzione aggregata nella versione stocastica <strong>de</strong>l mo<strong>de</strong>llo di P.A. SamuelsonLe tre note equazioni ora diventanoC β Y = C + I + G ,t= . Yt− 1+ εt, It= γ .( Ct− Ct− 1)+ ηt,ove le nuove variabili ε e η sono “perturbazioni aleatorie” che rias<strong>su</strong>mono l’influenza <strong>su</strong> Ct e,ttrispettivamente, <strong>su</strong> It di tutti quei fattori economici e di altro tipo (sociologici, politici,..............)che nel mo<strong>de</strong>llo sono trascurati. Molto spesso si as<strong>su</strong>me che le perturbazioni aleatorie sianotttt32


22processi stocastici di tipo White Noise, ε ≈ WN(0,σ ) e η ≈ WN(0,σ ) , eventualmentecorrelati tra loro. L’equazione per la produzione aggregata diventatYt− β .( 1 + γ ). Yt− 1+ β . γ . Yt− 2= Gt+ Ut ,ove Ut= ( 1 + γ ). εt− γ . εt − 1+ ηt , cioe’ un’equazione alle differenze finite, lineare, stocastica la cuisoluzione fornisce il processo stocastico { Y t; t ≥ 1}. Evi<strong>de</strong>ntemente e’ E ( U t) ≡ 0 per cui, dallaprece<strong>de</strong>nte equazione, si ottieneE Y ) − β .(1 + γ ). E(Y ) + β . γ . E(.Y ) =(tt − 1 t − 2tεtE(G )che e’ un’equazione alle differenze <strong>de</strong>terministica nella <strong>su</strong>ccessione incognita ϕY(t)<strong>de</strong>i valori medi<strong>de</strong>i livelli <strong>de</strong>lla produzione aggregata. E’ anche facile ottenere la funzione di covarianza, ψY( s,t),<strong>de</strong>l processo { Y t; t ≥ 1}il che fornisce per quest’ultimo una specificazione <strong>de</strong>l secondo ordine.ηInferenza statistica <strong>su</strong>lle variabili di statoSiamo infine arrivati a trattare l’argomento centrale <strong>de</strong>lla nostra esposizione. Il mo<strong>de</strong>llo nellospazio <strong>de</strong>gli stati e’ stato introdotto nel paragrafo prece<strong>de</strong>nte nella formaX t = F . X t-1 + b . U t ,Y t = h T . X t ,che costituiva una rappresentazione equivalente <strong>de</strong>ll’equazione alle differenze stocasticapYt− ∑ aj. Yt− j= Ut .j = 1Nel seguito consi<strong>de</strong>reremo la seguente generalizzazione <strong>de</strong>llo schema <strong>su</strong>d<strong>de</strong>tto:X t = F . X t-1 + U t ,Y t = H . X t + V t ,ove la prima equazione, <strong>de</strong>tta “equazione di evoluzione o di stato”, e’ un’equazione alle differenzelineare e stocastica nella <strong>su</strong>ccessione <strong>de</strong>i vettori di stato {X t } , mentre la seconda equazione, <strong>de</strong>tta“di osservazione”, mette in relazione il vettore di stato con il vettore <strong>de</strong>lle variabili osservabili Y t .I vettori U t e V t sono perturbazioni aleatorie vettoriali di tipo White Noise non correlate tra loro,cioe’si as<strong>su</strong>me che sia E(U t ) = 0, E(V t ) = 0 e Cov(U t ) ≡ ΣU , Cov(V t ) ≡ ΣV , Cov(U t , V s )≡ [ 0]. Nella piu’ semplice di tali generalizzazioni tutti i vettori hanno le stesse dimensioni e lematrici quadrate F ed H, costanti nel tempo, sono note, come anche le matrici di dispersione ΣU eΣV .Il problema inferenziale che consi<strong>de</strong>reremo, <strong>de</strong>tto anche problema di “filtraggio”, consiste nellastima puntuale lineare <strong>de</strong>l vettore di stato non osservabile X t <strong>su</strong>lla base <strong>de</strong>lla conoscenza <strong>de</strong>ivettori Y 1 ............, Y t . Il metodo di stima, o di approssimazione, che adotteremo e’ quello <strong>de</strong>iminimi quadrati; ricordiamo al lettore che tale metodo richie<strong>de</strong> soltanto la specificazione <strong>de</strong>lsecondo ordine <strong>de</strong>i processi stocastici coinvolti nel problema.33


1) Approssimazioni lineari <strong>de</strong>i minimi quadrati per numeri aleatoriSi consi<strong>de</strong>ri lo spazio lineare H0 (di dimensione infinita) <strong>de</strong>i numeri aleatori X, Y, Z, …… che<strong>su</strong>pponiamo dotati di speranza matematica nulla e momento secondo finito. Sia Y il n.a. di interesseper il quale si voglia costruire una stima (o previsione o approssimazione) in termini di una qualchefunzione ϕ(X) <strong>de</strong>i n.a. X ,........., 1Xn costituenti il vettore aleatorio X.Se non si introducono vincoli particolari per la funzione stimatore ϕ(X) , eccetto quello E[ϕ(X)] 2< ∞ , si prova che la funzione ottimale, nel senso <strong>de</strong>i minimi quadrati, è la funzione di regressioneE( Y/X ) ; formalmente, per ogni ammissibile funzione ϕ(.) si ha :[ ( / )] [ ϕ ( )]2 2E Y − E Y X ≤ E Y − X .Se per ϕ(X) si impone il vincolo di linearità , cioè se si as<strong>su</strong>me che ϕ(X) sia una funzionelineare,n∑ αj.Xj , <strong>de</strong>i n.a. ,........., ∧X1 Xn , si <strong>de</strong>vono trovare gli n coefficienti α j, j = 1,…….,n ,j = 1per i quali ri<strong>su</strong>lta:2 2⎡ ∧ ⎤ ⎡ ⎤E ⎢ Y − ∑ α j . Xj ⎥ ≤ E ⎢ Y − ∑ αj.Xj ⎥⎣ j⎦ ⎣ j ⎦in corrispon<strong>de</strong>nza ad ogni n-pla α1,.........,αn di numeri reali. Si dimostra facilmente che il vettore∧<strong>de</strong>i coefficienti ottimali α ∧ è dato da α = [Cov(X)] -1 . E(Y.X) sotto la condizione che la matrice di−−dispersione di X sia invertibile (il che acca<strong>de</strong> se i n.a. Xj sono linearmente indipen<strong>de</strong>nti).Per dimostrarlo si tratta di porre uguali a 0 le <strong>de</strong>rivate parziali rispetto ad ogni α di2⎡⎤E ⎢ Y − ∑ αj.Xj ⎥ : il sistema lineare che si ottiene ha l’espressione Cov (X) . α ∧ = E( Y.X ) e la−⎣ j ⎦<strong>su</strong>a soluzione è unica se Cov (X) è invertibile . Il previsore ( o stimatore o approssimatore ) lineare∧− 1= (1,........., n). ( ) . ( . ) .ottimale per Y è allora [ ]Y X X Cov X E Y XTale numero aleatorio ha un’interessante interpretazione geometrica: Y∧coinci<strong>de</strong> con laproiezione ortogonale P( Y / L ) di Y <strong>su</strong>l sottospazio lineare L di H0 generato dai n.a.X ,........., 1XnPer attribuire un significato preciso a tale proposizione è necessario introdurre le seguenti<strong>de</strong>finizioni: in H0 la lunghezza (o norma) <strong>de</strong>l vettore geometrico associato ad un n.a. Z è <strong>de</strong>finita1/ 21/ 2dalla Z = [ Var(Z) ] ; la distanza tra due n.a. Z e V è <strong>de</strong>finita dalla d(Z,V) = [ ]jVar( Z − V ) ; lacondizione di ortogonalità tra Z e V è espressa dalla E( Z.V ) = 0 ( poiché E(Z) = E(V) = 0, Z e Vsono ortogonali se Cov(Z,V) = 0 ).La <strong>su</strong>d<strong>de</strong>tta interpretazione geometrica di Y∧si consegue applicando il “principio di ortogonalità” ilcui enunciato in questo caso stabilisce che consi<strong>de</strong>rato un qualunque n.a. Y di H0 , il n.a. di L aminima distanza da esso coinci<strong>de</strong> con la proiezione ortogonale di Y <strong>su</strong> L quando si osservi che34


⎡E ⎢ Y −⎣L .∑j⎤αj.Xj ⎥⎦2esprime il quadrato <strong>de</strong>lla distanza tra Y ed il generico elemento <strong>de</strong>l sottospazioImporta osservare che mentre l’utilizzazione <strong>de</strong>ll’approssimatore ottimale di Y , costituito dallafunzione di regressione E(Y/X), richie<strong>de</strong> la conoscenza <strong>de</strong>lla distribuzione congiunta F(y, x1,........, xn ) <strong>de</strong>i n.a. consi<strong>de</strong>rati, o almeno <strong>de</strong>lla distribuzione <strong>su</strong>bordinata F( y / x1,........, xn ) , lacostruzione <strong>de</strong>ll’approssimatore lineare ottimale di Y, costituito dal n.a. Y = P( Y / L), richie<strong>de</strong> laconoscenza (o meglio la specificazione) <strong>de</strong>i soli momenti <strong>de</strong>l primo e secondo ordine <strong>de</strong>i n.a.Y, X1,........, Xn . Una seconda osservazione rilevante è che per le distribuzioni implicanti unafunzione di regressione E(Y/X) lineare negli elementi di X acca<strong>de</strong> che gli approssimatori E(Y/X) e∧Y = P( Y / L)coincidono ; le distribuzioni più note aventi questa caratteristica sono quella normale equella Stu<strong>de</strong>nt – t multivariate.∧2) Proprieta’ iterativa <strong>de</strong>ll’approssimazione lineare <strong>de</strong>i minimi quadratiSi consi<strong>de</strong>rino tre spazi lineari tali che sia Ln− 1⊂ Ln⊂ H0, ove l’ultimo spazio (di dimensioneinfinita) contiene tutti i numeri aleatori (n.a.) equi e dotati di varianza finita, mentreLn− 1= L( X1,........., Xn−1)ed Ln= L( X1,........., Xn), essendo i n.a. X j linearmente indipen<strong>de</strong>nti edosservabili. Sia Y ∈ H il n.a. non osservabile per il quale si vogliono <strong>de</strong>terminare leapprossimazioni lineari <strong>de</strong>i minimi quadrati basate <strong>su</strong>l processo osservabile {X j ; j = 1,2,……..}.Proveremo la seguente proprietà iterativa:∧Y = Ρ ( Y / L ) = Ρ ( Y / L ) + Ρ [ Y / X − Ρ ( X / L )] ,n n n − 1 n n n − 1ove la differenza Xn− Ρ ( Xn/ Ln− 1)è il n.a. “innovazione di X n ” che ri<strong>su</strong>lta ortogonale a Ln− 1 .Indicando per brevità con*Yn la differenza∧<strong>de</strong>composizioni ortogonali*Y = Y n−+ Y e*Y = Y n + Y ed inoltre si ha1 n−1Y− Y ∧, <strong>su</strong>ssistono evi<strong>de</strong>ntemente le duen∧∧nY n Z1 Z2= + , ove∧∧∧Z1 = Ρ ( Y n/ Ln− 1)= Y n−1perché Ρ ( Y n / L1) [ ( / ) /1] ( /1)n −= Ρ Ρ Y L L Y Ln n −= Ρ per una nota proprietà <strong>de</strong>ln −proiettore ortogonale. Si ha dunque:∧*Y Y n Yn*= + = ( Z1 + Z2)+ Yn =*Y n− + ( Z + Y )∧1 2ncosicché <strong>de</strong>v’essere* *Z2 + Yn= Yn− 1 la quale implica che sia Y n = Y n−1 + Z .2∧∧Rimane da provare che Z2 = Ρ [ Y / Xn− Ρ ( Xn/ Ln 1)] ( Y / XnX ∧ −= Ρ − n / n−1)e ciò si ottieneconfrontando la prece<strong>de</strong>nte uguaglianza con la seguente sequenza:35


∧Y = Ρ ( Y / X ,........, X , X ) = Ρ [ Y / X ,........, X , X − X ] =n 1 n − 1 n 1 n − 1 n n / n − 1Ρ ( Y / X ,........, X −) + Ρ ( Y / X − X ∧ n / n−1)= Y n−1 + Ρ ( Y / X − X n / n−1).= 1 n 1n∧n∧3) Altre proprietà <strong>de</strong>l proiettore ortogonale[ ]P P( X / L ) / L = P( X / L )n n nΡ ( a . X + a . X / L ) = a . P( X ) + a . P( X ) ,1 1 2 2 n 1 1 2 2P( X / L ), Y = X , P( Y / L ) , ove X , Y = E(X . Y) indica il prodotto interno tra X e Y ,n[ ] [ ]P P( X / L ) / L = P P( X / L ) / L = P( X / L ) ,1 2nn− 1 n n n− 1 n−1nP( X / Y , Y ,.........., Y ) = ∑ P( X / Y ) se i n.a. Y j sono due a due ortogonali.nj = 1j4) Filtro di R. E. Kalman a tempo discretoAs<strong>su</strong>miamo di essere interessati ai n.a. di un processo stocastico {Y n ; n = 1,2,………}, nonosservabile, generato da un mo<strong>de</strong>llo stocastico lineare espresso dalle equazioni alle differenze finite(1) Yn + 1= a.Yn + Vn, oveVn2≈ WN( O; σV) e oven m,V ⊥ Y ∀ m ≤ n .Si <strong>su</strong>pponga di poter osservare i n.a. X n <strong>de</strong>finiti dalla trasformazione lineare affine e stocastica(2) X = bY . + W , oven n nW ≈ WN σ e ove W ⊥ V ∀ n,m .n2(0;W)n m,Il mo<strong>de</strong>llo stocastico espresso dalle (1) e (2) è <strong>de</strong>nominato “mo<strong>de</strong>llo lineare dinamico” o anche“mo<strong>de</strong>llo nello spazio <strong>de</strong>gli stati” in quanto le variabili Y n sono indicate come “variabili di stato”.Ci porremo il problema di <strong>de</strong>terminare le approssimazioni lineari <strong>de</strong>i minimi quadratin / nper le variabili Y n basate <strong>su</strong>ll’osservazione <strong>de</strong>lle ( X ,.........., 1Xn ); in letteratura questo problema ènoto come “problema di filtraggio”. Il n.a. Y ∧ è <strong>de</strong>finito dalle condizioni2n / nE( Y − n / n)n2≤ E( Yn − ∑ αj. Xj) per ogni n-pla di coefficienti reali 1j = 1( α ,........, α ) ed è anche indicato con ilsimbolo Ρ ( Yn/ Ln) a causa <strong>de</strong>lla <strong>su</strong>a interpretazione geometrica quale “proiezione ortogonale di Y n<strong>su</strong>llo spazio lineare Ln generato dai n.a. osservabili X ,.........., 1Xn ”. Ricordiamo infine al lettoreche se si as<strong>su</strong>me che tutti i n.a. consi<strong>de</strong>rati abbiano valor medio nullo e varianze finite e si pone X= ( X ,.........., 1Xn ) T allora/(3)n / nY ∧n nè dato dallaY ∧ = Ρ ( Yn/ Ln) = E( Yn. X ) . (Cov X ) -1 . X .36nnY ∧≤Y ∧


Ci proponiamo di presentare il procedimento ricorsivo di approssimazione lineare noto come“filtro di Kalman”, apparso in letteratura nel 1960; esso è costituito dalle seguenti equazioni, ove siè indicato in generale con Pn / m la varianza2E( Y − n / m)<strong>de</strong>ll’errore di approssimazione Y − n / m:nY ∧nY ∧(4) Y ∧ = a .n+ 1/ n Y ∧ ,n / n∧(5)2 2 2Pn + 1/ nE( Yn + 1Y n + 1/ n) a . Pn / nσV(6)(7)= − = + ,b.PY Y .( X b. Y )∧ ∧ ∧n+1/ nn+ 1/ n+ 1 = n+ 1/ n +1 n 1/ n2 2 n+−+b . Pn + 1/ n+ σW. P2W n+1/ nn+ 1/ n+1=2 2b . Pn + 1/ n+ σWPσ.,Le prece<strong>de</strong>nti equazioni pre<strong>su</strong>ppongono che si siano già <strong>de</strong>terminati ricorsivamente Y ∧ e Pn / n n / na partire dalle fissate posizioni iniziali Y ∧ e P0/ 0 0 / 0 ; le (4) e (5) sono <strong>de</strong>tte “equazioni di previsione”mentre le (6) e (7) sono <strong>de</strong>tte “equazioni di aggiornamento” cosicché ogni stadio <strong>de</strong>l procedimentoricorsivo consiste di una fase di previsione e una di aggiornamento.Forniremo ora una dimostrazione <strong>de</strong>lle prece<strong>de</strong>nti equazioni:- la (4) si prova in base alla proprietà di linearità <strong>de</strong>l proiettore ortogonale perché ri<strong>su</strong>ltaY ∧ = Ρ ( Yn+ 1/ nn+1/ Ln ) = Ρ ( a. Yn + Vn / Ln) = a. Ρ ( Yn / Ln ) + Ρ ( Vn / Ln) = a . Y ∧n / nin quanto Ρ ( Vn/ Ln) = 0 giacché si è <strong>su</strong>pposto V , n⊥ Ym∀ m ≤ n , e Wn ⊥ Vm,∀ n,m ;- la (5) si prova utilizzando il ri<strong>su</strong>ltato prece<strong>de</strong>nte in quanto è:∧∧2 2 2 2n+ 1/ n(n+1 n + 1/ n) [ .(n n/n) n] .n / n VP = E Y − Y = E a Y − Y + V = a P + σ ;- la (6) si dimostra utilizzando la proprietà iterativa <strong>de</strong>l proiettore ortogonale che scriveremoindicando con*Xn + 1 l’innovazione Xn 1X ∧ n+1/ n+− :Cov( Y , X ) b.PY Y Y X Y X Y X∧ ∧ ∧ *∧* n+ 1 n+ 1 * n+1/ n *n+ 1/ n+ 1 = n+ 1/ n + Ρ (n+ 1/n+ 1) = n+ 1/ n + .1 n 1/ n.* n+ = + +2 2 n+1Var( Xn+ 1) b . Pn + 1/ n+ σWe l’ultima espressione coinci<strong>de</strong> con la (6) se si tiene presente che èX = X − Ρ X L = X − Ρ bY + W L = X − b Ρ Y L = X − b Y ∧ +;*n+ 1 n+ 1(n+ 1/n) n+ 1( .n+ 1 n+ 1/n) n+ 1. (n+ 1/n) n+1. n 1/ n- la (7) si prova in base alla <strong>de</strong>finizione di Pn + 1/ n + 1 e ricorrendo a semplici, anche se noiosesostituzioni:. P∧22 W n+1/ nn+ 1/ n+ 1= (n+1− n+ 1/ n+1)=2 2b . Pn + 1/ n+ σWP E Y Yσ.37


Per completezza, riporteremo ora le equazioni <strong>de</strong>lla versione vettoriale <strong>de</strong>l filtro di Kalmanche riguarda la stima lineare ricorsiva di un processo stocastico vettoriale {Y n ; n = 1,2……..}basata <strong>su</strong>ll’osservabilità <strong>de</strong>l processo vettoriale {X n ; n = 1,2……..}. Le due equazioni <strong>de</strong>lmo<strong>de</strong>llo lineare dinamico sono ora espresse dalle:Y n+1 = A . Y n + V n e X n = B . Y n + W n ;in esse i due processi vettoriali di rumore sono ancora mutuamente non correlati e <strong>de</strong>l tipoWhite Noise: V n ~ WN(0 ; Q) e W n ~ WN(0 ; R) .Supponendo noti Y ∧ e la matrice di momenti secondiTn / nPn / n= E[( Yn − Y n / n).( Yn− Y n / n) ], leequazioni <strong>de</strong>l filtro di Kalman vettoriale sono espresse dalle:(4’) Y ∧ = A .n+ 1/ n Y ∧ ,n / n(5’)TPn + 1/ n= A. Pn / n.A + Q ,∧ ∧ ∧(6’)TT− 1Y n+ 1/ n+ 1 = Y n+ 1/ n + P . B ( B. P . B + R) .( X − B. Y n+1/ n),n+ 1/ n n+ 1/ n n+1∧∧(7’)TT− 1P = P − P . B ( B. P . B + R) . B.P .n+ 1/ n+ 1 n + 1/ n n+ 1/ n n+ 1/ n n+1/ nPer chi volesse approfondire queste prime nozioni <strong>su</strong>ggeriamo, in ordine di completezzacrescente <strong>de</strong>lla trattazione:Bittanti S. – “Teoria <strong>de</strong>lla Predizione e <strong>de</strong>l Filtraggio” (Pitagora Editrice Bologna, 2000) ,Catlin D.E. – “Estimation, Control and the Discrete Kalman Filter” (Sprinter-Verlag, 1989) ,An<strong>de</strong>rson B.D.O. – Moore J.B. – “Optimal Filtering” (PRENTICE-HALL, INC.,1979) .38


Cenni <strong>su</strong>i mo<strong>de</strong>lli lineari dinamici stocastici a tempo continuo1) Rappresentazioni per mo<strong>de</strong>lli lineari dinamici a tempo continuoDedicheremo ora qualche cenno ai mo<strong>de</strong>lli lineari dinamici a parametro continuo, usatisistematicamente nella Fisica, ma impiegati raramente in Economia matematica. Da qualche tempo,pero’, si assiste ad un loro uso massiccio nella Finanza matematica. I tipi principali di mo<strong>de</strong>llilineari per l’analisi dinamica a tempo continuo sono i seguenti:a) equazioni (e sistemi di equazioni) differenziali,b) mo<strong>de</strong>lli input – output (<strong>de</strong>finiti in termini <strong>de</strong>lla funzione di trasferimento);c) mo<strong>de</strong>lli nello spazio <strong>de</strong>gli stati ( o markoviani ).Il primo tipo di rappresentazione è costituito da equazioni differenziali ordinarie lineari concoefficienti costanti:y( n)n( t)+ ∑k = 1a . yk( n−k )( t)=u(t),ove u(t) è una funzione nota (o un processo stocastico) ed i coefficienti ak sono fissati, mentre y(t)è la funzione <strong>de</strong>terministica (o stocastica) incognita.Il secondo tipo di rappresentazione si ottiene applicando la “trasformazione di Laplace” a<strong>de</strong>ntrambi i membri <strong>de</strong>lla prece<strong>de</strong>nte equazione differenziale ottenendo l’espressioney ( s)= H ( s).u(s),ove H(s) rappresenta la “funzione di trasferimento” <strong>de</strong>l sistema; essa ha la seguente espressione intermini <strong>de</strong>i coefficienti <strong>de</strong>ll’equazione differenziale:H ( s)=nns+∑1k = 1a . skn−k.La <strong>de</strong>nominazione di rappresentazione “input – output” corrispon<strong>de</strong> all’interpretazione di u(s)come input <strong>de</strong>l “trasformatore”, <strong>de</strong>scritto dalla funzione di trasferimento H(s), e a quella di y(s)come output <strong>de</strong>llo stesso. Non faremo uso di questa rappresentazione.La terza rappresentazione, corrispon<strong>de</strong>nte alle due prece<strong>de</strong>nti, preve<strong>de</strong> l’introduzione <strong>de</strong>lle“variabili di stato” (t), h = 1,…..,n , per il cui vettore x(t) <strong>su</strong>ssistono le equazioni seguenti:x hddtyx( t)= F.x(t)+ b.u(t),T( t)= h . x(t),ove F è una matrice quadrata di dimensione n, b ed h sono vettori colonna n-dimensionali. La scelta<strong>de</strong>lle variabili di stato, per uno stesso mo<strong>de</strong>llo, non è unica; nel nostro caso una scelta possibile è la( n−1)seguente: x ( t)= y(), x ( t)= y'(), x ( t)= y''(), ……, x ( t)= y ( t). In corrispon<strong>de</strong>nza, si ha:1t2t3tn39


⎡ 0 1 0 ⋮ 0 ⎤⎢0 0 1 0⎥⎢⋮⎥F = ⎢ 0 0 0 ⋮ 0 ⎥⎢⎥⎢ 0 0 0 ⋮ 1 ⎥⎢⎣ − an − an − 1− an− 2⋮ − a ⎥1 ⎦, b =⎡ 0⎤⎢ ⎥⎢0⎥⎢ 0⎥⎢ ⎥⎢ 0⎥⎢⎣ 1⎥⎦, h =⎡ 1⎤⎢ ⎥⎢0⎥⎢ 0⎥⎢ ⎥⎢ 0⎥⎢⎣ 0⎥⎦.In quest’ultima rappresentazione, l’equazione differenziale lineare di ordine n di partenza ètrasformata in un sistema di equazioni differenziali lineari <strong>de</strong>l primo ordine.Esempio: oscillatore armonico.Prendiamo in consi<strong>de</strong>razione un punto materiale di massa m che si muove lungo l’asse x, attornoalla <strong>su</strong>a posizione di riposo, per effetto di una forza elastica di richiamo (esercitata per esempio dauna molla) e che per effetto <strong>de</strong>ll’attrito e/o <strong>de</strong>lla resistenza <strong>de</strong>ll’aria ten<strong>de</strong> progressivamente afermarsi. Se indichiamo con y(t)lo spostamento <strong>de</strong>l punto dalla posizione di riposo, l’equazione<strong>de</strong>l moto è data dallam . y ''(t)+ a . y '(t)+ k . y (t)= 0 ,ove i coefficienti a e k dipendono dall’attrito e, rispettivamente, dalla forza di richiamo. Posto a/m =β2e k/m = ω , l’equazione <strong>de</strong>l moto viene espressa dalla seguente equazione differenziale lineareomogenea <strong>de</strong>l secondo ordine:y ''(t)+ β . y '(t)2+ ω . y (t)= 0 .Ponendo y(t) = exp(λt) nella <strong>su</strong>d<strong>de</strong>tta equazione differenziale e risolvendo l’equazione algebrica22che ne ri<strong>su</strong>lta, e cioè ( λ + β . λ + ω ).exp(λt) = 0, <strong>de</strong>tta equazione caratteristica, si trovano le dueradici λ 1 = (-β +2 2β − 4.ω ) / 2 e λ 2 = (-β -<strong>de</strong>lla equazione differenziale omogenea :2 2β − 4.ω ) / 2 e con ciò la soluzione generale1) y(t) = c 1 . exp (λ 1 .t) + c 2 . exp (λ 2 .t) , se le due radici sono reali e distinte ;2) y(t) = (c 1 + c 2 .t) . exp (- β.t / 2) , se λ 1 = λ 2 = - β / 2 ;3) y(t) = exp{- β.t / 2}. [( c 1+ c 2 ).cos b.t + i.( c1 − c2).sin b.t] , se λ 1 e λ 2 sono complesse1 2 2coniugate e ove b = 4 ω − β .22 2Chiaramente, i tre casi corrispondono al fatto che il discriminante β − 4ω <strong>de</strong>ll’equazione2 2λ + β . λ + ω = 0 sia positivo, nullo o negativo. Nei primi due casi il moto è aperiodico perchél’attrito è <strong>su</strong>fficientemente gran<strong>de</strong> da impedire oscillazioni; nel terzo caso il moto è oscillatorio esmorzato attorno al punto di riposo.La rappresentazione nello spazio <strong>de</strong>gli stati corrispon<strong>de</strong>nte all’equazione differenzialeomogenea, ponendo x ( t)= y() e x ( t)= y'() , è data dal sistema:1t2tddt⎡ x1'( t)⎤x(t)= ⎢ ⎥ = F.x(t)=⎣ x2'( t)⎦y ( t)= (1 0). x(t).⎡ 0⎢⎣ − ω21 ⎤ ⎡ x1( t)⎤−⎥ .β⎢ ⎥⎦ ⎣ x2( t)⎦,40


Le radici λ 1 e λ 2 trovate prece<strong>de</strong>ntemente corrispondono agli autovalori <strong>de</strong>lla matrice F, cioè alle22soluzioni <strong>de</strong>ll’equazione <strong>de</strong>t (λ.I – F) = λ + β . λ + ω = 0 .Nel caso che esista una funzione input <strong>de</strong>terministica uguale a u(t) = f 0cos Ω t larappresentazione nello spazio <strong>de</strong>gli stati diventa:d ⎡ x1'( t)⎤x(t)= ⎢ ⎥ = F.x(t)=dt ⎣ x2'( t)⎦y ( t)= (1 0). x(t).⎡ 0⎢⎣ − ω21 ⎤ ⎡ x1( t)⎤−⎥ .β⎢ ⎥⎦ ⎣ x2( t)⎦⎡ 0⎤+ ⎢ ⎥ . f cos Ω t⎣ 1⎦0 ,Rinviamo il lettore agli innumerevoli manuali <strong>su</strong>ll’argomento per la soluzione di questo sistema.2) Mo<strong>de</strong>lli lineari dinamici stocastici a tempo continuoy( n)Se la funzione a secondo membro, u(t), <strong>de</strong>ll’equazione differenziale lineare ordinarian( t)+ ∑k = 1a . yk( n−k )( t)=u(t)non è <strong>de</strong>terministica, ma stocastica, cioè se u(t) rappresenta unprocesso stocastico a tempo continuo, allora l’equazione <strong>de</strong>scrive una trasformazione lineare ditale processo il cui ri<strong>su</strong>ltato è un altro processo stocastico y(t), soluzione <strong>de</strong>ll’equazionedifferenziale.Un primo semplice esempio di equazione differenziale lineare stocastica è fornito dall’equazionedi Langevin, v '( t) + b. v( t) = u( t), b > 0 , riguardante il fenomeno di “moto Browniano” di unaqualunque microscopica particella sospesa in un fluido e soggetta ad innumerevoli urti da parte<strong>de</strong>lle molecole <strong>de</strong>l fluido stesso, a loro volta soggette all’agitazione termica . In tale equazione v(t)indica la velocità aleatoria <strong>de</strong>lla particella, u(t) il processo stocastico input <strong>de</strong>l sistema <strong>de</strong>finito <strong>su</strong>llabase di ragionevoli ipotesi <strong>su</strong>lle caratteristiche <strong>de</strong>l fenomeno fisico, il coefficiente b il grado diviscosità <strong>de</strong>l fluido. Imponendo la condizione iniziale v(0) = V 0 e risolvendo l’equazione si trova:− bt− b.( t − s)v(t) = V0. e + ∫ e . u( s)dsche rappresenta il processo stocastico output.t0( n)( n−k )Ritornando all’equazione differenziale generale y ( t)+ ∑ ak. y ( t)= u(t), per il processostocastico u(t) <strong>de</strong>ve essere fornita una qualche specificazione probabilistica: ci si può limitare aspecificare la funzione valor medio E[u(t)] e/o la funzione di covarianza Cov[u(t),u(τ)] oppure,all’estremo opposto, si può caratterizzare completamente u(t) specificando la famiglia <strong>de</strong>lle <strong>su</strong>edistribuzioni di probabilità congiunte. In corrispon<strong>de</strong>nza <strong>de</strong>l livello di specificazione prescelto per ilprocesso input, dalla soluzione <strong>de</strong>ll’equazione differenziale si otterrà lo stesso livello dispecificazione per il processo output.Nell’esempio <strong>de</strong>ll’equazione di Langevin, se ci limitassimo a specificare E[u(t)] ≡ 0 sit− bt− b.( t − s)otterrebbe E[v(t)] = E( V 0 ). e + ∫ e . E[ u( s)]ds = E( Vbt0 ). e − . Se oltre alla E[u(t)] ≡ 0 si fosse0specificata anche la funzione di covarianza Cov[u(t),u(τ)] ri<strong>su</strong>lterebbe <strong>de</strong>terminabile anche lafunzione di covarianza <strong>de</strong>l processo v(t).nk = 141


Particolarmente semplice ri<strong>su</strong>lta la specificazione probabilistica <strong>de</strong>i processi stocastici se siadotta, quando ciò è possibile, l’ipotesi di stazionarietà in quanto, com’è noto, tale ipotesi implicache la funzione valor medio <strong>de</strong>l processo sia costante e che la <strong>su</strong>a funzione di covarianza dipenda daun solo argomento, l’ampiezza <strong>de</strong>ll’intervallo temporale t - τ . Ricordiamo anche che in questo casoalla funzione di covarianza può essere associata mediante la trasformazione di Fourier, in modounico, la funzione spettrale F(ω) al modo seguente:1 + ∞ )− ∞iω( t − τCov [u(t),u(τ)] = ψu( t − τ ) = ∫ e dFu( ω ) .2πQuando Fu(ω ) riesce <strong>de</strong>rivabile, la <strong>su</strong>a <strong>de</strong>rivata Fu'(ω ) = fu(ω ) è chiamata <strong>de</strong>nsità spettrale e peressa <strong>su</strong>ssistono le:+ ∞1 iω( t − τ )ψu( t − τ ) =π∫ e2− ∞+ ∞− iω τuω ) ∫ e . ψu( τ )− ∞. f ( ω ) dω,f ( = dτ.uRicordiamo infine che se la specificazione probabilistica riguarda soltanto i momenti fino alsecondo ordine, cioè se la specificazione concerne soltanto valori medi, varianze e covarianze <strong>de</strong>inumeri aleatori consi<strong>de</strong>rati, allora un processo stocastico stazionario u(t) viene caratterizzato dallascelta <strong>de</strong>l comune valor medio e <strong>de</strong>lla funzione di covarianza ψ u(τ ) oppure da quella <strong>de</strong>l comunevalor medio e <strong>de</strong>lla funzione spettrale Fu(ω ) (o <strong>de</strong>nsità spettrale fu(ω ) ) ; se si as<strong>su</strong>me anche chetutte le distribuzioni congiunte <strong>de</strong>l processo siano di tipo normale le scelte alternative prece<strong>de</strong>ntispecificano completamente il processo stocastico.dNella rappresentazione in termini <strong>de</strong>l vettore x(t) <strong>de</strong>lle variabili di stato x( t)= F.x(t)+ b.u(t),dtTy( t)= h . x(t), si ha che anche il vettore x(t) è stocastico, essendo esso la soluzione di un sistemadi equazioni differenziali stocastiche.Presenteremo a questo punto due esemplificazioni di mo<strong>de</strong>lli lineari dinamici stocastici: laprima riguarda un mo<strong>de</strong>llo fisico analogo, dal punto di vista matematico, all’oscillatore armonico ecioè un circuito elettrico RCL con input stocastico; la seconda esemplificazione, di notevolissimointeresse storico, concerne la stima di un processo di segnale basata <strong>su</strong>ll’osservabilità <strong>de</strong>lla somma<strong>de</strong>l segnale e di un disturbo ca<strong>su</strong>ale, cioè aleatorio.a) Circuito RCL.Il circuito elettrico è costituito da un resistore, un con<strong>de</strong>nsatore e un solenoi<strong>de</strong> connessi in serie ealimentati da un generatore di tensione. Sono note le caratteristiche <strong>de</strong>i tre primi componenti e cioèla resistenza R (mi<strong>su</strong>rata in ohm) <strong>de</strong>l resistore, la capacità C <strong>de</strong>l con<strong>de</strong>nsatore (mi<strong>su</strong>rata in farad) el’induttanza L <strong>de</strong>l solenoi<strong>de</strong> (mi<strong>su</strong>rata in henry). Ci porremo il seguente problema: cosa si puòaffermare <strong>su</strong>ll’intensità di corrente I(t) nel circuito se la tensione V(t) <strong>de</strong>l generatore applicato alcircuito è solo parzialmente nota? As<strong>su</strong>meremo che la tensione V(t) sia un processo stocasticostazionario con funzione valor medio ϕ V( t ) e funzione di covarianza ψV( τ ) note.Nel circuito scorre una corrente elettrica aleatoria I(t) <strong>de</strong>terminata dalla seguente equazioneintegro-differenziale1L. I '( t) + R. I( t) + . I( t) dt = V ( t)C∫basata <strong>su</strong>lle leggi <strong>de</strong>ll’Elettrotecnica.42


Poiché la carica elettrica Q( t ) <strong>de</strong>l con<strong>de</strong>nsatore è legata all’intensità di corrente I(t) dallarelazione I(t) = Q '( t)la prece<strong>de</strong>nte equazione può essere trasformata nella seguente equazionedifferenziale <strong>de</strong>l secondo ordineQ"( t) + 2 ξ ω . Q '( t) + ω . Q( t) = . V ( t)Lnella funzione (aleatoria) incognita Q( t ) . Le costanti ξ e ω sono legate alle caratteristiche noteR C 1<strong>de</strong>gli elementi passivi <strong>de</strong>l circuito dalle relazioni ξ = . e ω = .2 L C.LPonendo Z(t) = [ Q( t ) , Q '( t ) ] T la prece<strong>de</strong>nte equazione scalare si trasforma nell’equazionevettoriale⎡ 0 ⎤⎡ Q '( t) ⎤ ⎡ 0 1 ⎤ ⎡ Q( t)⎤Z’(t) = . ⎢21⎥⎢Q"( t) ⎥ = ⎢ω 2 ξ ω⎥ ⎢Q '( t) ⎥ + .⎣ ⎦ ⎣ − − ⎦ ⎣ ⎦ ⎢ . V ( t)⎥⎣ L ⎦Indicando con F la matrice <strong>de</strong>l sistema, la soluzione <strong>de</strong>ll’equazione differenziale vettoriale è datadallat⎡ 0 ⎤F . t F .( t − s)Z(t) = e . Z(0) + e . ⎢1⎥∫ ds .⎢0 . V ( s ) ⎥⎣ L ⎦2 1Gli autovalori λ , ( i = 1,2) , di F sono le radici <strong>de</strong>ll’equazione <strong>de</strong>t( F − λ . I) = 0 ed hanno lei22espressioni λ1,2= − ξ . ω ± ω . ξ − 1 . As<strong>su</strong>mendo che sia ξ < 1 i due autovalori sono complessiconiugatiλ1,2= − ξ . ω ± iω . 1−ξe gli autovettori corrispon<strong>de</strong>nti sono⎛⎞v1 = ⎜ 1 − ξ ω + iω1 ⎟⎝⎠Tve2 12⎛⎞= ⎜ 1 − ξ ω − iω⎟⎝⎠2ove si è posto ω1= ω . 1− ξ ; è facile constatare che v 1e v 2sono linearmente indipen<strong>de</strong>nti.Indicando con V ( v v )Λ . tλ 1. 2 .= la matrice <strong>de</strong>gli autovettori e ponendo ( t λ te diag e , e )1 2T= si ha laF . tΛ . t − 1.( ) .( ) 1rappresentazione e = V. e . V ed anche la F t − s Λe V. e t − s −= . V dalle quali, con un noioso manon difficile calcolo, si ottengono le seguenti soluzioni corrispon<strong>de</strong>nti alla condizione inizialeZ(0) = 0 :t1− ξ ω ( t − s)Q( t) = e .sin [ ω1.( t − s) ] . V ( s)dsω . L∫ ,1 0t1ξ ω ( t s)ωQ '( t) = I( t) = { e . cos ω1( t s) ξ . sin ω1( t s) }. V ( s)dsL∫ ⎡ ⎤− − ⎢− − − ⎥ω0⎣1⎦.Gli integrali stocastici che compaiono nelle due espressioni sono numeri aleatori <strong>de</strong>finiti comelimiti in media quadratica di opportune <strong>su</strong>ccessioni di somme integrali. Ci limitiamo a dire che dallefunzioni ϕ V( t ) e ψV( τ ) <strong>de</strong>l processo {V(t)} si possono <strong>de</strong>terminare le corrispon<strong>de</strong>nti ϕ Q( t ) e ψQ( τ )e ϕ ( t)e ψ ( τ ) .II43


) Stima lineare <strong>de</strong>i minimi quadrati di un processo stocastico a tempo continuo.Indicheremo con S(t) il processo stocastico di segnale che vogliamo stimare e con U(t) unprocesso di disturbo (o di rumore) in<strong>de</strong>si<strong>de</strong>rato ma non eliminabile che si sovrappone al primo; conY(t) = S(t) + U(t) indicheremo il processo di osservazione o generatore di dati. As<strong>su</strong>meremo, persemplicità, che i due processi S(t) e U(t) non siano correlati tra loro e faremo le seguenti ipotesi<strong>su</strong>lle loro strutture stocastiche:S(t) ∼ N( 0 ;σ .exp { α . τ }2S− ) , U(t) ∼ NWN( 0 ;2σu ) .A parole, entrambi i processi sono as<strong>su</strong>nti di tipo normale o Gaussiano: il primo, noto in letteraturacome “processo di Ornstein-Uhlembeck”, è un processo stazionario con funzione valor medio2i<strong>de</strong>nticamente nulla e funzione di covarianza ψS( τ ) = σS.exp{ − α . τ }; il secondo, noto in letteraturacome processo “normal-white noise”, è anch’esso stazionario con variabili mutuamenteindipen<strong>de</strong>nti, aventi la comune varianza pari a σ e funzione valor medio i<strong>de</strong>nticamente nulla.2uIl mo<strong>de</strong>llo introdotto non corrispon<strong>de</strong> apparentemente a nes<strong>su</strong>na <strong>de</strong>lle tre rappresentazioni dimo<strong>de</strong>lli dinamici prece<strong>de</strong>ntemente introdotte; è però possibile fornire una equivalenterappresentazione nello spazio <strong>de</strong>gli stati sostituendo alla <strong>su</strong>d<strong>de</strong>tta specificazione probabilistica per ilprocesso {S(t)} una equazione differenziale lineare stocastica <strong>de</strong>l primo ordine la cui soluzione ècostituita dal processo {S(t)}:d S ( t ) + α . S ( t ) = σ . W ( t ) ,dtove W(t) è un processo normal - white noise con varianza unitaria. La rappresentazione completanello spazio <strong>de</strong>gli stati è allora la seguente:d S ( t ) + α . S ( t ) = σ . W ( t ) ,dtY ( t)= S(t)+ U ( t),essendo i due processi W(t) e U(t) non correlati tra loro. Si tratta <strong>de</strong>lla versione a tempo continuo<strong>de</strong>l mo<strong>de</strong>llo lineare dinamico già presentato nel paragrafo prece<strong>de</strong>nte. Il problema di stima <strong>de</strong>iminimi quadrati <strong>de</strong>lle variabili di stato S(t) <strong>su</strong>lla base <strong>de</strong>lle osservazioni { Y ( s);s ≤ t}si risolveutilizzando la versione a tempo continuo <strong>de</strong>l filtro di E. Kalman (nota come “filtro di Kalman –Bucy”) . Si dimostra che, indicando con (t)lo stimatore lineare <strong>de</strong>i minimi quadrati per S(t), essoè <strong>de</strong>terminato dalla seguente equazione differenzialeddt∧∧S ∧S( t)= − α . S(t)+ ( β − α ).[ Y ( t)− S(t)]= − β . S(t)+ ( β − α ). Y ( t )∧∧con la condizione iniziale S ∧ (0) = 0 e ove si è postoβ22α σS 2= + α2.σUUno studio sistematico di questi temi può basarsi <strong>su</strong>:M.H.A. Davis – Linear estimation and Stochastic Control (Chapman and Hall, 1977),A.H. Jazwinski – Stochastic Processes and Filtering Theory (Aca<strong>de</strong>mic Press, 1970),R.S.Liptser, A.N. Shiryaev – Statistics of Random Processes (Springer, 1978).44

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!