03.10.2013 Views

nonstationarity, covariance estimation and state-space ... - EPFL

nonstationarity, covariance estimation and state-space ... - EPFL

nonstationarity, covariance estimation and state-space ... - EPFL

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

ASPECTS OF MODERN GEOSTATISTICS:<br />

NONSTATIONARITY, COVARIANCE ESTIMATION AND<br />

STATE-SPACE DECOMPOSITIONS<br />

THÈSE No 2562 (2002)<br />

PRÉSENTÉE A LA FACULTÉ SB SECTION DE MATHÉMATIQUES<br />

ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE<br />

POUR L'OBTENTION DU GRADE DE DOCTEUR ÈS SCIENCES<br />

PAR<br />

Reinhard FURRER<br />

ingénieur mathématicien diplômé EPF<br />

de nationalité suisse et originaire dlEisten (VS)<br />

acceptée sur proposition du jury:<br />

Prof. S. Morgenthaler, directeur de thèse<br />

Prof. A.C. Davison, rapporteur<br />

Prof. J. Hüsler, rapporteur<br />

Prof. R. Webster, rapporteur<br />

Lausanne, <strong>EPFL</strong><br />

2002


A bstract<br />

Geostatistical data are measurements taken at fixed locations in a spatial domain. Generally the latter are<br />

spatially continuous, as is typically the case in mining engineering, geology, soi1 science, <strong>and</strong> hydrology.<br />

Geostatistical models are based on the concept of spatial or spatio-temporal processes <strong>and</strong> aim to describe<br />

the underlying dependence structure. Spatial variability is modeled as a function of the distance between<br />

sampling sites. Called the 'variogram' or 'covariogram', this function is used to apply statistical methods<br />

such as <strong>estimation</strong> <strong>and</strong>/or prediction, referred to as 'kriging' in the geostatistical context. To quantify the<br />

spatio-temporal dependence, <strong>estimation</strong> techniques relying on certain hypotheses of stationarity (seldom<br />

met in reality) are applied.<br />

Nonstationarity <strong>and</strong> <strong>covariance</strong> <strong>estimation</strong> are the underlying topics of the present thesis, which consists<br />

of four chapters.<br />

The first chapter gives a concise overview of geostatistical definitions <strong>and</strong> notation used throughout the<br />

thesis. Prior to generalizing the concepts to multivariate <strong>and</strong> spatio-temporal processes, they are explained<br />

on spatial processes.<br />

There exist many different forms of <strong>nonstationarity</strong>. Two of them are discussed in the second chapter.<br />

First, the case where the mean of the process depends on the location is studied. The identification of<br />

a trend is a nontrivial problem <strong>and</strong> we emphasize that there exists no trend <strong>estimation</strong> procedure for<br />

spatial processes with unknown dependence structure. Exploratory tools for the empirical variogram or<br />

for the observed process, as well as a commonly used parametric <strong>and</strong> nonparametric method for trend<br />

<strong>estimation</strong> are illustrated. A simple method that evolved out of the corisequences of visual data analysis is<br />

developed, namely variogram <strong>estimation</strong> based on 'local trend <strong>estimation</strong>'. The latter separates the domain<br />

in several subdomains, or patches, on which an individual trend is estimated, <strong>and</strong> the residuals are combined<br />

throughout the entire domain to allow global <strong>estimation</strong> <strong>and</strong>/or inference. Simulations show that a simple<br />

<strong>and</strong> almost arbitrary subdivision is already sufficient to improve the results of variogram <strong>estimation</strong>.<br />

Moreover, the method does not break down when the (heuristic) decomposition does not coincide with<br />

the (true) separation of the populations. Even if the true trend is not linear the method performs better<br />

than other well-known parametric or nonparametric trend <strong>estimation</strong> techniques. To underline these<br />

<strong>state</strong>ments the method is applied to real data. A second form of <strong>nonstationarity</strong> is the dependence of the<br />

<strong>covariance</strong> structure on the location. Under this circumstance classical covariogram <strong>estimation</strong> techniques<br />

are not applicable. For example, in atmospheric science one can easily imagine situations where the spatial<br />

dependence changes with time or where the maximum magnitude of variability may alter in time. For<br />

such phenornena new models are needed. Hence the remaining part of the second chapter discusses a<br />

new method of valid covariogram construction for nonstationary spatio-temporal processes. These new<br />

covariogram models are illustrated with simulations <strong>and</strong> an application to a dataset is given.<br />

Several statistical tools are based on the <strong>covariance</strong> matrix of the underlying process. An example of<br />

such a method is (functional) principal components analysis, which aims to represent a set of possibly<br />

vii


viii<br />

--<br />

Abstract<br />

correlated. variables into uncorrelated orthogonal components. These uncorrelated components can be<br />

construc.ted successively, each one extracting a maximal amount of the remaining variance. This often<br />

leads to an appreciable reduction in dimensionality, replacing the original variables by a few components.<br />

To calculate the orthogonal components the <strong>covariance</strong> matrix of a multivariate or spatio-temporal process<br />

is required. The latter is rarely known <strong>and</strong> therefore has to be estimated. As mentionecl, an important<br />

aspect o:f geostatistical datais dependence over <strong>space</strong> as well as over time. This has to be taken into account<br />

when esti:mating the <strong>covariance</strong> matrix <strong>and</strong> the natural estimator of the <strong>covariance</strong> matrix is introduced<br />

in the third chapter. It is shown that it is biased under spatio-temporal dependence. This bias is studied<br />

under two different asymptotic models, namely increasing the number of observations in the domain <strong>and</strong><br />

increasirig the domain by increasirig the number of locations. Using the first asymptotic mode1 we derive<br />

a fast <strong>and</strong> accurate bias correction, whereas the second asymptotic model serves to quantify the speed<br />

of convergence of the bias <strong>and</strong> the <strong>covariance</strong> of the components of the estimated <strong>covariance</strong> matrix. As<br />

shown, under mild hypotheses the asymptotic normality of the estimated <strong>covariance</strong> matrix holds <strong>and</strong> can<br />

be used .tc) test whether the eigenvectors of the estimated <strong>and</strong> the true <strong>covariance</strong> matrices are significantly<br />

different. This is revealed by examples, emphasizing the need for a bias correction. Furthermore, the<br />

theoretica.1 results are illustrated with Monte Carlo simulation studies <strong>and</strong> again with an application to<br />

real data.<br />

The niost commonly used decomposition to extract stationary parts of a process is based on the<br />

separatiori into different scales: (deterministic) large-scale variation, smooth small-scale variation, micro-<br />

scale variation <strong>and</strong> a measurement error. Although such additive partitioning is of considerable utility it<br />

also has several drawbacks, so an alternative analysis based on <strong>state</strong>-<strong>space</strong> decompositions is presented<br />

in the fclurth chapter. The <strong>space</strong> equation is a process governed by the <strong>state</strong> equation <strong>and</strong> an additional<br />

observational error, where the <strong>state</strong> at the point is a weighted mean of its neighborhood <strong>state</strong>s described<br />

by a kernel function plus a spatial process. The new model takes account of diverse shapes of trends <strong>and</strong><br />

one doer; not have to decide whether the process is stationary or not. As other existing decompositions<br />

can be reconstructed by the new representation, it can be seen as a generalization of existing ones. The<br />

decomposition results in a Fredholm integral equation of the second kind. By imposing separable kernels<br />

this integral equation has an explicit solution, <strong>and</strong> the model is defined by the parametrized covariogram of<br />

the spatial process <strong>and</strong> the parameters defining the kernel. In Our distribution-free model we will explore<br />

different rnethods based on minimal distances <strong>and</strong> moment equations for the parameter <strong>estimation</strong>, <strong>and</strong>, by<br />

generalking the concept of M-estimators to the dependent setting consistency for these new estimators is<br />

proven. The efficiency of the proposed method is discussed <strong>and</strong> the results are compared to other commonly<br />

used mcldels by means of extensive Monte Carlo simulations <strong>and</strong> applications to real datasets. Despite<br />

its complexity the new model furnishes an efficient <strong>and</strong> competitive approach throughout the simulations,<br />

which show that for most parameters this new estimator is more precise than the ordinary least squares<br />

estimator.


Version abrégée<br />

Les données géostatistiques sont constituées de mesures recueillies à des endroits déterminés dans<br />

le domaine spatial. Généralement elles sont continues spatialement ; des exemples typiques comprennent<br />

l'ingénierie minière, la géologie, la pédologie et l'hydrologie. Les modèles géostatistiques se basent sur le<br />

concept de processus spatial ou spatio-temporel et ont pour but de décrire la structure de dépendance sous-<br />

jacente. La variabilité spatiale est modélisée comme une fonction de la distance entre les sites échantillonnés.<br />

Cette fonction appelée 'variogramme' ou 'covariogramme' est utilisée afin d'appliquer des méthodes sta-<br />

tistiques comme l'<strong>estimation</strong> et/ou la prédiction, dénommée 'krigeage' dans le contexte géostatistique.<br />

Pour quantifier les dépendances spatio-temporelles, des techniques d'<strong>estimation</strong> se basant sur certaines<br />

hypothèse de stationnarité (rarement vérifiées dans la réalité) sont appliquées.<br />

La non-stationnarité et l'<strong>estimation</strong> de la <strong>covariance</strong> sont les thèmes sous-jacents de cette thèse qui est<br />

constituée de quatre chapitres.<br />

Le premier chapitre présente un survol court et concis des définitions et notations géostatistiques<br />

utilisées dans cette thèse. Préalables à la généralisation des concepts aux processus multivariés et spatio-<br />

temporels, elles sont établies relativement aux processus spatiaux univariés.<br />

Il existe beaucoup de différentes sortes de non-stationnarité, deux d'entre elles sont discutées dans<br />

le deuxième chapitre. Dans un premier temps le cas où la moyenne du processus dépend du site est<br />

étudiée. L'identification d'une tendance n'est pas un problème simple et nous soulignons qu'il n'existe pas<br />

de procédure d'<strong>estimation</strong> de la tendance pour les processus ponctuels dont la structure de dépendance<br />

est inconnue. Des outils exploratoires pour le variogramme empirique ou pour le processus observé, tout<br />

comme les méthodes paramétriques et non-paramétriques communément utilisées pour l'<strong>estimation</strong> de la<br />

tendance sont illustrées. Une méthode simple déduite de l'analyse visuelle des données est développée, à<br />

savoir l'<strong>estimation</strong> du variogramme basée sur 'l'<strong>estimation</strong> locale de la tendance'. Cette dernière sépare<br />

le domaine en plusieurs sous-doniaines ou morceaux, sur lesquels une tendance propre est estimée; les<br />

résidus sont combinés sur le domaine entier pour permettre une <strong>estimation</strong> et une inférence globales. Des<br />

simulations montrent qu'une subdivision simple et presque arbitraire suffit déjà à améliorer les résultats de<br />

l'<strong>estimation</strong> du variogramme. De plus la méthode fonctionne même lorsque la décomposition (heuristique)<br />

ne coïncide pas avec la (vraie) séparation des populations. Même dans le cas où la tendance n'est pas<br />

linéaire, la méthode donne de meilleurs résultats que les méthodes connues d'<strong>estimation</strong> paramétriques et<br />

non-paramétriques de la tendance. Pour souligner ces affirmations la méthode est appliquée à des données<br />

réelles. Une seconde forme de non-stationnarité est constituée par la dépendance de la structure de cova-<br />

riance par rapport au site. Dans ces circonstances les techniques d'<strong>estimation</strong> classiques ne peuvent pas<br />

s'appliquer. Par exemple, dans les sciences de l'atmosphère, il est facilement imaginable de rencontrer des<br />

situations où la dépendance spatiale change au cours du temps ou encore où la magnitude de variabilité<br />

maximale se modifie dans le temps. Pour de tels phénomènes le développement de nouveaux modèles est<br />

nécessaire. Par conséquent la partie restante du premier chapitre présente une nouvelle méthode valable


X<br />

-- Version abrégée<br />

pour la construction du covariogramme pour des processus spatio-temporels non-stationnaires. Ces nou-<br />

veaux modèles de covariogramme sont illustrés à l'aide de simulations et d'une application à un jeu de<br />

données.<br />

Plusieurs outils statistiques utilisent la matrice de <strong>covariance</strong> du processus sous-jacent. Un exemple<br />

d'une telle méthode est l'analyse en composantes principales (fonctionnelle) servant à représenter un en-<br />

semble de variables potentiellement corrélées par le biais de composantes orthogonales non corrélées. Ces<br />

composantes non corrélées peuvent être construites successivement, chacune extrayant une quantité maxi-<br />

male de la variance restante. Cela conduit souvent à une réduction appréciable de la dimension en rem-<br />

plaçant les variables par un nombre restreint de composantes. Pour calculer les composantes orthogonales<br />

la matrice de <strong>covariance</strong> d'un processus multivarié ou spatio-temporel est nécessaire. Cette dernière est<br />

rarement, connue et par conséquent doit être estimée. Comme précisé précédemment, une importante ca-<br />

ractéristique des données géostatistiques est leur dépendance à la fois spatiale et temporelle. Par conséquent<br />

cette caractéristique doit être prise en compte en estimant la matrice de <strong>covariance</strong>; un estimateur naturel<br />

de la <strong>covariance</strong> est présenté dans le troisième chapitre. Nous montrons qu'il est biaisé dans le cas d'une<br />

dépendance spatio-temporelle. Ce biais est étudié à l'aide de deux méthodes asymptotiques, à savoir en<br />

augmentant le nombre d'observations dans le domaine et en augmentant le domaine par le biais d'un ac-<br />

croissement du nombre de sites. En utilisant le premier modèle asymptotique nous obtenons une rapide et<br />

précise correction du biais, t<strong>and</strong>is que le second modèle asymptotique sert à quantifier la vitesse de conver-<br />

gence du biais et de la <strong>covariance</strong> des éléments de la matrice de <strong>covariance</strong> estimée. Nous démontrons<br />

que, sou:$ de légères hypothèses, la matrice de <strong>covariance</strong> estimée suit asymptotiquement une distribution<br />

normale. Cette propriété peut être utilisée pour tester si les vecteurs propres de la matrice de <strong>covariance</strong><br />

estimée et ceux de la vraie matrice de <strong>covariance</strong> sont significativement différents. Ce résultat est montré à<br />

l'aide d'exemples soulignant la nécessité de corriger le biais. De plus les propriétés théoriques sont illustrées<br />

à l'aide de simulations Monte-Carlo et à nouveau avec une application à des données réelles.<br />

La décomposition la plus fréquente pour extraire les parties stationnaires d'un processus utilise la<br />

séparation selon différentes échelles : une variation (déterministe) à longue échelle, une variation lissée à<br />

petite échelle, une variation à micro-échelle et une erreur de mesure. Bien qu'une telle partition additive<br />

soit d'une utilité considérable, elle comporte également plusieurs inconvénients. C'est pourquoi une ana-<br />

lyse alternative utilisant une décomposition en e<strong>space</strong> d'états est présentée dans le quatrième chapitre.<br />

L'équation d'e<strong>space</strong> est un processus régit par une équation d'état et une erreur d'observation addition-<br />

nelle, ou l'état en un point est une moyenne pondérée de ces états voisins décrite par une fonction de<br />

noyau plus un processus spatial. Le nouveau modèle prend en compte diverses formes de tendance et il<br />

n'est paf3 nécessaire de décider si le processus est stationnaire ou non. Comme d'autres décompositions<br />

existantes peuvent être reconstruites par la nouvelle représentation, elle peut être considérée comme une<br />

généralisation des méthodes existantes. La décomposition aboutit à une équation intégrale de Fredholm du<br />

second type. En imposant la séparabilité des noyaux cette équation intégrale possède une solution explicite<br />

et le modèle est défini par le covariogramme paramétrisé du processus spatial et les para.mètres définissant<br />

le noyau. Dans notre modèle libre de distribution nous explorons diverses méthodes basés sur les distances<br />

minimales et les équations des moments pour l'<strong>estimation</strong> des paramètres, et en généralisant le concept des<br />

M-estimateurs au concept de dépendance, la consistance de ces nouveaux estimateurs est prouvée. L'effi-<br />

cacité de la méthode proposée est discutée et les résultats sont comparés à d'autres modèles fréquemment<br />

utilisés pa.r le biais de simulations Monte Car10 étendues et d'applications à des jeux de données réelles.<br />

Malgré sa complexité le nouveau modèle fournit une approche efficace et compétitive dans toutes les si-<br />

mulations. Ce dernier montre également que pour la plupart des paramètres ce nouvel estimateur est plus<br />

précis que les estimateurs basés sur les moindres carrés ordinaires.


Kurzfassung<br />

Als geostatistische Daten bezeichnet man alle Arten von Messungen, die an einem bestimmten Orten<br />

in einem festgelegten raumlichen Gebiet vorgenommen wurden. Diese Gebiete sind gewohnlich stetig,<br />

wie zum Beispiel in der Geologie, der Hydrologie, den Erdwisssenschaften und im Bergwesen. Model-<br />

le für geostatistische Daten basieren auf raumlichen oder hum-Zeitprozessen, welche die innewohnende<br />

Abhanigkeitsstruktur zu beschreiben versuchen, zum Beispiel wird die raumliche Variabilitat (Kovarianz)<br />

durch eine Funktion der Stichprobenorte beschrieben. Diese Funktion wird üblicherweise Variogramm oder<br />

Kovariogramm genannt, ihre Verwendung zur Schatzung undIoder Vorhersage ist ein grundlegendes Ele-<br />

ment der Geostatistik. Die meisten Techniken zur Schatzung der Raum-Zeitabhanigkeitsstruktur basieren<br />

auf der Annahme, dass der zugrundeliegende Prozess stationar ist, diese Annahme entspricht jedoch nur<br />

selten der Realitat. Nichtstationaritat und Kovarianzschatzung bilden den roten Faden dieser Dissertation,<br />

die in die im Folgenden kurz zusammengefassten vier Kapitel aufgeteilt ist.<br />

Das erste Kapitel gibt einen kurzen Überblick über geostatistische Definitionen und Schreibweisen,<br />

welche spater gebraucht werden. Es wird mit raumlichen Prozessen begonnen und sukzessive zu mehrdi-<br />

mensionalen und Raum-Zeitprozessen verallgemeinert.<br />

Es existieren viele verschiedene Formen von Nichtstationaritat, von denen zwei im zweiten Kapitel<br />

genauer betrachtet werden. Im ersten Fall, Trend gennant, hiingt der Mittelwert des Prozesses vom Ort<br />

im Raum ab. Die Identifizierung eines Trends ist ein nichttriviales Problem und es wird versucht auf-<br />

zuzeigen, dass es keine optimale Trendschatzung gibt, wenn die zugrundeliegende Abhangigkeitsstruktur<br />

nicht bekannt ist. Wir zeigen einige explorative Datenanalysemethoden für empirische Variogramme und<br />

beobachtete Prozesse. Im Weiteren werden st<strong>and</strong>ardmassige parametrische und nichtparametrische Trend-<br />

anpassungsmethoden erlautert. Von diesen Methoden ausgehend wird eine neue, einfache Denkweise zur<br />

Variogrammschatzung beschrieben, 'Lokale Trendschatzung' genannt. Diese teilt das Gebiet in mehrere<br />

Untergebiete ein, auf welchen der Trend geschatzt wird. Die Residuen werden zusammengefasst und er-<br />

lauben eine globale Schatzung undIoder statistische Schlussfolgerungen. Simulationen zeigen, dass eine<br />

einfache und heuristische Aufteilung zu Verbesserung der Variogrammschatzung führt. Wenn der wahre<br />

(unbekannte) Trend nicht linear ist oder wenn die heuristische Aufteilung nicht der wahren (unbekannten)<br />

Aufteilung entspricht, ist die Methode besser als parametrische und nichtparametrische Trendschatzung,<br />

wie in Simulationen und in einer Anwendung gezeigt wird. Eine zweite Art der Nichtstationaritat ist die<br />

Abhangigkeit der Form der Kovarianzstruktur vom Messort oder von der Messzeit, unter diesen Umst<strong>and</strong>en<br />

ist die klassische Variogrammschatzung nicht moglich. Im Zusammenhang mit Untersuchungen der At-<br />

mosphare kann zum Beispiel die Grosse der Variabilitat der Daten von der Zeit abhangen, für solche<br />

Phanomene werden neue Modelle gebraucht. Im letzten Teil des zweiten Kapitels wird eine neue Methode<br />

zur Konstruktion von gültigen, nichtseparierbaren Kovariogrammen für nichtstationare Raum-Zeitprozesse<br />

hergeleitet. Diese neuen Kovariogramme werden mit Simulationen und einer Anwendung illustriert.<br />

Viele statistische Anwendungen basieren auf der Kovarianzmatrix des modellierten Prozesses. Ein<br />

klassisches Beispiel einer solchen Methode ist (funktionale) Hauptkomponentenanalyse, welche eine Menge


xii Kurzfassunn<br />

von korrelierten Variablen in unkorrelierte, orthogonale Komponenten transformiert. Diese unkorrelierten<br />

Komponenten konnen sukzessive konstruiert werden, jede extrahiert den maximalen Anteil der Restva-<br />

riabilitat. Dieser Ansatz dient haufig zur Dimensionsreduzion, indem die ursprünglichen Variablen durch<br />

einige wenige orthogonale Komponenten ersetzt werden. Um diese Kompenenten zu berechnen wird die<br />

Kovariaiizmatrix des Raum-Zeitprozesses gebraucht, von welcher oft nur eine Schatzung vorh<strong>and</strong>en ist.<br />

Da geostatistische Daten eine innewohnende Abhanigkeitsstruktur über Raum und Zeit besitzen, muss<br />

diese in der Schatzung der Kovarianzmatrix berücksichtigt werden. Im dritten Kapitel wird der natürliche<br />

Schatzer unter Raum-Zeitkorrelation untersucht und gezeigt, dass dieser Schatzer einem systematischen<br />

Fehler unterliegt. Die Verzerrung wird unter zwei verschiedenen asymptotischen Modellen betrachtet: Die<br />

Anzahl Beobachtungen nimmt entweder in einem festgelegten Gebiet oder in einem entsprechend sich ver-<br />

grossernden Gebiet zu. Unter dem ersten Blickwinkel wird eine schnelle und prazise Verzerrungskorrektur<br />

hergeleitet, in der zweiten Situation wird die Konvergenzrate der Terme der geschatzten Matrix bestimmt.<br />

Unter schwachen Voraussetzungeri wird asymptotische Normalitat des Schatzers gezeigt. Dieses Resul-<br />

tat ist riotwendig für Tests von Eigenvektoren der wahren und geschatzten Eigenwerte. Hierzu werden<br />

Beispiele beh<strong>and</strong>elt, die signifikante Unterschiede zwischen diesen Eigenvektoren aufweisen und somit die<br />

Notwendigkeit der Verzerrungskorrektur bestatigen. Die theoretischen Resultate werden mit Simulationen<br />

und Anwendungen auf realen Daten illustriert.<br />

Die am haufigsten genutzte Zerlegung zur Extraktion von stationaren Teilen eines Prozesses basiert auf<br />

einer additiven Trennung der Streuung: (deterministische) Variation in grossem Ausmass, glatte Variation<br />

in kleinem Ausmass, Variation im Mikroausmass und schliesslich ein Messfehler. Obwohl diese Zerlegung<br />

von grosser praktischer Bedeutung ist, hat sie mehrere Schwachpunkte. Eine neue und alternative Darstel-<br />

lung basierend auf einer Zerlegung des Zust<strong>and</strong>sraumes ist im vierten Kapitel beschrieben. Hierzu wird der<br />

Prozess beschrieben durch zwei Gleichungen, der Raumgleichung und der Zust<strong>and</strong>sgleichung. Die Raum-<br />

gleichung zerlegt den Gesamtprozess in einen von der Zust<strong>and</strong>sgleichung beschriebenen Teil und einen<br />

Messfehler, wahrend die Zust<strong>and</strong>sgleichun ein durch einen Kern gewichtetes Mittel und einen stationaren<br />

raumlichen Prozess enthalt. Diescs neue Modell kann verschiedene Formen von Trends beschreiben, des-<br />

halb wird eine subjektive Entscheidung bezüglich des Trends überflüssig. Zusatzlich konnen mit dem neuen<br />

Modell existierende Zerlegungen beschrieben werden, so dass die Zust<strong>and</strong>sraumzerlegung als eine Verallge-<br />

meinerung betrachtet werden kanu. Die Zust<strong>and</strong>sgleichung ist eine Fredholmsche Integralgleichung zweiter<br />

Art, wird ein separierbarer Kern vorausgesetzt, hat diese Gleichung eine explizite Losung und das Modell<br />

ist durc:h das parametrisierte Kovariogramm des stationaren raumlichen Prozesses und die Parameter des<br />

Kerns vollst<strong>and</strong>ig beschrieben. Trotz seiner Komplexitat ist dieser neue Ansatz effizient und kompetitiv,<br />

da die Sc'hatzung der meisten Parameter praziser ist als die Methode der kleinsten Quadrate.


Riassunto<br />

1 dati geostatistici sono costituiti da misure eseguite in punti definiti ne1 dominio spaziale. Solitamente<br />

sono continui spazialmente. L'ingegneria mineraria, la geologia, la geotecnica e l'idrologia sono degli<br />

esempi tipici. 1 modelli geostatistici si basano su1 concetto di processo spaziale O spazio-temporale e<br />

servono a descriverne la struttura di dipendenze. La variabilità spaziale è rappresentata da una funzione<br />

della distanza tra i luoghi di misura. Questa funzione è chiamata 'variogramma' O 'covariogramma' ed è<br />

utilizzata per applicare metodi statistici come la stima e/o la previsione, chiamati 'kriging' ne1 contesto<br />

geostatistico. Per quantificare le dipendenze spazio-temporali, si applicano delle tecniche di stima che si<br />

basano su ipotesi stazionarie che in pratica si verificano solo raramente.<br />

La non stazionarietà e la stima della cowrianza sono i temi di fondo di questa tesi che è costituita da<br />

quattro capitoli.<br />

Il primo capitolo presenta una panoramica breve e coincisa delle definizioni geostatistiche usate in questa<br />

tesi. E una premessa necessaria alla generalizzazione dei concetti ai processi multivariati e spazio-temporali;<br />

è stabilita in base ai processi spaziali univariati.<br />

Esistono molti tipi differenti di non stazionarietà, due dei quali sono trattati ne1 secondo capitolo. In un<br />

primo tempo ci si occupa del caso in cui la media del processo dipende da1 luogo. L'identificazione di una<br />

tendenza non è un problema semplice e si sottolinea che non esistono procedure di stima della tendenza<br />

per processi puntiformi la cui struttura di dipendenza non è nota. Si illustrano inoltre degli strumenti d'e-<br />

splorazione del variogramma empirico O del processo in esame, e dei metodi parametrici e non parametrici<br />

usati correntemente per la stima della tendenza. Si sviluppa un metodo semplice che deriva dall'analisi<br />

visuale dei dati, ossia la stima del variogramma basata sulla 'stima locale della tendenza'. Quest'ultima<br />

separa il dominio in diversi sottodominii O parti, nei quali si stima una tendenza propria; i residui vengono<br />

in seguito combinati sull'intero dominio per permettere una stima globale. Delle simulazioni mostrano<br />

che una suddivisione semplice e quasi arbitraria è già sufficiente per migliorare i risultati della stima del<br />

variogramma. In più, il metodo funziona anche quarido la scomposizione (euristica) non coincide con la<br />

(vera) separazione delle popolazioni. Anche ne1 caso in cui la tendenza non è lineare questo metodo for-<br />

nisce risultati migliori dei metodi già noti di stima parametrica e non parametrica della tendenza. Per<br />

verificare queste affermazioni il metodo viene applicato a dei dati reali. Una seconda forma di non stazio-<br />

narietà è costituita dalla dipendenza dalla struttura di covarianza rispetto al luogo. In queste circostanze<br />

le tecniche classiche di stima non si possono applicare. Per esempio, nelle scenze dell'atmosfera, si possono<br />

trovare facilmente situazioni nelle quali la dipendenza spaziale varia ne1 tempo O dove la magnitudine della<br />

massima variabilità si modifica ne1 tempo. Per tali fenomeni è necessario sviluppare nuovi modelli. Con-<br />

seguentemente la parte restante del primo capitolo presenta un nuovo metodo, valido per la creazione del<br />

covariogramma per dei processi spazio-temporali non stazionari. Questi nuovi niodelli vengono illustrati<br />

tramite simulazioni e un'applicazione ad un insieme di dati.


xiv Riassunto<br />

Diversi strumenti statistici usano la matrice di covarianza del processo di fondo. Un esempio di un<br />

tale metodo è l'analisi delle componenti principali (funzionali) che servono a rappresentare un insieme di<br />

variabili potenzialmente correlate tramite delle componenti ortogonali non correlate. Queste componenti<br />

non correlate possono venir costituite successivamente, in modo che ogniuna estragga la massima quantità<br />

di variariza rimanente. Questo porta spesso ad una riduzione notevole della dimensione sostituendo le<br />

variabili con un numero ristretto di componenti. Per calcolare le componenti ortogonali è necessaria<br />

la matrice di covarianza di un processo multivariato O spazio-temporale, ma quest'ultima è raramente<br />

conosciuta e bisogna quindi stimarla. Come precedentemente precisato, una caratteristica importante<br />

dei dati geostatistici è la loro dipendenza spaziale e temporale. Bisonga quindi tener conto di questa<br />

caratteristica per stimare la matrice di covarianza; uno stimatore naturale della covarianza viene presentato<br />

ne1 terzcl capitolo. Mostriamo che non è affidabile ne1 cas0 di una dipendenza spazio-temporale. Questo<br />

grazie a dei metodi asintotici, ossia aument<strong>and</strong>o il numero di osservazioni ne1 dominio O ingr<strong>and</strong>endo il<br />

dominio aument<strong>and</strong>o il numero di luoghi. Us<strong>and</strong>o il primo metodo asintotico otteniamo una correzione<br />

rapida e precisa dell'errore, mentre il secondo serve a quantificare la velocità di convergenza degli elementi<br />

della matrice di covarianza stimata. Dimostriamo inoltre, con delle ipotesi leggere, che la matrice di<br />

covarianza stimata segue asintoticamente una distribuzione normale. Questa proprietà pub essere usata<br />

per controllare se i vettori propri della matrice di cowrianza stimata e quelli della vera matrice di covarianza<br />

si differenziano in maniera significativa. Questo risultato è illustrato tramite degli esempi, e le proprietà<br />

teoriche sono illustrate con delle simulazioni di Monte-Carlo e con un'applicazione a dei dati reali.<br />

La scomposizione più frequente per estrarre le parti stazionarie di un processo usa la separazione a<br />

scale difl-èrenti: una variazione (determinista) a larga scala, una variazione lisciata a scla più piccola, una<br />

variaziorie a micro-scala e un errore di misura. Anche se una tale ripartizione è di notevole aiuto, comporta<br />

anche diversi inconvenienti. Per questa ragione si presenta ne1 quarto capitolo un'analisi alternativa che<br />

usa una scomposizione ne110 spazio degli stati. L7equazione di spazio è un processo retto da un'equazione<br />

di stato e da un errore d'osservazione addizionale, dove 10 stato in un punto è una media ponderata<br />

degli stati vicini che è descritta da una funzione 'kernel' e da un processo spaziale. Il nuovo modello<br />

tiene conto di diverse forme di tendenza e non è necessario decidere se il processo è stazionario O no.<br />

Siccome altre scomposizioni esistenti possono essere ricostruite con la nuova rappresentazione, si pub<br />

considerarla una generalizzazione dei metodi esistenti. La scomposizione porta a un'equazione integrale<br />

di Fredholm di secondo tipo. Imponendo la separazione dei 'kernel' questa equazione integrale possiede<br />

una soluzione esplicita e il modello è definito da1 covariogramma parametrico del processo spaziale e i<br />

parametri definiscono il 'kernel'. Ne1 nostro modello esploriamo diversi metodi basati sulle distanze minime<br />

e le equitzioni dei momenti per la stima dei parametri e, generalizz<strong>and</strong>o il concetto degli M-stimatori al<br />

concetto di dipendenza, si prova la consistenza di questi nuovi stimatori. Si discute l'efficacia del metodo<br />

proposto e si confrontano i risultati con quelli di altri modelli usati correntemente tramite simulazioni<br />

estese di Monte Carlo e applicazioni con dati concreti. Malgrado la sua comlessità il nuovo modello risulta<br />

efficace t: competitivo in tutte le simulazioni. Si rivela inoltre più preciso degli stimatori basati sui minimi<br />

quadrati ordinari per la maggior parte dei parametri.


Contents<br />

Acknowledgernents<br />

Abstract<br />

Version abrégée<br />

Kurzfassung<br />

Riassunto<br />

Contents<br />

List of Figures<br />

List of Tables<br />

Prologue<br />

Overview of Geostatistical Data Analysis <strong>and</strong> Modeling 1<br />

.........................................<br />

1.1 Historical Overview 1<br />

............................................<br />

1.1.1 Genesis 1<br />

..........................................<br />

1.1.2 Quo Vadis 2<br />

.....................................<br />

1.2 Univariate Spatial Processes 3<br />

.................................<br />

1.2.1 Stationarity <strong>and</strong> Ergodicity 4<br />

1.2.2 Anisotropy .......................................... 5<br />

..................................<br />

1.2.3 Additive Decompositions 5<br />

.............................<br />

1.2.4 Characterization Using Variograms 6<br />

............................<br />

1.2.5 Characterization Using Covariograms 8<br />

1.3 Estimation of the Second Moment Structure ............................ 9<br />

..................................<br />

1.3.1 Estimation of Variograms 9<br />

..................................<br />

1.3.2 Variogram Model Fitting 11<br />

..........................................<br />

1.4 Spatial Prediction 12<br />

............................................<br />

1.4.1 Kriging 12<br />

vii<br />

ix<br />

xi<br />

...<br />

Xlll<br />

xv<br />

xix<br />

xxi<br />

xxiii


xvi Contents<br />

1.4.2 Other Interpolation Approaches . .............................. 13<br />

1.4.3 Stability of Kriging ..................................... 14<br />

1.5 h9ultivariate Spatial Processes ................................... 15<br />

1.6 Spatio-Temporal Processes ..................................... 16<br />

2 Nonstationarity Issues in Geostatistical Modeling 19<br />

2.1 T'rend Detection <strong>and</strong> Global Fitting . ................................ 19<br />

2.1.1 Exploratory Examination of the Process .......................... 20<br />

2.1.2 Fitting Parametric Models ................................. 24<br />

2.1.3 Fitting Nonparametric Models ............................... 26<br />

2.2 Local Trend Estimation ....................................... 27<br />

2.2.1 Simulations ......................................... 29<br />

2.2.2 Application ......................................... 29<br />

2.2.3 Local Variogram <strong>estimation</strong> . ................................ 34<br />

2.3 Covariograms of Nonstationary Spatio-Temporal Processes .................... 35<br />

2.3.1 Spectral Representation ................................... 35<br />

2.3.2 Simulations ......................................... 38<br />

2.3.3 Application ......................................... 40<br />

3 Covariance Estimation of Geostatistical Data 45<br />

3.1 Motivation .............................................. 45<br />

3.2 The Estimator Û .......................................... 46<br />

3.3 Asymptotic Considerations ..................................... 49<br />

3.3.1 Limiting Bias ........................................ 50<br />

3.3.2 Asymptotic Bias ....................................... 53<br />

3.3.3 R<strong>and</strong>om <strong>and</strong> lrregular Locations .............................. 57<br />

3.4 Eigenvalues <strong>and</strong> Eigenvectors of U ................................. 59<br />

3.4.1 AsymptoticDistribution ................................... 59<br />

3.4.2 Confidence Cones ...................................... 63<br />

3.5 Simulations ............................................. 66<br />

3.6 Application . ............................................. 71<br />

4 State-Space Decomposition of Geostatistical Processes<br />

4.1 Motivation . .............................................<br />

4.2 State-Space Decompositions ....................................<br />

4.2.1 State Equation with a Degenerate Kernel .........................<br />

4.2.2 Other Types of State Equations ..............................<br />

4.3 Parameter Estimation ........................................<br />

4.3.1 Moment Equations .....................................<br />

4.3.2 Consistency .........................................<br />

4.3.3 lnference ...........................................<br />

4.3.4 OLS, WLS, GLS <strong>and</strong> Robust Estimation ..........................<br />

.........................................<br />

4.4 lllustrative Examples<br />

4.4.1 Three Parameter Model . ..................................<br />

4.4.2 Gaussian Process with N = 1 . ...............................


Contents xvii<br />

4.5 Simulations ............................................. 91<br />

4.5.1 Numerical lntegration .................................... 91<br />

4.5.2 Estimation of Cij ...................................... 92<br />

4.5.3 Studies on the lmplementation of SSD ........................... 93<br />

4.5.4 Trend Contamination <strong>and</strong> True /3 # O ........................... 96<br />

4.6 Application . ............................................. 97<br />

4.6.1 Prediction .......................................... 97<br />

4.6.2 SIC97 Data ......................................... 98<br />

4.6.3 Lake Geneva Data . ..................................... 99<br />

4.7 Summary <strong>and</strong> Outlook ....................................... 101<br />

Epilogue<br />

Appendix 105<br />

A Datasets 105<br />

A.l SIC97 Data ............................................. 105<br />

A.2 Lake Geneva Data .......................................... 106<br />

A.3 Ozone Data ............................................. 108<br />

B Supplementary Simulation Results 111<br />

B.l Nonstationary Issues . ........................................ 112<br />

B.l.l Trend Detection ....................................... 112<br />

B.1.2 Local Trend Estimation ................................... 113<br />

B.2 Functional Principal Components Analysis ............................. 114<br />

B.3 State-Space Representation ..................................... 116<br />

Glossary<br />

References<br />

Author lndex<br />

Subject lndex<br />

Curriculum Vitae

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!