Geoestadística. Institut Cartogràfic i Geològic de Catalunya

Autor: Dr. Joan Nunes. Universitat Autònoma de Barcelona
Promotor: Institut Cartogràfic de Catalunya, 2013

La geoestadística és una branca aplicada de l'estadística que es dedica a l'anàlisi dels patrons de variació espacial contínua i a l'estimació i la generació de superfícies a partir de punts de mostreig. En aquest sentit, comparteix objecte d'estudi i finalitat amb l'estadística espacial i també, en particular, amb els mètodes d'interpolació espacial, ja que, de fet, proporciona alguns dels mètodes d'interpolació més acurats, com els diversos tipus de krigatge. Tanmateix, es diferència de l'estadística espacial i dels mètodes convencionals d'interpolació pel fet de considerar la variació espacial com una variable aleatòria i utilitzar mètodes estocàstics basats en la covariància dels valors de la variable de superfície en diferents posicions.

Específicament, la geoestadística es diferència de l'estadística espacial en el fet de modelitzar la influència dels valors propers sobre el valor desconegut a estimar en una determinada posició de forma probabilística, a partir de l'anàlisi de la covariància dels valors coneguts en funció de la distància, en lloc d'assignar pesos segons la configuració espacial o la distància entre punts de forma determinista com fa l'estadística espacial. D'altra banda, la geoestadística es diferencia dels mètodes convencionals d'interpolació pel fet de considerar que els valors desconeguts són funció del procés aleatori que genera els valors coneguts, en lloc de considerar-los funció de la distància, com en la interpolació per la distància inversa, la interpolació bilineal o la interpolació pel veí més proper, o bé funció de la posició, com en la interpolació basada en funcions polinòmiques om anàlisi de superfície de tendència.

La diferència en la fonamentació teòrica, així com el fet que la geoestadística hagi estat desenvolupada de forma independent a les altres tècniques estadístiques d'anàlisi espacial, bàsicament en el camp de la geologia i en particular en la prospecció minera, fan de la geoestadística una branca o especialitat en si mateixa, a part de la resta de l'estadística espacial. A més de l'exploració minera i petroliera, la geoestadística té nombroses aplicacions en moltes altres disciplines, com és ara la hidrologia i la hidrogeologia, l'oceanografia, la geoquímica, la meteorologia, la geografia, l'epidemiologia, les ciències ambientals, l'ecologia del paisatge, l'edafologia i l'agricultura de precisió. La incorporació de mètodes d'anàlisi i d'interpolació de la geoestadística en els sistemes d'informació geogràfica ha contribuït notablement a la difusió de la geoestadística entre les altres disciplines.

Sumari:

Origen
Definició
Conceptes de geoestadística
3.1 Procés estacionari, estacionarietat
3.2 Variable regionalitzada
3.3 Funció de covariància, autocovariància
3.4 Semivariància
3.5 Semivariograma, variograma
3.6 Separació, sostre, abast, residu, interval d'agrupació
Mètodes de geoestadística
4.1 Estimació
4.2 Simulació
Temes relacionats
Referències
Lectures recomanades

Origen

L'origen de la geoestadística està en els treballs aplicats del geòleg sudafricà Daniel G. Krige, que han donat lloc al mètode d'interpolació geoestadística que porta el seu nom, el krigatge. En particular, en la tesi de màster A statistical approach to some mine valuations and allied problems at the Witwatersrand, publicada l'any 1951 (Krige, 1951).

Posteriorment, a partir dels treballs de Krige, l'enginyer francès Georges Matheron desenvolupà formalment el cos teòric de la geoestadística, en les obres fonamentals de la dècada de 1960 (Matheron, 1962, 1963).

El desenvolupament teòric de la geoestadística, amb nous mètodes i noves aplicacions ha continuat actiu fins a l'actualitat, a través dels treballs posteriors del mateix Matheron (1973, 1989) i, cada cop més, d'altres autors (Chilès and Delfiner, 1999; Lantuéjoul, 2002; Deutsch, 2002; Wackernagel, 2003; Tahmasebi et al., 2012; entre molts altres). Així, la geoestadística s'ha anat diversificant en el temps i ha deixat de ser des de fa temps una disciplina desenvolupada únicament entorn del mètode d'interpolació del krigatge.

Definició

El principi bàsic de la geoestadística és modelitzar la variació espacial contínua d'una variable com un procés aleatori. Concretament, considera el valor de la variable estudiada en les posicions desconegudes com el resultat d'un conjunt de variables aleatòries correlacionades.

Aquest plantejament de la geoestadística parteix de la crítica dels mètodes convencionals d'interpolació mitjançant pesos assignats en funció de la distància o de la posició. Entre els defectes dels mètodes basats en la ponderació per la distància o la posició, la geoestadística assenyala la dificultat per establir el criteri per a escollir els factors de ponderació, la manca de criteri per a escollir la distància fins a la qual considerar els efectes dels valors coneguts sobre el valor a estimar, la manca de mesures de la fiabilitat de les estimacions obtingudes, i la dificultat que un mateix mètode d'estimació sigui vàlid en tot tipus de situacions. Contràriament a la ponderació basada en la distància o la posició, pròpia de l'estadística espacial, la geoestadística proposa ponderar els valors dels punts de mostra per mitjà d'alguna mesura de similaritat amb el valor a estimar. Similaritat que, en aquest cas, es pot mesurar estadísticament mitjançant la covariància o la correlació entre els valors dels punts de mostra (Clark, 1979).

Per estimar el valor de la variable d'interès Z en una posició x de valor desconegut, la geoestadística considera que el valor de Z a la posició x, Z(x), és un valor aleatori, pel fet que no ha estat mesurat, però només parcialment aleatori ja que el valor Z(x) desconegut és definit per una funció de distribució de probabilitat acumulada que depèn d'informació coneguda respecte al valor Z(x):

on F(z, x) és la funció que estima un valor z per a una posició x segons la funció de probabilitat acumulada que el valor de Z a la posició x, Z(x), sigui igual o inferior z donada la informació disponible sobre la variació de Z a la posició x

La informació per a construir la funció de probabilitat acumulada que permet estimar el valor de Z a la posició x típicament és el coneixement dels valors de la variable d'interès Z a les posicions properes a x, o veïnat de x. Aleshores, assumint que existeix continuïtat espacial, la funció de probabilitat acumulada de Z(x) es pot restringir en aquest veïnat, de manera que Z(x) només pot tenir valors similars als valors que hi ha en el veïnat de x. Contràriament, en cas que no es pugui assumir la continuïtat espacial de Z, Z(x) pot prendre qualsevol valor.

La continuïtat espacial d'una variable aleatòria es pot descriure per mitjà d'un model de continuïtat espacial que pot prendre forma de funció paramètrica, com en el cas dels mètodes de geoestadística basats en semivariogrames, entre els quals la interpolació per krigatge, o bé una forma no paramètrica, en el cas dels mètodes geoestadístics com és ara la simulació multipunt o les tècniques pseudogenètiques.

Quan s'aplica un sol model espacial a tot un domini espacial, s'assumeix que la variable d'interès Z és -o esdevé com a conseqüència de- un procés estacionari, de manera que les mateixes propietats estadístiques són aplicables a tot el domini espacial. La geoestadísitica comprèn tant mètodes que assumeixen estacionarietat com mètodes que no.

Els mètodes de modelització de superfícies de la geoestadística se solen classificar segons que la finalitat sigui:

Estimació dels valors de Z en posicions en què és desconeguda, típicament a partir del valor esperat, la mitjana o la moda de la variable segons la funció de probabilitat acumulada, amb l'objectiu d'obtenir una interpolació de la variable de superfície a partir d'un conjunt de punts de mostreig.
Simulació utilitzant tota la funció de probabilitat acumulada, de manera que s'obtingui cada un dels possiblesvalors de Z en les posicions en què és desconeguda, que corresponen a diferents escenaris derivats d'assumir múltiples solucions possibles a la interpolació de la variable de superfície. Cada una de les realitzacions de Z constitueix un escenari alternatiu diferent, segons determinats supòsits, i dóna lloc a un mapa de probabilitat de la superfície diferent.

La geoestadística comprèn un cert nombre de mètodes per a resoldre necessitats tant d'estimació, o interpolació, com de simulació.

Conceptes de geoestadística

La geoestadística utilitza un seguit de conceptes que, juntament amb els diferents mètodes d'anàlisi, conformen el seu cos teòric. Alguns dels més rellevants són els següents.

Procés estacionari, estacionarietat

Un procés estacionari és un procés espacial aleatori en el qual la variació dels atributs depèn exclusivament de la posició relativa de les localitzacions en què han estat mesurats. La condició d'estacionarietat implica que les propietats estadístiques del procés es mantenen en el conjunt de l'àrea d'estudi o domini espacial.

Hi ha diferents tipus d'estacionarietat, segons les propietats espacials a què fa referència la condició d'estacionarietat:

Estacionarietat de primer ordre

L'estacionarietat de primer ordre, anomenada també estacionarietat mitjana, descriu un procés espacial aleatori en el qual una variable espacial aleatòria té el mateix valor mitjà en totes les localitzacions.

Estacionarietat de segon ordre

L'estacionarietat de segon ordre és la propietat d'un procés espacial aleatori en què una variable espacial aleatòria té una mitjana constant i una covariància espacial que depèn únicament de la distància i de la direcció que separa dues localitzacions qualssevol.

Estacionarietat intrínseca

L'estacionarietat intrínseca, anomenada també estacionarietat feble, és la propietat d'un procés espacial aleatori en què una variable espacial aleatòria té una mitjana constant i un semivariograma que depèn únicament de la distància i de la direcció que separa dues localitzacions qualssevol.

No-estacionarietat

Complementàriament, es defineix la no-estacionarietat com la condició dels processos estocàstics que tenen una distribució de probabilitat que canvia en diferents posicions de l'espai o moments del temps.

Hipòtesi intrínseca

La hipòtesi intrínseca és una versió reduïda d'estacionarietat espacial en la qual els requeriments d'estacionarietat es limiten a les diferències entre valors en diferents posicions, i no a la variable regionalitzada. La hipòtesi intrínseca és útil per a modelitzar variables regionalitzades en què la forma del semivariograma és una funció de la mida del domini espacial.

Variable regionalitzada

Una variable regionalitzada es defineix com una funció estocàstica definida en un espai mètric que representa la variació dels fenòmens naturals que són massa irregulars a l'escala d'interès per a poder modelitzar-los analíticament er mitjà d'una funció matemàtica determinista i s'han de modelitzar mitjançant un model estocàstic

En una variable regionalitzada, la variació es descompon en tres components: tendència, correlació espacial i soroll aleatori. En una aproximació estadística clàssica, com per exemple l'anàlisi de superfície de tendència, la variació contempla només dos components: la tendència, que es modelitza com a funció polinòmica de la posició, i el component residual.

Tendència, en el cas d'una variable regionalitzada, és la variació estructural descrita per mitjà d'una funció probabilística. La tendència correspon al component de variació de llarga distància.

Correlació espacial, en el cas d'una variable regionalitzada, és la correlació que presenten dues o més variables distribuïdes en l'espai mostrejades aleatòriament, de manera que la correlació depèn de la distància o de la direcció entre les localitzacions de les observacions. L'estructura de correlació espacial és el patró de variabilitat espacial d'un fenomen, el qual depèn del mostreig realitzat per a mesurar-lo. L'existència de diferents estructures de correlació espacial en diferents conjunts de dades afecta i limita les possibilitats de combinar diferents conjunts de dades espacials de forma significativa o correcta. Les diferències d'estructura de correlació espacial poden obeir a diferències genuïnes de variabilitat espacial dels diferents fenòmens, al fet d'haver estat mesurats a escales o a resolucions diferents o al fet d'haver imposat algun tipus d'unitat territorial d'anàlisi arbitrària. La correlació espacial correspon al component de variació de curta distància, que habitualment es modelitza com a variació aleatòria espacialment dependent.

Soroll aleatori, en el cas d'una variable regionalitzada, és la variació dels valors d'una variable d'un model espacial que no pot ser descrita per la funció del model i que no està correlacionada espacialment. El soroll aleatori inclou l'error de mesura i la variació a escales inferiors a l'escala de mostreig de les dades. El soroll aleatori sovint s'anomena també residu (nugget). El soroll aleatori és la variació residual, romanent un cop descomptades la variació de llarg abast i la variació local

El krigatge es basa en la teoria de variables regionalitzades per a incorporar informació sobre els aspectes estocàstics de la variació espacial en el càlcul de les funcions de ponderació utilitzades per a la interpolació.

Funció de covariància, autocovariància

Covariància és la mesura estadística de la variació conjunta de dues variables. A diferència de la correlació, la covariància no és adimensional, sinó que les seves unitats de mesura són les unitats de mesura d'una de les variables multiplicades per les unitats de mesura de l'altra variable. Normalitzant la covariància s'obté la correlació.

La funció de covariància descriu la variància d'un procés estocàstic o variable aleatòria. Quan la covariància fa referència a la variació conjunta dels valors d'una mateixa variable aleatòria en diferents posicions s'anomena autocovariància:

on C(x,y) és la funció de covariància, en aquest cas autocovariància que dóna el valor covariància entre els valors de la variable aleatòria a les localitzacions x i y.

Semivariància

En geoestadística, i en particular en la interpolació mitjançant el mètode de krigatge, s'utilitza la semivariància, que es defineix com la meitat de la variància entre les diferències de valors separats per una determinada distància o separació:

on
γ és la semivariància de les diferències de valors de la variable aleatòria z entre dues posicions separades per una separació h
z(x_i) és el valor de la variable aleatòria z en la posició x_i
z(x_i+h) és el valor de la variable aleatòria z en la posició x_imés una separació h

La semivariància experimental, calculada a partir dels valors de la variable d'interès en els punts de mostreig, es defineix mitjançant l'expressió:

és la semivariància experimental per a una separació h
z(x_i) és el valor mesurat de la variable aleatòria z en la posició x_i
z(x_i+h) és el valor mesurat de la variable aleatòria z en la posició x_imés una separació h
n(h) és el nombre de parells de punts separats per una separació h

Semivariograma, variograma

Semivariograma és la funció que estima la semivariància a partir de la separació i, per extensió, el gràfic que representa la semivariància en funció de la separació, encara que quan es tracta del gràfic caldria dir-ne semivariograma experimental, per distingir-lo de la funció teòrica del semivariograma de la variable aleatòria , però és corrent dir-ne simplement semivariograma.

El semivariograma s'utilitza per a descriure la correlació espacial d'una variable espacial aleatòria. El semivariograma proporciona una descripció quantificada de la variació regionalitzada d'una variable espacial aleatòria, permet identificar els patrons de variabilitat espacial, optimitzar la separació i ajustar un model de semivariograma que serveix per a la interpolació espacial de la variable analitzada mitjançant el mètode de krigatge.

D'acord amb la fórmula de càlcul de la funció de semivariograma, variograma és la funció . És a dir, el variograma és el doble de la funció de semivariograma i per tant és la funció que estima la variància d'una variable espacial aleatòria a partir de la separació. En geoestadística, per simplicitat s'utilitza la funció (i el grà

fic) de semivariograma. Aquest fet ha provocat que sovint s'utilitzi incorrectament variograma com a sinònim de semivariograma. Confusió que cal evitar (Bachmaier and Backes, 2008).

Semivariograma: representació gràfica de la funció de semivariància γ respecte de la separació h. En particular, exemple de semivariograma de forma ideal en què la semivariància augmenta en funció de la separació fins assolir una tendència assimptòtica que indica el punt en que la semivariància esdevé independent de la distància entre punts de mostreig (separació) i per tant els valors esdevenen independents els uns dels altres. El valor de semivariància c en què la funció esdevé assimptòtica s'anomena sostre i el valor a de separació corresponent s'anomena abast. Aquesta forma ideal de semivariograma correspon a l'anomenat model esfèric o model de Matheron. Font: Clark, 1979.

Separació, sostre, abast, residu, interval d'agrupació

Els conceptes d'abast, sostre, residu, separació i interval d'agrupació són propis de la interpretació de semivariogrames i de l'aplicació del mètode de krigatge.

Separació

La separació (lag) és la distància entre punts de mostreig emprada en la construcció d'un semivariograma. Una separació apropiada permet reconèixer la variació espacial deguda a la distància i el patró de correlació espacial.

Sostre

Sostre (sill) és el valor màxim que pot assolir la funció de semivariància en un semivariograma, al qual tendeix asimptòticament la corba ajustada als valors de les observacions. El sostre s'interpreta com a absència de correlació espacial quan la distància entre observacions esdevé gran, i, per tant, el valor del sostre correspon a la semivariància de la variable aleatòria.

A més del sostre, s'utilitza també el concepte de sostre parcial, que és la diferència entre el sostre i el residu en un semivariograma. El valor del sostre parcial correspon a la semivariància de la variable aleatòria sense residu.

Abast

Abast (range), en un semivariograma, és el valor de separació que indica la distància màxima en què existeix autocorrelació entre les variables i en què la corba del semivariograma assoleix el sostre.

Residu

El residu (nugget) és el component de variació no espacial d'una variable regionalitzada que representa l'error independent causat pel mesurament o pels nivells de variació fina que no poden ser detectats amb l'interval de mostreig emprat. El residu apareix com una discontinuïtat en l'origen d'un semivariograma.

Interval d'agrupació

L'interval d'agrupació (bin) és l'interval de distància que agrupa separacions de distància i de direcció similars. L'interval d'agrupació es calcula dividint l'àrea de mostreig en sectors i serveix per a calcular el semivariograma empíric en el krigatge.

Mètodes de geoestadística

Estimació

El mètode bàsic d'estimació o d'interpolació en geoestadística és el krigatge. Això no obstant hi ha moltes varietats diferents de krigatge, amb diferents supòsits d'estacionarietat i de variació regionalitzada:

krigatge
krigatge de punts
krigatge disjuntiu
krigatge estratificat
krigatge indicador
krigatge multivariable
krigatge no lineal
krigatge ordinari
krigatge per blocs
krigatge probabilístic
krigatge simple
krigatge universal

Simulació

Els mètodes de simulació en geoestadística són força variats ja que contemplen diferents supòsits i tipus de models:

Agregació
Desagregació
Simulació espectral
Probabilitats de transició
Simulació booleana
Models genètics
Models pseudogenètics
Simulació multipunts

I adaptacions als principis de la geoestadística de mètodes no estrictament geoestadístics, com és ara les cadenes de Markov o els autòmates cel·lulars.

Temes relacionats

Referències

Bachmaier, M. and Backes, M. (2008) "Variogram or Semivariogram. Explaining the Variances in a Variogram" in Precision Agriculture, 9, 3, 173-175.

Chilès, J.-P. and Delfiner, P. (1999) Geostatistics - Modeling Spatial Uncertainty, New York: John Wiley & Sons, Inc.

Clark, I. (1979) Practical Geostatistics. London: Applied Science Publishers.

Deutsch, C.V., (2002) Geostatistical Reservoir Modeling, Oxford: Oxford University Press.

Krige, D.G. (1951) A statistical approach to some mine valuations and allied problems at the Witwatersrand, Master's thesis of the University of Witwatersrand.

Lantuéjoul, C. (2002) Geostatistical simulation: Models and algorithms, Berlin: Springer.

Matheron, G. (1962) Traité de géostatistique appliquée. Paris: Editions Technip.

Matheron, G. (1963) "Principles of geostatistics", Economic Geology, 58, 1246–1266.

Matheron, G. (1973) "The intrinsic random functions, and their applications", Adv. Appl. Prob., 5, 439–468.

Matheron, G. (1989) Estimating and choosing, Berlin: Springer-Verlag.

Tahmasebi, P.; Hezarkhani, A. and Sahimi, M. (2012) "Multiple-point geostatistical modeling based on the cross-correlation functions", Computational Geosciences, 16, 3, 779-797.

Wackernagel, H. (2003) Multivariate geostatistics, Third edition, Berlin: Springer-Verlag.

Lectures recomanades

Clark, I. (1979) Practical Geostatistics. London: Applied Science Publishers.