Autocorrelació espacial | icgc

Autocorrelació espacial

Autor: Dr. Joan Nunes. Universitat Autònoma de Barcelona
Promotor: Institut Cartogràfic de Catalunya, 2013

L’autocorrelació espacial descriu la tendència que presenten molts fenòmens a variar de forma dependent de la localització, de manera que les característiques o simplement la presència d’un determinat fenomen en un lloc resulten influïdes per les característiques o la presència d’aquest fenomen en altres localitzacions properes, essent tant més forta aquesta influència com més properes són les localitzacions en l’espai.

L’autocorrelació espacial es pot entendre fàcilment com la tendència natural que presenten els fenòmens geogràfics, però també els de molts altres camps, a variar de forma gradual en l’espai. Aquesta tendència es pot constatar en multitud d’aspectes tant físics com antròpics, com per exemple el fet que les altituds de punts propers del terreny són similars, com també ho són les temperatures, els pendents, la pressió atmosfèrica, la pluviositat, la humitat del sòl, la densitat de població o el nombre de desplaçaments vers els centres urbans. En tots aquests casos els valors són similars en localitzacions properes i per tant el fenomen presenta un gradient de variació generalment suau entre una localització i una altra.

L’autocorrelació espacial planteja seriosos problemes per a l’aplicació dels mètodes estadístics clàssics a les dades espacials, ja que la major part d’aquestes presenten autocorrelació espacial i per tant incompleixen l’assumpció bàsica en estadística que les observacions han de ser independents entre si. Aquest fet ha estat considerat sovint una limitació insalvable en anàlisi espacial, que ha portat bé a descartar els mètodes l’anàlisi estadística clàssics per a l’anàlisi de dades espacials o bé a aplicar-los ignorant els efectes de l’autocorrelació espacial. Tanmateix, pot ser considerat també una oportunitat de coneixement, ja que l’anàlisi de l’autocorrelació espacial permet revelar els patrons de distribució espacial dels fenòmens, que precisament és un dels objectius principals de l’anàlisi espacial.

SUMARI

  1. Origen
  2. Definició
  3. Mesures d’autocorrelació espacial
    3.1  Índex de Moran, I
    3.2  Índex de Geary, C
    3.3  Estadístics de recompte de veïns
    3.4  Índex d’autocorrelació generalitzat (STI)
    3.5  Autoregressió espacial
  4. Aplicacions
    4.1  Disseny de mostres
    4.2  Identificació de patrons de variació significatius
    4.3  Avaluació de riscos
  5. Utilitat
  6. Temes relacionats
  7. Referències
  8. Lectures recomanades

 

Imatge

Autocorrelació espacial i aleatorietat espacial completa. A l’esquerra fragment d’um model digital d’elevacions: els valors d’altitud varien de forma gradual, s’assemblen en posicions pròximes i en conjunt presenten un patró de variació espacial definit. A la dreta els mateixos valors distribuïts aleatòriament pel conjunt de la imatge: els valors, la distribució de freqüències, la mitjana i la desviació estàndard són iguals, però la distribució espacial és diferent. Els valors del segon cas són independents pel fet d’estar distribuïts aleatòriament en l’espai.

 

Origen

El concepte de dependència espacial en què es basa l’autocorrelació espacial és el nucli mateix de l’anàlisi espacial. El conegut mapa del Dr. Snow, de les morts per còlera a Londres el 1854, que hom cita sovint com una de les primeres mostres d’anàlisi espacial, no és altra cosa que un intent particularment reeixit de visualització gràfica per tal de descobrir la dependència espacial en la distribució dels casos de còlera que disminuïen gradualment amb la distància respecte d’una determinada font pública.

La formulació operativa de l’autocorrelació espacial com a mesura de la dependència espacial data de la dècada de 1950 i prové del camp de l’estadística. Els treballs de l’estadístic australià Patrick A.P. Moran (1950) aplicats a la genètica, primer, i els de l’irlandès Roy C. Geary (1954) aplicats a l’economia, poc després, donaren lloc als primers índexos d’autocorrelació, I i C, respectivament, encara utilitzats actualment.

En el camp de la geografia, el reconeixement de la dependència espacial es reflecteix en l’anomenada "primera llei de la geografia", enunciada pel geògraf nord-americà Waldo R. Tobler (1970), segons la qual "tot està relacionat amb tot, però les coses properes estan més relacionades entre si".

Definició

La tendencia d’una variable a presentar valors similars en funció de la proximitat o allunyament entre les localitzacions en què és mesurada és el que s’anomena dependència espacial. L’autocorrelació espacial és la mesura quantitativa d’aquesta dependència espacial. Si la variable presenta un patró sistemàtic de distribució espacial, aleshores es considera que és espacialment autocorrelacionada.

L’autocorrelació espacial és un cas particular del concepte estadístic d’autocorrelació, que es defineix com la correlació entre els valors ordenats o consecutius d’una variable. L’autocorrelació és freqüent entre les dades temporals i entre les dades espacials, ja que les observacions pròximes en el temps o en l’espai tendeixen a presentar valors similars.

En el cas de l’autocorrelació temporal,la correlació es produeix entre els valors d’observacions mesurades consecutivament en el temps. En el cas de L’autocorrelació espacial la correlació es dóna entre el valor d’un atribut o variable mesurat en una localització i els valors de la mateixa variable mesurats en posicions pròximes. L’autocorrelació temporal és unidimensional, l’ordre i per tant la proximitat o adjacència de les observacions ve determinada per una única seqüència, la successió temporal de les observacions. L’autocorrelació espacial és més complexa, ja que és multidimensional (en les 2 o 3 dimensions de l’espai) i multidireccional atès que pot donar-se amb intensitat i sentit diferent en diferents direccions de l’espai.

L’autocorrelació espacial pot tenir sentits i intensitats diferents. Així es distingeix entre autocorrelació espacial positiva, negativa o zero. Autocorrelació espacial positiva és l’autocorrelació espacial en què les localitzacions més pròximes presenten els valors més similars. Autocorrelació espacial negativa és aquella en què les localitzacions més pròximes presenten els valors més dissemblants. Autocorrelació espacial zero indica absència d’autocorrelació espacial en una variable i implica que aquesta variable és independent respecte de la localització en l’espai i per tant és una variable veritablement aleatòria, independent i idènticament distribuïda, és a dir amb un patró de distribució espacial aleatori.

Imatge

Exemples d’autocorrelació espacial positiva, negativa i zero. En el primer cas l’agrupació completa de cel·les del mateix color fa que el color de les cel·les veïnes a cada cel·la sigui generalment el mateix que el de la cel·lai per tant l’autocorrelació és positiva. En el segon cas, la dispersió de colors és completa, de manera que les cel·les veïnes a cada cel·la sempre tenen color diferent al de la cel·la, per tant l’autocorrelació és negativa. El tercer cas mostra una distribució aleatòria dels colors de les cel·les i per tant l’autocorrelació és zero.

 

La dependència espacial varia sensiblement amb l’escala i/o amb la definició de les unitats espacials. Ambdós són aspectes lligats a la resolució espacial però, com és sabut, aquesta està lligada també a la conceptualització dels objectes o de les unitats espacials. Així, en els exemples de la figura, si s’augmenta la resolució espacial dividint cada cel·la en quatre, tot mantenint el mateix valor que la cel·la mare original, encara que la distribució espacial sembli aparentment ser la mateixa, les mesures d’autocorrelació espacial resultaran força diferents pel fet que, en augmentar la resolució, les unitats espacials ja no són les mateixes, ni és igual el veïnatge de cel·les del mateix o diferent valor, que és el factor en què es basen les mesures d’autocorrelació espacial.

L’autocorrelació espacial presenta, doncs, dependència d’escala. Per tant, l’anàlisi de l’autocorrelació espacial ha de fer-se a una determinada escala i tenir cura de no barrejar, en cas d’anàlisis comparatives, dades d’escala o resolució diferents. Identificar l’escala més apropiada, però, com en molts altres mètodes d’anàlisi espacial sol ser una de les principals dificultats. L’anàlisi de l’autocorrelació espacial, però, pot servir també inversament per a determinar quin és el mostreig més eficaç i l’escala més apropiada per a l’anàlisi d’un determinat fenomen, ja que permet revelar quan hi ha o no un patró espacial identificable.

Mesures d’autocorrelació espacial

La determinació del sentit i la quantificació de la intensitat de l’autocorrelació espacial és l’objecte de diversos índexs o altres mètodes de quantificació proposats.

Índex de Moran, I

És el més antic i clàssic dels índexs d’autocorrelació espacial, considerat encara avui un estàndard. L’índex I de Moran proporciona una mesura de l’autocorrelació espacial global d’una variable distribuïda espacialment. El càlcul compara el valor de la variable en cada localització amb el valor d’aquesta mateixa variable en altres localitzacions, segons la fórmula següent:

Imatge

on   

N    és el nombre de casos
X i i X j  són els valors de la variable X a les localitzacions i i j, respectivament
X¯és la mitjana de la variable X
wi j és el pes aplicat a la comparació dels valors a les localitzacions i i j
 

Convé notar que el producte (X i -X¯) (X j - X¯) és, de fet, la covariància entre parells de valors de la variable, anàlogament a la fórmula general de la covariància però que en lloc de comparar valors de dues variables diferents compara valors d’una mateixa variable en localitzacions diferents. Per aquest motiu es considera que l’índex de Moran és una mesura d’autocovariància.

El que fa que l’índex de Moran tingui en compte la distribució espacial dels valors -és a dir, la major o menor proximitat de les localitzacions a què corresponen els valors- són els pesos wi j, el conjunt dels quals forma el que s’anomena la matriu de contigüitat, que defineix i quantifica la configuració espacial de les localitzacions en què es mesuren els valors de la variable. Hi ha diferents maneres de quantificar la configuració espacial entre els parells de localitzacions. En el cas més simple de contigüitat, útil per a valors corresponents a àrees o a cel·les ràster, però també a arcs o nodes d’una xarxa, s’assigna un pes 1 al parell ij, quan la localitzacio i és adjacent a la localització j, o un pes 0 en cas contrari. Una altra opció habitual, apropiada per a valors corresponents a punts, és definir els pesos mitjançant el quadrat de la distància inversa (1/d2i j) entre les localitzacions i i j. Hi ha molts altres mètodes, però, per a definir la matriu de contigüitat (Goodchild, 1986).

L’índex I de Moran pren valors entre -1 i 1. Un valor de I igual a -1 indica una autocorrelació espacial negativa màxima (dispersió completa dels valors de la variable), mentre que un valor igual a 1 indica la màxima autocorrelació espacial positiva (correlació completa). Un valor de I igual a 0 indica absència total d’autocorrelació espacial i per tant un patró aleatori perfecte en la distribució espacial dels valors de la variable.

Per a la realització de tests de significació estadística, el valor esperat de l’índex de Moran en el supòsit de la hipòtesi nul·la d’absència d’autocorrelació espacial és:

Imatge

que tendeix a zero per a un nombre gran de casos.

A la pràctica, el mètode més emprat per a conèixer la signficació estadística de l’índex de Moran és transformar els valors de l’índex I a valors estandarditzats (z), amb la qual cosa es pot interpretar directament el valor estandarditzat de l’índex I com indicatiu d’autocorrelació espacial significativa, per a un nivell de confiança del 95%, quan el valor estandarditzat de l’índexés superior a 1,96 o inferior a -1,96.

Índex de Geary, C

L’índex C de Geary és semblant a l’índex I de Moran, però es diferencia en el fet que compara directament entre si els valors de la variable en diferents localitzacions en lloc de comparar-los amb la mitjana de la variable. Així, en lloc de la covariància, mesura directament diferències, segons la fórmula de càlcul següent:

Imatge

on
N , X i , X j , X¯ i wi j  són els mateixos termes que en la fórmula de l’índex de Moran
W   és la suma de tots els pesos wi j
 

L’índex C de Geary pren valors entre 0 i 2. Un valor igual a 1 indica absència d’autocorrelació espacial, mentre que els valors per sota o per sobre d’1 indiquen respectivament autocorrelació espacial positiva o negativa.

Ambdós índexos, I i C, estan inversament relacionats, però mentre que l’índex I de Moran és una mesura global de l’autocorrelació espacial d’una variable, l’índex C de Geary és una mesura més expressiva de les variacions locals de l’autocorrelació espacial.

Estadístics de recompte de veïns

Els índexos de Moran i de Geary, pel fet de basar-se en diferències entre valors o entre els valors i la mitjana, són apropiats per a mesurar l’autocorrelació espacial d’una variable distribuïda en l’espai quan aquesta és de tipus quantitatiu, ja sigui en escala de raó o d’interval,

En el cas de variables de tipus ordinal s’han proposat mesures d’autocorrelació espacial basades en el fet de convertir els valors ordinals en rànquing i calcular la diferència absoluta entre el número de rànquing entre parells de valors (Royaltey, Astrachan and Sokal, 1975), però també se suggereix emprar els mateixos mètodes que per a les dades quantitatives o bé per a les nominals (Goodchild, 1986).

En el cas de les variables nominals, tanmateix, no és possible calcular diferències i la comparació de valors entre localitzacions es redueix a dues possibilitats: els dos valors són iguals o bé diferents. Per a les variables nominals, les mesures bàsiques d’autocorrelació espacial són els anomenats estadístics de recompte de veïns (join count estatístics), que es basen en el recompte de coincidències de valor entre localitzacions o unitats espacials veïnes, com per exemple les àrees d’un mapa, o en general entre localitzacions o unitats espacials incloses dins d’un veïnatge definit entorn de cada localització pel criteri emprat en la matriu de contigüitat.

Com que les classes d’una variable nominal es poden assimilar a colors, és habitual referir-se a la distribució espacial d’una variable binària com a objectes blancs i negres, i a la de més de dues classes com a mapa de k colors. Així, en el cas de variables binàries, es defineixen diferents tipus de possibles estadístics de recomptes de veïns:

-         recompte de veïns BB (black-black join count, nombre de coincidències de valors negres entre veïns).
-         recompte de veïns BW (black-white join count, nombre de no coincidències de valors entre veïns).
-         recompte de veïns WW (white-white join count, nombre de coincidències de valors blancs entre veïns).
 

En el cas que el veïnatge espacial no sigui simple adjacència (pes igual a 1 o contràriament 0), cada coincidència o no coincidència es multiplica pel pes corresponent al parell de localitzacions, de manera que el recompte de veïns equival a sumar els pesos de tots els parells BB (o BW, o WW) per a cada localització.

Índex d’autocorrelació generalitzat (STI)

A principis de la dècada de 1980, dos geògrafs anglesos, Cliff i Ord van reprendre els teballs de Knox (1964) i Mantel (1967) per a formular un índex d’autocorrelació generalitzat (space-time index, STI), el qual permet obtenir els diversos índexos d’autocorrelació variant la definició dels termes. La fórmula de l’índex d’autocorrelació generalitzat proposada per Cliff i Ord (1981) és la següent:

STI =ijwi j Yi j

on
wi j  és el pes aplicat a la comparació dels valors a les localitzacions i i j
Y i j  és la mesura de similitud entre els valors de la variable X a les localitzacions i i j
 

Així, considerant  Y i j= X iX j  s’obté l’estadístic de recompte de veïns BB, mentre que prenent Y i j= (X i - X j)2  s’obté l’estadístic de recompte de veïns BW  i també, en el cas de dades d’interval l’índex C de Geary. Igualment, Y i j= ZiZ j , essent  Z i= X i - X¯, porta a obtenir l’índex I de Moran.

Autoregressió espacial

L’autoregressió espacial incorpora la dependència espacial dins dels mètodes de regressió per tal de superar la limitació que presenten els mètodes de regressió lineal clàssics, donada la falta d’independència entre les dades espacials.

Un dels models d’autoregressió espacial més habitualment emprats és el model de regressió autoregressiva espacial (SAR, spatial autoregressive regression). En aquest model la dependència espacial s’introdueix per mitjà de la matriu de contigüitat, modificant la fórmula estàndard de l’equació de regressió (Y = β   + β1X + ε) de la següent manera:

Y =ρWY + βX + ε

on
Y    és la variable dependent
ρ    és un paràmetre d’autoregressió espacial
W    és el pes segons la matriu de contigüitat
β     és el coeficient de regressió
   és la variable independent
ε     és el terme d’error no estimable
 

Aplicacions

Disseny de mostres

L’autocorrelació espacial entre localitzacions pròximes pot servir per a determinar quina és l’àrea que pot ser representada per una determinada localització. Això permet definir tant el nombre de casos a incloure a la mostra a realitzar, sense redundància, com quines són les localitzacions o àrees més significatives a mostrejar. Especialment, en el cas que la recollida de dades mitjançant la mostra tingui per finalitat la interpolació dels valors sobre la resta de l’àmbit geogràfic tractat.

Identificació de patrons de variació significatius

L’autocorrelació espacial té aplicacions en nombroses disciplines, generalment amb finalitats específiques en cada cas, però la majoria tenen en comú el fet que l’anàlisi de l’autocorrelació espacial permet identificar patrons de variació espacial significatius i diferenciar àrees segons la similitud que presenta el fenomen analitzat en les diferents localitzacions.

Cartografia i anàlisi espacial

L’anàlisi d’autocorrelació espacial s’utilitza en cartografia i anàisi espacial per a avaluar i validar els supòsits d’independència necessaris per a les estimacions d’incertesa i d’errors a les dades.

Edafologia

L’anàlisi de sòls és un dels camps en que més aplicació troba l’anàlisi de l’autocorrelació espacial. Gràcies a l’autocorrelació és possible identificar les àrees i patrons de distribució de nombroses variables, com és ara la humitat del sòl o la concentració de les diferents substàncies, nutrients o materia orgànica, que permeten diferenciar entre tipus de sòls o entre condicions diferents d’un mateix tipus de sòl. Per tal de delimitar les àrees pertanyents als diferents tipus de sòls és necessita un mostreig d’alta resolució de les diverses variables determinats.

Biologia

Les principals aplicacions de l’anàlisi d’autocorrelació espacial en biologia són en el camp de la genètica per a determinar les diferències genètiques entre poblacions locals, mitjançant l’autocorrelació de les freqüències dels gens. Igualment s’ha utilitzat per a estudiar l’estructura de les poblacions animals i vegetals i dels patrons de distribució de la mortalitat.

Ecologia

En ecologia l’autocorrelació espacial s’utilitza per a estudiar diferències en la riquesa i distribució d’especies, així com per a analitzar les relacions entre espècies i les dependències d’escala.

Ciències ambientals

Les aplicacions més habituals de l’autocorrelació en ciències ambientals són l’estudi de la variació espacial dels diferents paràmetres ambientals -per exemple, de contaminació atmosfèrica o d’aigües superficials- amb finalitats predictives o de guia per a la planificació o l’establiment de polítiques preventives o correctores.

Economia i sociologia

L’autocorrelació espacial pot servir per analitzar desigualtats entre regions, la distribució espacial de la desocupació, o les relacions entre condicions de vida i patologies socials o mèdiques. Igualment és d’aplicació per a l’estimació de la distribució espacial de la intenció de vot.

Avaluació de riscos

Molts dels fenòmens de risc, com és ara incendis forestals o inundacions, presenten dependència espacial. Em aquests casos l’anàlisi de l’autocorrelació espacial pot servir per a determinar la probabilitat d’ocurrència d’aquests tipus de fets en determinades localitzacions.

D’altra banda, l’anàlisi de la difusió o àrees de distribució de malalties em epidemiologia és una de les aplicacions més clàssiques i, en bona part, origen de l’anàlisi de l’autocorrelació espacial.

Utilitat

L’autocorrelació espacial és útil en almenys tres aspectes importants de l’anàlisi espacial. En primer lloc, convé no ignorar-la en qualsevol anàlisi estadística de dades espacials atès que el supòsit d’independència entre observacions en diferents localitzacions rarament s’acompleix. En segon lloc, és espacialment útil per orientar i estalviar esforços a l’hora de dissenyar i realitzar recollides de dades per mostreig espacial. Finalment, el principal avantatge, sovint subestimat, és l’oportunitat que proporciona de descobrir les pautes de variació espacial que permeten caracteritzar la distribució espacial d’um fenomen i diferenciar i delimitar àrees de diferent significació. En lloc d’una limitació a corregir o, encara pitjor, ignorar, l’autocorrelació espacial mostra tot el seu potencial quan s’utilitza com a eina d’anàlisi, més que no pas com a simple avaluació del supòsit d’independència.

Temes relacionats

Referències

Cliff, A.D. and Ord, J.K. (1981) "Spatial and temporal analysis: autocorrelation in space and time" in Wrigley, N. and Bennett, R.J. (eds.) Quantitative geography: a British view, London: Routledge and Kegan Paul.

Geary, R.C. (1954) "The Contiguity Ratio and Statistical Mapping", The Incorporated Statistician  5 (3), 115–145.

Gilbert, E.W. (1958) "Pioneer Maps of Health and Desease in England", Geographical Journal, 124, 172-183.

Goodchild, M.F. (1986) Spatial autocorrelation, CATMOG (Concepts and Techniques in Modern Geography), 47, Norwich: GeoBooks.

Knox, E.G. (1964) "The detection of space-time interactions", Applied Statistics, 13, 25-29.

Mantel, N. (1967) "The detection of disease clustering and a generalized regression approach", Cancer Research, 27, 209-220.

Moran, P.A.P. (1950) "Notes on Continuous Stochastic Phenomena", Biometrika 37(1), 17–23.

Royaltey, H.H.; Astrachan, E. and Sokal, R.R. (1975) "Tests for patterns in geographic variation", Geographical Analysis, 7, 369-395.

Tobler, W.R. (1970) "A computer movie simulating urban growth in the Detroit region", Economic Geography, 46(2), 234–240.

Lectures recomanades

Cliff, A.D. and Ord, J.K. (1973) Spatial Autocorrelation. London: Pion.

Cliff, A.D. and Ord, J.K. (1980) Spatial Processes: Models and Applications. London: Pion.

Gangodagamage, C.; Zhou, X. and Lin, H. (2008) "Autocorrelation, Spatial" in Shekar, S. and Xiong, H. (eds.) Encyclopedia of GIS, New York: Springer.

Goodchild, M.F. (1986) Spatial autocorrelation, CATMOG (Concepts and Techniques in Modern Geography), 47, Norwich: GeoBooks.

Haining, R.P. (1993) Spatial data analysis in the social and environmental sciences, Cambridge: Cambridge University Press.

Wackernagel, H. (2004) Multivariate Geostatistics: An introduction with applications, 3rd edn., New York: Springer-Verlag.