Introducción a la GeoestadísticaIntroducción a la Geoestadística
Ing. Marco A. Hernández García.GEOMATICA -
CESAVEGIng. Marco A. Hernández García.
GEOMATICA -
CESAVEG
¿Qué
es la geoestadística?
¿Por utilizar geoestadística?
Aplicación de la geoestadística
Un poco de historia ...
Pasos de un estudio geoestadístico
Contenido
“Estadística aplicada a datos geográficos”
“Estadística espacial”
“Gestión, tratamiento e interpretación de datos espaciales”
¿Qué
es la geoestadística
?
Definición:
”Estudio estadístico de fenómenos naturales que sedistribuyen de forma continua en el espacio y/o el tiempo”
Tradicionalmente:“GEO”
= geología (minería)Ahora:
“GEO”
= geográfico (SIG)
Definiciones alternativas:
(Chilès
y Delfiner, 1999)
“Descripción cuantitativa de variables naturales que se distribuyen en el espacio o en el espacio y el tiempo”
¿
Por utilizar geoestadística
?
Un agricultor quiere que se le determine la distribución de la fertilidad del suelo de su rancho. No quiere el valor promedios de cada parcela, sino información más detallada, de modo que pueda fertilizar solamente donde el suelo resulta deficiente.
El agricultor quiere información continua, en todos los puntos de sus rancho.
Contenido NPK en todos lospuntos de muestreo
•
¿Cómo obtener información en puntos no muestreados?
•
¿Cómo se relacionan los pequeños volúmenes de suelo de las muestras con la superficie total que maneja el agricultor.
•
¿Cuántas muestras de suelo hay que tomar, y dónde, para que esta información sea confiable.
•
Costo para obtener esta información (muestreo de suelo + análisis)
•
Argumentos agronómicos y ambientales
Beneficio económico de la aplicación localizada de NPK (Agricultura de Precisión)
Usar datos dispersos para estimar, o predecir, el contenido medio en NPK en bloques de suelo muestreado.
?
•
Posicionar su maquinaria en el campo con una precisión de < 2 m
•
Puede medir y registrar la producción de los cultivos continuamente durante la cosecha
•
Puede regular la cantidad de fertilizante suministrada según la cantidad requerida
¿Pero cómo puede obtener la información sobre el estado nutricional del suelo, distribución de plagas y enfermedades a un precio razonable?
Un agricultor (tecnológicamente avanzado)puede actualmente:
Campos de aplicación
•
La geoestadística
ha sido ampliamente aplicada en diversas ramas de las ciencias y en las ingenierías, entre otras tenemos:
•
petróleo, minería, pesca, agricultura, ciencias del mar, hidrogeología, medio ambiente, estudios forestales, salud pública, ingeniería civil, procesamiento de imágenes, cartografía, finanzas, meteorología, edafología, etc.
PROPÓSITO DE LA GEOESTADÍSTICA
A partir de escasa información conocidaestimar o predecir el valor de una variableen localidades donde no se conoce
Geoestadística: Estimar, o predecir espacialmente,sin sesgo y con un error mínimo.
La Geoestadística
es la aplicación de la teoría de las variables regionalizadasDe manera general, diremos que un fenómeno es regionalizado cuando se desplaza en el espacio, manifestando una cierta estructura.
Un aspecto estructurado(la V.R. debe reflejar a su manera las características estructurales de un fenómeno regionalizado)
La teoría de las V.R. se propone entonces dos objetivos principales:
•
en el plano teórico, expresar estas características estructuralesen una forma matemática adecuada
•
en el plano práctico, resolver el problema de la estimación de unaV.R. a partir de un muestreo fragmentario.
Un aspecto aleatorio(alta irregularidad, y variaciones de un punto a otro)
En los años 60, Matheron
acuñó
el término de Geoestadística.
Un poco de historia
•
Matheron
formalizó
y generalizó
matemáticamente un conjunto de técnicas desarrolladas por D. G. Krige
(1941) queexplotaban la correlación espacial para hacer predicciones en la evaluación de reservas de las minas de oro en Sudáfrica.
Matheron
definió
a la Geoestadística
como
"la aplicación del formalismo de las funciones aleatorias al reconocimiento y estimación de fenómenos naturales"
(Matheron, 1962).
Geo-EAS, GSLIB, GSTAT, VARIOWIN, VESPER, R+, SADA, WINGSLIB,GS+, S+, MATLAB, IDRISI, SURFER, ARCGIS GEOSTATISTICALANALIST
Programas informáticos
1.
Análisis exploratorio de los datos
2.
Análisis estructural contracción del variograma
3.
Interpolación o estimación espacial –
kriging
4.
Validación del modelo geoestadístico
Pasos de un estudio geoestadístico.
¿Qué
es el Análisis Exploratorio de Datos (AED)?
•
Es un conjunto de técnicas estadísticas y gráficas que permiten establecer un buen entendimiento básico del comportamiento de los datos y de las relaciones existentes entre las variables que se estudian.
El AED es un paso previo e indispensable para la aplicación exitosade cualquier método estadístico.
•
En particular permite la detección de fallos en el diseño y toma de datos, el tratamiento y/o la evaluación de datos ausentes, la identificación devalores atípicos y la comprobación de los supuestos requeridos por parte de las técnicas geoestadísticas.
Etapas de un AED
•
Realizar un examen gráfico de la naturaleza de las variables individuales y un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos.
•
Realizar un examen gráfico de las relaciones entre las variables y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas.
•
Evaluar algunos supuestos básicos subyacentes a muchas técnicas estadísticas, por ejemplo, normalidad, linealidad y homocedasticidad.
•
Identificar los posibles valores atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores.
•
Evaluar, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.
Herramientas del AED•
Estadística univariada•
Estadística multivariada•
Regresión lineal y mínimos cuadrados
•
Primer paso de cualquier análisis (geoestadístico
o no).
• “Go beyond the data”
o familiarización con el conjunto de datos.
•
Representar los datos en figuras y diagramas en vez de analizar
directamente listados en formato tabular
•
Identificar observaciones “sospechosas”
•
Calcular los estadísticos descriptivos: resumir los datos
•
Datos geográficos: controlar la posición
•
Identificar las poblaciones
•
Caracterizar la función de distribución y proponer algunatransformación de los datos si no es normal.
Análisis exploratorio
Variable Aleatoria (V.A.):
Es una variable Z que puede tomar una serie de valores o realizaciones (zi) cada una de las cuales tienen asociadas una probabilidad de ocurrencia (pi).
•
Ejemplo: Al lanzar un dado puede resultar {1, 2,3, 4, 5 o 6} con una probabilidad de ocurrencia igual a 1/6.
Variable Aleatoria Discreta: cuando el número de ocurrencias es finito o contable, se conoce como variable aleatoria discreta. Ejemplo: tipos de facies
en un yacimiento.
•
Variable Aleatoria Continua: si el número de ocurrencias posibles es infinito.•
Ejemplo: el valor de la porosidad de un medio se encuentra en el intervalo [0,100%].
¿Para qué sirve el histograma?
•
Estimación de la función de densidad•
Tipo de distribución (Normal, log-normal, ...)•
Distribución uni-modal, multi-modal•
Aparición de valores extremos y outliers•
Variabilidad del fenómeno
Función de Distribución de Probabilidad (FDP)
caracteriza completamente a la VA.
Su gráfica es el histograma acumulativo
Función de Densidad de Probabilidad (fdp).
Su gráfica es el histograma.
Tratar datos con una distribución sesgada:transformación logarítmica
Percentiles
o cuantiles
de una distribución
•
El percentil de una distribución F(z) es el valor zp de la V.A. que corresponde a un valor p de probabilidad acumulada, es decir:
Algunos cuantiles
de interés:• Mediana, p=0.5• Cuartiles•
(primer cuartil
o inferior) p=0.25•
(tercer cuartil
o superior) p=0.75•
Rango o intervalo intercuartil
(IR)
Varianza de una VA•
caracteriza la dispersión de la distribución alrededor de la media.
Distribución Normal o Gaussiana.
•
Esta distribución está
completamentecaracterizada por sus dos parámetros: media y varianza
Distribución LogNormal
•
Una VA positiva Y se dice que tiene unadistribución lognormal
si su logaritmo ln(Y) esta normalmente distribuido.
Desviación Estándar•
Coeficiente de variación (dispersión relativa)•
Coeficiente de simetría (medida de la simetría)•
Coeficiente de curtosis
(medida del achatamiento)
Simetría y Curtosis
de una distribución
Medidas de dispersión
• La varianza: cuantifica la dispersión entorno a la media� en unidades de medición al cuadrado� aditivo� muy sensible para valores extremos� raíz cuadrada: la desviación típica, s
Hay que corregir la fórmula anterior porque no podemos muestrear la población entera, solamente disponemos de una muestra que consiste de un limitado numero de observaciones
Medidas de dispersión ...
�Expresa
la dispersión en términos relativos
�P.ej.: cuando una propiedad ha sido medida en dos zonasdiferentes con valores similares de s, pero diferentes de m.
�Medida
de la asimetría de distribuciones positivamente sesgadas
� Indicador preliminar de posibles problemas para la estimación local
<100 % → sin problemas100-200 % → dificultades con valores extremos>200 % → grandes dificultades con valores extremos
El coeficiente de sesgo (CS):
Mide la asimetría de la distribución�CS
= 0 → distribución simétrica�CS
> 0 → sesgo positivo(la función de densidad
muestra una cola larga por la derecha)�CS
< 0 → sesgo negativo(la función de densidad
muestra una cola larga por la izquierda)
Análisis estructural o variografía
•
Cuantificación de la correlación espacial y su estructura•
Cálculo del semivariograma
muestral
o experimental•
Analizarlo e interpretarlo•
Ajustar un modelo teórico
Hipótesis de Estacionariedad:
•
Suponer estacionariedad
para poder tratar los datos en diferentes puntos como si fueran diferentes realizaciones de la propiedad.
•
Estacionariedad
significa que la función de distribución del proceso aleatorio tiene característicos que son iguales en todos los puntos (primer y segundo momento).
¿Cómo calcular el variograma?
•
(semi)variograma
experimental = (semi)variograma
muestral
•
se calcula mediante un algoritmo que depende de la configuraciónespacial de los datos (1D, regular e irregular o 2D, regular e irregular).
•
N(h): número de pares de observaciones separadas por el vector h
•
h: vector de separación, determina la distancia entre dos observaciones en una cierta dirección
¿Cómo calcular el variograma?
Muestreo regular en una dimensión:
Muestreo irregular en una dimensión:
Elegir h con cuidado: demasiado grande
(variograma
demasiado suavizado) demasiado pequeño
(variograma
errático porque no hay bastante pares de puntos en cada clase de h)
Variabilidad anisotrópica:
1.
Isotropía: La variación espacial de la variable bajo estudio es igual en todas la direcciones
2. Anisotropía: la semivarianza
no depende solamente de h, pero también de la dirección
Algunas reglas generales:
�N
>100 en el caso de isotropía y N > 250 en el caso de anisotropía
� “Cuanto más puntos mejor”
(el número de observaciones es en muchas ocasiones restrictivo para la aplicación de geoestadística)
�El
número total de pares de observaciones = N(N-1)/2
�El
número de pares en el que se basa el cálculo de cada punto del variograma
debería ser por lo menos 30 –
50.
�El
paso h máximo del variograma
experimental deberia
ser inferior a la mitad de la dimensión máxima de la zona de estudio: hmax
≤
L/2
� efecto pepita = variabilidad inexplicada. Se debería de incorporar en cada diseño de muestreo algunas observaciones a pequeñas distancias de otros para obtener información sobre el comportamiento del variograma
en la cercanía el origen.
Esto permitirá
una descripción completa de la variabilidad espacial
e incrementará
la precisión de la interpolación espacial.
El rango:
es la distancia a la que la semivarianza
deja de aumentar, indica la distancia a partir de la cual las muestras son espacialmente independientes unas de otras y representa el tamaño de grano o mancha que representa la variable
El nugget: es la varianza no explicada por el modelo, y se calcula como la intercepción con el eje Y. Se conoce también como varianza error
El sill:
es la máxima semivarianza
encontrada entre pares de puntos y debe coincidir con la varianza de la población y nos representa el grado de variación espacial, y por tanto el grado de incertidumbre
a la hora de interpolar puntos en el espacio.
El ajuste a una función permite extraer una serie de parámetros que son los que van a ser usados para la interpolación geostadística
(kriging) y que definen el grado y escala de variación espacial.
El rango, El nugget y El sill
Modelar el variograma
Modelar el variograma
� Ajustar un variograma
teórico al variograma
experimental que se hacalculado a partir de los datos
�Variograma
teórico = función que representa el variograma
real delfenómeno.
� Uno de los temas más controvertidos de la geoestadística
¿Por qué?
1. La mayoría de los modelos son no-lineales en uno o más parámetros.2. La fiabilidad de los valores de semivarianza
no es igual para todos los h3. La dispersión en el variograma
experimental puede hacer el ajuste automatizado numéricamente inestable
� “ajuste a ojo”
� ajuste por mínimos cuadrados
� programa VARIOWIN : combinación de ambos
� Ponderar los valores experimentales del variograma
según el número de pares de observaciones que se han empleado para su cálculo
¿Cómo ajustar un modelo al variograma
experimental?
Interpolación o estimación espacial
1. Polígonos de Thiessen
(Voronoi, Dirichlet)
2. Triangulacióncada predicción se basa en solamente tres observaciones
3. Inverso de la distancia IDW
4. Regresión polinómica
5. Krigeado
Ordinario
El Kriging es un término que ha sido acuñado para designar al “mejorestimador lineal insesgado”.
•
Este nombre apareció
alrededor de 1960 para nombrar una técnica creada en Francia por Matheron
a partir de los trabajos de D. G. Krige
quién fue probablemente el primero que hizo uso de la correlación espacial.
El estimador Kriging se considera óptimo ya que es
1. Insesgado, es decir, el valor esperado del error es cero2. minimiza la varianza de la estimación, reduce al mínimo la varianza del error.
Tipos de Kriging
lineales más usados
•
Kriging
Simple
•
Kriging
Ordinario
•
Kriging
Universal
•
Kriging
Residual
Kriging
•
Estimación en puntos donde no se dispone de observaciones(nodos de una retícula regular)
•
Tener en cuenta la correlación espacial(el semivariograma)
•
Estimación puntual o en bloques (2, 3 D)
•
Krigeado
simple, krigeado
ordinario, krigeado
universal, ...
•
Incorporar toda la información disponible: variables secundarias, imágenes de satélite, MDE´s
•
Estimación basada en el conocimientode las covarianzas
(semivariograma), direccion
y distancia entre los VA en los puntos de observación.
Aspectos prácticos del Kriging
1.-
Definir una malla de estimación:Si bien no hay restricciones para la malla de estimación usualmente se eligen mallas regulares debido a que su geometría facilita la representación gráfica de los resultados en forma de mapas de contornos, relieves, etc.
Una recomendación práctica respecto al tamaño de la celda de la malla es que debe ser de un orden aproximadamente igual a la distancia mínima de separación de los datos, puesto que ésta es la resolución de la información que se dispone.
2.-
Definir una vecindad de vecindad de búsqueda:La vecindad de búsqueda se define con respecto al punto a estimar y determina cuales puntos vecinos potencialmente serán tomados en la estimación.•
Caso isotrópico: tomar una circunferencia con centro en el punto a estimar y radio igual o menor al alcance del variograma.•
Caso anisotrópico: tomar una elipse con centro en el punto a estimar y semiejes iguales o menores a los alcances del variograma
anisotrópico.
3.-
Definir cantidad de punto de la estimación:Una vez definida la vecindad de búsqueda hay que especificar cuantos puntos intervendrán en la estimación. Esto determina el tamaño de la matriz del Kriging.
Para toda la vecindad se pueden tomar como valores prácticos:
•
Mínimo de puntos: entre 4 y 6 puntos.•
Máximo de puntos: entre 10 y 25 puntos.También se pueden establecer cantidades min. y máx. por cuadrante, octante, etc.
Validación del modelo geoestadístico
•
Validación cruzada y “Jack-knifing”•
Validar el modelo teórico del semivariograma•
Validar los parámetros del algoritmo de interpolación•
Comparar y evaluar diferentes procedimientos de interpolación
•
Existen varios parámetros en el Krigeado
que se pueden optimizar antes de interpolar y elaborar el mapa
1.
Los parámetros del semivariograma
teórico: efecto pepita, alcance y meseta.
2. Importancia de considerar anisotropía o no3. El mínimo número de puntos vecinos que van a participaren el krigeado4. El máximo número de puntos vecinos que van a participaren el krigeado5. El radio del área de búsqueda alrededor del punto u6. El grado del polinomio en KD (K)
Existen dos maneras:
1.
Retirar cada dato a su vez del conjunto y estimar su valor con los datos que quedan � comparar los valores estimados con los observados
� Evalúa el modelo solamente en los puntos donde disponemos de datos
� No disponemos de información sobre la exactitud de la interpolación en otros puntos
2. Eliminar ±
25 % de los datos y calcular el semivariograma
y interpolar con el 75 % restante � compara los valores estimados con los observados
�Despilfarro
de información
�Solamente
apto para trabajos de investigación
CUADRADO MEDIO DEL ERROR DE KRIGING
CUADRADO MEDIO DEL ERROR DE IDW
CUADRADO MEDIO DEL ERROR DE SPLINE
Top Related