02 Guion Tratamiento Previo de Los Datos

16
1 Tratamiento previo de series de datos climáticos 1. Propósito Antes de trabajar con una serie climática hay que analizar previamente los datos originales. En la práctica las redes de observación están sometidas a diferentes incidencias, como puede ser, pérdida de corriente eléctrica, de la línea de comunicaciones, bajas del personal, etc. Esto da lugar a que se pierdan algunos valores de las series, que hay que rellenar. Por otra parte, si se producen cambios en el entorno, los instrumentos, su ubicación o los procedimientos de medida, se pueden generar sesgos o tendencias de origen no climático, que será necesario corregir. El objetivo de esta práctica es aplicar métodos de relleno y homogeneización a diversas series de temperatura mínima. Hay que tener en cuenta que el análisis climático requiere que las series analizadas cumplan una serie de requisitos, entre otros: 1.- Poseer una cobertura temporal suficientemente extensa para realizar un estudio climático. 2.- Un número de datos perdidos suficientemente pequeño para que el error cometido a la hora de rellenar estos datos no influya en las características propias de la estación. 3.- Asegurar con la mayor certeza posible que la variabilidad de la serie se deba únicamente a factores climáticos. El anexo I explica de manera resumida las implicaciones que tienen los huecos y las inhomogeneidades en el análisis climático. 2. Creación de series completas de temperatura mínima. La creación de series completas de temperatura, así como de cualquier otra variable meteorológica, se puede abordar desde dos enfoques diferentes. Por un lado aquellos que realizan la estimación mediante modelos estadísticos únicamente a partir de los datos que se poseen de la serie y, por otro, los que estiman mediante interpolación espacial de los datos de las series más cercanas. El primer grupo está constituido por los que requieren un menor tiempo de cálculo posible y donde se vaya a trabajar con promedios temporales y no sea tan importante el dato individual concreto. Estos métodos rellenan los datos perdidos mediante un modelo probabilístico, pero manteniendo las propiedades originales de la serie (García Herrera et al, 2002). Sin embargo, si se trabaja con valores extremos, donde es tan importante el número total o parcial de extremos como conocer exactamente cuándo se producen los mismos con la mayor fiabilidad posible, estos métodos no son apropiados. Por lo tanto, es necesario un método que estime la temperatura mínima de cada día perdido de la forma más aproximada a la serie original. Esto se puede realizar de forma más realista a partir de las observaciones de las estaciones más cercanas, como se hará en la primera parte de esta práctica.

description

guion

Transcript of 02 Guion Tratamiento Previo de Los Datos

Page 1: 02 Guion Tratamiento Previo de Los Datos

1

Tratamiento previo de series de datos climáticos

1. Propósito

Antes de trabajar con una serie climática hay que analizar previamente los datos originales. En

la práctica las redes de observación están sometidas a diferentes incidencias, como puede ser,

pérdida de corriente eléctrica, de la línea de comunicaciones, bajas del personal, etc. Esto da

lugar a que se pierdan algunos valores de las series, que hay que rellenar. Por otra parte, si se

producen cambios en el entorno, los instrumentos, su ubicación o los procedimientos de medida,

se pueden generar sesgos o tendencias de origen no climático, que será necesario corregir. El

objetivo de esta práctica es aplicar métodos de relleno y homogeneización a diversas series de

temperatura mínima.

Hay que tener en cuenta que el análisis climático requiere que las series analizadas cumplan una

serie de requisitos, entre otros:

1.- Poseer una cobertura temporal suficientemente extensa para realizar un estudio climático.

2.- Un número de datos perdidos suficientemente pequeño para que el error cometido a la hora

de rellenar estos datos no influya en las características propias de la estación.

3.- Asegurar con la mayor certeza posible que la variabilidad de la serie se deba únicamente a

factores climáticos.

El anexo I explica de manera resumida las implicaciones que tienen los huecos y las

inhomogeneidades en el análisis climático.

2. Creación de series completas de temperatura mínima.

La creación de series completas de temperatura, así como de cualquier otra

variable meteorológica, se puede abordar desde dos enfoques diferentes. Por un lado

aquellos que realizan la estimación mediante modelos estadísticos únicamente a partir

de los datos que se poseen de la serie y, por otro, los que estiman mediante

interpolación espacial de los datos de las series más cercanas.

El primer grupo está constituido por los que requieren un menor tiempo de

cálculo posible y donde se vaya a trabajar con promedios temporales y no sea tan

importante el dato individual concreto. Estos métodos rellenan los datos perdidos

mediante un modelo probabilístico, pero manteniendo las propiedades originales de la

serie (García Herrera et al, 2002). Sin embargo, si se trabaja con valores extremos,

donde es tan importante el número total o parcial de extremos como conocer

exactamente cuándo se producen los mismos con la mayor fiabilidad posible, estos

métodos no son apropiados. Por lo tanto, es necesario un método que estime la

temperatura mínima de cada día perdido de la forma más aproximada a la serie original.

Esto se puede realizar de forma más realista a partir de las observaciones de las

estaciones más cercanas, como se hará en la primera parte de esta práctica.

Page 2: 02 Guion Tratamiento Previo de Los Datos

2

Entre los diferentes métodos de interpolación espacial para puntos

irregularmente distribuidos, es necesario escoger el óptimo para cada caso concreto. En

general, la elección del método depende de varios factores como son las variables a

estimar, la orografía del área, la distribución espacial de las estaciones más cercanas, así

como la resolución temporal con la que se quiera trabajar, o incluso la estación del año.

Dado que, en general no hay un único método que dé resultados óptimos para todas las

series, se deben probar diferentes medios. Para ello se aplicará un procedimiento como

el resumido en la Figura 1. Se aplicará para cada serie y mes. Aquél que tenga una

mayor correlación con la estación de referencia, será escogido como método de

interpolación para reemplazar los datos pedidos durante ese mes.

Figura 1. Esquema del proceso para la reconstrucción de las series de temperatura.

Page 3: 02 Guion Tratamiento Previo de Los Datos

3

2.1 Elección de las series de referencia cercanas

Para cada estación se elegirán 4 posibles series de referencia, que cumplan las

siguientes condiciones:

- Estar a una distancia inferior a 300 km.

- Poseer una correlación superior a 0.35. Valor estadísticamente significativo al 95%, a

partir del cual se obtienen resultados suficientemente válidos ajustados a la serie

original.

Entre todas las estaciones que cumplen estas condiciones se seleccionarán

aquellas que presenten una mayor correlación con la serie original, con un máximo de

cuatro estaciones.

Si únicamente una estación cumple los requisitos, es necesario que ésta no tenga

ningún dato perdido coincidiendo con alguno de la serie original. Si es así, será

necesario incluir una segunda estación que ofrezca la mejor correlación, aunque no

cumpla alguna de las condiciones señaladas, para poder completar estos datos

concretos.

2.2 Métodos de interpolación

Como ya se ha indicado, para producir unos mejores resultados es necesario

aplicar diferentes métodos de interpolación, no para la serie completa, sino de forma

separada para cada uno de los meses. Por lo tanto, el primer paso será la creación de

series mensuales tanto de la serie original, como de cada una de las estaciones de

referencia, así como su posterior normalización restando a cada dato de la serie el

promedio total y dividiéndolo por su desviación estándar. De forma independiente para

cada mes se calcularán cinco posibles series de corrección, cada una a partir de los 5

métodos de interpolación que se describen a continuación. De estas, aquella que

proporcione una mayor correlación con la serie original, será la considerada como serie

de corrección a utilizar en ese mes y en esa estación concreta.

A/ Método de la Razón Normalizada.

Este método de interpolación consiste en dar pesos a las estaciones de referencia

utilizando el algoritmo:

2

2

1

)2(

i

ii

i

r

nrW

donde ri es la correlación entre la serie de la estación de referencia i y la de la estación a

estimar, n es el número de puntos usados para el cálculo de la correlación y Wi el peso

resultante. Los Wi se normalizan de tal manera que su suma es 1.

Page 4: 02 Guion Tratamiento Previo de Los Datos

4

B/ Método del Inverso de la Distancia.

Este método supone que las estaciones más cercanas son las que están más

relacionadas con la estación a estimar. En este caso también se dan pesos a las distintas

series de referencia a través del algoritmo:

i

i

dW

1

donde di es la distancia entre la estación de referencia y la estación a estimar. Los Wi se

normalizan de tal manera que su suma es 1.

C/ Regresión Múltiple.

El tercer método es una regresión lineal múltiple (de la serie a rellenar frente a

las series de referencia) mediante mínimos cuadrados.

D/ Mejor Estimador.

Este método consiste únicamente en escoger directamente el dato a partir de la

estación que posea una mayor correlación. Aunque este método generalmente

proporciona peores resultados que los demás, es muy útil, ya que se utiliza cuando los

datos perdidos coincidan en las distintas series. En este caso especial que no se puede

aplicar el resto de métodos, se aplica el mejor estimador que no posea datos perdidos en

la fecha a estimar.

E/ Media.

No es directamente un método de interpolación, sino que es una media de los 4

anteriores. Su uso tiene en cuenta posibles cambios en el tiempo de la mejor técnica de

estimación dando lugar a mejores resultados que cuando se consideran los distintos

métodos por separado.

El último paso para completar las series consiste en la conversión de los datos de

las series de corrección, los cuales están normalizados, al rango de valores de la serie

original. Esta etapa es la inversa a la normalización, es decir, se ha de multiplicar el

valor normalizado de la serie estimada escogida por la desviación estándar de las

temperaturas de dicho mes y por último, se le suma la media.

Page 5: 02 Guion Tratamiento Previo de Los Datos

5

En la Figura 2 se muestra un ejemplo de la reconstrucción del mes de noviembre

de 1994 para la estación 3465 Trujillo (Cáceres) de la base de datos de AEMET. En este

caso concreto, el método de estimación fue el de la Razón Normalizada y tenía una

correlación con la serie original de 0.84. En este mes de noviembre de 1994, la

correlación con los 22 datos originales es de 0.77. Se puede observar la buena

correspondencia entre ambas series y en general la pequeña diferencia entre el valor real

y el estimado.

Figura 2. Ejemplo de serie reconstruida, 3465, en la que se presentan en línea continua negra los datos

originales, en línea discontinua negra los datos reconstruidos y en línea discontinua gris la serie completa

del mejor método de estimación (en este caso el Método de la Razón Normalizada)

3. Homogeneización de las series de temperatura mínima.

Una vez rellenados los huecos, es necesario analizar la posible existencia de

homogeneidades, es decir, fuentes de variabilidad cuyo origen sea no climático. Los

primeros que trataron este tipo de problemas fueron Conrad y Pollak (1950), quienes

definieron el término de serie climática relativamente homogénea como: “Una serie

climática es relativamente homogénea con respecto a una serie sincrónica en otro lugar

si la diferencia de temperaturas (o razón de precipitación) entre pares de medias

homólogas constituye una serie de números aleatorios que satisface las leyes de los

errores”. Más adelante la definieron de una forma más intuitiva como aquella serie

cuyas variaciones están causadas únicamente por variaciones del tiempo y el clima.

Las variaciones no climáticas, o mejor denominadas inhomogeneidades, que

puede poseer una serie de datos se pueden agrupar en dos tipos. Por un lado, aquellas

que introducen tendencias en la serie, como puede ser el efecto de isla térmica, y

aquellas que producen saltos o discontinuidades. Estas discontinuidades pueden ser

debidas a un gran número de razones como son: cambios de localización de las

estaciones, cambios en el entorno de la estación, cambios en la instrumentación así

como cambios en el método de cálculo. En general producen errores en las medidas que

Page 6: 02 Guion Tratamiento Previo de Los Datos

6

pueden llegar a ser de varios grados. Por ejemplo, Quayle et al. (1991) demostraron que

el cambio de termómetros de mercurio a sensores de temperatura como los de termistor

producían en general una disminución en las temperaturas medias mensuales máximas

(-0.4º C) y un aumento (+0.3º C) en las mínimas.

Las inhomogenidades del primer grupo, que producen tendencias, son muy

difíciles de detectar, ya que se muestran superpuestas con tendencias climáticas (Karl et

al., 1988). Este hecho hace prácticamente imposible aislarlas y, por lo tanto, no es

posible su eliminación. Además, puede ser interesante mantener en el estudio los

factores que producen este tipo de inhomogeneidades como el calentamiento urbano, ya

que no son errores en las medidas, sino variaciones que se están produciendo en el

medio en torno a la estación.

En la bibliografía existen dos vertientes en la detección de discontinuidades no

climáticas y su posterior corrección.

A/ Aquellos que parten de posibles puntos de discontinuidad. Estos métodos se

fundamentan en el conocimiento previo de la historia de la estación en donde se apunta

cualquier cambio que se produce en ella o en el entorno. De esta historia de la estación

se pueden deducir los momentos donde es posible una discontinuidad. En esos puntos

exclusivamente es donde se aplican diferentes test estadísticos para evaluar si realmente

se ha producido una discontinuidad entre las medidas anteriores y posteriores a cada

punto. Este grupo de métodos, por lo general, ofrece mejores resultados aunque tienen

la desventaja de que algún factor que pueda influir en la estación no se haya incluido en

la historia. Además, hay países en los que muchas veces no se tiene la historia de la

estación, como es el caso de España, donde resultan inaplicables. Entre este tipo de test

se encuentran los desarrollados por Karl y Williams (1987) o Allen y DeGaetano

(2000).

B/ Aquellos que no parten de posibles puntos de discontinuidad. En el caso en el que

no se disponga de la historia de la estación, es necesario el desarrollo de tests que

busquen los posibles puntos de discontinuidad a lo largo de toda la serie. Este hecho

hace que el número de cálculos necesarios sea muy superior al grupo anterior, lo que se

compensa con test estadísticos menos complejos.

Debido a que en España en general no se tiene un conocimiento de la historia de

las estaciones, se aplicará un método del grupo B.

La mayoría están basados en cambios en la media de las series temporales de

temperatura. Para poder detectar si el cambio producido en la media entre un año y otro

se debe a una discontinuidad y no a la propia variabilidad climática, es necesario poseer

una serie de referencia que represente la variabilidad climática regional de la estación

que se quiera corregir y que sea relativamente homogénea con el fin de poder

Page 7: 02 Guion Tratamiento Previo de Los Datos

7

compararlas. La única forma de conseguir esta serie de referencia es la utilización de las

series de las estaciones más próximas.

La Figura 3 muestra un esquema del proceso de homogenización realizado en

aquellas series que presentaba discontinuidades.

Figura 3. Esquema del proceso de homogeneización de las series de temperatura mínima.

Page 8: 02 Guion Tratamiento Previo de Los Datos

8

3.1 Construcción de series de referencia homogéneas.

La construcción de una serie de referencia homogénea para una estación

concreta se debe realizar a partir de las estaciones cercanas que posean una variabilidad

similar. La duda surge en determinar el número de estaciones que es necesario utilizar.

Ha de ser un número lo suficientemente grande para que una discontinuidad en alguna

de las series de partida no sea significativa en la serie final. Por el contrario, un número

demasiado elevado de estaciones puede llevar a no reflejar la climatología regional de la

estación seleccionada. En este caso se utilizarán cinco estaciones cercanas. Su elección

se hará en función del coeficiente de correlación. Aquellas cinco estaciones que

presenten un mayor coeficiente de correlación con la serie a corregir serán las

seleccionadas. Pero estos coeficientes de correlación no se pueden calcular a partir de

las series de medias anuales, ya que las inhomogenidades en las series pueden falsear el

coeficiente de correlación que tendrían esas mismas series si no presentaran dicha

discontinuidad. Estos errores, que pueden ser tanto positivos como negativos, pueden

llegar a producir variaciones en el índice de correlación del orden de 0.4.

Para minimizar este error se trabajará con series de diferencias a partir de las

series de temperatura mínima anual definidas como:

iii

TTT 1

(1)

Estas series representan de igual forma la variabilidad de la serie original de

medias anuales, pero en el caso de existir una discontinuidad, esta sólo va a afectar a

dos elementos. Este hecho hace que el valor del coeficiente de correlación muestre la

similitud de la variabilidad de ambas series y no se vea falseado por discontinuidades.

Una vez seleccionadas se empleará la media ponderada por el cuadrado del

coeficiente de correlación como método de interpolación.

La utilización del método de la media ponderada, introduciendo como entrada

las 5 series de diferencias de estaciones cercanas, produce unos valores de referencia

pero en forma de serie de diferencias. Ésta es necesario convertirla de nuevo a valores

de medias de la siguiente forma:

iii

TTT 1

Esta reconstrucción de la serie de referencia se realiza tomando como punto de

partida el valor de la serie original del último año y calculando los valores retrocediendo

en el tiempo. De esta forma se asegura que el último valor de la serie de referencia

coincida con el de la serie original, el cual, por ser el más actual, se supone que es

válido y no presenta ninguna inhomogeneidad.

Page 9: 02 Guion Tratamiento Previo de Los Datos

9

Mediante este proceso se crea una serie de referencia de temperaturas medias

anuales para cada estación y será usada como referencia en el resto del proceso. Cada

una de ellas se supone que ha quedado libre de cualquier inhomogenidad que existiera

en las series de estaciones cercanas a partir de las cuales han sido creadas.

3.2 Detección de discontinuidades.

El método de detección empleado es el método utilizado por Easterling y

Peterson (1995) y consta de dos partes. Primero, la detección de posibles puntos de

discontinuidad a partir de un modelo de regresión en dos fases. A continuación, una

serie de test estadísticos para asegurarse de si el punto seleccionado corresponde, con la

mayor fiabilidad posible, con una discontinuidad no climática.

Método de regresión en dos fases.

Este método trata de buscar candidatos a lo largo de la serie que puedan ser

puntos de discontinuidad. Este método fue introducido por Solow en el estudio de series

climáticas (1987).

El primer paso consiste en la creación de la serie de diferencias. Esta serie es

simplemente la diferencia entre la serie de medias anuales de la estación a corregir y la

de referencia. Esta nueva serie de diferencias se ajusta mediante una regresión lineal

simple y se calcula la suma de los cuadrados de los residuos (RSS1). A continuación,

para cada uno de los puntos de la serie se divide ésta en dos partes, antes y después del

punto seleccionado, y se procede del mismo modo calculando la suma del cuadrado de

residuos para cada una de las dos subseries (ver Figura 4). A continuación se suman

estos dos valores obteniéndose para cada uno de los puntos de la serie un nuevo valor al

que denominaremos RSS2. Aquel punto de la serie que tenga un valor menor de RSS2

será considerado como punto de discontinuidad potencial.

Para comprobar la significatividad de este punto, se utiliza el estadístico

propuesto por Solow (1987):

)4/(2

3/)21(

nRSS

RSSRSSU (2.6)

donde n es el número de elementos de la serie. Este estadístico se distribuye mediante

una distribución F con 3 y n-4 grados de libertad.

Page 10: 02 Guion Tratamiento Previo de Los Datos

10

Figura 4. Ejemplo del modelo de regresión en dos fases de la estación 1525 de AEMET donde se muestra

la serie de diferencias entre la temperatura media anual de la serie a tratar y la de referencia (línea

continua), la recta de regresión para la serie completa (línea discontinua), y las dos rectas de regresión

antes y después de la discontinuidad encontrada entre el año 72 y 73 (líneas punteadas).

Una vez que se ha encontrado una discontinuidad potencial se procede a buscar

nuevos posibles candidatos en cada una de las subseries en las que ha quedado dividida

la serie original (Figura 5). Se vuelve a realizar el mismo proceso que para la serie

original y se repite hasta que el punto con RSS2 mínimo no tenga un estadístico U

estadísticamente significativo o bien que la subserie tenga menos de 10 elementos, ya

que se ha considerado un mínimo de cinco datos para el cálculo de la regresión lineal.

En las Figuras 4 y 5 se puede observar un ejemplo de cómo se procede en este

método en la búsqueda de discontinuidades de las estación 1525 Sarriá (Lugo). En la

primera de ellas, donde se representa la serie total, se observa como el método detecta

perfectamente la discontinuidad en la serie en el año 72. Una vez que se este punto pasa

el test de significatividad del estadístico U, se divide la serie y se empieza de nuevo. En

la primera parte el posible candidato no se consideró significativo pero sí en la segunda

serie (Figura 5). Aquí se puede apreciar como se asigna la discontinuidad al año 93

cuando a la vista de la gráfica parece que debería haberse producido uno o dos años

después. Esto se debe a la limitación del cálculo de la regresión a un mínimo de cinco

datos. Aun así, el método detecta la discontinuidad y la localiza lo más aproximada en

el tiempo que ha permitido la longitud de la serie.

Page 11: 02 Guion Tratamiento Previo de Los Datos

11

Figura 5. Figura similar a la Figura 4, en la que se ha reducido la búsqueda al periodo comprendido entre

la primera discontinuidad y el final de la serie.

El uso de este método, aunque es uno de los que ofrecen mejores resultados

hasta el momento, puede detectar puntos de discontinuidad ficticios (Lund and Reeves,

2002). Por lo tanto es necesario aplicar otro tipo de test a posteriori a estos previamente

seleccionados para impedir este tipo de errores.

Test de medias.

Una vez que se poseen las discontinuidades potenciales de cada serie, se procede

a aplicar un test de diferencia de medias entre las partes de las series antes y después de

cada candidato, tomando como límites de la serie el resto de candidatos potenciales. Se

ha considerado un test de diferencia de medias de muestras independientes, cuyo

estadístico es:

2/1

2

2

21

2

1

21

)/()/( nsns

xxz

(2.7)

donde i

x es la media, si2 es la varianza y ni el número de datos de cada serie. Este

estadístico z se distribuye como una distribución normal. Este test es necesario para

asegurarnos que se está produciendo una discontinuidad significativamente estadística

en la media y no únicamente un cambio en la tendencia.

Método de multirespuesta a permutación (MMP).

Por último, para los candidatos que han pasado el test de medias, se les aplica el

MMP. Este método desarrollado por Mielke et al. (1981) trata de distinguir conjuntos

Page 12: 02 Guion Tratamiento Previo de Los Datos

12

diferentes de puntos estadísticamente significativos dentro de una serie. Para ello se

calcula la distancia euclídea entre todos los puntos y se comprueba que la distancia

media dentro de un grupo es estadísticamente menor (en nuestro caso con un nivel de

significatividad del 95%) que cualquier posible grupo que se pueda formar al azar con

los puntos de la serie.

3.3 Reconstrucción de la serie.

Aquellos puntos candidatos que superen tanto el test de diferencia de medias

como el MMP serán considerados como discontinuidades. Una vez que se han

detectado, se pasa a la reconstrucción de la serie, la cual se debe realizar desde el final

de la misma, en este caso el dato del año 98, hasta el principio. Los datos entre el último

año y la primera discontinuidad se mantendrán, pero a partir de esta discontinuidad se

deberá eliminar el error producido por la discontinuidad. Este error se calcula

considerando una ventana de datos similar a la del MMP y calculando la media antes y

después del punto. Esta diferencia de medias es la que se debe sustraer a todos los

puntos de la serie desde el principio. De forma similar se procede con el resto de

discontinuidades corrigiendo siempre todos los valores desde el principio de la serie. En

el ejemplo mostrado de la estación 1525 se encontraron discontinuidades en los años 72

y 93. En el primer lugar se calculó la diferencia de medias entre los intervalos [82-93] y

[94-98]. Esta diferencia, que estaba en torno a 0.5º C, se añadió a todos los datos desde

el principio de la serie, es decir desde el 55, hasta el año 93 inclusive. Para el segundo

punto se calculó la diferencia de medias entre los intervalos [61-72] y [73-84]

obteniéndose una diferencia en torno a 1º C, valor que se sustrajo a los datos entre el

año 55 y 72 (Figura 6).

Figura 6. Representación de las series de diferencia entre la serie original y la de referencia antes

(discontinuo) y después de la corrección (continuo) de las inhomogeneidades en la estación 1525 (Sarriá,

Lugo).

Page 13: 02 Guion Tratamiento Previo de Los Datos

13

Anexo I: http://klimazwiebel.blogspot.com.es/2010/01/guest-contribution-from-reinhard-

bohm.html

Friday, January 22, 2010

Guest contribution from Reinhard Böhm, ZAMG, Vienna

by Hans von Storch

“Faking versus adjusting” – why it is wise to sometimes hide “original” data by Reinhard

Böhm (Vienna)

Although it is one of my personal principles not to read the correspondence of other people, it

was kind of inescapable recently when “climategate” overwhelmed us. One of the frequently

heard allegations drawn from the illegally published emails was that the original data were

intentionally not posed to everybody’s free access in order to conceal the “tricks” applied to the

original data to increase the amplitude of anthropogenic warming. Although I must confess that

I am very much in favour of the idea of free data access for everybody we must be aware also of

the dangers implied in this nice principle. And I want to argue here that some of those “tricks”

are purely necessary to make data collections fit for climate analysis – the community I am part

of calls these tricks “homogenizing”.

In the field of analysing climate variability, trends, oscillations and other things that we

nowadays tend to simplify under the umbrella of “climate change”, we must be aware of the fact

that “original climate time series” in no case contain climate information exclusively. In fact

there is much random noise in them and (even worse) also systematic breaks or (the worst of

all) trends or other things not representing climate but growing cities, trees, technological

progress in measuring instruments, data processing, quality control mechanisms and an number

of other non climatic factors.

People from universities or other research institutes usually consider climate data coming from

weather services to be kind of “official” data of great quality. Working in a weather service I am

glad about this and I can approve it. We spend much time and invest much money, manpower

and savvy in our quality controls. But the aim is to produce data of internal and spatial physical

consistence according to the current state of the respective measuring site. It is these data which

are stored in the databanks, exchanged all over the globe, and published in yearbooks. It does

not belong to the principal canon of the duties of weather services to have a look at the long-

term stability of their data.

Therefore a free and unrestricted data policy in the field of longer climate time series of original

data easily and comfortably accessible from institutions like CRU, NOAA, NASA and others

opens the doors not only for serious research but also for a (planned or unintentional) misuse

under the quality seal of these institutions.

I want to illustrate this with one example. I found it some years ago in the best-selling book

“State of Fear”. The author’s main intention is to reveal the presumed worldwide conspiracy of

alarmistic NGOs to draw as much attention as possible to the case of global warming. One of

his arguments was only possible through NASA’s liberal data policy. It was simply necessary

for Michael Crichton to quickly download a number of obviously “original” long-term

temperature series from some American Cities and some from rural sites, then selecting some

Page 14: 02 Guion Tratamiento Previo de Los Datos

14

urban ones with strong warming trends and some rural ones with weaker or even with cooling

trends and the convincing argument “global warming is not real but an artefact of increasing

urban heat islands” was ready for use and it was underpinned by “high quality original data of a

trustworthy American research institution”.

In real life we can show – but only after investing the additional and painstaking work of

homogenizing – that such urban or other biases can be, have to be and in fact are removed in

respective high quality datasets. This is no “faking” or “tricking” but the intention to provide a

data basis fit for the special application of time series analysis. Being part of a group specialised

in the field of homogenization I do not want to bore the readers now with the details of our

“tricks”. I only want to mention some basic findings from our experience:

No single long-term climate time series is a priori homogeneous (free from non climatic

noise)

At average each 20 to 30 years a break is produced which significantly modifies the

series

Many but not all of these single breaks are random if the regional (global) sample is

analysed - even regionally or globally averaged series contain biases of the order of the

real climate signal

There are a number of mathematical procedures which - preferably if combined with

metadata information from station history files – are able to detect and remove (or at

least reduce) the non climatic information

This is much work so it should preferably be done by specialised regional groups close

to the metadata – this produces the best results, is more effective and saves the time of

research groups wanting to analyse the data

A number of such regional groups are active in the homogenizing business but I must also

clearly state that the job is not done yet completely and globally. But we are working on it and

already now I can advise everyone to use original data only for controlling the quality or the

respective homogenization attempts but not for analysis itself if the goal is a timeframe of 20

years or more – a length usually necessary to gain statistically significance at the given high

frequent variability of climate.

At the end I want to illustrate at one single but maybe astonishing example, how strong and how

systematic a simple fact - the installation of meteorological instruments in regular weather

service sites – has changed during the time of the instrumental period. The two figures display

the great variability but also the average systematic trend of the height above ground of the

thermometers and the rain gauges of a greater sample of long-term series in central Europe for

which we were able to produce the respective metadata-series. There obviously was a change in

the measuring philosophy from “preferably remote from surrounding obstacles” (on measuring

platforms, towers, rooftops) to “near to the ground”.

A research group using the “original data” would have had no chance to invest the time to go

into these details. Such original data would have produced a significant “early instrumental

bias” of too cold maximum temperatures, too warm minimum temperatures and too dry

precipitation totals. The former being at the order of 0.5°C each and thus reducing the MDR as

strong as 1°C in some cases, the latter producing a precipitation deficit near 10%.

Page 15: 02 Guion Tratamiento Previo de Los Datos

15

I hope my plea for “tricking” is not misunderstood but regarded as what it is – an attempt to see

things more differentiated and sophisticated. A completely liberal data policy may seem to be

the only acceptable and achievable alternative at first sight. But not each modification of the

original data has the intention to “hide the truth” – at the contrary, the overwhelming majority of

such attempts want to help to effectively unveil the truth.

Page 16: 02 Guion Tratamiento Previo de Los Datos

16

Referencias

Allen, R. J. and DeGaetano, A. T.: A Method to Adjust Long-Term Temperature Extreme

Series for Nonclimatic Inhomogeneities. Journal of Climate, 13, 3680-3695, 2000.

Conrad, V. and Pollak, C.: Methods in Climatology, Harvard University Press, Cambridge, 459

pp, 1950, 1962

Easterling, D. R. and Peterson, T. C.: Techniques for detecting and adjusting for artificial

discontinuities in climatological time serieas: a review. Fifth International Meeting on

Statistical Climatology, June 22-26, Toronto, Ontario, pp. J28-J32, 1992.

García Herrera, R., Prieto, L., Díaz, J., Henández, E. and del Teso, T.: Synoptic condition

leading to extremely high temperatures in Madrid. Annales Geophysicae, 20, 237-245, 2002.

Karl, T. R. and Williams C. N.: An Approach to Adjusting Climatological Time Series for

Discontinuous Inhomogeneities. Journal of Climate and Applied Meteorology, 26, 1744-1763,

1987.

Karl, T. R., Diaz, H. F. and Kucka, G.: Urbanization: its detectiond and effect in the United

States climate record. Journal of Climate, 1, 1099-1123, 1988.

Mielke, P. W., Barry, K. J. and Brier, G. W.: Application of Multi-Response Permutation

Procedures for Examining Seasonal Changes in Monthly Mean Sea-Level Pressure Patterns.

Monthly Weather Review, 109, 120-126, 1981.

Quayle, R. G., Easterling, D. R., Karl, T. R. and Hughes, P. Y.: Effects of recent thermometer

changes in the cooperative station network, Bulletin of the American Meteorological Society.

72, 1718-1724, 1991

Solow, A. R.: Testing for climate change: An application of the two-phase regression model.

Journal of Climate Applied Meteorology, 26, 1401-1405, 1987.