JORGE FALLAS DE PARES 33 56 78 98 90 TECNICAS DE …€¦ · ii 24. Ejercicios ... En otras...

69
OBSERVACIONES: ORGANIZACIÓN, SÍNTESIS Y PRESENTACIÓN GRAFICA De datos a información 25/05/2012 Conocimiento para todos JORGE FALLAS MUNDO REAL: POBLACIÓN INVESTIGACIÓN MANEJO 1 2 4 5 6 7 8 9 20 30 69 98 34 33 56 78 98 90 UNIVERSO DE VALORES VARIABLES TECNICAS DE MEDICIÓN PREGUNTAS, HIPÓTESIS A SOMETER A PRUEBA ESTADÍSTICA, METODOS, INSTRUMENTOS, PERSONAS CONCLUSIONES CREENCIAS VALORES PRESIONES POLÍTICAS, SOCIALES, RELIGIOSAS DE PARES El conocimiento es de dos tipos. Conocemos el tema nosotros mismos, o sabemos donde podemos encontrar tal conocimiento -- Samuel Johnson "El corazón jamás habla, pero hay que escucharlo para entender." Proverbio Chino

Transcript of JORGE FALLAS DE PARES 33 56 78 98 90 TECNICAS DE …€¦ · ii 24. Ejercicios ... En otras...

OBSERVACIONES: ORGANIZACIÓN, SÍNTESIS Y

PRESENTACIÓN GRAFICA De datos a información

25/05/2012 Conocimiento para todos

JORGE FALLAS

MUNDO REAL: POBLACIÓN

INVESTIGACIÓN

MANEJO

1 2 4 5 6 7 8 9

20 30 69 98 34

33 56 78 98 90

UNIVERSO DE VALORES

VARIABLES

TECNICAS DE MEDICIÓN

PREGUNTAS, HIPÓTESIS A SOMETER A PRUEBA

ESTADÍSTICA, METODOS, INSTRUMENTOS, PERSONAS

CONCLUSIONES

CREENCIAS

VALORES

PRESIONES

POLÍTICAS, SOCIALES,

RELIGIOSAS

DE PARES

El conocimiento es de dos tipos. Conocemos el tema nosotros mismos, o sabemos donde

podemos encontrar tal conocimiento -- Samuel Johnson

"El corazón jamás habla, pero hay que escucharlo para entender." Proverbio Chino

i

Índice

1. Introducción ................................................................................................................................. 1

2. Algo de historia ............................................................................................................................ 2

3. Estadística descriptiva .................................................................................................................. 3

4. Estadística inferencial .................................................................................................................. 3

5. Conceptos de población y muestra ............................................................................................... 4

6. Estadística y el proceso de aprendizaje ........................................................................................ 5

7. Sesgo y efecto de variables no controlados en diseños no experimentales .................................. 8

8. Experimentos y seudo experimentos .......................................................................................... 12

9. Seudo replicación ....................................................................................................................... 12

10. Validez interna y externa del estudio ....................................................................................... 13

11. Variables: definición y clasificación ........................................................................................ 13

11.1 Nivel de medición de nominal y ordinal: Variables cualitativas ........................................... 13

11.2 Nivel de medición de intervalo y razón: Variables cuantitativas ........................................... 15

12. Distribuciones de frecuencia .................................................................................................... 17

12.1 Datos no agrupados ................................................................................................................ 17

12.2 Datos agrupados: frecuencia absoluta, relativa y acumulada ................................................. 18

13. Gráficos .................................................................................................................................... 23

13.1 Diagramas de pastel, barras y líneas ...................................................................................... 23

13.2 Histograma y polígono de frecuencia ..................................................................................... 26

13.3 Curva de frecuencia acumulada (OJIVA) .............................................................................. 27

13.4 Gráfico de percentiles y cuantiles .......................................................................................... 27

13.5 Grafico de cuartiles (Q-Q) ...................................................................................................... 29

13.6 Gráfico de media y barra de error .......................................................................................... 30

13.7 Gráfico de rectángulos verticales y horizontales (diagrama de Box-Whisker) ...................... 30

13.8 Diagrama de tallo hoja ........................................................................................................... 32

13.9 Gráfico de probabilidad normal ............................................................................................. 32

13.10 Diagrama de dispersión ........................................................................................................ 33

13.11 Grafico de medias móviles ................................................................................................... 33

13.12 Grafico de densidad .............................................................................................................. 34

13.13 Gráfico de radar .................................................................................................................... 34

13.14 Pictogramas .......................................................................................................................... 35

14. Exactitud y precisión ................................................................................................................ 35

15. El proceso de investigación ...................................................................................................... 36

16. Algunos conceptos y terminología ........................................................................................... 38

17. Algunos conceptos y definiciones estadísticas ......................................................................... 41

18. Sugerencias para analizar datos ................................................................................................ 44

19. Conceptos generales ................................................................................................................. 44

20. Fuentes o referencias: búsqueda, clasificación y análisis ........................................................ 50

21. Bases de datos de organismos .................................................................................................. 53

22. Sugerencias para escribir y revisar sus informes ..................................................................... 54

23. Estadística: software gratuito ................................................................................................... 56

24. Bibliografía ............................................................................................................................... 58

ii

24. Ejercicios .................................................................................................................................. 61

Anexo 1: Criterios para elaborar cuadros ....................................................................................... 64

Anexo 2: Criterios para elaborar gráficos ...................................................................................... 64

Anexo 3: Licencia de “Creative Commons” .................................................................................. 65

Anexo 4: Abreviaturas y equivalencias .......................................................................................... 66

El presente documento se distribuye bajo licencia CC BY-NC-SA de “Creative Commons”

“reconocimiento-No comercial-Compartir bajo la misma licencia”; la cual permite a otros

entremezclar, ajustar y construir con base en su trabajo para fines no comerciales, siempre y

cuando se de crédito y licencia de sus nuevas creaciones, en los términos idénticos.

La información independientemente de lo costosa que haya sido crearla, puede ser replicada

y compartida a un costo mínimo o nulo. -- Thomas Jefferson

1

1. Introducción

Es muy probable que usted asocie la estadística con la matemática, aburridas y complejas fórmulas

y grandes sets de datos. En un sentido usted no está equivocado, sin embargo esta antigua rama de la

matemática es mucho más que eso. En el presente curso la utilizaremos como una herramienta que

nos permite describir y analizar la complejidad del mundo que nos rodea utilizando variables y datos

con el propósito de entender las relaciones entre los elementos que conforman la realidad

económica, ecológica y social y de esta tomar decisiones informadas. Dada la complejidad del

mundo actual se podría pensar que miles de observaciones son mejores que unas cuantas; sin

embargo esto es verdad cuando logramos organizarlas, ordenarlas y resumirlas de una manera clara

y eficiente. Por ejemplo, no es posible obtener conclusiones sobre la producción de frutos por

hectárea del bosque seco de Costa Rica analizando un millón de observaciones. La estadística es la

disciplina que nos permite crear información a partir de datos.

Aplicaciones concretas de la estadística incluyen el probar la eficiencia de nuevos métodos y

procesos en áreas tecnológicas y aplicadas; así como el someter a prueba hipótesis que lleven a la

formulación de nuevas teorías. En recursos naturales se aplica en áreas tales como muestreo de

fauna, flora, simulación biológica, mejoramiento genético, cuantificación de emisiones y carbono,

radiotelemetría y cuantificación de residuos sólidos.

Formalmente, la estadística puede definirse como una ciencia con un componente teórico y otro

aplicado que consiste en crear, desarrollar y aplicar técnicas o instrumentos que permiten evaluar el

grado de incertidumbre o error de las generalizaciones. En la vida cotidiana la definición anterior se

traduce en una mezcla de lógica y matemática. La lógica nos guía en la selección y colección de

datos, en tanto que la matemática conjuntamente con tablas específicas nos ayuda a emitir juicios

(hacer inferencias) y a la vez evaluar el grado de incertidumbre (error) de dichas inferencias. Por

ejemplo, si deseamos conocer el diámetro medio a la altura del pecho (d) de un parche de bosque de

diez hectáreas ubicado en San José de la Montaña, debemos decidir cuál debe ser el tamaño de la

muestra, cómo seleccionarla y una vez colectados los datos cómo analizarlos para generalizar

(inferir) los resultados al parche de bosque (Fig. 1). Finalmente, debemos indicar el grado de

confiabilidad de los resultados o en otras palabras que tan seguros estamos de la estimación que se

ha realizado. El análisis incluye la elaboración de tablas y figuras, el cálculo de estadísticos

descriptivos y con frecuencia someter a prueba una o más hipótesis.

Figura 1: El proceso de colecta y análisis de datos.

1. Colectar datos

2. Organizar, ordenar y

resumir datos

3. Análisis estadístico

Conclusiones

Generalizaciones

Confiabilidad

2

2. Algo de historia

El mundo que nos rodea es extremadamente complejo y los recursos disponibles para cualquier

estudio son limitados y por esta razón no siempre es posible medir todas las variables que uno

considera importantes para responder a las preguntas planteadas originalmente. Por esta razón

algunas veces se define a la estadística es el arte-ciencia de tomar decisiones ante situaciones

concretas a la luz de información o datos parciales. En otras palabras, es tomar decisiones bajo

condiciones de incertidumbre. Esta disciplina nació en las sociedades antiguas para resolver un

problema muy concreto: colectar datos y crear información sobre aspectos prácticos tales como

producción, población, impuestos y número de soldados; elementos esenciales para gobernar una

nación o un imperio. Este primer aspecto de la estadística todavía persiste en la actualidad y es lo

que se conoce como estadística descriptiva. Esta primera fase con fines meramente descriptivos dio

paso a la segunda fase que tiene como objetivo hacer inferencias o generalizaciones basados en una

porción (muestra) de la población (totalidad de los datos).

La teoría sobre probabilidades se originó con Pascal y Fernat alrededor del año 1650. La ecuación

de la curva del error normal o curva normal fue publicada por primera vez por Moivre en 1733; sin

embargo no se aplicó hasta 1924 cuando Karl Pearson la redescubrió en una de las bibliotecas de la

época. La misma ecuación fue posteriormente desarrollada en forma independiente por dos

astrónomos matemáticos Laplace y Gauss. Pero ¿por qué es tan importante el tema de las

probabilidades y la distribución normal? Matemáticamente, la respuesta es compleja, pero desde una

perspectiva practica es simple: dada una distribución teórica cuyo fórmula es conocida, es posible

comparar series de datos empíricos con dicha distribución y decidir si los mismos se ajustan a la

misma y luego a partir de esto determinar si los valores obtenidos son grandes, pequeños o

“comunes”. En otras palabras nos permite crear una unidad de medición estándar y universal. Este

tema lo trataremos con mayor detalle en los secciones sobre intervalos de confianza y prueba de

hipótesis.

Aplicaciones iniciales de la teoría estadística se encuentran en publicaciones de autores del siglo

XIX tales como Lyell (geología), Charles Darwin (biología) y Mendell (genética). A finales del

siglo XIX e inicios del siglo XX Karl Pearson hizo importantes aportes a la teoría de las muestras

grandes. Una de las limitantes, desde el punto de vista práctico, de esta teoría es que se requiere de

un gran número de observaciones para su aplicación. En 1906 Gosset, discípulo de Karl Pearson, se

dedicó a estudiar problemas relacionados con muestras pequeñas. Los resultados de su

investigación se publicaron en la revista Biometrika en 1908. En su artículo "El error probable de la

media", Gosset cuestionó el uso de las tablas de distribución normal para realizar inferencias sobre

la media cuando el número de observaciones (n) era pequeño. La distribución derivada por Gosset

se conoce como distribución de Student ("Estudiante") o simplemente “t de Estudiante” y es una de

las más utilizadas en trabajos estadísticos paramétricos. La misma distribución había sido derivada

matemáticamente por Helmet, astrónomo alemán, en 1895; aunque no se le había dado ninguna

aplicación. En 1936 y 1938 J. Neyman y E.S. Pearson presentaron la teoría para prueba de

hipótesis. Abraham Wald (1947) y su libro "Análisis secuencial y funciones para decisión esta-

dística" marcaron otro hito en el desarrollo de la estadística moderna.

3

En el siglo XX uno de los estadísticos de mayor renombre fue R.A. Fischer, él y sus discípulos

dieron un gran impulso al uso de procedimientos estadísticos en campos tales como biología,

agronomía y genética.

3. Estadística descriptiva

La estadística descriptiva tiene como objetivo presentar lo esencial del grupo de datos colectados.

Esto se logra a través del uso de tablas, gráficos y estadísticos básicos. La estadística descriptiva

nos permite organizar los datos y a la vez resumir los aspectos esenciales sobre los cuales se desea

obtener conclusiones en una etapa posterior.

Las ventajas y desventajas de la estadística descriptiva pueden apreciarse en el siguiente ejemplo.

Supongamos que usted mide la altura total de 1000 árboles de laurel en Guanacaste. El resultado

sería varias páginas con números. ¿Qué conclusión podría obtener de las mismas? Probablemente

ninguna, ya que es prácticamente imposible analizar uno a uno los 1000 valores. La estadística

descriptiva, primer paso en el proceso de análisis de una serie estadística, nos permite solucionar

este problema. Los 1000 valores se reducirían a unos cuantos estadísticos (e.g. media, desviación

estándar), los cuales resumirían los aspectos esenciales de los datos originales. También podríamos

elaborar tablas y gráficos que nos permitan visualizar la presencia o ausencia de patrones en los

datos. La desventaja del proceso es que reducimos una gran cantidad de datos a unas cuantas cifras,

tablas y figuras. El resultado final es la pérdida de detalle e información.

4. Estadística inferencial

La inferencia estadística comprende los métodos y procedimientos que nos permiten hacer

generalizaciones basados en el conocimiento de una porción reducida de la realidad. Las

generalizaciones pueden realizarse utilizando tanto estadística paramétrica como no paramétrica. La

primera se aplica a variables cuantitativas y la segunda a series cualitativas. Las conclusiones o

generalizaciones deben basarse tanto en la información proporcionada por la estadística, como en la

experiencia y sentido común del investigador(a). La estadística es sólo un medio que nos permite

reducir una porción de la realidad a unas cuantas cifras o ecuaciones; sin embargo es obvio que la

realidad es mucho más compleja que nuestras cifras.

a. Dato: En octubre del año 2000 se registraron 200 mm de lluvia en Manuel Antonio.

b. Información: Los datos son puestos en contexto: ¿Es la precipitación registrada normal

para dicho mes?

c. Conocimiento: Conclusión que surge a partir de la información: Si usted fuese un

especialista en primates podría afirmar “dicha cantidad de lluvia es un factor estresante

para la población de mono Titi de Manuel Antonio”.

d. Sabiduría: Todos hablan del problema climático, pero nadie hace nada por el, debemos

hacer lo siguiente....

4

En nuestra vida cotidiana la computadora juega un papel muy importante en el procesamiento y

análisis de datos. La computadora y el software que le acompaña, han sido diseñados para

seleccionar, agrupar, transformar y presentar numérica y gráficamente observaciones a gran

velocidad y exactitud. Sin embargo, no debemos confundir la habilidad mecánica de la máquina con

la capacidad de análisis y síntesis del ser humano, factores esenciales para procesar y analizar datos

con éxito.

Finalmente al hacer generalizaciones siempre debemos hacernos la siguiente pregunta: ¿Son los

resultados y conclusiones lógicos? Si la respuesta es no, debemos evaluar crítica y detalladamente

el proceso utilizado para seleccionar, colectar y analizar los datos; así como la interpretación que

hemos dada a los resultados. La estadística es una herramienta que nos guía en el proceso de toma

de decisiones y no una justificación para nuestras decisiones. Al hacer generalizaciones se debe

tener en cuenta las limitaciones propias de la muestra y hacerlas explícitas al reportar los resultados.

De lo contrario estaremos brindando una visión sesgada de la realidad.

5. Conceptos de población y muestra

Población y muestra son dos palabras de uso común en el lenguaje estadístico. La población o

universo se define como el conjunto de todos los posibles valores que puede tomar una variable; en

tanto que la muestra es una parte de la población. En un sentido más práctico podemos pensar en la

población como en aquel grupo de observaciones acerca del cual se desea obtener conclusiones.

Dependiendo de su tamaño y el método de selección de la muestra, la población puede

considerarse como finita o infinita (Fig. 2). Se dice que la población es finita cuando es pequeña o

se conoce la totalidad de los valores que la componen. Por ejemplo, el número de estudiantes

matriculados en las Universidades públicas en el año 2006 o los países del planeta Tierra son

ejemplos de poblaciones finitas; en tanto que la población de la Tierra puede considerarse como una

población infinita. La población es infinita cuando no se conoce la totalidad de los valores que

puede tomar la variable ó cuando su número es muy grande.

La muestra debe ser representativa de la población para que nos permita hacer inferencias

(generalizaciones) válidas. Por su parte la población debe definirse en forma clara y concisa,

evitando utilizar términos ambiguos. Con frecuencia se considera que una muestra es representativa

cuando se obtiene aplicando el principio de aleatorización (selección al azar); el cual elimina sesgos

individuales, conocidos o desconocidos, al obtener una muestra de la población. Lo anterior nos

permite hacer uso de las leyes de probabilidad para hacer nuestras inferencias o generalizaciones.

La mayoría de los paquetes estadísticos posee una herramienta para generar números al azar.

Genere tantos números como observaciones al azar requiera y luego reemplace el número al azar por

el valor de la observación correspondiente. Por ejemplo, si tenemos 50 observaciones y

seleccionamos 5 números al azar (0, 10, 50, 49, y 28), los valores correspondientes a estos números

constituyen la muestra de interés. Este procedimiento nos asegura que cada observación de la

población tiene la misma probabilidad de selección.

5

Planeta Tierra: Universo Continentes: muestras de la Tierra.

Centro América: muestra de uno de los

continentes.

Costa Rica: Puede ser una muestra de

Centroamérica o una población.

Figura 2: Concepto de población y muestra.

6. Estadística y el proceso de aprendizaje

El proceso de aprendizaje puede conceptualizarse como una serie de hitos en la vida de la persona

a través de los cuales acumula datos, crea información, acumulada más datos, crea nueva

información y así sucesivamente (Fig. 3). En este contexto el diseño de experimentos y de estudios

de tipo observacional nos permiten ordenar el proceso de aprendizaje y crear datos e información

que pueden replicarse y someterse a prueba utilizando métodos estadísticos. Por ejemplo, el

conocimiento popular es la sabiduría que los humanos hemos adquirido con el paso del tiempo

(proceso de observación y deducción) sin embargo en la mayoría de los casos dicho conocimiento

no se sustenta en un análisis estadístico.

Como veremos en el presente capítulo este “conocimiento” puede estar fuertemente influenciado

por el efecto de confusión y por ende atribuir efectos o explicaciones a variables que no existen o

que no son las responsables de lo que se observa. Un ejemplo de este tipo de asociación errónea es

la relación que con frecuencia hace el público (y aún algunos técnicos!!) entre el rendimiento hídrico

de una cuenca y el bosque ó entre presencia de bosque y precipitación. Otro ejemplo extraído de la

literatura estadística es el estudio del posible efecto entre la fluoración de agua potable y el aumento

de las tasas de cáncer (Yiamouyiannis y Burk 1977; citado por Manly 1992)

6

Figura 3: El proceso de aprendizaje puede conceptualizarse como una cadena de eventos que nos

permiten conocer el ambiente que nos rodea, formular hipótesis, someterlas a prueba, aprender más

sobre el medio, formular nuevas hipótesis, someterlas a prueba y así sucesivamente. Basado en Box,

Hunter y Hunter, 1978.

Todo proyecto de investigación está diseñado para responder a unas o más preguntas específicas y

por tanto siempre generará un set de datos. Los datos pueden ser el resultado de un diseño

experimental ó de un estudio observacional (Fig. 4). En el primer caso los datos se obtienen

mediante la manipulación de las variables que el investigador (a) considera relevantes para el

objetivo del estudio, manteniendo a su vez otras variables que influyen en el temas de estudio

constantes y siguiendo un estricto protocolo de observación y medición. En el segundo caso los

datos son el producto de la observación de un fenómeno o proceso físico, natural o antrópico sobre

el cual el investigador(a) tiene poco o ningún control. Por ejemplo, en el primer caso un forestal

puede estar interesado en la respuesta de las plántulas de vivero a la aplicación de nitrógeno

manteniendo el nivel de riego, tipo de suelo y sombra constantes; en el segundo caso un hidrólogo

puede estar interesado en determinar la respuesta hidrológica de una cuenca a cambios en el uso-

cobertura de la tierra. Es obvio que el primer profesional puede controlar la mayoría de las variables

en el vivero; mientras que el segundo tendrá que trabajar con datos existentes y no podrá ejercer el

mismo grado de control sobre las variables que intervienen en el proceso hidrológico. En el primer

ejemplo, el ingeniero forestal podrá atribuir los cambios observados en la variable respuesta (e.g.

crecimiento de las plantas) al efecto del tratamiento (niveles de nitrógeno) en tanto que el segundo

caso los cambios observados en la respuesta hidrológica de la cuenca son el resultado de la

interacción de una serie de factores no controlados y por tanto lo “obvio” puede llevar a

conclusiones erróneas

De las observaciones del párrafo anterior podría concluirse que nuestras inferencias deben basarse

únicamente en diseños experimentales; sin embargo esto no siempre es posible en el mundo real.

Por ejemplo, no es éticamente aceptable aumentar los niveles de contaminación de una ciudad para

evaluar el impacto de un contaminante en la salud humana, tampoco es ético aumentar el nivel de

deforestación en una cuenca para evaluar el efecto en las tasas de erosión o en rendimiento hídrico.

En estos casos solo es posible utilizar datos existentes para tratar de dar respuesta a las interrogantes

planteadas por el investigador(a).

7

Figura 4: Diseño y análisis de datos en estudios experimentales y observacionales. Basado en Box,

Hunter y Hunter, 1978.

Los diseños experimentales y los estudios observacionales pueden a su vez subdividirse utilizando

la clasificación propuesta por Eberhardt y Thomas, (1991) citado por Manly (1992) (Fig. 5). Para

estos autores los estudios pueden dividirse en dos grandes grupos: aquellos en los cuales el

investigador(a) tiene control sobre los tratamientos (diseños experimentales) y aquellos en los cuales

el investigador(a) no se tiene control sobre las variables que intervienen en el estudio (estudios

observacionales).

Los diseños experimentales se subdividen a su vez en experimentos con réplicas, sin réplicas y en

aquellos cuyo objetivo es estimar los parámetros de un modelo que describe el proceso en estudio.

Para los estudios no controlados, los autores hacen la distinción entre situaciones en donde existe un

evento severo que perturba el medio (e.g. un terremoto) y casos en los que no existe tal situación. En

el primer caso la investigación tendrá como objetivo determinar si el evento perturbador tiene algún

efecto en las variables que se miden. Normalmente este tipo de estudios se realiza en una escala

temporal (antes y después del evento) y por esta razón con frecuencia se les denomina series de

tiempo interrumpidas.

Para los casos en los cuales no existe una perturbación evidente se distinguen cuatro situaciones.

En la primera se analiza una porción particular de la población (muestra) comparando la variable

respuesta de diferentes grupos como una alternativa a un diseño controlado. En el segundo caso se

estudia la totalidad de la población y el objetivo del estudio puede ser: a) determinar la diferencia en

magnitud de la variable respuesta al comparar varios grupos experimentales; b) estimar algunos

parámetros de la población mediante su muestreo y c) determinar la distribución espacial de una

variable de la población en estudio.

8

Figura 5: Clasificación de estudios en el campo ambiental y de recursos naturales. Basado en

Eberhardt y Thomas (1991).

7. Sesgo y efecto de variables no controlados en diseños no experimentales

Como se mencionó en el párrafo anterior, los sets de datos utilizado por el investigador(a)

provienen de un estudio observacional ó de un diseño experimental. En el campo forestal y

ambiental es común que el investigador(a) utilice diseños no experimentales para realizar sus

estudios. Por esta razón se listan a continuación las principales fuentes de error en dichos diseños.

Efecto desconocido de las variables no controladas por el investigador(a)

Este tipo de error se denomina efecto de confusión y su nombre se deriva del hecho que el (la)

investigadora no puede separar el efecto de su tratamiento del efecto de otras variables que

intervienen en el estudio. En otras palabras, no se puede afirmar que el efecto observado en la

variable respuesta sea el resultado del tratamiento aplicado (Fig. 6). Bajo condiciones de severa

confusión, esta fuente de error puede invalidar totalmente las conclusiones del estudio.

La solución práctica al efecto de confusión es diseñar el estudio de tal forma que dichos factores de

confusión sean minimizados; esto presupone un profundo conocimiento del tema en estudio por

parte del equipo de investigación. También presupone que el equipo de investigación puede

neutralizar el efecto adverso de dichos factores. En la vida real no siempre esto es posible y por

tanto al comunicar los resultados el investigador(a) debe incorporar el posible impacto de dichas

fuentes de confusión en sus conclusiones.

9

Figura 6: Ejemplo del efecto de confusión. Fuente: Basado en Opinion. 2011.

Para ilustrar el “efecto de confusión” se describe a continuación un estudio realizado en los

Estados Unidos para determinar la relación entre el consumo de agua fluorada y la tasa de muertes

por cáncer (Maritz y Jarrett 1983, http://en.wikipedia.org/wiki/Water_fluoridation_controversy). La

pregunta que el estudio pretendía responder era: ¿Existe evidencia estadística para suponer que el

consumo de agua con flúor aumenta la posibilidad de morir de cáncer?

El estudio consistió en comparar la tasa de muertes por cáncer por 100.000 habitantes para 20 de

las ciudades más grandes de los Estados Unidos, 10 con servicio de agua fluorada y 10 sin servicio

de agua fluorada para los años 1950 y 1970. El servicio de fluorado del agua se inició en los Estados

Unidos entre 1952 y 1956. El estudio indicó que se observó un incremento de 36 muertes por

100.000 habitantes en las ciudades con servicio de agua fluorada comparado con solo 16 muertes

por 100.000 habitantes en las ciudades sin servicio de agua fluorada. La conclusión evidente fue que

el flúor en el agua potable aumenta la tasa de muertes por cáncer. Sin embargo el colegio Real de

Médicos, el Instituto Nacional de Cáncer y la Sociedad Real de Estadística de los Estados Unidos

rechazaron las conclusiones argumentando que no existía evidencia estadística válida para afirmar

que el flúor en el agua potable aumentara la incidencia de cáncer; ya que el efecto aparente del flúor

estaba confundido con el efecto en los cambios sistemáticos observados en la estructura de la

población (e.g. tasa de crecimiento, composición por grupo de edad, sexo, grupo étnico) de las

ciudades analizadas así como por cambios ambientales (i.e. niveles de contaminación entre las

ciudades) (Oldham y Newell, 1977 citado por Manly 1992).

La conclusión final es que no existe evidencia estadística en los datos para argumentar que el flúor

adicionado al agua causa un aumento en la tasa de cáncer. Este ejemplo ilustra cómo un diseño

observacional aparentemente bien planeado puede generar conclusiones erróneas cuando no se

considera el efecto de otras variables que influyen en el comportamiento de la variable respuesta.

¿Qué cree usted que el investigador(a) está observando?

Y

¿Qué es lo que realmente sucede?

10

Muestreo aleatorio y no aleatorio

En la mayoría de los estudios observacionales no es posible realizar un verdadero muestreo

aleatorio y por tanto los resultados pueden llevar a conclusiones sesgadas (Manly, 1992). La

solución a esta limitación es realizar un diseño de muestreo que sea robusto, práctico y económico.

El área de muestreo es un campo especializado de la estadística y por tanto se remite al estudiante a

textos especializados en el tema (Cochran 1977, Kish 1995, Lohr 2009). Desde el punto de vista del

diseño de estudios observacionales es posible utilizar un método de inferencia basado en el principio

de aleatorización; otras posibles técnicas de análisis son la Cuchilla de Jack (“jackknifing”), las

simulaciones de Monte Carlo y el método de “bootstrapping –Bota ajustada”.

Efecto de grupo Vs. efecto individual

Este efecto se presenta cuando los valores de observaciones individuales se agrupan para formar

unidades de análisis superiores. Por ejemplo, se puede analizar la correlación entre diámetro y altura

para 1000 árboles medidos a nivel nacional. Luego, basados en los resultados del estudio es posible

analizar los datos para diferentes grados de agregación (Ej. Zonas de Vida, por tipo de suelo, clase

de pendiente, etc). En estos casos el análisis puede realizarse utilizando los valores individuales o

los promedios por grupo. Bajo estas circunstancias la correlación para los promedios de los grupos

puede ser un pobre indicador de la correlación que aplica a los árboles individuales.

En el caso de estudios de correlación entre variables, al reducir la variabilidad del set de datos

también se reducirá la intensidad de la correlación y la significancia de los modelos de regresión; sin

embargo no es posible afirmar que este comportamiento aplique a todas las variables. Por esta razón

los estudios de tipo ecológico deben utilizarse para generar nuevas hipótesis de trabajo que pueden

someterse a prueba utilizando diseños experimentales u observacionales más robustas (Piantadosi, et

al. 1988 citado por Manly 1992).

La conclusión de este tipo de estudios puede llevar a lo que se conoce como una falacia ambiental

o sea suponer que el efecto observado en el grupo también aplica al individuo. Otro ejemplo que

ilustra esta fuente de error es el siguiente: suponga que comparamos el rendimiento hídrico de una

cuenca con su porcentaje de cobertura forestal y que los datos muestran que donde existe más

bosque también existe mayor cantidad de agua; sin embargo esta conclusión podría ser

hidrológicamente errónea si no se considera el tamaño de la cuenca y la cantidad y distribución de la

precipitación de cada sitio.

Paradoja de Simpson

Especial atención debe prestarse cuando se analicen proporciones ya que los resultados pueden

estar sujetos a la paradoja de Simpson (http://plato.stanford.edu/entries/paradox-simpson/) la cual

indica que la diferencia entre dos proporciones desaparece o aún puede invertirse cuando las mismas

son analizadas en forma independiente para los diferentes grupos de observaciones. O sea se puede

producir un cambio en el sentido de la asociación-correlación entre dos variables (numéricas o

cualitativas) al controlar el efecto de una tercera variable.

11

Ejemplo: Usted compara la producción de agua anual por hectárea en una cuenca con bosque y en

otra sin bosque.

Cuenca A: Con bosque Cuenca B: Sin bosque Relación QA/(QB):

Rendimiento hídrico anual (QA):

2800 mm

Rendimiento hídrico anual (QB):

2200 mm

2800/2000 = 1,27

Su conclusión es que la cuenca “A” con cobertura forestal “produce” 1,27 veces más agua que la

cuenca B sin bosque. A primera vista, esta afirmación en el imaginario popular parece lógica y por

tanto no es cuestionada. Sin embargo si usted adiciona una tercera variable precipitación podría

observar lo siguiente:

Cuenca A: bosque Pt (mm) Relación QA / PtA Relación PtA/ PtB

Rendimiento hídrico anual (QA):

2800 mm

4000 2800/4000 = 0,70 4000/2500 =1.60

Cuenca B: Sin bosque Pt (mm) Relación QA / PtB Relación PtA/ PtB

Rendimiento hídrico anual (QB):

2200 mm

2500 2200/2500 = 0,88 4000/2500 =1.60

Como puede observarse, el resultado se revierte y la conclusión es que la cuenca sin bosque

“produce” más agua que la cuenca con bosque. En este caso, la tercera variable (Pt) afecta la

respuesta de la variable Q en ambas cuencas y por tanto al no considerarla en su estudio usted llega

a una conclusión errónea utilizando datos correctos.

Si usted desea analizar un caso similar en el área ecología funcional le recomiendo leer la siguiente

publicación de Allison y Goldberg:

Allison V. J. y Goldberg D. E. 2002. Species-level versus community-level patterns of mycorrhizal

dependence on phosphorus: an example of Simpson’s paradox. Functional Ecology 16, 346–352.

Visitado 15-02-211 Disponible en http://deepblue.lib.umich.edu/bitstream/2027.42/74069/1/j.1365-

2435.2002.00627.x.pdf

Otros artículos de interés sobre el tema son los siguientes:

Berkman Lisa F. 2004. Seeing the Forest and the Trees: New Visions in Social Epidemiology. Am J.

Epidemiol. 160(1): 1-2. doi: 10.1093/aje/kwh210. Visitado 15-02-211. Disponible en

http://aje.oxfordjournals.org/cgi/reprint/160/1/1

Yu-Kang Tu, David Gunnell and Mark S Gilthorpe. 2008. Simpson's Paradox, Lord's Paradox, and

Suppression Effects are the same phenomenon – the reversal paradox. Emerging Themes in

Epidemiology, 5:2 doi:10.1186/1742-7622-5-2. Visitado 15-02-211. Disponible en http://www.ete-

online.com/content/pdf/1742-7622-5-2.pdf

12

Ferraro, P. J. 2009. Counterfactual thinking and impact evaluation in environmental policy. In M.

Birnbaum & P. Mickwitz (Eds.), Environmental program and policy evaluation. New Directions for

Evaluation, 122, 75–84. Visitado 15-02-211. Disponible en

http://www2.gsu.edu/~wwwcec/research/publications/NDEV122_10_75-84.pdf

8. Experimentos y seudo experimentos

En la sección previa se clasificaron las investigaciones en diseños experimentales (situaciones

controladas) y estudios observacionales (situaciones no controladas); sin embargo en el área de

ambiente y recursos naturales es difícil asignar un estudio a una u otra categoría porque los mismos

solo cumplen con algunas de las características propias dichos estudios. Debemos recordar que el

tema de diseños experimentales se inició con los trabajos de Sir Ronald Fisher en la estación

experimental de Rothamstead, Inglaterra en los años 20s y 30s. El señor Fisher desarrolló su teoría

estadística a partir de su experiencia en el campo agrícola en donde se trabaja bajo condiciones

controladas. Bajo estas circunstancias Fisher enfatiza que todo experimento debe cumplir con las

siguientes condiciones:

Asignación aleatoria de las unidades experimentales a los tratamientos. Esto permite

eliminar cualquier diferencia inicial en los sujetos experimentos. Este supuesto no se cumple

en los cuasi-experimentos.

Repeticiones. El experimento o tratamiento debe aplicarse a dos o más grupos

experimentales estadísticamente idénticos.

Debe existir un grupo control que no recibe tratamiento. Con frecuencia este supuesto

tampoco se cumple en los cuasi-experimentos.

En la vida práctica, sin embargo, no siempre es posible cumplir con todas las condiciones

estipuladas por Fisher ya que el investigador(a) usualmente no tiene la libertar de manipular el

sistema natural bajo estudio. Bajo estas condiciones solo es posible realizar un cuasi experimento

bajo la terminología de Fisher; sin embargo las conclusiones de dicho estudio pueden tener mayor

validez que las generadas por un estudio de naturaleza observacional.

9. Seudo replicación

La seudo replicación es una de las principales limitaciones en que puede incurrir un

investigador(a) al diseñar y analizar los datos de un experimento. La seudo replicación consiste en

utilizar estadística inferencial para someter a prueba una hipótesis con datos de un experimento en el

cual los tratamientos no estén replicados (aun cuando las muestras lo estén) o cuando las réplicas no

son estadísticamente independientes. El efecto de utilizar seudo réplicas es que el análisis se realiza

como si se tratara de réplicas reales (independientes) cuando en realidad no lo son y por tanto es

muy posible que se detecten diferencias significativas cuando en realidad no existen (induce a falsos

positivos).

13

En general, la seudo replicación se dará cuando las unidades experimentales tienden a tener valores

similares, cuando se encuentran espacial o temporalmente cercanas y cuando el método de

asignación de individuos a los tratamientos propicia que los sujetos con el mismo tratamiento se

encuentren cerca unos de otros. Por ejemplo, no es válido asumir como aleatorias a cada una de las

observaciones de un conglomerado ya que las mismas serán muy similares entre sí.

10. Validez interna y externa del estudio

La validez interna y externa son dos términos utilizados en las ciencias sociales para evaluar la

pertinencia y aplicabilidad de los resultados de un diseño experimental. La validez interna analiza si

los efectos medidos en la variable respuesta son el resultado del tratamiento aplicado a los sujetos

experimentales ó si por el contrario son atribuibles a la presencia de algún otro factor no controlado

por el investigador(a) (ver efecto de confusión). La validez externa analiza hasta qué punto los

resultados del experimento pueden extenderse a toda la población de interés (inferencia).

Cuando el estudio carece de validez interna no es posible separar el efecto del tratamiento del

efecto de los otros factores que intervienen en el experimento y por tanto no se puede llegar a una

conclusión válida. La principal amenaza a la validez interna de un estudio es la existencia de lo que

se denomina explicaciones alternas o sea razones ajenas al diseño por las cuales se dan los

resultados obtenidos. La validez externa del estudio se ve amenazada cuando se trata de extender

(extrapolar) los resultados a condiciones muy diferentes a aquellas bajo las cuales se realizó el

experimento.

11. Variables: definición y clasificación

Los objetos, individuos, o eventos sobre los cuales se obtienen datos se denominan elementos o

unidades estadísticas. Las variables son características, propiedades o cualidades de dichos

elementos que se distinguen por su variabilidad, o sea, su habilidad para tomar valores diferentes

(Fig.7). La medición es el procedimiento utilizado para asignar valores a la variable de tal forma que

satisfaga las condiciones necesarias para su posterior análisis. La Real Academia Española

(http://www.rae.es/rae.html) define el verbo medir como “comparar una cantidad con su respectiva

unidad, con el fin de averiguar cuántas veces la segunda está contenida en la primera”. La escala de

medición es el contexto o marco de referencia bajo el cual se realizan las mediciones; todo medición

pertenece a una de las siguientes cuatro escalas: nominal, ordinal, intervalo y razón. Para decidir

cuál prueba estadística puede aplicarse a un set de datos es necesario conocer su escala de medición.

A su vez, las variables pueden agruparse en cualitativas y cuantitativas.

11.1 Nivel de medición de nominal y ordinal: Variables cualitativas

Las variables cualitativas o atributos son aquellas en las que la medición numérica no es posible.

Una variable se distingue de otra no por su valor (cantidad) sino por su atributo o característica. Una

medición representa la asignación de un elemento o individuo a una y sólo una de varias categorías

mutuamente excluyentes. Estas variables se caracterizan por no expresar una cantidad o magnitud

absoluta de lo que se mide y pertenecen a los niveles de medición nominal y ordinal.

14

Los métodos estadísticos aplicados a un nivel de medición nominal y ordinal se denominan "no

paramétricos". Observaciones a un nivel de medición de intervalo y razón pueden transformarse a

una escala ordinal o aun nominal. Por ejemplo, si tenemos 10 observaciones de densidad de roble,

podemos ordenarlas en forma ascendente, de tal forma que el primer valor es mayor que el segundo,

el segundo mayor que el tercero, y así sucesivamente. Luego se le asigna un valor de 1 a 10 a cada

observación, estos nuevos “valores” se conocen con el nombre de órdenes. Esto permite aplicar

técnicas no paramétricas a datos medidos originalmente a un nivel apropiado para aplicar técnicas

paramétricas.

Escala nominal

La escala de medición nominal es el más simple; ya que las variables se “miden” utilizando el

concepto de igualdad. La especie, el tipo de vegetación y el color de las hojas son ejemplos de

mediciones a nivel nominal. Los números o letras asignados a cada categoría son solo códigos y no

tienen un orden natural. Por ejemplo, podemos clasificar cinco tipos de uso-cobertura de la tierra de

la siguiente manera:

1) bosque seco

2) bosque húmedo

3) mangle

4) pastos y

5) cultivos permanentes

Sin embargo, el valor numérico no indica la precedencia de un tipo de vegetación sobre el

siguiente; por ejemplo, el bosque húmedo no es mayor que el bosque seco.

Escala ordinal

La escala de medición ordinal las variables se miden de acuerdo a su tamaño, valor relativo u

orden natural. Esta escala no permite determinar la magnitud de la desigualdad entre categorías

contiguas. Por ejemplo, las especies forestales de Costa Rica pueden clasificarse de acuerdo a su

densidad de su madera en muy pesadas, pesadas, livianas y muy livianas; sin embargo esta

clasificación no indica cuánto más densa es la madera de la primera clase comparada con la segunda

o la última. Las variables numéricas o cuantitativas puedes expresarse como variable ordinales

utilizando cuantiles, percentiles u otro criterio definido por el usuario(a). Por ejemplo, los valores de

la variable “densidad de la madera” pueden dividirse en 5 categorías utilizando quintiles y de esta

manera saber cuánto más densa o menos densa es una madera de una categoría con respecto a

cualquier otra.

La escala de actitud de Likert es un caso especial de una escala de medición ordinal que con

frecuencia es analizada como una variable cuantitativa. La escala, formada por cinco clases o

categorías, fue diseñada con el fin de que las valoraciones sigan una progresión aritmética como se

muestra a continuación:

15

Cuadro 1: Ejemplos de la escala de actitud de Likert.

Valores de la escala Valores de la escala Valores de la escala

-2 Totalmente en desacuerdo 5 Totalmente en desacuerdo A Totalmente en desacuerdo

-1 En desacuerdo 4 En desacuerdo B En desacuerdo

0 Indiferente, indeciso o neutro 3 Indiferente, indeciso o neutro C Indiferente, indeciso o neutro

1 De acuerdo 2 De acuerdo D De acuerdo

2 Totalmente de acuerdo 1 Totalmente de acuerdo E Totalmente de acuerdo

Observe que a diferencia de las variables numéricas o cuantitativas, en la cual los números tienen

un orden natural, en la escala de Likert los números o letras asignados a cada categoría son solo

códigos y no tienen un orden natural; aunque sí expresan una progresión aritmética; donde se podría

considerar la respuesta “Indiferente, indeciso o neutro” como el “cero” de la escala.

11.2 Nivel de medición de intervalo y razón: Variables cuantitativas

Las variables cuantitativas son aquellas en las que los números representan cantidades de la

característica que se mide. El número de árboles en un bosque, su biomasa, y la producción de

flores y frutos son ejemplos de variables cuantitativas. Estas variables se clasifican a su vez en

continuas y discretas (fig. 7). Una variable es continua cuando la característica que se mide puede

tomar cualquier valor en un ámbito dado. Por ejemplo, la altura de un árbol puede medirse con

tantos decimales como el instrumento utilizado lo permita. Por otra parte, una variable es discreta

cuando la característica que se mide sólo puede tomar valores enteros; como el número de peces en

un estanque o el número de árboles en un vivero. Los métodos estadísticos aplicados a un nivel de

medición de intervalo y razón se denominan "paramétricos".

Figura 7: Concepto de elemento y variable.

16

Escala intervalo y razón o proporción

Las escalas de medición de intervalo y razón se diferencian en que la primera no tiene un cero (0)

verdadero y la segunda sí (cuadro 2). Por ejemplo, variables como temperatura, índices de

inteligencia, latitud y fecha se miden a un nivel de intervalo; en tanto que variables como distancia,

área y volumen se miden a un nivel de razón. Una temperatura de 0oC no significa la ausencia de

temperatura; en tanto que una distancia de 0 m sí indica la ausencia de distancia. El método más

simple para distinguir observaciones entre dichas escalas es aplicar la prueba de razón o proporción

a dos valores cualquiera.

El cociente de una razón para observaciones a un nivel de medición de intervalo no tienen sentido o

explicación lógica. Por ejemplo, una temperatura de 30oC no es dos veces más caliente que una de

15oC, en tanto que un árbol de 30 metros sí es dos veces más alto que uno de 15 metros. En ambos

casos, el cociente es 2 (30/15=2); sin embargo el cero (0) en la escala de grados centígrados es

ficticio o sea un punto arbitrario en tanto que en la escala lineal es verdadero. Cualquier operación

matemática puede utilizarse e interpretarse en observaciones a un nivel de medición de razón. Para

observaciones a un nivel de intervalo sólo tienen sentido la suma, la resta y la multiplicación.

Cuadro 2: Escalas de medición y operaciones matemáticas que las caracterizan.

Escala de medición Operaciones matemáticas permitidas

Razón 1. Equivalencia (=)

2. Desigualdad (<, >)

3. Razón de dos intervalos tiene sentido. (a_b/c_d= e)

4. Razón de dos valores tiene sentido ( a/b= c)

Intervalo 1. Equivalencia (=)

2. Desigualdad (<,>)

3. Razón de dos intervalos tiene sentido. (a_b/c_d =e)

Ordinal o jerárquico 1. Equivalencia (=)

2. Desigualdad (<,>)

Nominal 1. Equivalencia (=)

Variables circulares

Las variables circulares son un tipo especial de las variables cuantitativas que representan ciclos.

En estas variables, el valor más grande y el más pequeño se encuentra uno al lado del otro y el punto

cero es arbitrario. Algunos ejemplos de variables circulares son: hora del día (0-24), meses del año

(enero a diciembre) y la dirección de la brújula (0o-360

o). Si se utiliza solo parte del ciclo, una

variable circular se convierte en una variable lineal. Por ejemplo, cuando usted utiliza la variable

tiempo y la mide como el número días entre dos eventos. Si su variable es realmente circular (e.g.

distancia y dirección de vuelo de las aves), existen pruebas estadísticas diseñadas especialmente para

este tipo de variable1.

1 Ver por ejemplo Matlab http://www.kyb.tuebingen.mpg.de/bs/people/berens/circStat.html y el programa comercial

Oriana http://www.kovcomp.com/oriana/

17

12. Distribuciones de frecuencia

La distribución de frecuencia es una tabla que muestra el número de veces con que ocurren los

diferentes valores u observaciones en una serie estadística. Esta es una de las formas más simples

de organizar y resumir los datos. El uso de datos agrupados ó sin agrupar dependerá, entre otras

cosas, del número de observaciones en la serie, su naturaleza y el objetivo del análisis. El anexo 1

presenta algunos criterios generales para la elaboración de tablas.

12.1 Datos no agrupados

Supongamos que usted tiene un ensayo para observar crecimiento y adaptación de roble en Prusia,

Cartago. Después de varios años de establecida la parcela, se mide el diámetro a la altura del pecho

(d) de cada árbol. Los datos se muestran en el cuadro 3. Al observar los 100 valores es difícil

determinar si existen árboles excesivamente grandes o pequeños; o si sus diámetros son muy

similares. También es difícil afirmar o negar que exista un efecto de borde o que el crecimiento de

los árboles sea el esperado para la zona y la especie. Si analizamos detalladamente los datos

podemos determinar cuáles son los valores extremos (e.g. diámetro mayor y menor), así como alre-

dedor de cuál valor o valores tienden a agruparse. Sin embargo esto es una tarea tediosa que

requiere de mucho tiempo y que además nos brinda muy poca información sobre el crecimiento y

adaptabilidad del roble en el área de estudio.

16,7 31,7 12,0 15,7 17,8 17,6 17,6 18,2 11,0 37,7

28,4 10,9 14,8 17,5 13,2 21,4 10,2 27,4 11,8 11,9

19,5 14,4 18,1 20,7 21,3 19,0 12,6 22,0 18,8 18,4

19,9 15,7 18,0 13,7 16,6 12,5 9,9 9,5 20,6 11,5

17,6 24,7 9,1 16,1 7,2 7,5 19,8 15,2 9,7 22,5

16,0 21,9 13,7 21,5 14,0 20,5 15,5 11,6 21,5 23,9

18,2 6,9 17,0 10,5 14,6 22,8 13,7 22,8 10,6 18,9

15,6 24,2 18,2 10,1 22,4 14,8 14,4 22,7 16,2 19,6

14,8 37,9 23,4 17,5 15,1 17,7 22,3 17,6 16,1 36,5

16,1 22,1 6,8 16,4 13,9 37,0 7,9 29,9 24,1 40,0

Cuadro 3 Diámetro a la altura del pecho (d) en centímetros para 100 árboles de roble, Prusia,

Cartago.

Dada la dificultad encontrada para analizar los datos originales, decidimos organizarlos de tal

forma que se facilite su estudio. Lo más simple y fácil es ordenarlos de acuerdo a la magnitud de

cada observación. La secuencia ordenada (menor a mayor) es: 6,8; 6,9; 7,2;.....; 37,7; 37,9 y se

muestra en el cuadro 4. Una vez ordenados los datos, se puede observar con facilidad la frecuencia

con que cada observación ocurre en la serie; así como el valor mínimo y máximo. Por ejemplo, se

puede apreciar que la mayoría de los árboles tienen un diámetro entre 15,0 y 20,0 cm; que existen

unos pocos árboles con diámetros inferiores a 10,0 cm, así como algunos con diámetros superiores a

30,0 cm y que el valor más frecuente es 17,6 cm (el cual como veremos posteriormente es muy

similar a la media aritmética).

18

De la discusión anterior es evidente que no es posible analizar observaciones en forma individual.

A continuación se muestra cómo reducir el grado de complejidad de la serie estadística utilizando

grupos o clases mutuamente excluyentes.

Cuadro 4: Diámetro a la altura del pecho (d) en centímetros para 100 árboles de de roble ordenados

en forma ascendente. Prusia, Cartago.

6,8 10,2 12,5 14,6 16,0 17,5 18,2 20,5 22,3 24,7

6,9 10,5 12,6 14,8 16,1 17,6 18,2 20,6 22,4 27,4

7,2 10,6 13,2 14,8 16,1 17,6 18,4 20,7 22,5 28,4

7,5 10,9 13,7 14,8 16,1 17,6 18,8 21,3 22,7 29,9

7,9 11,0 13,7 15,1 16,2 17,6 18,9 21,4 22,8 31,7

9,1 11,5 13,7 15,2 16,4 17,7 19,0 21,5 22,8 36,5

9,5 11,6 13,9 15,5 16,6 17,8 19,5 21,5 23,4 37,0

9,7 11,8 14,0 15,6 16,7 18,0 19,6 21,9 23,9 37,7

9,9 11,9 14,4 15,7 17,0 18,1 19,8 22,0 24,1 37,9

10,1 12,0 14,4 15,7 17,5 18,2 19,9 22,1 24,2 40

Mínimo máximo valores más frecuentes

12.2 Datos agrupados: frecuencia absoluta, relativa y acumulada

En la sección anterior se analizó muy brevemente algunos aspectos de la distribución diamétrica de

una plantación de roble en Prusia. Aun cuando sólo contamos con una parcela de 100 árboles se

hizo evidente la dificultad de analizar los valores individuales, así como la necesidad de reducir la

complejidad de la serie estadística. Esto se logra agrupando las observaciones. Al agrupar los

valores se reduce la complejidad de la serie y a la vez se facilita su interpretación. A continuación

aprenderemos cómo elaborar, representar gráficamente e interpretar distribuciones de frecuencia.

Tablas de frecuencia: absoluta, relativa y acumulada

Las tablas de frecuencia son la forma más simple y rápida de agrupar observaciones con el fin de

obtener una visión general del patrón numérico de los datos.

Variables cualitativas: Frecuencia absoluta y relativa

La tabla de frecuencia para variables cualitativas posee un título, clases o intervalos y el número de

veces (frecuencia absoluta: FA) con que las observaciones ocurren en cada clase (Cuadro 5). La

frecuencia relativa (FR) expresa la frecuencia absoluta de cada clase con respecto al total de

observaciones. En series cualitativas las observaciones se agrupan utilizando las instancias de la

característica o atributo de interés (e.g. especies) y sólo es posible calcular la frecuencia (absoluta y

relativa) de cada atributo como se muestra a continuación.

19

Cuadro 5: Tabla de frecuencia para una variable nominal.

Especie FA FR %

Canelo 5 25

Aceituno 3 15

Panamá 6 30

Baco 4 20

Guaba 2 10

total 20 100

Variables cuantitativas discretas: Frecuencia absoluta y relativa

Para variables discretas el número de clases, su amplitud y su punto medio están definidos por los

posibles valores que puede tomar la variable en estudio. Por ejemplo, si queremos saber la frecuen-

cia con que ocurre cada una de las caras de un dado en 200 lanzamientos, debemos agrupar los

resultados utilizando las clases: 1, 2, 3, 4, 5, y 6 como se muestra en el cuadro 6.

Cuadro 6: Tabla de análisis de frecuencia.

Cara del dado F. absoluta F. relativa (%)

1 32 16

2 32 16

3 32 16

4 34 17

5 34 17

6 36 18

Total 200 100

Variables cuantitativas continuas: Frecuencia absoluta, relativa y acumulada

La tabla de frecuencia para variables cuantitativas continuas posee un título, clases o intervalos

(C), un punto medio de clase (PM) y el número de veces (frecuencia absoluta) con que las obser-

vaciones ocurren en cada clase (Ci). Para variables continuas el número y amplitud de las clases

depende de varios factores, tales como: número y variabilidad de las observaciones (grado de

dispersión o aglomeración) y detalle requerido. A continuación se brindan algunos criterios

utilizados para seleccionar el número de clases a utilizar.

CRITERIOS

1. Los intervalos de clase deben ser mutuamente excluyentes y a la vez incluir la totalidad de las

observaciones. Ninguna observación puede pertenecer a más de una clase o no pertenecer a

ninguna.

Clases

Clases

20

2. Los intervalos deben ser continuos a través de la distribución. No deben excluirse aquellos

intervalos con cero observaciones; esto crearía una visión distorsionada de los datos.

3. Se recomienda intervalos de igual amplitud, esto facilita analizar el patrón general de los datos.

4. Los intervalos deben organizarse en orden ascendente, esto facilita su lectura.

5. Es recomendable utilizar un mínimo de 5 y un máximo de 20 clases (C). Un mayor número de

clases permite mayor veracidad en el cálculo de estadísticos para datos agrupados pero a la vez

brinda un menor grado de resumen y dificulta la evaluación de los datos. Cuando el número de

observaciones es reducido o cuando se desee representar la serie en forma gráfica es deseable

reducir el número de clases a utilizar. Usted puede utilizar las siguientes ecuaciones métodos

para definir el número de clases:

Regla de Sturges: C= 1 + 3.322 * log10(n) o C=1+ log2 n. Este método fue propuesto por

Sturges en 1926 y a la fecha es todavía uno de los utilizados para definir el número de clases

de un set de datos. Para set de datos grandes, el método tiende a crear histogramas muy

suavizados y a medida que aumenta C, el histograma aproxima la forma de una distribución

normal. Para sets de datos inferiores a 200 observaciones, el número de clases sugeridos por

esta regla es similar al sugerido por los métodos de Freedman- Diaconis y Scott. Sin

embargo, no se recomienda para muestras de gran tamaño (Hyndman, 1995).

Regla de Scott: C = 1 + [A* (n)1/3

/ 3.49*S], en donde “S” es la desviación estándar del set

de datos y “A” es el rango o ámbito del set de datos. Según Scott (1979), este criterio es útil

para una amplia gama de densidades, considerando las gausianas y no gausianas, lo que

conduce a un gran número de clases diferentes.

Raíz cuadrada del número de observaciones. C = (n) 0.5

. Se utiliza con conteos.

Freedman-Diaconis : C = 2[(IQ) / n−1/3

], en donde “IQ” es rango intercuartil del set de datos.

Numero de clases fijo. Ej. 5, 10, 15, etc.

6. El intervalo o amplitud de clase debe ser conveniente y fácil de utilizar. Valores tales como 2, 5,

10 y 25 facilitan la elaboración y lectura de tablas y gráficos; por otra parte valores tales como 7,

11, 21 y 31 dificultan dicha tarea.

7. Es deseable que el límite inferior de la clase menor sea un múltiplo del intervalo de clase.

8. El intervalo de clase y los límites de clase deben tener el mismo grado de precisión (número de

decimales) que los datos originales.

21

Las limitaciones de las tablas de frecuencia son la pérdida de detalle e información y en cierto

modo el grado de subjetividad al seleccionar el número de clases. Una serie estadística pueda

agruparse bajo diferentes criterios como se ilustra en la figura 8. La pérdida de información se debe

a que la totalidad de las observaciones en cada clase están representadas por un solo valor: el punto

medio de clase. Cuanto mayor sea la amplitud de clase mayor será la generalización y la incerti-

dumbre sobre la ubicación de cada observación en el intervalo. Lo deseable es que las observaciones

se distribuyan en forma uniforme a lo largo del intervalo. Sin embargo una vez agrupados los datos

no es posible saber si su distribución es uniforme o si tienden a concentrarse en algún punto a lo

largo del mismo. Otro aspecto a considerar es que la selección del número de clases y el límite

inferior de la primera clase afectan los límites de la última clase.

Regla de Sturges.

10log10(n).

Regla de Scott.

Regla de Freedman-Diaconis.

Figura 8: Número de clases según los criterios de Stutges, 10log10(n), Scott y Freedman-Diaconis.

Frecuencia absoluta (FAb) y relativa (FR)

Hemos indicado que la frecuencia absoluta (FAb) indica el número de observaciones que

pertenecen a una clase dada. Los valores absolutos pueden fácilmente transformarse en porcentajes o

proporciones; los cuales son usualmente más fáciles de interpretar. La distribución de frecuencia

relativa (FR) se define como la proporción o porcentaje del total de observaciones con que cada

valor o atributo ocurre. La frecuencia en porcentaje se obtiene dividiendo la frecuencia absoluta de

cada clase entre el número total de observaciones y multiplicando el resultado por cien (Cuadro 7).

22

La distribución de frecuencia relativa es muy útil para comparar dos o más distribuciones de

frecuencia, especialmente cuando el número de observaciones es diferente (Cuadro 8). Por ejemplo,

es difícil comparar la distribución diamétrica dos parcelas basados en la frecuencia absoluta; cuando

una de ellas tiene 100 observaciones y la segunda sólo 50. Al transformar la frecuencia absoluta en

frecuencia relativa contamos con una base común, lo que nos permite hacer comparaciones.

Cuadro 7: Tabla de análisis de frecuencia.

Cuando las comparaciones se basen en porcentajes se debe considerar el número total de

observaciones en la serie estadística de lo contrario podemos transmitir una falsa idea al lector. Por

ejemplo, si decimos que 80% de los árboles en el Parque Nacional Carara son aptos que anide la

lapa roja, podríamos transmitir una idea errónea sobre la oferta potencial de nidos si solo existieran

5 árboles.

Cuadro 8: Distribución de frecuencia relativa para diámetro a la altura del pecho (d) en centímetros

para dos parcelas de laurel. Observe que la distribución porcentual es muy similar en ambas

parcelas.

Límite clase

(cm)

Parcela A Parcela B

Frecuencia

Absoluta Relativa % Absoluta Relativa %

5,0 - 9,9 9 9 4 8

10,0 - 14,9 25 25 13 26

15,0 - 19,9 37 37 21 42

20,0 - 24,9 21 21 9 18

25,0 - 29,9 3 3 1 2

30,0 - 34,9 1 1 1 2

Total 100 100 50 100

Frecuencia acumulada (FA)

En algunas ocasiones nos interesa saber qué porcentaje de observaciones son mayores o menores

que un valor dado. Por ejemplo, para los diámetros del cuadro 1 podríamos preguntarnos ¿qué

porcentaje de los árboles tienen un valor mayor o igual a 20cm?; o ¿qué porcentaje tienen un

diámetro menor o igual a 10cm? La distribución de frecuencia acumulada permite responder a estas

1 2 3 4 5 6 7 8 1. Clase

2. Límite inferior de la clase

3. Límite superior de la clase

4. Punto medio de la clase

5. Frecuencia absoluta

6. Frecuencia relativa

7. Frecuencia acumulada absoluta

8. Frecuencia acumulada relativa

23

preguntas. Dicha distribución puede expresarse en términos absolutos o relativos y se define así: la

distribución de frecuencia acumulada es una tabla o gráfico que muestra el número de observaciones

menores que el límite superior real de cada clase (distribución "menor que"). También puede

definirse con respecto al límite real inferior de cada clase, denominándose en este caso distribución

"mayor que". El cuadro 9 presenta la distribución de frecuencia acumulada para los diámetros del

cuadro 1. A continuación se muestra cómo elaborar una distribución de frecuencia acumulada.

1. Agrupe los datos en clases como se indicó en la sección anterior.

2. Calcule las frecuencias acumuladas absoluta y relativa. Acumule el número de casos con

valores menores que el límite superior real de cada clase (distribución menor que). Para

calcular la frecuencia de la distribución mayor que se utiliza el límite inferior real de cada

clase.

Por la naturaleza del cuadro 9 no es posible leer directamente el porcentaje de árboles con un

diámetro superior o inferior a un determinado valor. En la próxima sección observaremos que esto

se logra elaborando una curva de distribución de frecuencia acumulada u ojiva. Como método

alternativo se puede utilizar la interpolación lineal.

Cuadro 9: Distribución de frecuencia acumulada (menor que) para los diámetros del cuadro 1.

No. clase Límite de clase

(LC) (cm)

Límite exacto

(LE) (cm)

Frec. Absoluta

(FAb)

Frec. Acumulada

Absoluta Relativa

(FAA) (FAR)

1 5.0 - 9.9 4.95 - 9.95 9 9 9

2 10.0 - 14.9 9.95 - 14.95 25 34 34

3 15.0 - 19.9 14.95 - 19.95 37 71 71

4 20.0 - 24.9 19.95 - 24.95 21 92 92

5 25.0 - 29.9 24.95 - 29.95 3 95 95

6 30.0 - 34.9 29.95 - 34.95 1 96 96

7 35.0 – 40.0 34.95 - 40.05 4 100 100

13. Gráficos

El principal objetivo de toda gráfica es transmitir con claridad, efectividad, y objetividad una idea.

Existen diferentes tipos de gráficos por cuanto en la presente sección sólo se presentarán aquellas de

uso más frecuente. El anexo 2 presenta algunos criterios generales para la elaboración de gráficos.

13.1 Diagramas de pastel, barras y líneas

El diagrama de "pastel", circular o de sectores se utiliza tanto con variables cualitativas

(frecuencias) como cuantitativas (cantidades) y muestra el tamaño relativo o proporcional de los

24

elementos que conforman la serie de datos (Fig. 9). El gráfico de pastel se elabora dividiendo el área

del círculo en tantos sectores como categorías o características se desee representar. La grafica

muestra solo una serie de datos y por lo tanto si usted desea comparar dos o más series estadísticas

debe utilizar varios pasteles.

Figura 9: Ejemplos de gráficos de pastel. Variable cobertura de bosque (km

2) por región para 1950.

Las barras y líneas se utilizan tanto con variables cualitativas como cuantitativas. Los gráficos de

líneas muestran la tendencia de los datos en el tiempo o entre categorías. En estos gráficos es

recomendable ordenar los valores en forma descendente (mayor a menor) o ascendente (menor a

mayor). Cuando se desee expresar la variabilidad de un fenómeno en tiempo y espacio se pueden

utilizar varias barras o líneas.

La figura 10 presenta un gráfico de barras y la figura 11 un grafico de líneas verticales y

horizontales, respectivamente. Las barras y líneas verticales se utilizan con series de tiempo y

cuantitativas discretas en tanto que las horizontales con series geográficas. Al elegir un tipo

particular de grafico, considere los siguientes aspectos: naturaleza de los datos a graficar, estética,

sencillez y sentido común. Es importante recordar que el objetivo primario de la gráfica es ilustrar y

simplificar la información que se transmite. Si la gráfica no cumple con estos requisitos debe

reelaborarla.

A. Barras simples B. Barras comparativas verticales

25

C. Barras comparativas horizontales D. Barras compuestas en 3D.

Figura 10: Ejemplos de gráficas de barras. Variable cobertura de bosque (km2) por región para 1950,

1961 y 1977.

A. B.

Figura 11: A. Gráfica de líneas verticales, variable descarga mensual (m3/s), río Pacuare. B. Gráfica

de líneas comparativas, variable cobertura de bosque (km2) por región para 1950, 1961 y 1977.

Las ventajas de los diagramas de barras, líneas y "pastel" son: claridad, simplicidad y fácil

interpretación. Entre sus desventajas tenemos que cuando se expresan los datos en porcentaje

pueden brindar una idea distorsionada al lector. Para remediar esta limitación se debe especificar el

tamaño de la muestra y la unidad de los datos originales. Por ejemplo, si se elabora un diagrama de

pastel para ilustrar el método de transporte de desechos sólidos, debemos especificar si nos

referimos a m3, número de contenedores, o número y tipo de medio utilizado (e.g. camión, tren,

barco).

Al utilizar estas gráficas con fines comparativos debe estar consciente de la idea visual que se

comunica al lector y diseñarla de tal forma que no se introduzca una visión sesgada de los datos

como se ilustra en la figura 12. En estas gráficas, la diferencia en el eje “Y” es de tan sólo 1%; sin

embargo la grafica de la izquierda magnifica visualmente la superioridad del grupo A sobre el B.

26

Figura 12: Manipulación de datos utilizando gráficas.

13.2 Histograma y polígono de frecuencia

El histograma en una serie contigua de rectángulos (eje X), cuya base coincide con la amplitud de

la clase que representa y la altura (eje Y) con la frecuencia observada en la clase. La escala vertical

puede ser absoluta o relativa. La grafica ofrece una primera idea de la distribución teórica

subyacente que caracteriza a la serie estadística; así como de la importancia relativa de cada clase

como se ilustra en la figura 13. Las tablas brindan información más detallada que las gráficas; sin

embargo también requieren de un mayor esfuerzo por parte del lector para interpretarlas.

Figura 13: Distribución de frecuencia para los diámetros de roble del cuadro 1. La línea sobrepuesta

corresponde a la distribución normal.

El polígono de frecuencia se elabora graficando el punto medio de cada clase versus su frecuencia

y uniendo cada punto con una recta. La frecuencia de cada clase puede graficarse en términos

absolutos o relativos. La curva de la distribución de frecuencia relativa, como también se denomina

al polígono de frecuencia relativo, es sumamente útil para comparar la distribución de frecuencia de

dos series estadísticas con diferente número de observaciones. La figura 14 muestra la distribución

de frecuencia de 50 árboles de laurel de la misma edad. Al observar la figura puede concluirse que

ambas parcelas muestran una distribución diamétrica similar en cuanto a diámetros mínimos y

máximos y que los árboles con un diámetro entre 14 y 17 cm son más frecuentes en la zona A que

en la B. El análisis gráfico nos permite tener una primera impresión sobre el comportamiento de los

27

datos y a la vez inferir sobre el posible resultado de futuras pruebas estadísticas; por ejemplo: ¿Cree

usted que el crecimiento de los árboles en zona A es mayor que en la zona B?

Figura 14: Distribución de frecuencia para los diámetros de laurel en dos zonas de Costa Rica.

13.3 Curva de frecuencia acumulada (OJIVA)

La curva de frecuencia acumulada u ojiva es la representación gráfica de la distribución de

frecuencia acumulada. La curva se elabora graficando el valor del límite exacto superior (menor

que) o inferior (mayor que) de cada clase versus la frecuencia acumulada correspondiente.

Posteriormente cada punto se une con una recta como se muestra en la figura 15.

La ojiva muestra el porcentaje o número de observaciones superiores al límite real inferior

(distribución mayor que) o menores que el valor del límite real superior (distribución menor que) de

cada clase. La palabra ojiva significa curva en forma de S. La gráfica tendrá una forma de S cuando

los valores tiendan a concentrarse hacia el centro de la distribución.

Figura 15: Distribución de frecuencia acumulada para diámetros de laurel en dos zonas de Costa

Rica.

13.4 Gráfico de percentiles y cuantiles

La gráfica de percentiles y cuantiles proporciona una visión preliminar de la dispersión y de la

tendencia central de los datos. Los percentiles, también conocidos como centiles, dividen la

totalidad de las observaciones en cien partes. Por su parte, los cuantiles se refieren a una fracción o

proporción dada del total de observaciones (Fig.16). Tanto los percentiles como los cuantiles

28

corresponden a una observación en un set de datos ordenados. Por ejemplo, el veinteavo percentil o

el cuantil 0,20 es igual al valor de la observación por debajo del cual se encuentran 20% o 0,20,

respectivamente, de las observaciones.

Figura 16: Gráfica de cuantiles (izquierda) y percentiles (derecha).

La figura 16 permite responder a preguntas tales como: ¿a cuál percentil o cuantil corresponde un

diámetro de 10 cm?; o ¿cuál es el valor del décimo percentil (primer decil)? En el primer caso

estamos interesados en el porcentaje de observaciones que poseen un valor menor o igual a 10 cm;

en tanto que en el segundo caso en el diámetro correspondiente al percentil diez.

Algunos percentiles de uso frecuente son: decil, cuartil, quintil y mediana. Los deciles dividen los

datos ordenados en 10 partes iguales. Por ejemplo, si tenemos 100 observaciones ordenadas según

su magnitud el primer decil será igual al valor de la observación número 10,5; el segundo a la

observación 20,5 y así sucesivamente hasta completar los 10 deciles. Para los datos del cuadro 2 el

valor de cada decil es: 10,2; 12,3; 14,5; 15,9; 17,5; 18,2; 19,9; 22,1; 24,2; 37,9 cm. Los cuartiles

dividen la serie estadística en cuatro partes; en tanto que los quintiles la dividen en cinco partes.

La mediana divide los datos ordenados en dos partes con igual número de observaciones, por lo

tanto es el valor correspondiente a la observación (n+1)/2. Para los datos del cuadro 2 la mediana es

la observación numero 50,5 o sea 17,5 cm. Para datos agrupados, el valor de un cuantil puede

obtenerse ajustando una ecuación polinómica a la curva de frecuencia acumulada como se muestra

en la figura 17 o aplicando la siguiente fórmula:

C(p)=Li+Ic *((Pi * n)-f.acum. inf)/fc)

en donde:

C(p)= cuantil de interés.

Li= límite real inferior de la clase que contiene C(p).

Pi= cuantil expresado como decimal.

n = número de observaciones.

facum. inf= frecuencia acumulada por debajo de la clase que contiene C(p)

fc = frecuencia de la clase que contiene C(p)

29

Figura 17: Estimación de percentiles utilizando una ecuación polinómica de quinto grado. La

ecuación es: Percentil = 0.0049*d5 - 0.0967*d

4 + 0.5231*d

3 - 0.7112*d

2 + 8.3611*d - 5.8 R² =

0.998, donde “d” corresponde al diámetro para el cual se desea calcular el percentil.

Los percentiles pueden utilizarse para elaborar clasificaciones basadas en series cuantitativas

continuas. Por ejemplo, se pueden utilizar quintiles para dividir un registro de precipitación en

períodos muy secos, secos, normales, húmedos y muy húmedos. El mismo principio puede

aplicarse a otras variables tales como diámetro, temperatura y peso. La ventaja del método es que se

basa en la información proporcionada por los datos y a la vez reduce el grado de subjetividad al

elegir el límite de cada clase.

13.5 Grafico de cuartiles (Q-Q)

El grafico de cuartiles (Q-Q) se utiliza para evaluar visualmente el grado de ajuste entre los valores

de un set de observaciones y los de una distribución teórica (e.g. Normal, Chi cuadrado,

Exponencial) cuyos parámetros son estimados a partir de la muestra. La figura 18 muestra la grafica

Q-Q para los valores originales de diámetro del cuadro 1 y los valores transformados (log10). La

recta indica el grado de ajuste entre los datos de diámetro y los valores esperados para una

distribución normal. Observe que solo los valores transformados se ajustan a una distribución

normal.

Figura 18: Grafico de Q-Q para los valores de diámetro (cm) del cuadro 1.

30

13.6 Gráfico de media y barra de error

Este gráfico presenta el valor de la media asociado a alguna medida de dispersión (e.g. rango,

desviación estándar, rango, error estándar). La figura 19 ilustra la ubicación de la media (punto) mas

menos una desviación estándar para dos sets de datos (A y B).

Figura 19: Grafico de media mas menos una desviación estándar ± 1S.

13.7 Gráfico de rectángulos verticales y horizontales (diagrama de Box-Whisker)

El gráfico de rectángulos (o cajas) se utiliza para preparar resúmenes visuales de uno o más grupos

de datos y así facilitar su análisis preliminar o exploratorio (Fig. 20). El diagrama fue creado por

Tukey en los años 70; sus componentes básicos son:

a) Valores extremos (valor mínimo y máximo). Para los datos del cuadro 4 corresponde a los

datos 6,8 cm y 40,0 cm.

b) Primer cuartil (Q25). Valor de la observación 0,25*(N+1) en una serie ordenada. Para los

datos del cuadro 4 corresponde al valor de la observación 0,25*(100+1) = 25,25. El valor de

esta observación debe interpolarse utilizando los valores de las observaciones 25 y 26. Para

el set de datos del cuadro 4 el valor de las observaciones 25 y 26 es el mismo (13,7 cm) y por

lo tanto el valor de Q25 es13.7 cm.

c) Tercer cuartil (Q75). Valor de la observación 0,75*(N+1) en una serie ordenada. Para los

datos del cuadro 4 corresponde al valor de la observación 0,75*(100+1) = 75,75. El valor de

esta observación debe interpolarse utilizando el valor de las observaciones 75 (21,4 cm) y 76

(21,5). El valor es 21,4 + 0,25 * (21,5-21,4)= 21,425 cm.

d) Mediana: (n+1)/2. Para los datos del cuadro 4 corresponde al valor de la observación

(100+1)/2= 50,5. Para este set de datos el valor de la observación 50 y 51 es el mismo (17,5

cm) y por lo tanto el valor de la mediana es17.5 cm.

e)Valores atípicos o extremos

Un valor atípico o extremo en un conjunto de datos es aquel que se encuentra muy lejos de los

otros valores. Los valores extremos pueden ser causados por errores experimentales, de

31

medición, o por observaciones que provienen de una población con una cola larga. En los dos

primeros casos, es aconsejable identificar dichos valores y considerar si deben eliminarse del

set de datos antes de realizar cualquier análisis estadístico ya que muy posiblemente no

representan a la población de cual proviene la muestra. Los valores atípicos pueden

identificarse utilizando el siguiente procedimiento.

1. Calcular el rango intercuartil: RIC= Q75 - Q25 = 21,425 – 13,7 = 7,725 cm.

2. Calcular el Límite inferior interno = Q1 - (1,5* RIC) = 13,7 - 1.5* (7,725) = -2,11 cm

3. Calcular el límite superior interno = Q3 + (1,5* RIC) = 21,425 + 1.5 (7,725) = 33,01 cm

4. Calcular el límite inferior externo = Q1 - (3* RIC) = 13,7 – 3* (7,725) = -9,47 cm

5. Límite el límite superior externo = Q3 + (3* RIC) = 21,425 + 3* (7,725) =36,87 cm

Una ver calculados los valores anteriores se aplica el siguiente criterio:

Clasificación Criterio

Valor atípico leve Valor de la observación es menor que el límite inferior interno (-2,11 cm)

o mayor que el límite superior externo (33,01 cm).

Valor atípico severo Valor de la observación es menor que el límite inferior externo (-9,47 cm)

o mayor que el límite superior externo (36,87 cm).

Para los datos de diámetro del cuadro 1, las observaciones con valores de 37,0 cm, 37,7 cm, 37,9

cm y 40 cm son consideradas como muy extremas para el set de datos y se grafican con asteriscos en

la figura 20. No todos los programas estadísticos utilizan la misma fórmula para definir un valor

extremo, por lo tanto se recomienda indicar la fórmula utilizada para su cálculo. Los valores atípicos

deben investigarse cuidadosamente antes de eliminarlos; pues a menudo contienen información

valiosa sobre el proceso en investigación o sobre el método de recolección de datos. Antes de

considerar su eliminación, se debe tratar de entender por qué aparecieron y si es probable que

valores similares aparezcan nuevamente.

Figura 20: Gráficos de Box-and-Whisher. Los círculos rojos muestran los valores extremos.

32

13.8 Diagrama de tallo hoja

El diagrama de tallo-hoja puede considerarse como un híbrido entre una tabla y una figura. La

gráfica, al igual que una tabla, muestra la totalidad de las observaciones; sin embargo su apariencia

es muy similar a la de un histograma (Fig. 21). Las características del diagrama son:

1. Presenta la totalidad de las observaciones. Esto lo hace muy similar a un cuadro, ofreciendo al

lector la posibilidad de inspeccionar cada una de las observaciones.

2. La información se presenta de una forma más compacta. Esto es evidente si comparamos el

número de dígitos del cuadro 1 (291) con el número de dígitos de la figura 17 (160); la figura

requiere sólo el 55% del número de dígitos del cuadro.

3. La gráfica brinda información visual sobre la dispersión y forma de la distribución. Si

observamos la figura 21 y el cuadro 1 es evidente que podemos obtener más información y

en menor tiempo del diagrama de tallo-hoja que del cuadro. Por ejemplo, la figura muestra

claramente que la mayoría de los árboles tienen un diámetro entre 15 y 19 cm.; que existen 4

árboles con diámetros iguales o superiores a 36.5 cm. considerados como “valores extremos”

y que prácticamente no existen árboles en el ámbito 25-35 cm. Por otra parte, la figura

también nos permite visualizar el grado de simetría de los datos.

Figura 21: Gráfico de tallo-hoja para 100 diámetros de pino. Prusia, Cartago, Costa Rica.

13.9 Gráfico de probabilidad normal

Este gráfico muestra en el eje X la probabilidad (bajo el supuesto de normalidad) de que una

observación sea mayor/menor que un valor dado del eje Y (Fig. 22) y se utiliza con frecuencia para

probar por la normalidad de un set de datos cuantitativos. Si los datos son normales se ajustarán a

una recta. Observe que en la figura 22 el diámetro no sigue una distribución normal sin embargo el

logaritmo del diámetro si es normal.

S t e m - a n d - L e a f D i s p l a y f o r d : u n i t = 1 . 0 1 | 2 r e p r e s e n t s 1 2 . 0

9 0 | 6 6 7 7 7 9 9 9 9

3 5 1 | 0 0 0 0 0 1 1 1 1 1 2 2 2 3 3 3 3 3 4 4 4 4 4 4 4 4

( 3 6 ) 1 | 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 9 9 9 9 9

2 9 2 | 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 4 4 4

8 2 | 7 8 9

5 3 | 1

H I | 3 6 . 5 3 7 . 0 3 7 . 7 3 7 . 9

33

Figura 22: Graficas de probabilidad normal.

13.10 Diagrama de dispersión

Este gráfico muestra la relación entre las variables X y Y de un set de datos y por lo tanto permite

visualizar la correlación o asociación entre dos variables cuantitativas (Fig. 23).

Figura 23: Diagrama de dispersión. Las líneas verticales muestran el intervalo de confianza (95%)

para el set de datos dividido en cinco grupos. Observe el aumento en la variabilidad de los datos al

aumentar el tamaño de los árboles.

13.11 Grafico de medias móviles

El grafico de medias móviles es apropiado para representar la tendencia de una serie estadística

temporal (Fig. 24). Por ejemplo, si usted tiene 100 registros cronológicos los puede graficar

utilizando medias móviles para periodos de 5, 10, 15 años o cualquier periodo para el cual tenga

sentido el análisis.

34

Figura 24: Grafico de media móvil de cinco años. Variable descarga mensual (m

3/s), río Pacuare.

13.12 Grafico de densidad

Este grafico muestra la posición de cada observación del set de datos y por lo tanto ofrece una

visión general de los mismos similar a la del diagrama tallo-hoja como se ilustra en la figura 25.

Figura 25: Grafico de densidad de puntos para los valores de diámetro (cm) del cuadro 1.

13.13 Gráfico de radar

Esta gráfica se utiliza para comparar el comportamiento de tres o más variables en el tiempo. Las

unidades deben ser las mismas (Ej. porcentaje, ha, metros, etc.) como se ilustra en la figura 26.

Eventos especiales o particulares

35

Figura 26: Grafico de radar.

13.14 Pictogramas

El pictograma es un medio gráfico que se utiliza cuando se desea comparar magnitudes de la

variable en estudio en tiempo o espacio (Fig. 27). El uso de pictogramas es frecuente en economía,

demografía y otras áreas de las ciencias sociales; aunque también puede usarse en diversos campos

de las ciencias naturales. El elemento central de la gráfica es un objeto que identifica el tema en

estudio. Por ejemplo, para expresar cambios en el número de toneladas de camarón capturadas por

año, se puede elaborar una grafica utilizando camarones, en la cual cada uno representa 5 toneladas.

Figura 27: Pictograma.

Los pictogramas, al igual que otros medios para presentar datos, pueden utilizarse incorrectamente.

Debemos recordar que el pictograma muestra magnitudes y que por lo tanto un aumento o una

disminución en la variable debe representarse por más o menos objetos y no por un cambio en el

tamaño del objeto. En los pictogramas el lector es influenciado por el área del objeto y no por sus

dimensiones lineales (altura y longitud).

14. Exactitud y precisión

No existe ninguna medida perfecta y por lo tanto, todas las mediciones contienen algún grado de

error, los cuales se agrupan en dos grandes categorías: el sesgo o error sistemático que puede

1980 1985 1990

36

modelarse utilizando una ecuación que describe las mediciones, lo que permite eliminar o reducir

significativamente su efecto y el ruido o error aleatorio, el cual no se puede modelar, pero cuyas

propiedades estadísticas se pueden utilizar para optimizar los resultados del análisis.

Exactitud: mide el grado de fidelidad o proximidad de la medición con respecto al valor real de la

variable. El error o sesgo es igual a valor real-valor medido. Para determinar el error en una

medición es necesario conocer el valor real de la variable medida (Fig. 28).

Precisión: es una medición de la similitud entre mediciones repetidas de una variable. Para variables

con una distribución normal, la varianza se utiliza para cuantificar la variación del set de datos con

respecto a la media (Fig. 28).

Figura 28: Conceptos de exactitud y precisión. Observe que una medición puede tener una alta

precisión y un bajo sesgo o error; sin embargo también puede tener una alta precisión y un alto

sesgo o error. Lo deseable es una alta precisión y un error mínimo.

15. El proceso de investigación

Existen muchas definiciones del término investigación; sin embargo en el contexto del presente

documento la definiremos como el camino o ruta que usted sigue para responder a sus preguntas o

someter a prueba sus hipótesis. En el proceso de investigación se pueden reconocer los siguientes

elementos (Fig. 28):

A. Mundo real: La realidad que se estudia.

B. Preguntas. ¿Por qué y para qué hacemos la investigación? ¿Cuáles son las preguntas que

deseamos responder? La formulación de sus preguntas-hipótesis deben estar sustentadas en

estudios previos (revisión del estado del conocimiento en su tema de investigación).

C. Poblaciones/muestras/variables: Transformación del mundo real en entes estadísticos que

puedan ser medidos y analizados.

D. Medición: Proceso e instrumentos utilizados para recabar datos del objeto/ente de interés.

E. Análisis de datos: Métodos y procedimientos utilizados para transformar los datos en

información; incluye el someter a prueba hipótesis (diseño experimental vs Observacional).

37

F. Conclusión: Respuesta del investigador(a) a las preguntas planteadas en su estudio.

Involucra una decisión/valoración personal de los resultados de su estudio en el contexto de

lo conocido y aceptado en la temática que investiga.

G. Recomendaciones: Reformulación de preguntas o hipótesis.

H. Aplicación: Acción sobre el mundo real.

I. Monitoreo: Medir y analizar respuesta del “mundo real” a las acciones emprendidas.

Figura 29: El proceso de investigación.

Estadística e investigación

La estadística es solo una herramienta que permite analizar datos, sin embargo las preguntas

fundamentales que tratamos de responder deben nacer de nuestro conocimiento del tema en

estudio. Al enfrentar un tema de investigación (nuevo o conocido) debe hacer un esfuerzo por

lograr una sinergia entre lo que ya conoce y los retos o preguntas que podría hacerse a la luz del

tema bajo investigación. El investigador(a) en el campo de ambiente y recursos naturales se

enfrenta a preguntas muy disímiles y a veces ambiguas; con frecuencia estudiamos procesos o

interacciones que no entendemos o sobre los cuales no existe suficiente información previa. Dado

que no existe una “receta” infalible sobre cómo abordar un tema de investigación, se recomienda

utilizar el siguiente esquema:

1. Documéntese lo mejor que pueda sobre el tema en estudio

Esta es la función que cumple la revisión de literatura y la consulta a expertos y a colegas. El

producto final de esta fase debe ser un conocimiento actualizado de lo que estudia. Responda a

las siguientes preguntas: ¿Qué se sabe sobre el tema de estudio? ¿Cuál ha sido la

aproximación metodológica utilizada? ¿Qué instrumentos se han utilizado para recabar los

datos? ¿Qué tipo de diseño estadístico se ha utilizado? ¿Cuál ha sido es el costo de un estudio

como el que usted desea realizar?

38

2. Utilice su conocimiento no estadístico

Al plantear un pregunta y analizar datos no sobre enfatice el papel que debe jugar la estadística

y los métodos de análisis estadístico. Recuerde que la estadística sólo le indica si A es

diferente de B, pero el explicar porqué es diferente es la tarea del investigador(a).

3. Defina sus objetivos con claridad

Si usted no sabe cuál es la pregunta que desea responder, no existe ningún método estadístico

que pueda ayudarle a resolver esta parte del proceso de investigación. El objetivo del estudio

marca el rumbo de la investigación y por tanto debe esbozarse con claridad antes de iniciar el

proceso de diseño. Una forma sencilla de fijar el objetivo es responder a la pregunta ¿cuál es la

interrogante fundamental que se desea resolver? ¿Cuál es su hipótesis nula? ¿Cuál es su

hipótesis alternativa? ¿Cuáles pruebas estadísticas utilizará para someter a prueba su

hipótesis? ¿Cuál es su valor de alfa (error tipo I)?

4. Aprende de la interacción entre la teoría y la practica (experimentos)

La estadística es el arte de tomar decisiones ante situaciones de incertidumbre y con escasos

datos. Por esta razón el estadístico debe ser a la vez practicante de lo que predica. No es

suficiente con dominar todos los posibles diseños y métodos de análisis si no se conoce del

tema que se estudia. Por otro lado, tampoco es suficiente con conocer la “realidad” para

diseñar y ejecutar buenos experimentos/estudios. La sinergia teoría-práctica es esencial para

hacer buena ciencia.

5. Defina las variables que desea medir

Clasifíquelas como independientes (tratamientos) y dependientes (respuesta). De ser posible

indique el nivel de respuesta medio esperado por tratamiento y su variabilidad. Esto puede

hacerse basado en estudios previos. También debe clasificar las variables según su escala de

medición; esto le facilitará decidir cuál prueba estadística debe aplicar a los resultados.

¿Cumplen las variables con los requisitos de sus métodos de análisis? ¿Le permitirán dichas

variables responder a los objetivos de su estudio?

6. Costo del estudio

Estime el costo de obtener una observación para cada variable del experimento. Por ejemplo,

dinero necesario para determinar el % de germinación de un lote de 100 semillas.

7. Esquema del estudio

Haga un esquema de su diseño experimental (aunque sea general) y defina su hipótesis nula y

alternativa. En caso de analizar la interacción entre variables cuantitativas ¿qué tipo de

relación espera obtener? Prepare una tabla que muestre los resultados esperados de su estudio.

16. Algunos conceptos y terminología

Un concepto (del latín “conceptus”) es una abstracción mental de una realidad, un objeto o ente

que se expresa mediante palabras-símbolos y que en sí mismo es una unidad cognitiva de

significado dado. Los conceptos le permiten a los seres humanos comunicarse entre sí y a la vez

39

comprender su interacción como parte de su entorno (e.g. social, ambiental, lógico, ético). Sin

pretender ser exhaustivo, a continuación listo algunos conceptos y términos utilizados con

frecuencia en proyectos de investigación.

Métodos de razonamiento lógico

Los métodos de razonamiento lógico son: deducción, inducción y abducción (Burch, 2010, Markie

2008, Pereboom 2009). Al enfrentarse al reto de proponer y ejecutar su proyecto de investigación

usted utilizará estos tres conceptos en diferentes momentos y con diferentes propósitos, pero

siempre para sustentar sus conclusiones y argumentos.

Deducción: A partir del todo (población) se deriva una afirmación que aplica a una condición

particular (muestra). La conclusión « q » se sustenta en la premisa « p ».

Ejemplo: Todos los cursos de agua de Tortuguero son caños (Población) (Premisa)

Este curso de agua es de Tortuguero.

Deducción: El curso de agua es un caño (Conclusión).

Inducción: A partir de una porción de la realidad (muestras) se hace una afirmación sobre el todo

(población). Sustentada en la comprobación empírica (experimental) de una hipótesis. La inducción

crea una regla (hipotética) a partir de varios casos (se va de los “singular” a lo "universal").

Ejemplo: Muestrea 1: Este curso de agua de Tortuguero es un caño.

Muestrea 2: Este curso de agua de Tortuguero es un caño.

Muestrea n: Este curso de agua de Tortuguero es un caño.

Inducción: Todos los cursos de agua de Tortuguero son caños (Población).

La inducción al igual que la abducción requiere de una validación empírica (experimental); sin

embargo a pesar de estas validaciones siempre existe la posibilidad (incertidumbre) de que exista

una excepción.

Abducción: Según el filósofo Charles Sanders Peirce (1839-1914) la abducción consiste «en

examinar una masa de hechos y en permitir que esos hechos sugieran una teoría» (Barrena y Nubiola

2007, Burch 2010). Este método de razonamiento lógico está sustentado en hechos, a partir de los

cuales se plantea una hipótesis novedosa para explicarlos haciendo uso de la intuición y combinando

la lógica con el instinto de una manera creativa. El método consiste en explicar « q » mediante « p »

considerando a “p” como la hipótesis explicativa. Para Pierce, la investigación científica incluye los

siguientes pasos (Barrena y Nubiola, op.cit.):

1. Experiencia sensorial: se observan los fenómenos y, examinándolos cuidadosamente, se

propone una conjetura-hipótesis creativa como una explicación plausible (Fase abductiva).

2. Fase deductiva. A partir de la hipótesis se infieren, a través de un análisis lógico, una serie

de predicciones sujetas a prueba mediante métodos empíricos (experimentos).

40

3. Fase inductiva. Las predicciones sustentadas en la hipótesis son sometidas a prueba

empíricamente. Según Pierce esta fase permite saber «si la hipótesis es lógicamente correcta,

o si requiere alguna modificación no esencial, o si bien debe ser rechazada por completo»

(Barrena y Nubiola, op. cit.). Si el resultado de las pruebas experimentales no permiten

probar la hipótesis, las mismas pueden utilizarse para formular nuevas hipótesis.

Ejemplo:

Regla: Todas las corrientes de agua en Punta Castilla-río San Juan son “caños”

Caso: Estos cuerpos de agua son caños de Punta Castilla-río San Juan.

Abducción: Este caño procede de las corrientes de agua de Punta Castilla-río San Juan.

En la deducción la conclusión se obtiene de la premisa: dada la Regla y el Caso, el resultado hace

explícito algo ya implícito en las premisas ("va de lo universal a lo singular"). Pierce justifica el uso

del razonamiento abductivo sustentado en las veces que acierta gracias a la sintonía que existe entre

la mente del investigador(a) y la naturaleza, gracias a un instinto o luz natural que le permite al ser

humano inferir la respuesta adecuada. Esta afirmación de Pierce refleja su visión religiosa sobre la

existencia de Dios, la creación y el ser humano (somos parte de un todo interconectado).

Una suposición respaldada por datos (observaciones) es una hipótesis en tanto que si no está

respaldada por datos se denomina una conjetura.

La navaja de Ockham (Occam u Ockam), principio de economía o principio de parsimonia

Este es un principio filosófico que se le atribuye al monje franciscano y filósofo Guillermo de

Ockham (1280-1349), el cual indica que (http://enciclopedia.us.es/index.php/Navaja_de_Ockham):

“Cuando dos teorías en igualdad de condiciones tienen las mismas consecuencias, la teoría más

simple tiene más probabilidades de ser correcta que la compleja”.

En lenguaje cotidiano esto puede entenderse como “las cosas esenciales no se deben multiplicar

sin necesidad” y en el contexto de una investigación esto implica no multiplicar las causas o

hipótesis que explican los resultados obtenidos. Cuanto más sencillas y menos sean las premisas

utilizadas para explicar sus resultados más creíble será su argumento; ya que depende de un menor

número de suposiciones.

¿Cuál es la teoría más simple? Ockham respondió a esta pregunta indicando que “cuando dos teorías

tienen las mismas consecuencias, debe preferirse la teoría que postule la menor cantidad de tipos de

entidades (cualquier cosa material o no material que exista)” o sea, no debemos multiplicar las

entidades innecesariamente. Otra manera de medir la simplicidad, sin embargo, podría ser por el

número de axiomas2 de la teoría.

2 Un axioma es una regla o una declaración de que se acepta como verdad sin pruebas. Un axioma también se conoce

como un postulado (http://www.icoachmath.com/math_dictionary/axiom.html).

41

La implicación práctica de esta afirmación es que la simplicidad frente a la complejidad con

frecuencia conduce a la credibilidad y a mejores resultados. Sin embargo, al realizar una

investigación este principio no se utiliza como una afirmación lógica irrefutable sino más bien como

una regla para guiar el proceso de toma de decisiones. El mismo principio de Ockham establece que

"la explicación más simple y suficiente es la más probable, mas no necesariamente la verdadera".

Anti-navajas de Ockham

Algunos científicos y filósofos (e.g. Leibniz 1646–1716; Immanuel Kant 1724–1804, Albert

Einstein 1879-1955; Carl Menger 1840-1921) han considera “La Navaja de Ockham” como

demasiado extrema o imprudente. Ante su oposición a “La Navaja de Ockham”, el filósofo Walter

of Chatton aportó su propia anti-navaja; la cual indica que:

“Si tres cosas no son suficientes para verificar una proposición afirmativa sobre las cosas, una

cuarta debe ser añadida, y así sucesivamente”.

Por ejemplo, Leibniz sustentado en el “Principio de plenitud” afirmó que “Todo lo que sea posible

que ocurra, ocurrirá”.

Por su parte, Albert Einstein afirmó que: “A duras penas se puede negar que el objetivo supremo

de toda teoría es convertir a los elementos básicos en simples y tan pocos como sea posible, pero sin

tener que rendirse a la adecuada representación de un sólo dato de la experiencia. Simple, pero no

más simple”. (Einstein, 1934)

En resumen, la investigación es siempre más compleja que lo que parece en primera instancia y

solo la experiencia, los buenos hábitos de trabajo y la exploración de todas las posibles soluciones

pueden ayudarle a discernir la respuesta correcta.

17. Algunos conceptos y definiciones estadísticas3

Población, muestra y variables

En el análisis de datos con frecuencia se utilizan las palabras “variable independiente” y “variable

dependiente”; sin embargo en diferentes disciplinas dichos términos pueden tener diferentes

acepciones como se muestra a continuación:

Variable independiente, variable explicativa, variable control, variable manipulada, variable

predictiva, regresor, variable de exposición, insumo.

Variable dependiente, variable respuesta, variable medida, variable observada, variable

explicada, variable resultado, variable experimental, producto.

3 http://wiki.stat.ucla.edu/socr/index.php/EBook, http://writing.colostate.edu/guides/research/glossary/,

http://statistics.berkeley.edu/~stark/SticiGui/Text/index.htm, http://www.people.vcu.edu/~pdattalo/StatTextLinks3.htm y

http://www.statsoft.com/textbook/

42

• Variable "independiente" responde a la pregunta "¿Qué puedo cambiar?"

• Variable "dependiente" responde a la pregunta "¿Qué observo?

• Variable de control responde a la pregunta "¿Qué mantengo constante?"

• Variables externas responden a la pregunta "¿Cuáles variables no consideradas en el análisis

pueden modificar/explicar el efecto de la variable “independiente” en la variable dependiente?

Dado que la mayoría de las variables presentan algún grado de correlación es preferible utilizar los

términos variable respuesta y variable explicativa.

Población: Es el total o universo al cual se desea aplicar la inferencia o conclusión del estudio.

Muestra: Es una parte o porción de la realidad bajo estudio.

Aleatorización: Asignación aleatoria de los tratamientos a los sujetos o unidades experimentales.

Esto elimina cualquier sesgo conocido o desconocido en la asignación de los tratamientos.

Consistencia: Un método de análisis estadístico es consistente cuando la significancia de la prueba

depende exclusivamente de: 1) la diferencia entre los dos estimadores, 2) el error estándar de las

diferencias, 3) el número de grados de libertad del error, y 4) el nivel de significancia al cual se hace

la prueba.

Credibilidad: Capacidad/habilidad de un investigador(a) para demostrar que identificó con claridad

y exactitud las variables claves para su tema de estudiado.

Cuasi o seudo experimento: Estudio en el cual se utilizan los principios propuestos por Fisher para

el diseño de experimentos; sin embargo, por diversas razones prácticas, no es posible asignar los

tratamientos en forma aleatoria. Este tipo de estudios es común en el área de ecología y en general

en estudios de tipo observacional.

Error experimental: Variación natural o innata del material experimental no controlado por el

investigador(a). Este no es un error adrede o derivado de la aplicación errónea de técnicas de

medición sino simplemente un componente propio del material experimental. Es la variabilidad que

no puede ser explicada por los datos obtenidos en el estudio o experimento.

Medición: Proceso de asignar un valor numérico ó no numérico a un fenómeno, proceso u objeto.

Observación: Es la medición realizada en una unidad experimental u objeto.

Repetición: Réplica estadísticamente independiente de un tratamiento. Cuando el tratamiento es

aplicado a varias unidades experimentales independientes; cada aplicación brinda una estimación

43

independiente de la respuesta del sujeto experimental al tratamiento. Cuantas más réplicas se tenga

mejor será la estimación del error experimental. En la mayoría de los casos se recomienda un

mínimo de tres observaciones independientes por tratamiento.

La seudo replicación es el resultado de muestrear dos o más veces la misma condición (muestras

no independientes). Por ejemplo, al evaluar la densidad de peces en dos ríos; uno contaminado y

otro no, si se muestrean 5 sitios al azar en cada uno de ellos, dichas muestras no representan réplicas

ya que se está muestreando el mismo río. En el sentido estadístico para que se consideren réplicas

debería de elegirse al azar dos o más ríos por condición (contaminado-no contaminado) y luego

obtener muestras independientes de cada uno de ellos. Esto permitiría estimar la variabilidad natural

de cada uno de los sistemas acuáticos en los cuales viven los peces que se muestrean. Aun cuando el

análisis de los datos presupone la existencia de réplicas independientes, en la mayoría de los

estudios en el área de recursos naturales no es posible cumplir con este supuesto.

Significancia estadística: Esta es una regla que permite afirmar que la diferencia observada entre

dos o más tratamientos es el resultado del efecto del tratamiento y no del azar. Con frecuencia se

declaran como significativas aquellas diferencias que tienen una probabilidad inferior a 0.05 (o sea

5%) de ocurrir en forma aleatoria. En algunos textos de estadística se recomienda utilizar un

asterisco (*) para designar las diferencias significativas a un 5% (P<0.05), dos asteriscos (**) para

designar diferencias significativas al 1% (P<0.01) y tres asteriscos (***) para designar diferencias

significativas al 0.1% (P<0.001). Sin embargo, dado que los paquetes estadísticos le brindan el valor

de “p” se recomienda reportar dicho valor acompañado del tamaño de muestra (e.g. p=0.002;n=100).

Triangulación: El uso de una combinación de métodos de investigación en un estudio. Un ejemplo

de triangulación sería un estudio que incorpora las encuestas, entrevistas y observaciones.

Unidad experimental: Individuo, objeto, grupo o conjunto de sujetos experimentales a los cuales se

les aplica un determinado tratamiento. Por ejemplo, la unidad experimental puede ser una parcela en

una plantación, un grupo de semillas, un persona a la cual se entrevista, un árbol que se mide, etc.

En algunos textos se le denomina a la unidad experimental “caso”.

Validez: Indica el grado en que un estudio refleja con exactitud o evalúa el concepto específico que

el investigador(a) está tratando de medir. Un método puede ser fiable, consistente al medir la misma

cosa, pero no válido.

Validez interna: Expresa el rigor con que se llevó a cabo el estudio (e.g. diseño, toma de datos y

decisiones relativas a lo que fue y no fue medido) así como el análisis de otras posibles

explicaciones para cualquier relación causal que exploren.

Validez externa: Extensión y forma en que los resultados de un experimento pueden ser

generalizados (para cuáles condiciones, sujetos, poblaciones y lugares son válidas las conclusiones).

44

Verosimilutud: Tener la apariencia de verdad; en la investigación, se refiere a la probabilidad de

que los resultados del estudio sean consistentes con las manifestaciones observadas en el "mundo

real".

18. Sugerencias para analizar datos

1. Liste la variable(s) a analizar y su respectivo nivel de medición (nominal, ordinal, intervalo,

razón).

2. ¿Cuál es el historial y contexto de los datos (origen, métodos de colecta, instrumentos

utilizados, temporalidad, limitaciones)?

3. ¿Para qué realiza usted el análisis del set de datos? ¿Qué desea resaltar del set de datos?

4. Describa el producto esperado o solicitado (e.g. descripción del set de datos, prueba de una

hipótesis, comparación de datos, ajustar un modelo).

5. Seleccione el software a utilizar (e.g. Instat, XLSTatistics, PASS) y realice un análisis

exploratorio de datos.

a. Análisis gráfico

b. Elaboración de tablas

c. Estadísticos descriptivos

6. Busque valores atípicos o extremos que podrían indicar errores en la digitación de los datos y

distribuciones asimétricas o inusuales. ¿Concuerda la distribución de los datos con lo que

usted esperaba?

7. Estadística inferencial. Selecciones las pruebas estadísticas a realizar, defina el valor de

significancia a utilizar en las pruebas estadísticas.

8. Conclusiones

9. Retroalimentación

19. Conceptos generales

Análisis (Beaney 2009)

Un Análisis en sentido amplio es la descomposición de un todo en partes para poder estudiar

su estructura y/o sistemas operativos y/o funciones (http://es.wiktionary.org/wiki/).

La acción y el efecto de separar un todo en los elementos que lo componen con el objeto de

estudiar su naturaleza, función o significado (http://es.wiktionary.org/wiki/).

La acción y el efecto de identificar, distinguir y clasificar los diferentes aspectos que integran

un tema de estudio, examinando qué relaciones guardan entre ellos y cómo quedaría

modificado el conjunto si se eliminara o se añadiera algún aspecto a los previamente

identificados (http://es.wiktionary.org/wiki/).

Documento que revisa, separa o hace un resumen de los elementos o principios de un tema o

de una obra (http://es.wiktionary.org/wiki/).

Distinción y separación de las partes de un todo hasta llegar a conocer sus principios o

elementos (http://www.rae.es/rae.html).

45

Ciencia

Conocimiento estructurado y sistemático de las cosas por sus principios y causas; conjunto

de conocimientos que constituyen una rama del saber humano

(http://es.wiktionary.org/wiki/). E.g. ciencias políticas, naturales, sociales.

Conjunto de conocimientos obtenidos mediante la observación y el razonamiento,

sistemáticamente estructurados y de los que se deducen principios y leyes generales

(http://www.rae.es/rae.html).

Conocer

Saber de la existencia de una cosa (http://es.wiktionary.org/wiki/).

Averiguar por el ejercicio de las facultades intelectuales la naturaleza, cualidades y

relaciones de las cosas (http://www.rae.es/rae.html).

Conocimiento

Resultado de la acción de conocer. Comprensión, entendimiento, inteligencia, razón

(http://es.wiktionary.org/wiki/).

Acción y efecto de conocer; entendimiento, inteligencia, razón natural.

(http://www.rae.es/rae.html).

Esquema sobre el conocimiento desde el punto de vista de las ciencias de la información, cómo se

genera y cómo se aplica. Fuente: http://es.wikipedia.org/wiki/Saber.

Convicción

Acto o efecto de estar seguro sobre algo (http://es.wiktionary.org/wiki/).

Una convicción es una creencia de la que un cierto individuo opina que dispone de suficiente

evidencia para considerarla cierta. La diferencia entre una simple creencia y una convicción,

es que en el primer caso el individuo puede no tener evidencia suficiente para justificar su

veracidad, mientras que en el segundo el individuo la considera probada, con independencia

de que exista evidencia científica o intersubjetiva incontrovertible de que dicha convicción es

verdadera (http://es.wikipedia.org/wiki/Saber).

Idea religiosa, ética o política a la que se está fuertemente adherido

(http://www.rae.es/rae.html).

46

Creencia

Algo en lo que se cree, confianza en que algo existe o que es cierto.

(http://es.wiktionary.org/wiki/).

Una creencia es una proposición o conjunto de ellas, que un cierto individuo considera

ciertas, pero para la que en general no existe evidencia intersubjetiva suficiente para

considerarla conocimiento propiamente dicho. Una creencia puede ser acertada o equivocada.

Sin embargo el uso cotidiano, al oponer "creencia" y "conocimiento", la primera se usa

frecuentemente como proposiciones que alguien considera ciertas, pero de las que existe

evidencia de estar equivocadas o ser indemostrables (http://es.wikipedia.org/wiki/Saber).

Firme asentimiento y conformidad con algo; completo crédito que se presta a un hecho o

noticia como seguros o ciertos; religión, doctrina (http://www.rae.es/rae.html).

Criterio

Norma para conocer la verdad (http://www.rae.es/rae.html).

Juicio o discernimiento (http://www.rae.es/rae.html).

Ejemplo: Estándares de Sostenibilidad para el manejo de bosques naturales: Principios, Criterios

e Indicadores. Decreto Ejecutivo No 34559-MINAE, en la Gaceta No115 del 16 de junio del

2008 http://www.sirefor.go.cr/Documentos/Normativa/PCI_MFS_2009.pdf

Evaluar

Señalar el valor de algo (http://www.rae.es/rae.html).

Estimar, apreciar, calcular el valor de algo (http://www.rae.es/rae.html).

Estimar los conocimientos, aptitudes y rendimiento de los alumnos

(http://www.rae.es/rae.html).

Evaluación

Valoración de los conocimientos que se da sobre una persona o situación basándose en una

evidencia constatable y creible (http://es.wiktionary.org/wiki/).

Evidencia

Certeza clara y manifiesta de la que no se puede dudar (http://www.rae.es/rae.html).

Prueba determinante en un proceso (http://www.rae.es/rae.html).

Instrumento

Objeto o aparato, normalmente artificial, que se emplea para facilitar o posibilitar un trabajo,

ampliando las capacidades naturales del cuerpo humano. Sinónimos: herramienta, utensilio

(http://es.wiktionary.org/wiki/).

Aquello que sirve de medio para hacer algo o conseguir un fin; conjunto de diversas piezas

combinadas adecuadamente para que sirva con determinado objeto en el ejercicio de las artes

y oficios (http://www.rae.es/).

47

Información

Comunicación o adquisición de conocimientos que permiten ampliar o precisar los que ya se

poseen sobre una materia determinada (http://www.rae.es/rae.html).

Conocimientos así comunicados o adquiridos (http://www.rae.es/).

La información es un fenómeno que proporciona significado o sentido a las cosas. En sentido

general, la información es un conjunto organizado de datos procesados, que constituyen un mensaje

sobre un determinado ente o fenómeno. Los datos se perciben, se integran y analizan para generar la

información necesaria para producir el conocimiento que es lo que finalmente permite tomar

decisiones. La sabiduría consiste en determinar correctamente cuándo, cómo, dónde y con qué

objetivo emplear el conocimiento adquirido (http://es.wikipedia.org/wiki/Informaci%C3%B3n).

Fuente: http://es.wikipedia.org/wiki/Dato

Ejemplo:

Dato: Usted realiza un inventario en plantaciones de laurel en zona norte: para cada árbol mide su

diámetro, altura total y estado fitosanitario.

Información: Al procesar los datos observa que el 90% de los árboles con diámetros superiores a 20

cm están muriendo.

Conocimiento: Usted toma conciencia de que se enfrenta a un problema con las plantaciones de

laurel en su área de estudio.

Sabiduría: No recomendar nuevas plantaciones en la zona norte y plantear una investigación para

explicar lo observado.

Herramienta

Objeto o aparato, normalmente artificial, que se emplea para facilitar o posibilitar un trabajo,

ampliando las capacidades naturales del cuerpo humano. Sinónimos: instrumento, utensilio

(http://es.wiktionary.org/wiki/).

Principales características de la información

Significado (semántica)

Importancia (relativa al receptor)

Vigencia (en la dimensión espacio-tiempo)

Validez (relativa al emisor)

Valor (activo intangible volátil)

Polimorfismo

48

Instrumento, por lo común de hierro o acero, con que trabajan los artesanos

(http://www.rae.es/rae.html). En la actualidad también aplica a los instrumentos utilizados en

el laboratorio y el campo.

Método

Procedimiento, técnica o manera de hacer algo, en especial si se hace siguiendo un plan o de

forma sistemática, ordenada y lógica. (http://es.wiktionary.org/wiki/).

Lista ordenada de partes o pasos (avance logrado para la consecución de una tarea.) para

lograr un fin (http://es.wiktionary.org/wiki/).

Procedimientos y técnicas característicos de una disciplina o rama del saber

(http://es.wiktionary.org/wiki/).

Procedimiento que se sigue en las ciencias para hallar la verdad y enseñarla

(http://www.rae.es/rae.html).

Opinión:

Dictamen o juicio que se forma de algo cuestionable; fama o concepto que se tiene de

alguien o algo (http://www.rae.es/rae.html).

Estado de creencia común que tiene una colectividad respecto a determinado asunto. Su

validez lógica como verdad no se fundamenta en el grado de conocimiento sino en la

participación como miembro del grupo social (http://es.wikipedia.org/wiki/).

Percepción

La percepción es la función psíquica que permite al organismo, a través de los sentidos,

recibir, elaborar e interpretar la información proveniente de su entorno

(http://es.wikipedia.org/wiki/Percepci%C3%B3n).

Acción y efecto de percibir (http://www.rae.es/rae.html).

Sensación interior que resulta de una impresión material hecha en nuestros sentidos.

(http://www.rae.es/rae.html).

Conocimiento, idea (http://www.rae.es/rae.html).

Procedimiento

Un procedimiento es el modo de ejecutar determinadas acciones que suelen realizarse de la

misma forma, con una serie común de pasos claramente definidos, que permiten ejecutar un

trabajo correctamente. (http://es.wiktionary.org/wiki/).

Método de ejecutar alguna cosa (http://www.rae.es/rae.html).

Ejemplo: Manual de procedimientos para el aprovechamiento maderable en terrenos de usos

agropecuarios, sin bosque y situaciones especiales en Costa Rica.

http://www.sirefor.go.cr/Documentos/Manual_Aprovechamiento_Maderable_terrenos.pdf

49

Saber

Conjunto de conocimientos, adquiridos mediante el estudio o la experiencia, sobre alguna

materia, ciencia o arte. Sinónimo: sabiduría, erudición (http://es.wiktionary.org/wiki/).

Conocer algo, o tener noticia o conocimiento de ello (http://www.rae.es/rae.html).

Sabiduría

Conocimiento de las ciencias y artes (http://es.wiktionary.org/wiki/).

Prudencia en la forma de actuar (http://es.wiktionary.org/wiki/).

Grado más alto del conocimiento; conducta prudente en la vida o en los negocios;

conocimiento profundo en ciencias, letras o artes (http://www.rae.es/rae.html).

Técnica

Conjunto de habilidades requeridos para aplicar determinados conocimientos

(http://es.wiktionary.org/wiki/).

Conjunto de procedimientos y recursos de que se sirve una ciencia o un arte.

(http://www.rae.es/rae.html).

Teoría

Conocimiento especulativo considerado con independencia de toda aplicación

(http://www.rae.es/rae.html).

Serie de las leyes que sirven para relacionar determinado orden de fenómenos

(http://www.rae.es/rae.html).

Hipótesis cuyas consecuencias se aplican a toda una ciencia o a parte muy importante de

ella (http://www.rae.es/rae.html).

Una teoría es un sistema lógico compuesto de observaciones, axiomas, postulados y reglas de

inferencia que permiten explicar un conjunto de datos e incluso hacer predicciones sobre los hechos

que serán observables bajo ciertas condiciones. Las teorías además permiten ser ampliadas a partir

de sus propias predicciones, e incluso ser corregidas, mediante ciertas reglas o razonamientos,

siendo capaces de explicar otros posibles hechos diferentes de los hechos de partida de la teoría

(http://es.wikipedia.org/wiki/).

Algunos ejemplos de teorías son:

Biología: Teoría de la evolución, teoría de la selección natural

Psicología: Teoría psicoanalítica

Química: Teoría atómica

Comunicación: Teoría crítica | Teoría hipodérmica | Teoría funcionalista

Física: Teoría cuántica de campos | Teoría de cuerdas | Teoría de la relatividad

Geografía: Teoría de los lugares centrales

Geología: Deriva continental | Tectónica de placas

Matemáticas: Teoría del Caos

50

20. Fuentes o referencias: búsqueda, clasificación y análisis

Toda afirmación en un informe o en una publicación debe sustentarse en una fuente. Las fuentes

(e.g. libros, artículos, comunicaciones personales, bases de datos, geodatos) son la materia prima

que le permiten al investigador(a) formular su marco teórico, sustentar sus opiniones, seleccionar y

diseñar su metodología y poner en contexto el resultado de su investigación.

La veracidad, objetividad, credibilidad, fiabilidad y validez de las fuentes son aspectos esenciales

para diseñar y ejecutar un proyecto de investigación con un alto impacto académico y social. Al

analizar sus fuentes considere los siguientes criterios y variables:

El Autor

¿Quién escribió el documento? ¿Especialista o generalista?

¿Tiene el autor autoridad en el tema?

¿Está el autor afiliado a una institución/empresa/organización reconocida?

Temporalidad

¿Fecha de publicación del estudio?

¿Fecha de colecta-análisis de los datos utilizados en el estudio?

Imparcialidad

¿Obtiene el autor/organización algún beneficio con la publicación?

¿Cuál es la posición del autor sobre el tema?

Relevancia

¿Qué le aporta la publicación a su investigación? (e.g. datos, metodología, teoría).

¿Es la publicación relevante en el contexto de su tema de investigación? (e.g. aspecto central o

evidencia periférica).

¿Es una publicación sustenta en datos originales ó en otros fuentes? (Primaria, segundaria, terciaria).

¿Es lo publicado (conclusiones, datos, métodos) verificable con otras fuentes contemporáneas?

Tipo de publicación

La norma ISO 3297-Versión española (Revista española de Documentación Científica 2008)

reconoce como publicación a:

Los recursos continuos (“publicación, en cualquier medio, que se publica a lo largo del

tiempo sin una conclusión predeterminada”),

A las publicación seriadas (“recurso continuado publicado en partes sucesivas, generalmente

con una designación numérica, que no tiene finalización predeterminada”), y

A los recursos integrados (“recurso continuado que es incrementado o cambiado por medio

de actualizaciones que no permanecen separadas y que se integran en el conjunto”).

Algunos ejemplos de publicaciones seriadas son: periódicos, publicaciones anuales (e.g. informes,

anuarios, directorios), revistas, colecciones (series de monografías), memorias y actas de sociedades.

Observe que esta definición no considera de manera explícita la revisión de pares del material que se

publica.

51

Literatura gris: Tradicionalmente, este término se ha utilizado para designar publicaciones con una

distribución restringida y que generalmente no cuentan con una revisión de pares (no son editados)

ni con un número internacional normalizado (e.g ISSN-International Standard Serial Number,

Número Internacional Normalizado de Publicaciones Seriadas ó ISBN International Standard Book

Number, Número Estándar Internacional de Libro). Algunos ejemplos son informes

técnicos/investigación, tesis de posgrado, algunas publicaciones oficiales de ONGs, centros de

investigación y entes privados y gubernamentales y publicaciones en algunas conferencias y

simposios. Sin embargo con la llegada de nuevas tecnologías en la era de la información (e.g.

Internet, redes sociales, la nube) el término ha sido ampliado a “documentación o información gris”

y se considera como una forma de literatura no convencional aunque de amplia distribución. Si

usted está interesado en conocer más sobre el tema puede leer la siguiente publicación:

Biello David. Shades of "Gray Literature": How Much IPCC Reform Is Needed? Scientific

American Newsletter. August 30, 2010 24. Visitado 1 mayp 2012. Disponible en

http://www.scientificamerican.com/article.cfm?id=international-science-panel-recommends-ipcc-

reforms

Corlett, R. T. 2011. Trouble with the Gray Literature. Biotropica, Vol. 43:3–5.

Lacanilao, Flor. 1997. Continuing problems with gray literatura. Environmental Biology of Fishes.

Vol. 49 (1):1-5. http://dx.doi.org/10.1023/A:1007365518667

Publicaciones especializadas: Aun cuando la literatura-documentación gris es un texto publicado;

en el mundo de la academia se denomina publicación a aquellos escritos que cuentan con un consejo

editorial, que han sido revisados por pares y que además han sido publicados en una revista

reconocida por la comunidad científica a la cual pertenece el autor/editor. Si usted desea conocer

más sobre el proceso y las dificultades que involucra el proceso de revisión de artículos por pares le

recomiendo leer:

Gad Perry, Bertoluci Jaime, Bury Bruce, Hansen Robert W., Jehle Robert, Measey John, Moon Brad

R., Muths Erin, Zuffi Marco A. L. 2012. African Journal of Herpetology Vol. 61 (1):1-2.

Ghazoul, J. 2011. Reviewing Peer Review. Biotropica, 43, 1-2. Disponible en

http://www.ecology.ethz.ch/publications/publications/2011/Ghazoul_2011_Biotropica.pdf. Visitado

20 mayo 2012.

Griffiths, P. and Baveye P. C. 2010. Peer review-Beyond the call of duty? Int. J. Nurs. Stud., DOI:

DOI: 10.1016/j.ijnurstu.2009.12.013. Visitado 15-02-2011.

http://download.journals.elsevierhealth.com/pdfs/journals/0020-7489/PIIS0020748909004052.pdf

52

Lutz Bornmann, Hanna Herich, Hanna Joos, Hans-Dieter Daniel. 2012. In public peer review of

submitted manuscripts, how do reviewer comments differ from comments written by interested

members of the scientific community? A content analysis of comments written for Atmospheric

Chemistry and Physics. Scientometrics. 1-15. Url: http://dx.doi.org/10.1007/s11192-012-0731-8.

Xuan Liu, Hui Fang. 2012. Peer review and over-competitive research funding fostering mainstream

opinion to monopoly. Part II. Scientometrics. Vol. 90(2): 607-616.

Url:http://dx.doi.org/10.1007/s11192-011-0526-3

Tipo de fuentes

Una fuente es cualquier recurso que usted utilice en su investigación (e.g. un libro, un artículo, una

bitácora (blog), una entrevista, un video) y por tanto existen diferentes criterios para clasificarlos. La

lista que presento a continuación se basa en las normas ISO 690 y 690-2 así como las normas IICA-

CATIE:

Documentos (Impresos, digitales)

Literatura-documentación gris

Publicaciones

Redes sociales

Correo electrónico

Audiovisuales

Videos

Grabaciones, historia oral

Presentaciones digitales (e.g. power point)

Comunicaciones personales

Bases de datos

Geoespaciales

Organismos

Socioeconómicas

Programas de cómputo

Software libre

Software privativo

Normas y estándares

ISO

Nacionales

53

Legislación

Municipal

Institucional

Nacional

Internacional

Antes de realizar una búsqueda de fuentes, usted debe contar con una lista de palabras claves

estrechamente relacionadas con su tema o área de investigación. Si todavía no ha seleccionado su

tema de investigación, usted puede utilizar los objetivos, el perfil profesional y ocupacional de la

maestría para extraer conceptos y palabra claves.

21. Bases de datos de organismos

Species 2000 http://www.species2000.org/ Este sitio contiene 1.3 millones de especies

de 95 bases de datos.

TROPICOS® http://www.tropicos.org/ TROPICOS® incluye más

de 1,2 millones de nombres científicos de plantas y 3,9 millones de

registros de especies (plantas).

TROPICOS® Flora mesoamericana.

http://www.tropicos.org/NameSearch.aspx?projectid=3&langid=66

The International Plant Names Index (IPNI) http://www.ipni.org/ Base de datos de

nombres y referencias bibliográficas de plantas con semilla, helechos y similares.

“Bird Life International”. http://www.birdlife.org/ ONG de conservación en la

temática de aves, sus hábitats y diversidad global.

BIRDNET http://www.nmnh.si.edu/BIRDNET/ Tema ornitología.

“Index to Organism Names (ION)” http://www.organismnames.com/query.htm Registros de

organismos de la base de datos “Zoological Record®” de Thomson Reuters.

http://www.fishbase.org/ Base de datos sobre peces. 31.900 especies, 291.100

nombres comunes, 900 imágenes y 44.900 referencias.

“INHS Insect (and related groups) Collection Database” Base de datos sobre

insectos y grupos relacionados http://ctap.inhs.uiuc.edu/Insect/search_inhs.asp

54

Amphibian Species of the World 5.5, an Online Reference.

http://research.amnh.org/vz/herpetology/amphibia/index.php

“Amphibiaweb” http://amphibiaweb.org/ Datos e información sobre anfibios a nivel

mundial.

“Global Biodiversity Information Facility (GNIF)” http://www.gbif.org/ Base de datos

sobre biodiversidad.

“The IUCN Red List of Threatened Species” http://www.iucnredlist.org/. Lista de especies

amenazadas de UICN.

“Darwin Core” http://www.tdwg.org/activities/darwincore/ El “Darwin Core” está diseñado para

facilitar el intercambio de datos sobre la distribución geográfica de registros de organismos y su

relación con los especímenes que existen en las colecciones.

Ejemplo: uso de base de datos de organismos

La especie Osa pulchra (Rubiaceae) fue declarada como endémica

de Osa en 1979. Sin embargo en 1996 otra población de la especie

fue reportada cerca de Puerto Viejo, Limón, vertiente Caribe de

Costa Rica y por tanto su estatus cambió a endémica del Caribe

Sur y Osa (http://www.mobot.org/mobot/plantmap/Osa.html) y en

el 2007 fue reportada en Bocas del Toro Panamá (Aiello y

Galdames 2007) y por lo tanto la especie ya no es endémica de Costa Rica. Este ejemplo ilustra la

importancia de verificar el estatus de una especie antes de citar una fuente segundaria. Otro aspecto

importante es utilizar una fuente pertinente, confiable y actualizada. Por ejemplo, si usted visita

http://toptropicals.com/catalog/uid/Osa_pulchra.htm observará que la especie se cita con endémica

de Costa Rica; lo mismo ocurre con la página de la lista de plantas endémicas o amenazadas de Osa

de Tuva.org (http://www.tuva.org/osa/eer/endem.html).

22. Sugerencias para escribir y revisar sus informes

Responda a las siguientes preguntas:

1. ¿Cuál es el propósito del documento? (e.g. informe, artículo, tesis, resumen).

2. ¿A quién va dirigido el documento? (audiencia).

3. ¿Qué reacción espera lograr en la audiencia?

55

4. Prepare un índice general o tabla de contenido; procure listar cada sección y subdivisión a incluir

en el documento final. Incluya una breve descripción del contenido de cada sección/subsección.

Evalué este bosquejo con su asesor/tutor. Asegúrese de que todo el material está directamente

relacionado el tema central de su proyecto de investigación. Es más productivo tomar estas

decisiones muy temprano en el proceso de ejecución de su proyecto que después de haber invertido

mucho tiempo y recursos en escribir texto innecesario.

Nota: No existe un criterio único y estricto en cuanto a qué es necesario, qué es deseable y qué es

innecesario. Las reuniones con su tutor son fundamentales para clarificar estos aspectos de su

proyecto.

Al escribir su documento evite frases que reflejen su opinión personal pero que no tienen sustento

en la literatura ó en sus datos. Ejemplo: “La deforestación en Costa Rica es el principal problema

ecológico que enfrenta la sociedad costarricense” ó “el consumo de agua es excesivo en la ciudad

de….”. Recuerde toda afirmación debe sustentarse en estudios previos ó en sus datos.

Es recomendable diseñar una estrategia de difusión y divulgación de los resultados de su proyecto

de investigación utilizando diversos formatos y dirigido a diferentes audiencias. La meta final de su

investigación debe ser enriquecer la cultura y comprensión de la realidad por parte de la sociedad

costarricense e internacional.

Proceso de autorevisión

1. Lea el documento en su totalidad antes de iniciar las correcciones. Revise las grandes secciones

de su documento (Enfoque, organización, índice).

2. ¿Responde el documento/informe a lo solicitado?

3. Deje reposar el documento por algún tiempo previo a su revisión. Por ejemplo, escriba el texto

hoy y revíselo el día siguiente. Seleccione el mejor momento para realizar la revisión del

documento.

4. Imprima su documento. Léalo en voz alta y marque las secciones que deben reescribirse (e.g.

oraciones largas y confusas). Utilice una hoja blanca para cubrir las líneas de texto que no está

leyendo. Esto le ayudará a focalizar su atención en la oración que lee.

5. Busque párrafos o secciones del documento con los cuales usted se siente

satisfecho(a)/insatisfecho(a). Anote qué hace falta. Marque el texto que puede eliminarse o

reubicarse en otra sección del documento.

6. ¿Contiene el documento ideas claves o importantes para el(a) lector(a)?

7. ¿Los aspectos centrales a comunicar son claros y concisos?

56

8. ¿La organización del documento es eficiente (e.g. no es repetitivo)?

9. ¿Son los argumentos convincentes y están bien documentados?

10. ¿Son sus referencias actuales y las utiliza de manera apropiada? ¿Cuál es la fuente de sus

referencias? Por ejemplo, libro de texto, informes internos, artículos en revistas, periódicos,

entrevistas. ¿Son validos para sustentar sus argumentos?. ¿Utiliza referencias segundarias o

terciarias? Por ejemplo Juan dice que Pedro dijo.....

11¿Cómo puede mejorarse el documento? Asígnele tiempo a las mejoras (i.e. no más de 1 semana).

Recuerde que su tiempo es un recurso valioso y muy limitado.

12. Trate de buscar errores frecuentes. Por ejemplo, oraciones largas, subordinadas, confusas, dos o

más ideas. Oraciones inconclusas. Afirmaciones sin referencias. Palabras repetidas. Párrafos muy

largos (e.g. Cinco o más líneas).

13. Utilice su procesador de texto para revisar la ortografía (e.g. tildes; paréntesis y comillas

impares; referencias ausentes, concordancia en tiempo y género). Recuerde que el software no es

infalible.

14. Configure su procesador de texto para evitar "viudas" y "huérfanos" en el documento.

15. Utilice un formato y estilo consistente a lo largo del documento.

Forma

Sangrías, márgenes, tamaño de gráficos y tablas.

Ortografía: En caso de duda consulte el diccionario en línea de la Real Academia Española

http://www.rae.es/rae.html

Reglas ortográficas

http://www.rae.es/rae/gestores/gespub000015.nsf/(voanexos)/arch7E8694F9D6446133C125716400

39A189/$FILE/Ortografia.pdf.

23. Estadística: software gratuito

Si usted desea explorar programas estadísticos gratuitos, le recomiendo visitar los siguientes sitios.

BioEstat. Análisis estadístico para Windows y Mac. Estadística descriptiva e inferencial paramétrica

y no paramétrica, análisis de poder. Interfaz en español. Manual en Portugués.

http://www.mamiraua.org.br/downloads/programas.

57

Instat Análisis estadístico para Windows. Estadística descriptiva e inferencial paramétrica y no

paramétrica. Modulo para aplicaciones climáticas. http://www.reading.ac.uk/ssc/n/software.htm.

LazStats Análisis estadístico para Windows. Estadística descriptiva e inferencial paramétrica y no

paramétrica. http://www.statprograms4u.com/LazStats_Features.htm.

Diversity. Complemento para Excel que permite calcular índices de diversidad. Una buena

referencia introductoria al tema es el libro “Measuring Biological Diversity” de Anne E. Magurran

(2003) publicado por Blackwell Science.

http://www.reading.ac.uk/ssc/n/software/diversity/Diversity.html

SSC-Stat. Complemento para análisis estadístico con Excel.

http://www.reading.ac.uk/ssc/n/n_sscstat.htm

MacAnova Análisis estadístico para Mac, Windows y Linux. Estadística descriptiva e inferencial

paramétrica y no paramétrica, análisis de poder.

http://www.stat.umn.edu/macanova/macanova.home.html.

Mstat Windows Mac OSX Linux Análisis estadístico para Windows, Mac y Linux. Estadística

descriptiva e inferencial paramétrica y no paramétrica. http://www.mcardle.wisc.edu/mstat/#win

OpenEpi Software especializado en el análisis de datos epidemiológicos. Estadística descriptiva e

inferencial paramétrica y no paramétrica http://www.openepi.com/Menu/OpenEpiMenu.htm

OpenSTat Análisis estadístico para Windows. Estadística descriptiva e inferencial paramétrica y no

paramétrica. http://www.statprograms4u.com

PAST Análisis estadístico univariado, multivariado, índices de diversidad. Estadística descriptiva e

inferencial paramétrica y no paramétrica. WXP, Vista y W7. http://folk.uio.no/ohammer/past/

PSPP. Este es un programa para el análisis estadístico, su funcionalidad es similar al programa

comercial SPSS http://www.gnu.org/software/pspp/

Remuestreo Sofware para análisis estimación y pruebas de hipótesis utilizando remuestreo.

http://www.uvm.edu/~dhowell/StatPages/Resampling/Resampling.html

The R Project for Statistical Computing. Gran variedad de análisis, muy poderoso pero requiere de

usuarios experimentados. Opera en base a comandos. http://www.r-project.org/

WinIDAMS. Este es paquete de software para la validación, tratamiento y análisis estadístico de

datos desarrollado por la Secretaría de la UNESCO en cooperación con expertos de varios países.

http://portal.unesco.org/ci/en/ev.php-url_id=2070&url_do=do_topic&url_section=201.html

58

24. Bibliografía

Aiello, A., M. Correa and C. Galdames. 2007. Remarkable new plant record for Panama. STRI

News2007:4. Disponible en http://striweb.si.edu/strinews/PDFs/August_31_2007.pdf. Visitado 24

mayo 2012.

Baker, Alan, "Simplicity", en The Stanford Encyclopedia of Philosophy (Spring 2010 Edition),

Edward N. Zalta (ed.). Visitado 16-02-2011. En

http://plato.stanford.edu/archives/spr2010/entries/simplicity/.

Barrena, S. y Nubiola, J. 2007. Charles Sanders Peirce, en Fernández Labastida, F. – Mercado, J. A.

(editores), Philosophica: Enciclopedia filosófica on line. Visitado 19-02-2011. En

http://www.philosophica.info/archivo/2007/voces/peirce/Peirce.html

Beaney, Michael. Analysis, en The Stanford Encyclopedia of Philosophy (Summer 2009 Edition),

Edward N. Zalta (ed.). Visitado 19-02-2011. En

http://plato.stanford.edu/archives/sum2009/entries/analysis/.

Beniger, J. R. and Pobyn, D. L. 1978. Quantitative graphics in statisics: a brief history. The

American Statistician 32(1): 1-11.

Bryan F.J. Manly. Randomization, Bootstrap and Monte Carlo Methods in Biology, Third Edition.

Chapman and Hall/CRC. 388p. 2006.

Bryan F.J. Manly. Statistics for Environmental Science and Management, Second Edition. Chapman

& Hall/CRC. 292p. 2008.

Burch, Robert. Charles Sanders Peirce, en The Stanford Encyclopedia of Philosophy (Fall 2010

Edition), Edward N. Zalta (ed.). Visitado 19-02-2011. En

http://plato.stanford.edu/archives/fall2010/entries/peirce/

Cleveland, W.S. and McGill R. 1983. A color-caused optical illusions on statistical graphs. The

American Statistician 37(2): 101-105.

Cleveland, W. S. 1984. Graphs in scientific publications. The American Statistician 38(4): 261-269.

Cleveland, W. S. 1984. Graphical methods for data presentation: full scale breaks, dot charts, and

multibased logging. The American Statistician 38(4): 270-280.

Cleveland, W.S. and McGill, R. 1984. The many faces of a scatterplot. Jour. of the American

Statistical Association 79(388): 807-822.

59

Cox Nicholas J. 2004.Stata. Circular statistics in Stata, revisited. Users’ Meeting London June 2004

4p. Visitado en 23 mayo 2012. Disponible en http://www.stata.com/meeting/10uk/cox.pdf

Dinov, Ivo D. 2006. Statistics Online Computational Resource. Journal of Statistical Software 16

(1): 1–16. Visitado en 23 mayo 2012. Disponible en http://www.jstatsoft.org/v16/i11/paper.

Doane, D.P. 1976. Aesthetic frequency classifications. The American Statistician 30(4):181-183.

Elwert Felix y Winship Christopher. 2002. Commentary: Population versus individual level causal

effects. Int. J. Epidemiol.31 (2): 432-434. Visitado en 23 mayo 2012. Disponible en

http://ije.oxfordjournals.org/content/31/2/432.full.pdf+html

Freni-Titulaer, L.W. and Louv, W.C. 1984. Comparison of some graphical methods for exploratory

multivariate analysis. The American Statistician 38(3): 184-188.

Ghazoul, J. 2011. Reviewing Peer Review. Biotropica, 43: 1–2. Visitado en 23 mayo 2012.

Disponible en http://onlinelibrary.wiley.com/doi/10.1111/j.1744-7429.2010.00737.x/pdf

Hyndman R.J. 1995. The problem with Sturges’ rule for constructing histograms. Visitado en 23

mayo 2012. Disponible en http://robjhyndman.com/papers/sturges.pdf

Leland Wilkinson. 1999. Dot Plots.The American Statistician. Vol.53(3), 276-28. Visitado en 23

mayo 2012. Disponible en http://www.cs.uic.edu/~wilkinson/Publications/dots.pdf

Manly, B. F.J. 1992. The design and analysis of research studies. Cambridge University Press. Great

Britain. 353p.

Manly, B. F.J. 1991. Randomization and Monte Carlo Methods in Biology. Chapman and Hall.

London. 281p.

Maritz J. S. y Jarrett R. G. 1983. The Use of Statistics to Examine the Association Between Fluoride

in Drinking Water and Cancer Death Rates Journal of the Royal Statistical Society. Series C

(Applied Statistics) Vol. 32, No. 2 (1983), pp. 97-101.

Markie, Peter. Rationalism vs. Empiricism, en The Stanford Encyclopedia of Philosophy (Fall 2008

Edition), Edward N. Zalta (ed.). Visitado en 23 mayo 2012. Disponible en

http://plato.stanford.edu/archives/fall2008/entries/rationalism-empiricism

McDonald, J.H. 2009. Handbook of Biological Statistics (2nd ed.). Sparky House Publishing,

Maryland. Last revised August 18, 2009. Visitado en 23 mayo 2012. Disponible en

http://udel.edu/~mcdonald/statintro.html

60

McGill, R.; Tukey, J.W.; and Larsen, W.A. 1978. Variations of the box plots. The American

Statistician 32(1): 12-16.

Oldham P. D. y Newell, D. J. 1977. Flouridation of water supplies and cancer- a possible

association? Applied Statistics 26: 125-135.

Opinion. 2011. Too much or too little skepticism. Significance. Volume 8, Issue 1: 35.

Pereboom, Derk. Kant's Transcendental Arguments, en The Stanford Encyclopedia of Philosophy

(Winter 2009 Edition), Edward N. Zalta (ed.). Visitado 19-02-2011. En

http://plato.stanford.edu/archives/win2009/entries/kant-transcendental

Piantadosi, et al. 1988. The ecological fallacy. American Journal of Epidemiology. 127:893-904

Pérez, S. y Protti, F. 1978. Comportamiento del sector forestal durante el período 1950-1977.

Oficina de Planificación Sectorial Agropecuaria. Doc-OPSA 15. San José. 59p.

Research Methods Knowledge Base. 2006. Introduction to Validity. Visitado 19-02-2011. En

http://www.socialresearchmethods.net/kb/introval.php.

Scott, D. W. 1979. On optimal and data-based histograms. Biometrika. Vol. 66 (3): 605–610.

Scott David W. Scott's rule. WIREs Comp Stat 2010, 2: 497-502.

Sturges, H.A. 1926. The choice of a class interval. Journal of the American Statistical Association,

21, 65-66.

Sylvander, R.B. 1978. Los bosques del país y su distribución por provincias. Dirección General

Forestal-Organización de las Naciones Unidas para la Agricultura y la Alimentación. Documento de

trabajo No.15. San José. 64p.

Kish Leslie. Survey Sampling. Wiley.1995. 640p. New York, USA.

Sharon L. Lohr. Sampling: design and analysis, 2nd edition, 2009. 608 p. Duxbury Press.

Yiamouyiannis J. y Burk D. 1977. Flouridation and caner: age-dependence and cancer mortality

related to artificial flouridation. Fluoride 10:102-125.

61

24. Ejercicios

1. Brinde dos ejemplos de casos de confusión en su área de trabajo/estudio.

2. Comente ¿cómo la estadística le puede ser útil en su ambiente de trabajo?

3. ¿Qué es más importante un buen diseño estadístico o un análisis correcto de los datos? ¿Qué se

logra en cada caso?

4. Seleccione dos artículos de una revista científica en su área de interés y clasifíquelos utilizando el

esquema propuesto en la figura 5.

5. Defina o explique los siguientes términos:

a) distribución de frecuencia

h) frecuencia acumulada

b) intervalo de clase

i) histograma, diagrama de barra

c) valores agrupados

d) recorrido

e) diagrama circular

f) frecuencia absoluta y relativa

g) polígono de frecuencia

h) límite de clase, límite real de clase

i) ojiva

j) diagrama de tallo-hoja

k) pictograma

l) gráfica de rectángulos verticales

6. Clasifique las siguientes variables en cuantitativas (continuas/discretas) y cualitativas:

Calidad de la madera, humedad relativa, temperatura, velocidad del viento, volumen, diámetro,

pH, visibilidad, densidad de la madera, distancia, elevación, área, peso, tamaño, longitud, grado

de enrizamiento en estacas, color de las hojas.

7. ¿Cuáles son las posibles críticas que pueden hacerse a las siguientes clases?

A)

5-10

15-20

20-25

35-40

45-50

B)

34-38

30-35

24-31

17-24

5-10

D)

1-3

4-6

7-9

C)

6-8

40-12

12-14

19-20

62

8. Para los siguientes valores mínimos y máximos calcule lo siguiente: a) recorrido, b) intervalo de

clase, c) límites de clase para la primera y última clase d) límites reales.

A) 36-62 B) 27-101 C) 56-109 D) 187-821 E) 6,3-31,9 F) 1,27-6,47 G) 0,01-0,001

9. Obtenga los deciles, cuartiles y quintiles para los datos de diámetro (cm) y altura (m) del archivo

d_h_jaul.xlsx.

10. Para los datos del archivo d_h_jaul.xlsx elabore:

Una distribución de frecuencia utilizando una amplitud de clase de 10 cm. ¿Existe alguna

ventaja/desventaja en utilizar un menor/mayor número de clases? Explique.

Un histograma, una ojiva, un polígono de frecuencia y un diagrama de rectángulos.

Comente cada gráfico.

Una distribución de frecuencia acumulada absoluta y relativa. ¿Qué porcentaje de los

árboles tienen una altura superior a 10 metros? ¿Qué porcentaje menor que 15 metros? ¿A

cuál valor de diámetro corresponde el 50% de los datos?

¿Provienen las observaciones de diámetro (cm) y altura (m) de una distribución normal?

11. Para los datos del archivo peso_seco.xlsx elabore:

Una distribución de frecuencia; justifique el número de clases seleccionado.

Calcule frecuencia relativa y relativa acumulada (menor que).

Elabore un histograma, una ojiva, un polígono de frecuencia y un diagrama de rectángulos.

Comente cada gráfico.

¿Provienen las observaciones de una distribución normal?

12. ¿Cuáles son las diferencias entre un histograma y un diagrama de barras? Explique bajo cuáles

circunstancias utilizaría usted los siguientes gráficos: diagrama circular, diagrama de barras,

histograma, gráfico de rectángulos verticales y horizontales.

13. Setenta y dos plántulas de jaul fueron sometidas a dos métodos de inoculación (A y B). La

distribución de altura total por tratamiento al cabo de 7 meses se muestra en el archivo

frec_trat_a_b_altura cm.xlsx.

¿Cómo podría compararse la efectividad de cada tratamiento? ¿Cuál tratamiento parece ser el

más efectivo? Justifique su respuesta.

14. ¿Considera usted que las siguientes muestras provienen de una población infinita? ¿Por qué?

a. El salario de diez profesores de la UNED.

b. El diámetro normal (d) de 50 árboles de pochote de un bosque de 10 hectáreas en Cañas,

Guanacaste.

c. La altura total de 1000 árboles de la zona Norte de Costa Rica.

d. Una muestra de 10 tablas de laurel obtenidas de un depósito de madera en Heredia.

e. Una muestra de 150 semillas de un lote de 10.000 semillas de laurel.

63

15. ¿Consideraría usted las siguientes muestras como aleatorias? ¿Por qué?

a. Respuesta de los televidentes al discurso de un político.

b. Volumen de 100 árboles seleccionados en el borde del bosque o en lugares de fácil acceso.

c. Valor resultante de lanzar un dado.

d. Número de visitantes del Parque Nacional Poás en un día del año.

16. El archivo bolivia_pejibaye.xlsx contiene valores de precipitación (mm) y descarga anual (mm)

para la cuenca del río Pejibaye, Pacífico Sur. Represente los datos en forma gráfica. Utilice al

menos dos tipos de gráficos y seleccione aquél que mejor se ajuste a los datos. Justifique breve-

mente su elección. Comente brevemente la gráfica.

17. Analice uno de los periódicos dominicales de mayor circulación. ¿Cuáles son los gráficos más

utilizados? (Nota: indicar el periódico y la fecha).

18. Exprese gráficamente los siguientes datos:

Especie Peso (Kgr)

Venado 30

Saíno 10

Danta 80

Gatusa 3

19. El archivo ppt_mm.xls contiene valores de precipitación anual (mm) para las estaciones Juan

Santa María y San Rafael de Coronado, Costa Rica. Observa algún patrón en la precipitación

anual? ¿Cuáles gráficos le permitirían explorar la relación entre la precipitación de ambas

estaciones? ¿Qué es una media móvil?

20. El archivo enos_pacuare_q_anual.xlsx contiene valores de descarga anual para la estación

Pacuare clasificadas según episodio de ENOS (El Niño Oscilación Sur). Observa algún patrón

en la descarga anual? ¿Cuáles gráficos le permitirían explorar la relación entre ENOS y la

descarga anual?

21. Seleccione 5 artículos científicos de su preferencia y elabore una tabla con los tipos de gráficos

utilizados.

64

Anexo 1: Criterios para elaborar cuadros

1. Los cuadros deben explicarse por sí mismos. El cuadro debe tener un título y una descripción

clara de sus hileras y columnas; además deber incluir las unidades, así como las restricciones

que aplican al set de datos. Se pude incluir una nota a pie del cuadro para adicionar

información que el autor considere pertinente, pero que no puedo incluirse en el título por

razones de espacio.

2. Las hileras y columnas deben leerse sin dificultad. Esto puede lograrse separándolas por

espacios o líneas. Recordemos que el objetivo es facilitar la interpretación de la tabla y no

elaborar un cuadro para cada una de las cifras.

3. No sobresaturar el cuadro con datos. Al elaborar cuadros es esencial respetar el principio de

simplicidad. Es preferible utilizar dos o más cuadros y no uno que abarque la totalidad de lo

que se quiere comunicar.

4. Cuando el valor de la variable es cero debe indicarse claramente utilizando del numeral

correspondiente. No se deben dejar celdas en blanco; se pueden utilizar rayas, un código

numérico (Ej. 999) o de texto (ND) para expresar la ausencia de datos.

5. Cuando se reporten números con decimales se deben respetar las siguientes normas: a) utilizar

comas y no puntos para separar el número entero de sus decimales. b) cuando el número no

tiene unidades (Ej. 0,11) debe utilizarse un cero y no solamente la coma. c) utilizar el mismo

número de decimales para observaciones de una misma variable.

Anexo 2: Criterios para elaborar gráficos

1. Los gráficos deben explicarse por sí mismos. Con frecuencia el lector no lee la totalidad del

documento o reporte sino que pone especial atención a las figuras; por esta razón la

información suministrada por la misma debe ser tan completa como sea posible. Todo gráfico

debe incluir un título que indique quién es el sujeto o material experimental, qué

observaciones se hacen en los sujetos o material y a qué posición geográfica y tiempo se

refiere.

Por ejemplo, si nos referimos a tasas de reforestación en Costa Rica para el período 1970-1980

no debemos encabezar la figura como "tasa de reforestación", sino que puede escribirse:

"Costa Rica: tasa de reforestación (has/año) para el período 1970-1980".

La palabra clave al elaborar gráficos es "autosuficiencia" o sea el gráfico debe requerir de un

mínimo de información externa para interpretarse correctamente.

65

2. Los ejes del gráfico deben rotularse indicando lo que se mide con sus respectivas unidades.

Por ejemplo, una figura que muestra la altura de plántulas en función del tiempo puede

rotularse "altura (cm)" y "edad (meses)".

3. El gráfico debe ser sencillo. Con frecuencia se tratan de incluir todos los datos disponible en

una sola figura; esto resulta en gráficos complejos y confusos. Como regla general no debe

de incluirse más de tres series estadísticas en una misma figura. Cuando se quiera mostrar

tendencias o relaciones para un grupo de variables se deben utilizar varios gráficos a una

escala reducida. Cada gráfico representa una tendencia o relación.

4. Los gráficos deben brindar una visión general acerca de los datos resaltando los aspectos

sobresalientes. El objetivo de la gráfica es ilustrar tendencias generales de la serie estadística

y no brindar una visión detallada sobre la misma. Lo anterior se traduce en una ilustración

sencilla y no cargada de detalles.

5. Como regla general no se debe incluir números en el cuerpo de la gráfica. Lo recomendable es

rotular los ejes como se indicó en el numeral 1. Esta recomendación no aplica a

presentaciones orales (Ej. PowerPoint).

6. El punto donde se cortan los ejes debe ser cero. Cuando este no sea el caso, debe fracturarse la

escala respectiva para indicarle al lector que una porción se ha omitido.

7. La escala debe seleccionarse de tal forma que facilite la elaboración y posterior lectura de la

gráfica.

8. Para que la gráfica sea balanceada y a la vez para que distribuciones similares muestren una

forma similar; es necesario seleccionar la escala de tal forma que la altura sea

aproximadamente 0,75 veces la longitud del espacio ocupado por los valores graficados.

Tanto la altura como la longitud se refieren al espacio ocupado por los datos y no a los bordes

de la gráfica.

Anexo 3: Licencia de “Creative Commons”

Con una licencia de “Creative Commons” usted mantiene sus derechos de autor pero le puede

permite a otras personas copiar, modificar y distribuir su obra, siempre y cuando reconozcan la

correspondiente autoría y únicamente bajo las condiciones especificadas. Para mayores detalles

sobre este tipo de licencia visitar http://creativecommons.org/choose/?lang=es_ES.

66

Anexo 4: Abreviaturas y equivalencias

Factores de Multiplicación

Factor de multiplicación Abreviatura Prefijo Símbolo

1 000 000 000 000 000 000 10 18

exa- E

1 000 000 000 000 000 10 15

peta P

1 000 000 000 000 10 12

tera T

1 000 000 000 10 9 giga G

1 000 000 10 6 mega M

1 000 10 3 kilo k

100 10 2 hecto h

10 10 1 deca da

0,1 10 -1

deci d

0,01 10 -2

centí c

0,001 10 -3

ml m

0,0001 10 -4

micro

0, 000 000 001 10 -9

nano n

0, 000 000 000 001 10 -12

pico p

0, 000 000 000 000 001 10 -15

femto f

0, 000 000 000 000 000 001 10 -18

atto a

Equivalencias

1 tonelada métrica 1 000 Kg

1 kilogramo 1000 gr

1 kilogramo 2,2102 lb

1 hectárea 10 000 m 2

1Km 2 100 ha

1Km 3 1 000 000 m

3

1 m 3 100 lt

1lt 1 000 ml