JORGE FALLAS DE PARES 33 56 78 98 90 TECNICAS DE …€¦ · ii 24. Ejercicios ... En otras...
-
Upload
dinhnguyet -
Category
Documents
-
view
215 -
download
0
Transcript of JORGE FALLAS DE PARES 33 56 78 98 90 TECNICAS DE …€¦ · ii 24. Ejercicios ... En otras...
OBSERVACIONES: ORGANIZACIÓN, SÍNTESIS Y
PRESENTACIÓN GRAFICA De datos a información
25/05/2012 Conocimiento para todos
JORGE FALLAS
MUNDO REAL: POBLACIÓN
INVESTIGACIÓN
MANEJO
1 2 4 5 6 7 8 9
20 30 69 98 34
33 56 78 98 90
UNIVERSO DE VALORES
VARIABLES
TECNICAS DE MEDICIÓN
PREGUNTAS, HIPÓTESIS A SOMETER A PRUEBA
ESTADÍSTICA, METODOS, INSTRUMENTOS, PERSONAS
CONCLUSIONES
CREENCIAS
VALORES
PRESIONES
POLÍTICAS, SOCIALES,
RELIGIOSAS
DE PARES
El conocimiento es de dos tipos. Conocemos el tema nosotros mismos, o sabemos donde
podemos encontrar tal conocimiento -- Samuel Johnson
"El corazón jamás habla, pero hay que escucharlo para entender." Proverbio Chino
i
Índice
1. Introducción ................................................................................................................................. 1
2. Algo de historia ............................................................................................................................ 2
3. Estadística descriptiva .................................................................................................................. 3
4. Estadística inferencial .................................................................................................................. 3
5. Conceptos de población y muestra ............................................................................................... 4
6. Estadística y el proceso de aprendizaje ........................................................................................ 5
7. Sesgo y efecto de variables no controlados en diseños no experimentales .................................. 8
8. Experimentos y seudo experimentos .......................................................................................... 12
9. Seudo replicación ....................................................................................................................... 12
10. Validez interna y externa del estudio ....................................................................................... 13
11. Variables: definición y clasificación ........................................................................................ 13
11.1 Nivel de medición de nominal y ordinal: Variables cualitativas ........................................... 13
11.2 Nivel de medición de intervalo y razón: Variables cuantitativas ........................................... 15
12. Distribuciones de frecuencia .................................................................................................... 17
12.1 Datos no agrupados ................................................................................................................ 17
12.2 Datos agrupados: frecuencia absoluta, relativa y acumulada ................................................. 18
13. Gráficos .................................................................................................................................... 23
13.1 Diagramas de pastel, barras y líneas ...................................................................................... 23
13.2 Histograma y polígono de frecuencia ..................................................................................... 26
13.3 Curva de frecuencia acumulada (OJIVA) .............................................................................. 27
13.4 Gráfico de percentiles y cuantiles .......................................................................................... 27
13.5 Grafico de cuartiles (Q-Q) ...................................................................................................... 29
13.6 Gráfico de media y barra de error .......................................................................................... 30
13.7 Gráfico de rectángulos verticales y horizontales (diagrama de Box-Whisker) ...................... 30
13.8 Diagrama de tallo hoja ........................................................................................................... 32
13.9 Gráfico de probabilidad normal ............................................................................................. 32
13.10 Diagrama de dispersión ........................................................................................................ 33
13.11 Grafico de medias móviles ................................................................................................... 33
13.12 Grafico de densidad .............................................................................................................. 34
13.13 Gráfico de radar .................................................................................................................... 34
13.14 Pictogramas .......................................................................................................................... 35
14. Exactitud y precisión ................................................................................................................ 35
15. El proceso de investigación ...................................................................................................... 36
16. Algunos conceptos y terminología ........................................................................................... 38
17. Algunos conceptos y definiciones estadísticas ......................................................................... 41
18. Sugerencias para analizar datos ................................................................................................ 44
19. Conceptos generales ................................................................................................................. 44
20. Fuentes o referencias: búsqueda, clasificación y análisis ........................................................ 50
21. Bases de datos de organismos .................................................................................................. 53
22. Sugerencias para escribir y revisar sus informes ..................................................................... 54
23. Estadística: software gratuito ................................................................................................... 56
24. Bibliografía ............................................................................................................................... 58
ii
24. Ejercicios .................................................................................................................................. 61
Anexo 1: Criterios para elaborar cuadros ....................................................................................... 64
Anexo 2: Criterios para elaborar gráficos ...................................................................................... 64
Anexo 3: Licencia de “Creative Commons” .................................................................................. 65
Anexo 4: Abreviaturas y equivalencias .......................................................................................... 66
El presente documento se distribuye bajo licencia CC BY-NC-SA de “Creative Commons”
“reconocimiento-No comercial-Compartir bajo la misma licencia”; la cual permite a otros
entremezclar, ajustar y construir con base en su trabajo para fines no comerciales, siempre y
cuando se de crédito y licencia de sus nuevas creaciones, en los términos idénticos.
La información independientemente de lo costosa que haya sido crearla, puede ser replicada
y compartida a un costo mínimo o nulo. -- Thomas Jefferson
1
1. Introducción
Es muy probable que usted asocie la estadística con la matemática, aburridas y complejas fórmulas
y grandes sets de datos. En un sentido usted no está equivocado, sin embargo esta antigua rama de la
matemática es mucho más que eso. En el presente curso la utilizaremos como una herramienta que
nos permite describir y analizar la complejidad del mundo que nos rodea utilizando variables y datos
con el propósito de entender las relaciones entre los elementos que conforman la realidad
económica, ecológica y social y de esta tomar decisiones informadas. Dada la complejidad del
mundo actual se podría pensar que miles de observaciones son mejores que unas cuantas; sin
embargo esto es verdad cuando logramos organizarlas, ordenarlas y resumirlas de una manera clara
y eficiente. Por ejemplo, no es posible obtener conclusiones sobre la producción de frutos por
hectárea del bosque seco de Costa Rica analizando un millón de observaciones. La estadística es la
disciplina que nos permite crear información a partir de datos.
Aplicaciones concretas de la estadística incluyen el probar la eficiencia de nuevos métodos y
procesos en áreas tecnológicas y aplicadas; así como el someter a prueba hipótesis que lleven a la
formulación de nuevas teorías. En recursos naturales se aplica en áreas tales como muestreo de
fauna, flora, simulación biológica, mejoramiento genético, cuantificación de emisiones y carbono,
radiotelemetría y cuantificación de residuos sólidos.
Formalmente, la estadística puede definirse como una ciencia con un componente teórico y otro
aplicado que consiste en crear, desarrollar y aplicar técnicas o instrumentos que permiten evaluar el
grado de incertidumbre o error de las generalizaciones. En la vida cotidiana la definición anterior se
traduce en una mezcla de lógica y matemática. La lógica nos guía en la selección y colección de
datos, en tanto que la matemática conjuntamente con tablas específicas nos ayuda a emitir juicios
(hacer inferencias) y a la vez evaluar el grado de incertidumbre (error) de dichas inferencias. Por
ejemplo, si deseamos conocer el diámetro medio a la altura del pecho (d) de un parche de bosque de
diez hectáreas ubicado en San José de la Montaña, debemos decidir cuál debe ser el tamaño de la
muestra, cómo seleccionarla y una vez colectados los datos cómo analizarlos para generalizar
(inferir) los resultados al parche de bosque (Fig. 1). Finalmente, debemos indicar el grado de
confiabilidad de los resultados o en otras palabras que tan seguros estamos de la estimación que se
ha realizado. El análisis incluye la elaboración de tablas y figuras, el cálculo de estadísticos
descriptivos y con frecuencia someter a prueba una o más hipótesis.
Figura 1: El proceso de colecta y análisis de datos.
1. Colectar datos
2. Organizar, ordenar y
resumir datos
3. Análisis estadístico
Conclusiones
Generalizaciones
Confiabilidad
2
2. Algo de historia
El mundo que nos rodea es extremadamente complejo y los recursos disponibles para cualquier
estudio son limitados y por esta razón no siempre es posible medir todas las variables que uno
considera importantes para responder a las preguntas planteadas originalmente. Por esta razón
algunas veces se define a la estadística es el arte-ciencia de tomar decisiones ante situaciones
concretas a la luz de información o datos parciales. En otras palabras, es tomar decisiones bajo
condiciones de incertidumbre. Esta disciplina nació en las sociedades antiguas para resolver un
problema muy concreto: colectar datos y crear información sobre aspectos prácticos tales como
producción, población, impuestos y número de soldados; elementos esenciales para gobernar una
nación o un imperio. Este primer aspecto de la estadística todavía persiste en la actualidad y es lo
que se conoce como estadística descriptiva. Esta primera fase con fines meramente descriptivos dio
paso a la segunda fase que tiene como objetivo hacer inferencias o generalizaciones basados en una
porción (muestra) de la población (totalidad de los datos).
La teoría sobre probabilidades se originó con Pascal y Fernat alrededor del año 1650. La ecuación
de la curva del error normal o curva normal fue publicada por primera vez por Moivre en 1733; sin
embargo no se aplicó hasta 1924 cuando Karl Pearson la redescubrió en una de las bibliotecas de la
época. La misma ecuación fue posteriormente desarrollada en forma independiente por dos
astrónomos matemáticos Laplace y Gauss. Pero ¿por qué es tan importante el tema de las
probabilidades y la distribución normal? Matemáticamente, la respuesta es compleja, pero desde una
perspectiva practica es simple: dada una distribución teórica cuyo fórmula es conocida, es posible
comparar series de datos empíricos con dicha distribución y decidir si los mismos se ajustan a la
misma y luego a partir de esto determinar si los valores obtenidos son grandes, pequeños o
“comunes”. En otras palabras nos permite crear una unidad de medición estándar y universal. Este
tema lo trataremos con mayor detalle en los secciones sobre intervalos de confianza y prueba de
hipótesis.
Aplicaciones iniciales de la teoría estadística se encuentran en publicaciones de autores del siglo
XIX tales como Lyell (geología), Charles Darwin (biología) y Mendell (genética). A finales del
siglo XIX e inicios del siglo XX Karl Pearson hizo importantes aportes a la teoría de las muestras
grandes. Una de las limitantes, desde el punto de vista práctico, de esta teoría es que se requiere de
un gran número de observaciones para su aplicación. En 1906 Gosset, discípulo de Karl Pearson, se
dedicó a estudiar problemas relacionados con muestras pequeñas. Los resultados de su
investigación se publicaron en la revista Biometrika en 1908. En su artículo "El error probable de la
media", Gosset cuestionó el uso de las tablas de distribución normal para realizar inferencias sobre
la media cuando el número de observaciones (n) era pequeño. La distribución derivada por Gosset
se conoce como distribución de Student ("Estudiante") o simplemente “t de Estudiante” y es una de
las más utilizadas en trabajos estadísticos paramétricos. La misma distribución había sido derivada
matemáticamente por Helmet, astrónomo alemán, en 1895; aunque no se le había dado ninguna
aplicación. En 1936 y 1938 J. Neyman y E.S. Pearson presentaron la teoría para prueba de
hipótesis. Abraham Wald (1947) y su libro "Análisis secuencial y funciones para decisión esta-
dística" marcaron otro hito en el desarrollo de la estadística moderna.
3
En el siglo XX uno de los estadísticos de mayor renombre fue R.A. Fischer, él y sus discípulos
dieron un gran impulso al uso de procedimientos estadísticos en campos tales como biología,
agronomía y genética.
3. Estadística descriptiva
La estadística descriptiva tiene como objetivo presentar lo esencial del grupo de datos colectados.
Esto se logra a través del uso de tablas, gráficos y estadísticos básicos. La estadística descriptiva
nos permite organizar los datos y a la vez resumir los aspectos esenciales sobre los cuales se desea
obtener conclusiones en una etapa posterior.
Las ventajas y desventajas de la estadística descriptiva pueden apreciarse en el siguiente ejemplo.
Supongamos que usted mide la altura total de 1000 árboles de laurel en Guanacaste. El resultado
sería varias páginas con números. ¿Qué conclusión podría obtener de las mismas? Probablemente
ninguna, ya que es prácticamente imposible analizar uno a uno los 1000 valores. La estadística
descriptiva, primer paso en el proceso de análisis de una serie estadística, nos permite solucionar
este problema. Los 1000 valores se reducirían a unos cuantos estadísticos (e.g. media, desviación
estándar), los cuales resumirían los aspectos esenciales de los datos originales. También podríamos
elaborar tablas y gráficos que nos permitan visualizar la presencia o ausencia de patrones en los
datos. La desventaja del proceso es que reducimos una gran cantidad de datos a unas cuantas cifras,
tablas y figuras. El resultado final es la pérdida de detalle e información.
4. Estadística inferencial
La inferencia estadística comprende los métodos y procedimientos que nos permiten hacer
generalizaciones basados en el conocimiento de una porción reducida de la realidad. Las
generalizaciones pueden realizarse utilizando tanto estadística paramétrica como no paramétrica. La
primera se aplica a variables cuantitativas y la segunda a series cualitativas. Las conclusiones o
generalizaciones deben basarse tanto en la información proporcionada por la estadística, como en la
experiencia y sentido común del investigador(a). La estadística es sólo un medio que nos permite
reducir una porción de la realidad a unas cuantas cifras o ecuaciones; sin embargo es obvio que la
realidad es mucho más compleja que nuestras cifras.
a. Dato: En octubre del año 2000 se registraron 200 mm de lluvia en Manuel Antonio.
b. Información: Los datos son puestos en contexto: ¿Es la precipitación registrada normal
para dicho mes?
c. Conocimiento: Conclusión que surge a partir de la información: Si usted fuese un
especialista en primates podría afirmar “dicha cantidad de lluvia es un factor estresante
para la población de mono Titi de Manuel Antonio”.
d. Sabiduría: Todos hablan del problema climático, pero nadie hace nada por el, debemos
hacer lo siguiente....
4
En nuestra vida cotidiana la computadora juega un papel muy importante en el procesamiento y
análisis de datos. La computadora y el software que le acompaña, han sido diseñados para
seleccionar, agrupar, transformar y presentar numérica y gráficamente observaciones a gran
velocidad y exactitud. Sin embargo, no debemos confundir la habilidad mecánica de la máquina con
la capacidad de análisis y síntesis del ser humano, factores esenciales para procesar y analizar datos
con éxito.
Finalmente al hacer generalizaciones siempre debemos hacernos la siguiente pregunta: ¿Son los
resultados y conclusiones lógicos? Si la respuesta es no, debemos evaluar crítica y detalladamente
el proceso utilizado para seleccionar, colectar y analizar los datos; así como la interpretación que
hemos dada a los resultados. La estadística es una herramienta que nos guía en el proceso de toma
de decisiones y no una justificación para nuestras decisiones. Al hacer generalizaciones se debe
tener en cuenta las limitaciones propias de la muestra y hacerlas explícitas al reportar los resultados.
De lo contrario estaremos brindando una visión sesgada de la realidad.
5. Conceptos de población y muestra
Población y muestra son dos palabras de uso común en el lenguaje estadístico. La población o
universo se define como el conjunto de todos los posibles valores que puede tomar una variable; en
tanto que la muestra es una parte de la población. En un sentido más práctico podemos pensar en la
población como en aquel grupo de observaciones acerca del cual se desea obtener conclusiones.
Dependiendo de su tamaño y el método de selección de la muestra, la población puede
considerarse como finita o infinita (Fig. 2). Se dice que la población es finita cuando es pequeña o
se conoce la totalidad de los valores que la componen. Por ejemplo, el número de estudiantes
matriculados en las Universidades públicas en el año 2006 o los países del planeta Tierra son
ejemplos de poblaciones finitas; en tanto que la población de la Tierra puede considerarse como una
población infinita. La población es infinita cuando no se conoce la totalidad de los valores que
puede tomar la variable ó cuando su número es muy grande.
La muestra debe ser representativa de la población para que nos permita hacer inferencias
(generalizaciones) válidas. Por su parte la población debe definirse en forma clara y concisa,
evitando utilizar términos ambiguos. Con frecuencia se considera que una muestra es representativa
cuando se obtiene aplicando el principio de aleatorización (selección al azar); el cual elimina sesgos
individuales, conocidos o desconocidos, al obtener una muestra de la población. Lo anterior nos
permite hacer uso de las leyes de probabilidad para hacer nuestras inferencias o generalizaciones.
La mayoría de los paquetes estadísticos posee una herramienta para generar números al azar.
Genere tantos números como observaciones al azar requiera y luego reemplace el número al azar por
el valor de la observación correspondiente. Por ejemplo, si tenemos 50 observaciones y
seleccionamos 5 números al azar (0, 10, 50, 49, y 28), los valores correspondientes a estos números
constituyen la muestra de interés. Este procedimiento nos asegura que cada observación de la
población tiene la misma probabilidad de selección.
5
Planeta Tierra: Universo Continentes: muestras de la Tierra.
Centro América: muestra de uno de los
continentes.
Costa Rica: Puede ser una muestra de
Centroamérica o una población.
Figura 2: Concepto de población y muestra.
6. Estadística y el proceso de aprendizaje
El proceso de aprendizaje puede conceptualizarse como una serie de hitos en la vida de la persona
a través de los cuales acumula datos, crea información, acumulada más datos, crea nueva
información y así sucesivamente (Fig. 3). En este contexto el diseño de experimentos y de estudios
de tipo observacional nos permiten ordenar el proceso de aprendizaje y crear datos e información
que pueden replicarse y someterse a prueba utilizando métodos estadísticos. Por ejemplo, el
conocimiento popular es la sabiduría que los humanos hemos adquirido con el paso del tiempo
(proceso de observación y deducción) sin embargo en la mayoría de los casos dicho conocimiento
no se sustenta en un análisis estadístico.
Como veremos en el presente capítulo este “conocimiento” puede estar fuertemente influenciado
por el efecto de confusión y por ende atribuir efectos o explicaciones a variables que no existen o
que no son las responsables de lo que se observa. Un ejemplo de este tipo de asociación errónea es
la relación que con frecuencia hace el público (y aún algunos técnicos!!) entre el rendimiento hídrico
de una cuenca y el bosque ó entre presencia de bosque y precipitación. Otro ejemplo extraído de la
literatura estadística es el estudio del posible efecto entre la fluoración de agua potable y el aumento
de las tasas de cáncer (Yiamouyiannis y Burk 1977; citado por Manly 1992)
6
Figura 3: El proceso de aprendizaje puede conceptualizarse como una cadena de eventos que nos
permiten conocer el ambiente que nos rodea, formular hipótesis, someterlas a prueba, aprender más
sobre el medio, formular nuevas hipótesis, someterlas a prueba y así sucesivamente. Basado en Box,
Hunter y Hunter, 1978.
Todo proyecto de investigación está diseñado para responder a unas o más preguntas específicas y
por tanto siempre generará un set de datos. Los datos pueden ser el resultado de un diseño
experimental ó de un estudio observacional (Fig. 4). En el primer caso los datos se obtienen
mediante la manipulación de las variables que el investigador (a) considera relevantes para el
objetivo del estudio, manteniendo a su vez otras variables que influyen en el temas de estudio
constantes y siguiendo un estricto protocolo de observación y medición. En el segundo caso los
datos son el producto de la observación de un fenómeno o proceso físico, natural o antrópico sobre
el cual el investigador(a) tiene poco o ningún control. Por ejemplo, en el primer caso un forestal
puede estar interesado en la respuesta de las plántulas de vivero a la aplicación de nitrógeno
manteniendo el nivel de riego, tipo de suelo y sombra constantes; en el segundo caso un hidrólogo
puede estar interesado en determinar la respuesta hidrológica de una cuenca a cambios en el uso-
cobertura de la tierra. Es obvio que el primer profesional puede controlar la mayoría de las variables
en el vivero; mientras que el segundo tendrá que trabajar con datos existentes y no podrá ejercer el
mismo grado de control sobre las variables que intervienen en el proceso hidrológico. En el primer
ejemplo, el ingeniero forestal podrá atribuir los cambios observados en la variable respuesta (e.g.
crecimiento de las plantas) al efecto del tratamiento (niveles de nitrógeno) en tanto que el segundo
caso los cambios observados en la respuesta hidrológica de la cuenca son el resultado de la
interacción de una serie de factores no controlados y por tanto lo “obvio” puede llevar a
conclusiones erróneas
De las observaciones del párrafo anterior podría concluirse que nuestras inferencias deben basarse
únicamente en diseños experimentales; sin embargo esto no siempre es posible en el mundo real.
Por ejemplo, no es éticamente aceptable aumentar los niveles de contaminación de una ciudad para
evaluar el impacto de un contaminante en la salud humana, tampoco es ético aumentar el nivel de
deforestación en una cuenca para evaluar el efecto en las tasas de erosión o en rendimiento hídrico.
En estos casos solo es posible utilizar datos existentes para tratar de dar respuesta a las interrogantes
planteadas por el investigador(a).
7
Figura 4: Diseño y análisis de datos en estudios experimentales y observacionales. Basado en Box,
Hunter y Hunter, 1978.
Los diseños experimentales y los estudios observacionales pueden a su vez subdividirse utilizando
la clasificación propuesta por Eberhardt y Thomas, (1991) citado por Manly (1992) (Fig. 5). Para
estos autores los estudios pueden dividirse en dos grandes grupos: aquellos en los cuales el
investigador(a) tiene control sobre los tratamientos (diseños experimentales) y aquellos en los cuales
el investigador(a) no se tiene control sobre las variables que intervienen en el estudio (estudios
observacionales).
Los diseños experimentales se subdividen a su vez en experimentos con réplicas, sin réplicas y en
aquellos cuyo objetivo es estimar los parámetros de un modelo que describe el proceso en estudio.
Para los estudios no controlados, los autores hacen la distinción entre situaciones en donde existe un
evento severo que perturba el medio (e.g. un terremoto) y casos en los que no existe tal situación. En
el primer caso la investigación tendrá como objetivo determinar si el evento perturbador tiene algún
efecto en las variables que se miden. Normalmente este tipo de estudios se realiza en una escala
temporal (antes y después del evento) y por esta razón con frecuencia se les denomina series de
tiempo interrumpidas.
Para los casos en los cuales no existe una perturbación evidente se distinguen cuatro situaciones.
En la primera se analiza una porción particular de la población (muestra) comparando la variable
respuesta de diferentes grupos como una alternativa a un diseño controlado. En el segundo caso se
estudia la totalidad de la población y el objetivo del estudio puede ser: a) determinar la diferencia en
magnitud de la variable respuesta al comparar varios grupos experimentales; b) estimar algunos
parámetros de la población mediante su muestreo y c) determinar la distribución espacial de una
variable de la población en estudio.
8
Figura 5: Clasificación de estudios en el campo ambiental y de recursos naturales. Basado en
Eberhardt y Thomas (1991).
7. Sesgo y efecto de variables no controlados en diseños no experimentales
Como se mencionó en el párrafo anterior, los sets de datos utilizado por el investigador(a)
provienen de un estudio observacional ó de un diseño experimental. En el campo forestal y
ambiental es común que el investigador(a) utilice diseños no experimentales para realizar sus
estudios. Por esta razón se listan a continuación las principales fuentes de error en dichos diseños.
Efecto desconocido de las variables no controladas por el investigador(a)
Este tipo de error se denomina efecto de confusión y su nombre se deriva del hecho que el (la)
investigadora no puede separar el efecto de su tratamiento del efecto de otras variables que
intervienen en el estudio. En otras palabras, no se puede afirmar que el efecto observado en la
variable respuesta sea el resultado del tratamiento aplicado (Fig. 6). Bajo condiciones de severa
confusión, esta fuente de error puede invalidar totalmente las conclusiones del estudio.
La solución práctica al efecto de confusión es diseñar el estudio de tal forma que dichos factores de
confusión sean minimizados; esto presupone un profundo conocimiento del tema en estudio por
parte del equipo de investigación. También presupone que el equipo de investigación puede
neutralizar el efecto adverso de dichos factores. En la vida real no siempre esto es posible y por
tanto al comunicar los resultados el investigador(a) debe incorporar el posible impacto de dichas
fuentes de confusión en sus conclusiones.
9
Figura 6: Ejemplo del efecto de confusión. Fuente: Basado en Opinion. 2011.
Para ilustrar el “efecto de confusión” se describe a continuación un estudio realizado en los
Estados Unidos para determinar la relación entre el consumo de agua fluorada y la tasa de muertes
por cáncer (Maritz y Jarrett 1983, http://en.wikipedia.org/wiki/Water_fluoridation_controversy). La
pregunta que el estudio pretendía responder era: ¿Existe evidencia estadística para suponer que el
consumo de agua con flúor aumenta la posibilidad de morir de cáncer?
El estudio consistió en comparar la tasa de muertes por cáncer por 100.000 habitantes para 20 de
las ciudades más grandes de los Estados Unidos, 10 con servicio de agua fluorada y 10 sin servicio
de agua fluorada para los años 1950 y 1970. El servicio de fluorado del agua se inició en los Estados
Unidos entre 1952 y 1956. El estudio indicó que se observó un incremento de 36 muertes por
100.000 habitantes en las ciudades con servicio de agua fluorada comparado con solo 16 muertes
por 100.000 habitantes en las ciudades sin servicio de agua fluorada. La conclusión evidente fue que
el flúor en el agua potable aumenta la tasa de muertes por cáncer. Sin embargo el colegio Real de
Médicos, el Instituto Nacional de Cáncer y la Sociedad Real de Estadística de los Estados Unidos
rechazaron las conclusiones argumentando que no existía evidencia estadística válida para afirmar
que el flúor en el agua potable aumentara la incidencia de cáncer; ya que el efecto aparente del flúor
estaba confundido con el efecto en los cambios sistemáticos observados en la estructura de la
población (e.g. tasa de crecimiento, composición por grupo de edad, sexo, grupo étnico) de las
ciudades analizadas así como por cambios ambientales (i.e. niveles de contaminación entre las
ciudades) (Oldham y Newell, 1977 citado por Manly 1992).
La conclusión final es que no existe evidencia estadística en los datos para argumentar que el flúor
adicionado al agua causa un aumento en la tasa de cáncer. Este ejemplo ilustra cómo un diseño
observacional aparentemente bien planeado puede generar conclusiones erróneas cuando no se
considera el efecto de otras variables que influyen en el comportamiento de la variable respuesta.
¿Qué cree usted que el investigador(a) está observando?
Y
¿Qué es lo que realmente sucede?
10
Muestreo aleatorio y no aleatorio
En la mayoría de los estudios observacionales no es posible realizar un verdadero muestreo
aleatorio y por tanto los resultados pueden llevar a conclusiones sesgadas (Manly, 1992). La
solución a esta limitación es realizar un diseño de muestreo que sea robusto, práctico y económico.
El área de muestreo es un campo especializado de la estadística y por tanto se remite al estudiante a
textos especializados en el tema (Cochran 1977, Kish 1995, Lohr 2009). Desde el punto de vista del
diseño de estudios observacionales es posible utilizar un método de inferencia basado en el principio
de aleatorización; otras posibles técnicas de análisis son la Cuchilla de Jack (“jackknifing”), las
simulaciones de Monte Carlo y el método de “bootstrapping –Bota ajustada”.
Efecto de grupo Vs. efecto individual
Este efecto se presenta cuando los valores de observaciones individuales se agrupan para formar
unidades de análisis superiores. Por ejemplo, se puede analizar la correlación entre diámetro y altura
para 1000 árboles medidos a nivel nacional. Luego, basados en los resultados del estudio es posible
analizar los datos para diferentes grados de agregación (Ej. Zonas de Vida, por tipo de suelo, clase
de pendiente, etc). En estos casos el análisis puede realizarse utilizando los valores individuales o
los promedios por grupo. Bajo estas circunstancias la correlación para los promedios de los grupos
puede ser un pobre indicador de la correlación que aplica a los árboles individuales.
En el caso de estudios de correlación entre variables, al reducir la variabilidad del set de datos
también se reducirá la intensidad de la correlación y la significancia de los modelos de regresión; sin
embargo no es posible afirmar que este comportamiento aplique a todas las variables. Por esta razón
los estudios de tipo ecológico deben utilizarse para generar nuevas hipótesis de trabajo que pueden
someterse a prueba utilizando diseños experimentales u observacionales más robustas (Piantadosi, et
al. 1988 citado por Manly 1992).
La conclusión de este tipo de estudios puede llevar a lo que se conoce como una falacia ambiental
o sea suponer que el efecto observado en el grupo también aplica al individuo. Otro ejemplo que
ilustra esta fuente de error es el siguiente: suponga que comparamos el rendimiento hídrico de una
cuenca con su porcentaje de cobertura forestal y que los datos muestran que donde existe más
bosque también existe mayor cantidad de agua; sin embargo esta conclusión podría ser
hidrológicamente errónea si no se considera el tamaño de la cuenca y la cantidad y distribución de la
precipitación de cada sitio.
Paradoja de Simpson
Especial atención debe prestarse cuando se analicen proporciones ya que los resultados pueden
estar sujetos a la paradoja de Simpson (http://plato.stanford.edu/entries/paradox-simpson/) la cual
indica que la diferencia entre dos proporciones desaparece o aún puede invertirse cuando las mismas
son analizadas en forma independiente para los diferentes grupos de observaciones. O sea se puede
producir un cambio en el sentido de la asociación-correlación entre dos variables (numéricas o
cualitativas) al controlar el efecto de una tercera variable.
11
Ejemplo: Usted compara la producción de agua anual por hectárea en una cuenca con bosque y en
otra sin bosque.
Cuenca A: Con bosque Cuenca B: Sin bosque Relación QA/(QB):
Rendimiento hídrico anual (QA):
2800 mm
Rendimiento hídrico anual (QB):
2200 mm
2800/2000 = 1,27
Su conclusión es que la cuenca “A” con cobertura forestal “produce” 1,27 veces más agua que la
cuenca B sin bosque. A primera vista, esta afirmación en el imaginario popular parece lógica y por
tanto no es cuestionada. Sin embargo si usted adiciona una tercera variable precipitación podría
observar lo siguiente:
Cuenca A: bosque Pt (mm) Relación QA / PtA Relación PtA/ PtB
Rendimiento hídrico anual (QA):
2800 mm
4000 2800/4000 = 0,70 4000/2500 =1.60
Cuenca B: Sin bosque Pt (mm) Relación QA / PtB Relación PtA/ PtB
Rendimiento hídrico anual (QB):
2200 mm
2500 2200/2500 = 0,88 4000/2500 =1.60
Como puede observarse, el resultado se revierte y la conclusión es que la cuenca sin bosque
“produce” más agua que la cuenca con bosque. En este caso, la tercera variable (Pt) afecta la
respuesta de la variable Q en ambas cuencas y por tanto al no considerarla en su estudio usted llega
a una conclusión errónea utilizando datos correctos.
Si usted desea analizar un caso similar en el área ecología funcional le recomiendo leer la siguiente
publicación de Allison y Goldberg:
Allison V. J. y Goldberg D. E. 2002. Species-level versus community-level patterns of mycorrhizal
dependence on phosphorus: an example of Simpson’s paradox. Functional Ecology 16, 346–352.
Visitado 15-02-211 Disponible en http://deepblue.lib.umich.edu/bitstream/2027.42/74069/1/j.1365-
2435.2002.00627.x.pdf
Otros artículos de interés sobre el tema son los siguientes:
Berkman Lisa F. 2004. Seeing the Forest and the Trees: New Visions in Social Epidemiology. Am J.
Epidemiol. 160(1): 1-2. doi: 10.1093/aje/kwh210. Visitado 15-02-211. Disponible en
http://aje.oxfordjournals.org/cgi/reprint/160/1/1
Yu-Kang Tu, David Gunnell and Mark S Gilthorpe. 2008. Simpson's Paradox, Lord's Paradox, and
Suppression Effects are the same phenomenon – the reversal paradox. Emerging Themes in
Epidemiology, 5:2 doi:10.1186/1742-7622-5-2. Visitado 15-02-211. Disponible en http://www.ete-
online.com/content/pdf/1742-7622-5-2.pdf
12
Ferraro, P. J. 2009. Counterfactual thinking and impact evaluation in environmental policy. In M.
Birnbaum & P. Mickwitz (Eds.), Environmental program and policy evaluation. New Directions for
Evaluation, 122, 75–84. Visitado 15-02-211. Disponible en
http://www2.gsu.edu/~wwwcec/research/publications/NDEV122_10_75-84.pdf
8. Experimentos y seudo experimentos
En la sección previa se clasificaron las investigaciones en diseños experimentales (situaciones
controladas) y estudios observacionales (situaciones no controladas); sin embargo en el área de
ambiente y recursos naturales es difícil asignar un estudio a una u otra categoría porque los mismos
solo cumplen con algunas de las características propias dichos estudios. Debemos recordar que el
tema de diseños experimentales se inició con los trabajos de Sir Ronald Fisher en la estación
experimental de Rothamstead, Inglaterra en los años 20s y 30s. El señor Fisher desarrolló su teoría
estadística a partir de su experiencia en el campo agrícola en donde se trabaja bajo condiciones
controladas. Bajo estas circunstancias Fisher enfatiza que todo experimento debe cumplir con las
siguientes condiciones:
Asignación aleatoria de las unidades experimentales a los tratamientos. Esto permite
eliminar cualquier diferencia inicial en los sujetos experimentos. Este supuesto no se cumple
en los cuasi-experimentos.
Repeticiones. El experimento o tratamiento debe aplicarse a dos o más grupos
experimentales estadísticamente idénticos.
Debe existir un grupo control que no recibe tratamiento. Con frecuencia este supuesto
tampoco se cumple en los cuasi-experimentos.
En la vida práctica, sin embargo, no siempre es posible cumplir con todas las condiciones
estipuladas por Fisher ya que el investigador(a) usualmente no tiene la libertar de manipular el
sistema natural bajo estudio. Bajo estas condiciones solo es posible realizar un cuasi experimento
bajo la terminología de Fisher; sin embargo las conclusiones de dicho estudio pueden tener mayor
validez que las generadas por un estudio de naturaleza observacional.
9. Seudo replicación
La seudo replicación es una de las principales limitaciones en que puede incurrir un
investigador(a) al diseñar y analizar los datos de un experimento. La seudo replicación consiste en
utilizar estadística inferencial para someter a prueba una hipótesis con datos de un experimento en el
cual los tratamientos no estén replicados (aun cuando las muestras lo estén) o cuando las réplicas no
son estadísticamente independientes. El efecto de utilizar seudo réplicas es que el análisis se realiza
como si se tratara de réplicas reales (independientes) cuando en realidad no lo son y por tanto es
muy posible que se detecten diferencias significativas cuando en realidad no existen (induce a falsos
positivos).
13
En general, la seudo replicación se dará cuando las unidades experimentales tienden a tener valores
similares, cuando se encuentran espacial o temporalmente cercanas y cuando el método de
asignación de individuos a los tratamientos propicia que los sujetos con el mismo tratamiento se
encuentren cerca unos de otros. Por ejemplo, no es válido asumir como aleatorias a cada una de las
observaciones de un conglomerado ya que las mismas serán muy similares entre sí.
10. Validez interna y externa del estudio
La validez interna y externa son dos términos utilizados en las ciencias sociales para evaluar la
pertinencia y aplicabilidad de los resultados de un diseño experimental. La validez interna analiza si
los efectos medidos en la variable respuesta son el resultado del tratamiento aplicado a los sujetos
experimentales ó si por el contrario son atribuibles a la presencia de algún otro factor no controlado
por el investigador(a) (ver efecto de confusión). La validez externa analiza hasta qué punto los
resultados del experimento pueden extenderse a toda la población de interés (inferencia).
Cuando el estudio carece de validez interna no es posible separar el efecto del tratamiento del
efecto de los otros factores que intervienen en el experimento y por tanto no se puede llegar a una
conclusión válida. La principal amenaza a la validez interna de un estudio es la existencia de lo que
se denomina explicaciones alternas o sea razones ajenas al diseño por las cuales se dan los
resultados obtenidos. La validez externa del estudio se ve amenazada cuando se trata de extender
(extrapolar) los resultados a condiciones muy diferentes a aquellas bajo las cuales se realizó el
experimento.
11. Variables: definición y clasificación
Los objetos, individuos, o eventos sobre los cuales se obtienen datos se denominan elementos o
unidades estadísticas. Las variables son características, propiedades o cualidades de dichos
elementos que se distinguen por su variabilidad, o sea, su habilidad para tomar valores diferentes
(Fig.7). La medición es el procedimiento utilizado para asignar valores a la variable de tal forma que
satisfaga las condiciones necesarias para su posterior análisis. La Real Academia Española
(http://www.rae.es/rae.html) define el verbo medir como “comparar una cantidad con su respectiva
unidad, con el fin de averiguar cuántas veces la segunda está contenida en la primera”. La escala de
medición es el contexto o marco de referencia bajo el cual se realizan las mediciones; todo medición
pertenece a una de las siguientes cuatro escalas: nominal, ordinal, intervalo y razón. Para decidir
cuál prueba estadística puede aplicarse a un set de datos es necesario conocer su escala de medición.
A su vez, las variables pueden agruparse en cualitativas y cuantitativas.
11.1 Nivel de medición de nominal y ordinal: Variables cualitativas
Las variables cualitativas o atributos son aquellas en las que la medición numérica no es posible.
Una variable se distingue de otra no por su valor (cantidad) sino por su atributo o característica. Una
medición representa la asignación de un elemento o individuo a una y sólo una de varias categorías
mutuamente excluyentes. Estas variables se caracterizan por no expresar una cantidad o magnitud
absoluta de lo que se mide y pertenecen a los niveles de medición nominal y ordinal.
14
Los métodos estadísticos aplicados a un nivel de medición nominal y ordinal se denominan "no
paramétricos". Observaciones a un nivel de medición de intervalo y razón pueden transformarse a
una escala ordinal o aun nominal. Por ejemplo, si tenemos 10 observaciones de densidad de roble,
podemos ordenarlas en forma ascendente, de tal forma que el primer valor es mayor que el segundo,
el segundo mayor que el tercero, y así sucesivamente. Luego se le asigna un valor de 1 a 10 a cada
observación, estos nuevos “valores” se conocen con el nombre de órdenes. Esto permite aplicar
técnicas no paramétricas a datos medidos originalmente a un nivel apropiado para aplicar técnicas
paramétricas.
Escala nominal
La escala de medición nominal es el más simple; ya que las variables se “miden” utilizando el
concepto de igualdad. La especie, el tipo de vegetación y el color de las hojas son ejemplos de
mediciones a nivel nominal. Los números o letras asignados a cada categoría son solo códigos y no
tienen un orden natural. Por ejemplo, podemos clasificar cinco tipos de uso-cobertura de la tierra de
la siguiente manera:
1) bosque seco
2) bosque húmedo
3) mangle
4) pastos y
5) cultivos permanentes
Sin embargo, el valor numérico no indica la precedencia de un tipo de vegetación sobre el
siguiente; por ejemplo, el bosque húmedo no es mayor que el bosque seco.
Escala ordinal
La escala de medición ordinal las variables se miden de acuerdo a su tamaño, valor relativo u
orden natural. Esta escala no permite determinar la magnitud de la desigualdad entre categorías
contiguas. Por ejemplo, las especies forestales de Costa Rica pueden clasificarse de acuerdo a su
densidad de su madera en muy pesadas, pesadas, livianas y muy livianas; sin embargo esta
clasificación no indica cuánto más densa es la madera de la primera clase comparada con la segunda
o la última. Las variables numéricas o cuantitativas puedes expresarse como variable ordinales
utilizando cuantiles, percentiles u otro criterio definido por el usuario(a). Por ejemplo, los valores de
la variable “densidad de la madera” pueden dividirse en 5 categorías utilizando quintiles y de esta
manera saber cuánto más densa o menos densa es una madera de una categoría con respecto a
cualquier otra.
La escala de actitud de Likert es un caso especial de una escala de medición ordinal que con
frecuencia es analizada como una variable cuantitativa. La escala, formada por cinco clases o
categorías, fue diseñada con el fin de que las valoraciones sigan una progresión aritmética como se
muestra a continuación:
15
Cuadro 1: Ejemplos de la escala de actitud de Likert.
Valores de la escala Valores de la escala Valores de la escala
-2 Totalmente en desacuerdo 5 Totalmente en desacuerdo A Totalmente en desacuerdo
-1 En desacuerdo 4 En desacuerdo B En desacuerdo
0 Indiferente, indeciso o neutro 3 Indiferente, indeciso o neutro C Indiferente, indeciso o neutro
1 De acuerdo 2 De acuerdo D De acuerdo
2 Totalmente de acuerdo 1 Totalmente de acuerdo E Totalmente de acuerdo
Observe que a diferencia de las variables numéricas o cuantitativas, en la cual los números tienen
un orden natural, en la escala de Likert los números o letras asignados a cada categoría son solo
códigos y no tienen un orden natural; aunque sí expresan una progresión aritmética; donde se podría
considerar la respuesta “Indiferente, indeciso o neutro” como el “cero” de la escala.
11.2 Nivel de medición de intervalo y razón: Variables cuantitativas
Las variables cuantitativas son aquellas en las que los números representan cantidades de la
característica que se mide. El número de árboles en un bosque, su biomasa, y la producción de
flores y frutos son ejemplos de variables cuantitativas. Estas variables se clasifican a su vez en
continuas y discretas (fig. 7). Una variable es continua cuando la característica que se mide puede
tomar cualquier valor en un ámbito dado. Por ejemplo, la altura de un árbol puede medirse con
tantos decimales como el instrumento utilizado lo permita. Por otra parte, una variable es discreta
cuando la característica que se mide sólo puede tomar valores enteros; como el número de peces en
un estanque o el número de árboles en un vivero. Los métodos estadísticos aplicados a un nivel de
medición de intervalo y razón se denominan "paramétricos".
Figura 7: Concepto de elemento y variable.
16
Escala intervalo y razón o proporción
Las escalas de medición de intervalo y razón se diferencian en que la primera no tiene un cero (0)
verdadero y la segunda sí (cuadro 2). Por ejemplo, variables como temperatura, índices de
inteligencia, latitud y fecha se miden a un nivel de intervalo; en tanto que variables como distancia,
área y volumen se miden a un nivel de razón. Una temperatura de 0oC no significa la ausencia de
temperatura; en tanto que una distancia de 0 m sí indica la ausencia de distancia. El método más
simple para distinguir observaciones entre dichas escalas es aplicar la prueba de razón o proporción
a dos valores cualquiera.
El cociente de una razón para observaciones a un nivel de medición de intervalo no tienen sentido o
explicación lógica. Por ejemplo, una temperatura de 30oC no es dos veces más caliente que una de
15oC, en tanto que un árbol de 30 metros sí es dos veces más alto que uno de 15 metros. En ambos
casos, el cociente es 2 (30/15=2); sin embargo el cero (0) en la escala de grados centígrados es
ficticio o sea un punto arbitrario en tanto que en la escala lineal es verdadero. Cualquier operación
matemática puede utilizarse e interpretarse en observaciones a un nivel de medición de razón. Para
observaciones a un nivel de intervalo sólo tienen sentido la suma, la resta y la multiplicación.
Cuadro 2: Escalas de medición y operaciones matemáticas que las caracterizan.
Escala de medición Operaciones matemáticas permitidas
Razón 1. Equivalencia (=)
2. Desigualdad (<, >)
3. Razón de dos intervalos tiene sentido. (a_b/c_d= e)
4. Razón de dos valores tiene sentido ( a/b= c)
Intervalo 1. Equivalencia (=)
2. Desigualdad (<,>)
3. Razón de dos intervalos tiene sentido. (a_b/c_d =e)
Ordinal o jerárquico 1. Equivalencia (=)
2. Desigualdad (<,>)
Nominal 1. Equivalencia (=)
Variables circulares
Las variables circulares son un tipo especial de las variables cuantitativas que representan ciclos.
En estas variables, el valor más grande y el más pequeño se encuentra uno al lado del otro y el punto
cero es arbitrario. Algunos ejemplos de variables circulares son: hora del día (0-24), meses del año
(enero a diciembre) y la dirección de la brújula (0o-360
o). Si se utiliza solo parte del ciclo, una
variable circular se convierte en una variable lineal. Por ejemplo, cuando usted utiliza la variable
tiempo y la mide como el número días entre dos eventos. Si su variable es realmente circular (e.g.
distancia y dirección de vuelo de las aves), existen pruebas estadísticas diseñadas especialmente para
este tipo de variable1.
1 Ver por ejemplo Matlab http://www.kyb.tuebingen.mpg.de/bs/people/berens/circStat.html y el programa comercial
Oriana http://www.kovcomp.com/oriana/
17
12. Distribuciones de frecuencia
La distribución de frecuencia es una tabla que muestra el número de veces con que ocurren los
diferentes valores u observaciones en una serie estadística. Esta es una de las formas más simples
de organizar y resumir los datos. El uso de datos agrupados ó sin agrupar dependerá, entre otras
cosas, del número de observaciones en la serie, su naturaleza y el objetivo del análisis. El anexo 1
presenta algunos criterios generales para la elaboración de tablas.
12.1 Datos no agrupados
Supongamos que usted tiene un ensayo para observar crecimiento y adaptación de roble en Prusia,
Cartago. Después de varios años de establecida la parcela, se mide el diámetro a la altura del pecho
(d) de cada árbol. Los datos se muestran en el cuadro 3. Al observar los 100 valores es difícil
determinar si existen árboles excesivamente grandes o pequeños; o si sus diámetros son muy
similares. También es difícil afirmar o negar que exista un efecto de borde o que el crecimiento de
los árboles sea el esperado para la zona y la especie. Si analizamos detalladamente los datos
podemos determinar cuáles son los valores extremos (e.g. diámetro mayor y menor), así como alre-
dedor de cuál valor o valores tienden a agruparse. Sin embargo esto es una tarea tediosa que
requiere de mucho tiempo y que además nos brinda muy poca información sobre el crecimiento y
adaptabilidad del roble en el área de estudio.
16,7 31,7 12,0 15,7 17,8 17,6 17,6 18,2 11,0 37,7
28,4 10,9 14,8 17,5 13,2 21,4 10,2 27,4 11,8 11,9
19,5 14,4 18,1 20,7 21,3 19,0 12,6 22,0 18,8 18,4
19,9 15,7 18,0 13,7 16,6 12,5 9,9 9,5 20,6 11,5
17,6 24,7 9,1 16,1 7,2 7,5 19,8 15,2 9,7 22,5
16,0 21,9 13,7 21,5 14,0 20,5 15,5 11,6 21,5 23,9
18,2 6,9 17,0 10,5 14,6 22,8 13,7 22,8 10,6 18,9
15,6 24,2 18,2 10,1 22,4 14,8 14,4 22,7 16,2 19,6
14,8 37,9 23,4 17,5 15,1 17,7 22,3 17,6 16,1 36,5
16,1 22,1 6,8 16,4 13,9 37,0 7,9 29,9 24,1 40,0
Cuadro 3 Diámetro a la altura del pecho (d) en centímetros para 100 árboles de roble, Prusia,
Cartago.
Dada la dificultad encontrada para analizar los datos originales, decidimos organizarlos de tal
forma que se facilite su estudio. Lo más simple y fácil es ordenarlos de acuerdo a la magnitud de
cada observación. La secuencia ordenada (menor a mayor) es: 6,8; 6,9; 7,2;.....; 37,7; 37,9 y se
muestra en el cuadro 4. Una vez ordenados los datos, se puede observar con facilidad la frecuencia
con que cada observación ocurre en la serie; así como el valor mínimo y máximo. Por ejemplo, se
puede apreciar que la mayoría de los árboles tienen un diámetro entre 15,0 y 20,0 cm; que existen
unos pocos árboles con diámetros inferiores a 10,0 cm, así como algunos con diámetros superiores a
30,0 cm y que el valor más frecuente es 17,6 cm (el cual como veremos posteriormente es muy
similar a la media aritmética).
18
De la discusión anterior es evidente que no es posible analizar observaciones en forma individual.
A continuación se muestra cómo reducir el grado de complejidad de la serie estadística utilizando
grupos o clases mutuamente excluyentes.
Cuadro 4: Diámetro a la altura del pecho (d) en centímetros para 100 árboles de de roble ordenados
en forma ascendente. Prusia, Cartago.
6,8 10,2 12,5 14,6 16,0 17,5 18,2 20,5 22,3 24,7
6,9 10,5 12,6 14,8 16,1 17,6 18,2 20,6 22,4 27,4
7,2 10,6 13,2 14,8 16,1 17,6 18,4 20,7 22,5 28,4
7,5 10,9 13,7 14,8 16,1 17,6 18,8 21,3 22,7 29,9
7,9 11,0 13,7 15,1 16,2 17,6 18,9 21,4 22,8 31,7
9,1 11,5 13,7 15,2 16,4 17,7 19,0 21,5 22,8 36,5
9,5 11,6 13,9 15,5 16,6 17,8 19,5 21,5 23,4 37,0
9,7 11,8 14,0 15,6 16,7 18,0 19,6 21,9 23,9 37,7
9,9 11,9 14,4 15,7 17,0 18,1 19,8 22,0 24,1 37,9
10,1 12,0 14,4 15,7 17,5 18,2 19,9 22,1 24,2 40
Mínimo máximo valores más frecuentes
12.2 Datos agrupados: frecuencia absoluta, relativa y acumulada
En la sección anterior se analizó muy brevemente algunos aspectos de la distribución diamétrica de
una plantación de roble en Prusia. Aun cuando sólo contamos con una parcela de 100 árboles se
hizo evidente la dificultad de analizar los valores individuales, así como la necesidad de reducir la
complejidad de la serie estadística. Esto se logra agrupando las observaciones. Al agrupar los
valores se reduce la complejidad de la serie y a la vez se facilita su interpretación. A continuación
aprenderemos cómo elaborar, representar gráficamente e interpretar distribuciones de frecuencia.
Tablas de frecuencia: absoluta, relativa y acumulada
Las tablas de frecuencia son la forma más simple y rápida de agrupar observaciones con el fin de
obtener una visión general del patrón numérico de los datos.
Variables cualitativas: Frecuencia absoluta y relativa
La tabla de frecuencia para variables cualitativas posee un título, clases o intervalos y el número de
veces (frecuencia absoluta: FA) con que las observaciones ocurren en cada clase (Cuadro 5). La
frecuencia relativa (FR) expresa la frecuencia absoluta de cada clase con respecto al total de
observaciones. En series cualitativas las observaciones se agrupan utilizando las instancias de la
característica o atributo de interés (e.g. especies) y sólo es posible calcular la frecuencia (absoluta y
relativa) de cada atributo como se muestra a continuación.
19
Cuadro 5: Tabla de frecuencia para una variable nominal.
Especie FA FR %
Canelo 5 25
Aceituno 3 15
Panamá 6 30
Baco 4 20
Guaba 2 10
total 20 100
Variables cuantitativas discretas: Frecuencia absoluta y relativa
Para variables discretas el número de clases, su amplitud y su punto medio están definidos por los
posibles valores que puede tomar la variable en estudio. Por ejemplo, si queremos saber la frecuen-
cia con que ocurre cada una de las caras de un dado en 200 lanzamientos, debemos agrupar los
resultados utilizando las clases: 1, 2, 3, 4, 5, y 6 como se muestra en el cuadro 6.
Cuadro 6: Tabla de análisis de frecuencia.
Cara del dado F. absoluta F. relativa (%)
1 32 16
2 32 16
3 32 16
4 34 17
5 34 17
6 36 18
Total 200 100
Variables cuantitativas continuas: Frecuencia absoluta, relativa y acumulada
La tabla de frecuencia para variables cuantitativas continuas posee un título, clases o intervalos
(C), un punto medio de clase (PM) y el número de veces (frecuencia absoluta) con que las obser-
vaciones ocurren en cada clase (Ci). Para variables continuas el número y amplitud de las clases
depende de varios factores, tales como: número y variabilidad de las observaciones (grado de
dispersión o aglomeración) y detalle requerido. A continuación se brindan algunos criterios
utilizados para seleccionar el número de clases a utilizar.
CRITERIOS
1. Los intervalos de clase deben ser mutuamente excluyentes y a la vez incluir la totalidad de las
observaciones. Ninguna observación puede pertenecer a más de una clase o no pertenecer a
ninguna.
Clases
Clases
20
2. Los intervalos deben ser continuos a través de la distribución. No deben excluirse aquellos
intervalos con cero observaciones; esto crearía una visión distorsionada de los datos.
3. Se recomienda intervalos de igual amplitud, esto facilita analizar el patrón general de los datos.
4. Los intervalos deben organizarse en orden ascendente, esto facilita su lectura.
5. Es recomendable utilizar un mínimo de 5 y un máximo de 20 clases (C). Un mayor número de
clases permite mayor veracidad en el cálculo de estadísticos para datos agrupados pero a la vez
brinda un menor grado de resumen y dificulta la evaluación de los datos. Cuando el número de
observaciones es reducido o cuando se desee representar la serie en forma gráfica es deseable
reducir el número de clases a utilizar. Usted puede utilizar las siguientes ecuaciones métodos
para definir el número de clases:
Regla de Sturges: C= 1 + 3.322 * log10(n) o C=1+ log2 n. Este método fue propuesto por
Sturges en 1926 y a la fecha es todavía uno de los utilizados para definir el número de clases
de un set de datos. Para set de datos grandes, el método tiende a crear histogramas muy
suavizados y a medida que aumenta C, el histograma aproxima la forma de una distribución
normal. Para sets de datos inferiores a 200 observaciones, el número de clases sugeridos por
esta regla es similar al sugerido por los métodos de Freedman- Diaconis y Scott. Sin
embargo, no se recomienda para muestras de gran tamaño (Hyndman, 1995).
Regla de Scott: C = 1 + [A* (n)1/3
/ 3.49*S], en donde “S” es la desviación estándar del set
de datos y “A” es el rango o ámbito del set de datos. Según Scott (1979), este criterio es útil
para una amplia gama de densidades, considerando las gausianas y no gausianas, lo que
conduce a un gran número de clases diferentes.
Raíz cuadrada del número de observaciones. C = (n) 0.5
. Se utiliza con conteos.
Freedman-Diaconis : C = 2[(IQ) / n−1/3
], en donde “IQ” es rango intercuartil del set de datos.
Numero de clases fijo. Ej. 5, 10, 15, etc.
6. El intervalo o amplitud de clase debe ser conveniente y fácil de utilizar. Valores tales como 2, 5,
10 y 25 facilitan la elaboración y lectura de tablas y gráficos; por otra parte valores tales como 7,
11, 21 y 31 dificultan dicha tarea.
7. Es deseable que el límite inferior de la clase menor sea un múltiplo del intervalo de clase.
8. El intervalo de clase y los límites de clase deben tener el mismo grado de precisión (número de
decimales) que los datos originales.
21
Las limitaciones de las tablas de frecuencia son la pérdida de detalle e información y en cierto
modo el grado de subjetividad al seleccionar el número de clases. Una serie estadística pueda
agruparse bajo diferentes criterios como se ilustra en la figura 8. La pérdida de información se debe
a que la totalidad de las observaciones en cada clase están representadas por un solo valor: el punto
medio de clase. Cuanto mayor sea la amplitud de clase mayor será la generalización y la incerti-
dumbre sobre la ubicación de cada observación en el intervalo. Lo deseable es que las observaciones
se distribuyan en forma uniforme a lo largo del intervalo. Sin embargo una vez agrupados los datos
no es posible saber si su distribución es uniforme o si tienden a concentrarse en algún punto a lo
largo del mismo. Otro aspecto a considerar es que la selección del número de clases y el límite
inferior de la primera clase afectan los límites de la última clase.
Regla de Sturges.
10log10(n).
Regla de Scott.
Regla de Freedman-Diaconis.
Figura 8: Número de clases según los criterios de Stutges, 10log10(n), Scott y Freedman-Diaconis.
Frecuencia absoluta (FAb) y relativa (FR)
Hemos indicado que la frecuencia absoluta (FAb) indica el número de observaciones que
pertenecen a una clase dada. Los valores absolutos pueden fácilmente transformarse en porcentajes o
proporciones; los cuales son usualmente más fáciles de interpretar. La distribución de frecuencia
relativa (FR) se define como la proporción o porcentaje del total de observaciones con que cada
valor o atributo ocurre. La frecuencia en porcentaje se obtiene dividiendo la frecuencia absoluta de
cada clase entre el número total de observaciones y multiplicando el resultado por cien (Cuadro 7).
22
La distribución de frecuencia relativa es muy útil para comparar dos o más distribuciones de
frecuencia, especialmente cuando el número de observaciones es diferente (Cuadro 8). Por ejemplo,
es difícil comparar la distribución diamétrica dos parcelas basados en la frecuencia absoluta; cuando
una de ellas tiene 100 observaciones y la segunda sólo 50. Al transformar la frecuencia absoluta en
frecuencia relativa contamos con una base común, lo que nos permite hacer comparaciones.
Cuadro 7: Tabla de análisis de frecuencia.
Cuando las comparaciones se basen en porcentajes se debe considerar el número total de
observaciones en la serie estadística de lo contrario podemos transmitir una falsa idea al lector. Por
ejemplo, si decimos que 80% de los árboles en el Parque Nacional Carara son aptos que anide la
lapa roja, podríamos transmitir una idea errónea sobre la oferta potencial de nidos si solo existieran
5 árboles.
Cuadro 8: Distribución de frecuencia relativa para diámetro a la altura del pecho (d) en centímetros
para dos parcelas de laurel. Observe que la distribución porcentual es muy similar en ambas
parcelas.
Límite clase
(cm)
Parcela A Parcela B
Frecuencia
Absoluta Relativa % Absoluta Relativa %
5,0 - 9,9 9 9 4 8
10,0 - 14,9 25 25 13 26
15,0 - 19,9 37 37 21 42
20,0 - 24,9 21 21 9 18
25,0 - 29,9 3 3 1 2
30,0 - 34,9 1 1 1 2
Total 100 100 50 100
Frecuencia acumulada (FA)
En algunas ocasiones nos interesa saber qué porcentaje de observaciones son mayores o menores
que un valor dado. Por ejemplo, para los diámetros del cuadro 1 podríamos preguntarnos ¿qué
porcentaje de los árboles tienen un valor mayor o igual a 20cm?; o ¿qué porcentaje tienen un
diámetro menor o igual a 10cm? La distribución de frecuencia acumulada permite responder a estas
1 2 3 4 5 6 7 8 1. Clase
2. Límite inferior de la clase
3. Límite superior de la clase
4. Punto medio de la clase
5. Frecuencia absoluta
6. Frecuencia relativa
7. Frecuencia acumulada absoluta
8. Frecuencia acumulada relativa
23
preguntas. Dicha distribución puede expresarse en términos absolutos o relativos y se define así: la
distribución de frecuencia acumulada es una tabla o gráfico que muestra el número de observaciones
menores que el límite superior real de cada clase (distribución "menor que"). También puede
definirse con respecto al límite real inferior de cada clase, denominándose en este caso distribución
"mayor que". El cuadro 9 presenta la distribución de frecuencia acumulada para los diámetros del
cuadro 1. A continuación se muestra cómo elaborar una distribución de frecuencia acumulada.
1. Agrupe los datos en clases como se indicó en la sección anterior.
2. Calcule las frecuencias acumuladas absoluta y relativa. Acumule el número de casos con
valores menores que el límite superior real de cada clase (distribución menor que). Para
calcular la frecuencia de la distribución mayor que se utiliza el límite inferior real de cada
clase.
Por la naturaleza del cuadro 9 no es posible leer directamente el porcentaje de árboles con un
diámetro superior o inferior a un determinado valor. En la próxima sección observaremos que esto
se logra elaborando una curva de distribución de frecuencia acumulada u ojiva. Como método
alternativo se puede utilizar la interpolación lineal.
Cuadro 9: Distribución de frecuencia acumulada (menor que) para los diámetros del cuadro 1.
No. clase Límite de clase
(LC) (cm)
Límite exacto
(LE) (cm)
Frec. Absoluta
(FAb)
Frec. Acumulada
Absoluta Relativa
(FAA) (FAR)
1 5.0 - 9.9 4.95 - 9.95 9 9 9
2 10.0 - 14.9 9.95 - 14.95 25 34 34
3 15.0 - 19.9 14.95 - 19.95 37 71 71
4 20.0 - 24.9 19.95 - 24.95 21 92 92
5 25.0 - 29.9 24.95 - 29.95 3 95 95
6 30.0 - 34.9 29.95 - 34.95 1 96 96
7 35.0 – 40.0 34.95 - 40.05 4 100 100
13. Gráficos
El principal objetivo de toda gráfica es transmitir con claridad, efectividad, y objetividad una idea.
Existen diferentes tipos de gráficos por cuanto en la presente sección sólo se presentarán aquellas de
uso más frecuente. El anexo 2 presenta algunos criterios generales para la elaboración de gráficos.
13.1 Diagramas de pastel, barras y líneas
El diagrama de "pastel", circular o de sectores se utiliza tanto con variables cualitativas
(frecuencias) como cuantitativas (cantidades) y muestra el tamaño relativo o proporcional de los
24
elementos que conforman la serie de datos (Fig. 9). El gráfico de pastel se elabora dividiendo el área
del círculo en tantos sectores como categorías o características se desee representar. La grafica
muestra solo una serie de datos y por lo tanto si usted desea comparar dos o más series estadísticas
debe utilizar varios pasteles.
Figura 9: Ejemplos de gráficos de pastel. Variable cobertura de bosque (km
2) por región para 1950.
Las barras y líneas se utilizan tanto con variables cualitativas como cuantitativas. Los gráficos de
líneas muestran la tendencia de los datos en el tiempo o entre categorías. En estos gráficos es
recomendable ordenar los valores en forma descendente (mayor a menor) o ascendente (menor a
mayor). Cuando se desee expresar la variabilidad de un fenómeno en tiempo y espacio se pueden
utilizar varias barras o líneas.
La figura 10 presenta un gráfico de barras y la figura 11 un grafico de líneas verticales y
horizontales, respectivamente. Las barras y líneas verticales se utilizan con series de tiempo y
cuantitativas discretas en tanto que las horizontales con series geográficas. Al elegir un tipo
particular de grafico, considere los siguientes aspectos: naturaleza de los datos a graficar, estética,
sencillez y sentido común. Es importante recordar que el objetivo primario de la gráfica es ilustrar y
simplificar la información que se transmite. Si la gráfica no cumple con estos requisitos debe
reelaborarla.
A. Barras simples B. Barras comparativas verticales
25
C. Barras comparativas horizontales D. Barras compuestas en 3D.
Figura 10: Ejemplos de gráficas de barras. Variable cobertura de bosque (km2) por región para 1950,
1961 y 1977.
A. B.
Figura 11: A. Gráfica de líneas verticales, variable descarga mensual (m3/s), río Pacuare. B. Gráfica
de líneas comparativas, variable cobertura de bosque (km2) por región para 1950, 1961 y 1977.
Las ventajas de los diagramas de barras, líneas y "pastel" son: claridad, simplicidad y fácil
interpretación. Entre sus desventajas tenemos que cuando se expresan los datos en porcentaje
pueden brindar una idea distorsionada al lector. Para remediar esta limitación se debe especificar el
tamaño de la muestra y la unidad de los datos originales. Por ejemplo, si se elabora un diagrama de
pastel para ilustrar el método de transporte de desechos sólidos, debemos especificar si nos
referimos a m3, número de contenedores, o número y tipo de medio utilizado (e.g. camión, tren,
barco).
Al utilizar estas gráficas con fines comparativos debe estar consciente de la idea visual que se
comunica al lector y diseñarla de tal forma que no se introduzca una visión sesgada de los datos
como se ilustra en la figura 12. En estas gráficas, la diferencia en el eje “Y” es de tan sólo 1%; sin
embargo la grafica de la izquierda magnifica visualmente la superioridad del grupo A sobre el B.
26
Figura 12: Manipulación de datos utilizando gráficas.
13.2 Histograma y polígono de frecuencia
El histograma en una serie contigua de rectángulos (eje X), cuya base coincide con la amplitud de
la clase que representa y la altura (eje Y) con la frecuencia observada en la clase. La escala vertical
puede ser absoluta o relativa. La grafica ofrece una primera idea de la distribución teórica
subyacente que caracteriza a la serie estadística; así como de la importancia relativa de cada clase
como se ilustra en la figura 13. Las tablas brindan información más detallada que las gráficas; sin
embargo también requieren de un mayor esfuerzo por parte del lector para interpretarlas.
Figura 13: Distribución de frecuencia para los diámetros de roble del cuadro 1. La línea sobrepuesta
corresponde a la distribución normal.
El polígono de frecuencia se elabora graficando el punto medio de cada clase versus su frecuencia
y uniendo cada punto con una recta. La frecuencia de cada clase puede graficarse en términos
absolutos o relativos. La curva de la distribución de frecuencia relativa, como también se denomina
al polígono de frecuencia relativo, es sumamente útil para comparar la distribución de frecuencia de
dos series estadísticas con diferente número de observaciones. La figura 14 muestra la distribución
de frecuencia de 50 árboles de laurel de la misma edad. Al observar la figura puede concluirse que
ambas parcelas muestran una distribución diamétrica similar en cuanto a diámetros mínimos y
máximos y que los árboles con un diámetro entre 14 y 17 cm son más frecuentes en la zona A que
en la B. El análisis gráfico nos permite tener una primera impresión sobre el comportamiento de los
27
datos y a la vez inferir sobre el posible resultado de futuras pruebas estadísticas; por ejemplo: ¿Cree
usted que el crecimiento de los árboles en zona A es mayor que en la zona B?
Figura 14: Distribución de frecuencia para los diámetros de laurel en dos zonas de Costa Rica.
13.3 Curva de frecuencia acumulada (OJIVA)
La curva de frecuencia acumulada u ojiva es la representación gráfica de la distribución de
frecuencia acumulada. La curva se elabora graficando el valor del límite exacto superior (menor
que) o inferior (mayor que) de cada clase versus la frecuencia acumulada correspondiente.
Posteriormente cada punto se une con una recta como se muestra en la figura 15.
La ojiva muestra el porcentaje o número de observaciones superiores al límite real inferior
(distribución mayor que) o menores que el valor del límite real superior (distribución menor que) de
cada clase. La palabra ojiva significa curva en forma de S. La gráfica tendrá una forma de S cuando
los valores tiendan a concentrarse hacia el centro de la distribución.
Figura 15: Distribución de frecuencia acumulada para diámetros de laurel en dos zonas de Costa
Rica.
13.4 Gráfico de percentiles y cuantiles
La gráfica de percentiles y cuantiles proporciona una visión preliminar de la dispersión y de la
tendencia central de los datos. Los percentiles, también conocidos como centiles, dividen la
totalidad de las observaciones en cien partes. Por su parte, los cuantiles se refieren a una fracción o
proporción dada del total de observaciones (Fig.16). Tanto los percentiles como los cuantiles
28
corresponden a una observación en un set de datos ordenados. Por ejemplo, el veinteavo percentil o
el cuantil 0,20 es igual al valor de la observación por debajo del cual se encuentran 20% o 0,20,
respectivamente, de las observaciones.
Figura 16: Gráfica de cuantiles (izquierda) y percentiles (derecha).
La figura 16 permite responder a preguntas tales como: ¿a cuál percentil o cuantil corresponde un
diámetro de 10 cm?; o ¿cuál es el valor del décimo percentil (primer decil)? En el primer caso
estamos interesados en el porcentaje de observaciones que poseen un valor menor o igual a 10 cm;
en tanto que en el segundo caso en el diámetro correspondiente al percentil diez.
Algunos percentiles de uso frecuente son: decil, cuartil, quintil y mediana. Los deciles dividen los
datos ordenados en 10 partes iguales. Por ejemplo, si tenemos 100 observaciones ordenadas según
su magnitud el primer decil será igual al valor de la observación número 10,5; el segundo a la
observación 20,5 y así sucesivamente hasta completar los 10 deciles. Para los datos del cuadro 2 el
valor de cada decil es: 10,2; 12,3; 14,5; 15,9; 17,5; 18,2; 19,9; 22,1; 24,2; 37,9 cm. Los cuartiles
dividen la serie estadística en cuatro partes; en tanto que los quintiles la dividen en cinco partes.
La mediana divide los datos ordenados en dos partes con igual número de observaciones, por lo
tanto es el valor correspondiente a la observación (n+1)/2. Para los datos del cuadro 2 la mediana es
la observación numero 50,5 o sea 17,5 cm. Para datos agrupados, el valor de un cuantil puede
obtenerse ajustando una ecuación polinómica a la curva de frecuencia acumulada como se muestra
en la figura 17 o aplicando la siguiente fórmula:
C(p)=Li+Ic *((Pi * n)-f.acum. inf)/fc)
en donde:
C(p)= cuantil de interés.
Li= límite real inferior de la clase que contiene C(p).
Pi= cuantil expresado como decimal.
n = número de observaciones.
facum. inf= frecuencia acumulada por debajo de la clase que contiene C(p)
fc = frecuencia de la clase que contiene C(p)
29
Figura 17: Estimación de percentiles utilizando una ecuación polinómica de quinto grado. La
ecuación es: Percentil = 0.0049*d5 - 0.0967*d
4 + 0.5231*d
3 - 0.7112*d
2 + 8.3611*d - 5.8 R² =
0.998, donde “d” corresponde al diámetro para el cual se desea calcular el percentil.
Los percentiles pueden utilizarse para elaborar clasificaciones basadas en series cuantitativas
continuas. Por ejemplo, se pueden utilizar quintiles para dividir un registro de precipitación en
períodos muy secos, secos, normales, húmedos y muy húmedos. El mismo principio puede
aplicarse a otras variables tales como diámetro, temperatura y peso. La ventaja del método es que se
basa en la información proporcionada por los datos y a la vez reduce el grado de subjetividad al
elegir el límite de cada clase.
13.5 Grafico de cuartiles (Q-Q)
El grafico de cuartiles (Q-Q) se utiliza para evaluar visualmente el grado de ajuste entre los valores
de un set de observaciones y los de una distribución teórica (e.g. Normal, Chi cuadrado,
Exponencial) cuyos parámetros son estimados a partir de la muestra. La figura 18 muestra la grafica
Q-Q para los valores originales de diámetro del cuadro 1 y los valores transformados (log10). La
recta indica el grado de ajuste entre los datos de diámetro y los valores esperados para una
distribución normal. Observe que solo los valores transformados se ajustan a una distribución
normal.
Figura 18: Grafico de Q-Q para los valores de diámetro (cm) del cuadro 1.
30
13.6 Gráfico de media y barra de error
Este gráfico presenta el valor de la media asociado a alguna medida de dispersión (e.g. rango,
desviación estándar, rango, error estándar). La figura 19 ilustra la ubicación de la media (punto) mas
menos una desviación estándar para dos sets de datos (A y B).
Figura 19: Grafico de media mas menos una desviación estándar ± 1S.
13.7 Gráfico de rectángulos verticales y horizontales (diagrama de Box-Whisker)
El gráfico de rectángulos (o cajas) se utiliza para preparar resúmenes visuales de uno o más grupos
de datos y así facilitar su análisis preliminar o exploratorio (Fig. 20). El diagrama fue creado por
Tukey en los años 70; sus componentes básicos son:
a) Valores extremos (valor mínimo y máximo). Para los datos del cuadro 4 corresponde a los
datos 6,8 cm y 40,0 cm.
b) Primer cuartil (Q25). Valor de la observación 0,25*(N+1) en una serie ordenada. Para los
datos del cuadro 4 corresponde al valor de la observación 0,25*(100+1) = 25,25. El valor de
esta observación debe interpolarse utilizando los valores de las observaciones 25 y 26. Para
el set de datos del cuadro 4 el valor de las observaciones 25 y 26 es el mismo (13,7 cm) y por
lo tanto el valor de Q25 es13.7 cm.
c) Tercer cuartil (Q75). Valor de la observación 0,75*(N+1) en una serie ordenada. Para los
datos del cuadro 4 corresponde al valor de la observación 0,75*(100+1) = 75,75. El valor de
esta observación debe interpolarse utilizando el valor de las observaciones 75 (21,4 cm) y 76
(21,5). El valor es 21,4 + 0,25 * (21,5-21,4)= 21,425 cm.
d) Mediana: (n+1)/2. Para los datos del cuadro 4 corresponde al valor de la observación
(100+1)/2= 50,5. Para este set de datos el valor de la observación 50 y 51 es el mismo (17,5
cm) y por lo tanto el valor de la mediana es17.5 cm.
e)Valores atípicos o extremos
Un valor atípico o extremo en un conjunto de datos es aquel que se encuentra muy lejos de los
otros valores. Los valores extremos pueden ser causados por errores experimentales, de
31
medición, o por observaciones que provienen de una población con una cola larga. En los dos
primeros casos, es aconsejable identificar dichos valores y considerar si deben eliminarse del
set de datos antes de realizar cualquier análisis estadístico ya que muy posiblemente no
representan a la población de cual proviene la muestra. Los valores atípicos pueden
identificarse utilizando el siguiente procedimiento.
1. Calcular el rango intercuartil: RIC= Q75 - Q25 = 21,425 – 13,7 = 7,725 cm.
2. Calcular el Límite inferior interno = Q1 - (1,5* RIC) = 13,7 - 1.5* (7,725) = -2,11 cm
3. Calcular el límite superior interno = Q3 + (1,5* RIC) = 21,425 + 1.5 (7,725) = 33,01 cm
4. Calcular el límite inferior externo = Q1 - (3* RIC) = 13,7 – 3* (7,725) = -9,47 cm
5. Límite el límite superior externo = Q3 + (3* RIC) = 21,425 + 3* (7,725) =36,87 cm
Una ver calculados los valores anteriores se aplica el siguiente criterio:
Clasificación Criterio
Valor atípico leve Valor de la observación es menor que el límite inferior interno (-2,11 cm)
o mayor que el límite superior externo (33,01 cm).
Valor atípico severo Valor de la observación es menor que el límite inferior externo (-9,47 cm)
o mayor que el límite superior externo (36,87 cm).
Para los datos de diámetro del cuadro 1, las observaciones con valores de 37,0 cm, 37,7 cm, 37,9
cm y 40 cm son consideradas como muy extremas para el set de datos y se grafican con asteriscos en
la figura 20. No todos los programas estadísticos utilizan la misma fórmula para definir un valor
extremo, por lo tanto se recomienda indicar la fórmula utilizada para su cálculo. Los valores atípicos
deben investigarse cuidadosamente antes de eliminarlos; pues a menudo contienen información
valiosa sobre el proceso en investigación o sobre el método de recolección de datos. Antes de
considerar su eliminación, se debe tratar de entender por qué aparecieron y si es probable que
valores similares aparezcan nuevamente.
Figura 20: Gráficos de Box-and-Whisher. Los círculos rojos muestran los valores extremos.
32
13.8 Diagrama de tallo hoja
El diagrama de tallo-hoja puede considerarse como un híbrido entre una tabla y una figura. La
gráfica, al igual que una tabla, muestra la totalidad de las observaciones; sin embargo su apariencia
es muy similar a la de un histograma (Fig. 21). Las características del diagrama son:
1. Presenta la totalidad de las observaciones. Esto lo hace muy similar a un cuadro, ofreciendo al
lector la posibilidad de inspeccionar cada una de las observaciones.
2. La información se presenta de una forma más compacta. Esto es evidente si comparamos el
número de dígitos del cuadro 1 (291) con el número de dígitos de la figura 17 (160); la figura
requiere sólo el 55% del número de dígitos del cuadro.
3. La gráfica brinda información visual sobre la dispersión y forma de la distribución. Si
observamos la figura 21 y el cuadro 1 es evidente que podemos obtener más información y
en menor tiempo del diagrama de tallo-hoja que del cuadro. Por ejemplo, la figura muestra
claramente que la mayoría de los árboles tienen un diámetro entre 15 y 19 cm.; que existen 4
árboles con diámetros iguales o superiores a 36.5 cm. considerados como “valores extremos”
y que prácticamente no existen árboles en el ámbito 25-35 cm. Por otra parte, la figura
también nos permite visualizar el grado de simetría de los datos.
Figura 21: Gráfico de tallo-hoja para 100 diámetros de pino. Prusia, Cartago, Costa Rica.
13.9 Gráfico de probabilidad normal
Este gráfico muestra en el eje X la probabilidad (bajo el supuesto de normalidad) de que una
observación sea mayor/menor que un valor dado del eje Y (Fig. 22) y se utiliza con frecuencia para
probar por la normalidad de un set de datos cuantitativos. Si los datos son normales se ajustarán a
una recta. Observe que en la figura 22 el diámetro no sigue una distribución normal sin embargo el
logaritmo del diámetro si es normal.
S t e m - a n d - L e a f D i s p l a y f o r d : u n i t = 1 . 0 1 | 2 r e p r e s e n t s 1 2 . 0
9 0 | 6 6 7 7 7 9 9 9 9
3 5 1 | 0 0 0 0 0 1 1 1 1 1 2 2 2 3 3 3 3 3 4 4 4 4 4 4 4 4
( 3 6 ) 1 | 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 9 9 9 9 9
2 9 2 | 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 4 4 4
8 2 | 7 8 9
5 3 | 1
H I | 3 6 . 5 3 7 . 0 3 7 . 7 3 7 . 9
33
Figura 22: Graficas de probabilidad normal.
13.10 Diagrama de dispersión
Este gráfico muestra la relación entre las variables X y Y de un set de datos y por lo tanto permite
visualizar la correlación o asociación entre dos variables cuantitativas (Fig. 23).
Figura 23: Diagrama de dispersión. Las líneas verticales muestran el intervalo de confianza (95%)
para el set de datos dividido en cinco grupos. Observe el aumento en la variabilidad de los datos al
aumentar el tamaño de los árboles.
13.11 Grafico de medias móviles
El grafico de medias móviles es apropiado para representar la tendencia de una serie estadística
temporal (Fig. 24). Por ejemplo, si usted tiene 100 registros cronológicos los puede graficar
utilizando medias móviles para periodos de 5, 10, 15 años o cualquier periodo para el cual tenga
sentido el análisis.
34
Figura 24: Grafico de media móvil de cinco años. Variable descarga mensual (m
3/s), río Pacuare.
13.12 Grafico de densidad
Este grafico muestra la posición de cada observación del set de datos y por lo tanto ofrece una
visión general de los mismos similar a la del diagrama tallo-hoja como se ilustra en la figura 25.
Figura 25: Grafico de densidad de puntos para los valores de diámetro (cm) del cuadro 1.
13.13 Gráfico de radar
Esta gráfica se utiliza para comparar el comportamiento de tres o más variables en el tiempo. Las
unidades deben ser las mismas (Ej. porcentaje, ha, metros, etc.) como se ilustra en la figura 26.
Eventos especiales o particulares
35
Figura 26: Grafico de radar.
13.14 Pictogramas
El pictograma es un medio gráfico que se utiliza cuando se desea comparar magnitudes de la
variable en estudio en tiempo o espacio (Fig. 27). El uso de pictogramas es frecuente en economía,
demografía y otras áreas de las ciencias sociales; aunque también puede usarse en diversos campos
de las ciencias naturales. El elemento central de la gráfica es un objeto que identifica el tema en
estudio. Por ejemplo, para expresar cambios en el número de toneladas de camarón capturadas por
año, se puede elaborar una grafica utilizando camarones, en la cual cada uno representa 5 toneladas.
Figura 27: Pictograma.
Los pictogramas, al igual que otros medios para presentar datos, pueden utilizarse incorrectamente.
Debemos recordar que el pictograma muestra magnitudes y que por lo tanto un aumento o una
disminución en la variable debe representarse por más o menos objetos y no por un cambio en el
tamaño del objeto. En los pictogramas el lector es influenciado por el área del objeto y no por sus
dimensiones lineales (altura y longitud).
14. Exactitud y precisión
No existe ninguna medida perfecta y por lo tanto, todas las mediciones contienen algún grado de
error, los cuales se agrupan en dos grandes categorías: el sesgo o error sistemático que puede
1980 1985 1990
36
modelarse utilizando una ecuación que describe las mediciones, lo que permite eliminar o reducir
significativamente su efecto y el ruido o error aleatorio, el cual no se puede modelar, pero cuyas
propiedades estadísticas se pueden utilizar para optimizar los resultados del análisis.
Exactitud: mide el grado de fidelidad o proximidad de la medición con respecto al valor real de la
variable. El error o sesgo es igual a valor real-valor medido. Para determinar el error en una
medición es necesario conocer el valor real de la variable medida (Fig. 28).
Precisión: es una medición de la similitud entre mediciones repetidas de una variable. Para variables
con una distribución normal, la varianza se utiliza para cuantificar la variación del set de datos con
respecto a la media (Fig. 28).
Figura 28: Conceptos de exactitud y precisión. Observe que una medición puede tener una alta
precisión y un bajo sesgo o error; sin embargo también puede tener una alta precisión y un alto
sesgo o error. Lo deseable es una alta precisión y un error mínimo.
15. El proceso de investigación
Existen muchas definiciones del término investigación; sin embargo en el contexto del presente
documento la definiremos como el camino o ruta que usted sigue para responder a sus preguntas o
someter a prueba sus hipótesis. En el proceso de investigación se pueden reconocer los siguientes
elementos (Fig. 28):
A. Mundo real: La realidad que se estudia.
B. Preguntas. ¿Por qué y para qué hacemos la investigación? ¿Cuáles son las preguntas que
deseamos responder? La formulación de sus preguntas-hipótesis deben estar sustentadas en
estudios previos (revisión del estado del conocimiento en su tema de investigación).
C. Poblaciones/muestras/variables: Transformación del mundo real en entes estadísticos que
puedan ser medidos y analizados.
D. Medición: Proceso e instrumentos utilizados para recabar datos del objeto/ente de interés.
E. Análisis de datos: Métodos y procedimientos utilizados para transformar los datos en
información; incluye el someter a prueba hipótesis (diseño experimental vs Observacional).
37
F. Conclusión: Respuesta del investigador(a) a las preguntas planteadas en su estudio.
Involucra una decisión/valoración personal de los resultados de su estudio en el contexto de
lo conocido y aceptado en la temática que investiga.
G. Recomendaciones: Reformulación de preguntas o hipótesis.
H. Aplicación: Acción sobre el mundo real.
I. Monitoreo: Medir y analizar respuesta del “mundo real” a las acciones emprendidas.
Figura 29: El proceso de investigación.
Estadística e investigación
La estadística es solo una herramienta que permite analizar datos, sin embargo las preguntas
fundamentales que tratamos de responder deben nacer de nuestro conocimiento del tema en
estudio. Al enfrentar un tema de investigación (nuevo o conocido) debe hacer un esfuerzo por
lograr una sinergia entre lo que ya conoce y los retos o preguntas que podría hacerse a la luz del
tema bajo investigación. El investigador(a) en el campo de ambiente y recursos naturales se
enfrenta a preguntas muy disímiles y a veces ambiguas; con frecuencia estudiamos procesos o
interacciones que no entendemos o sobre los cuales no existe suficiente información previa. Dado
que no existe una “receta” infalible sobre cómo abordar un tema de investigación, se recomienda
utilizar el siguiente esquema:
1. Documéntese lo mejor que pueda sobre el tema en estudio
Esta es la función que cumple la revisión de literatura y la consulta a expertos y a colegas. El
producto final de esta fase debe ser un conocimiento actualizado de lo que estudia. Responda a
las siguientes preguntas: ¿Qué se sabe sobre el tema de estudio? ¿Cuál ha sido la
aproximación metodológica utilizada? ¿Qué instrumentos se han utilizado para recabar los
datos? ¿Qué tipo de diseño estadístico se ha utilizado? ¿Cuál ha sido es el costo de un estudio
como el que usted desea realizar?
38
2. Utilice su conocimiento no estadístico
Al plantear un pregunta y analizar datos no sobre enfatice el papel que debe jugar la estadística
y los métodos de análisis estadístico. Recuerde que la estadística sólo le indica si A es
diferente de B, pero el explicar porqué es diferente es la tarea del investigador(a).
3. Defina sus objetivos con claridad
Si usted no sabe cuál es la pregunta que desea responder, no existe ningún método estadístico
que pueda ayudarle a resolver esta parte del proceso de investigación. El objetivo del estudio
marca el rumbo de la investigación y por tanto debe esbozarse con claridad antes de iniciar el
proceso de diseño. Una forma sencilla de fijar el objetivo es responder a la pregunta ¿cuál es la
interrogante fundamental que se desea resolver? ¿Cuál es su hipótesis nula? ¿Cuál es su
hipótesis alternativa? ¿Cuáles pruebas estadísticas utilizará para someter a prueba su
hipótesis? ¿Cuál es su valor de alfa (error tipo I)?
4. Aprende de la interacción entre la teoría y la practica (experimentos)
La estadística es el arte de tomar decisiones ante situaciones de incertidumbre y con escasos
datos. Por esta razón el estadístico debe ser a la vez practicante de lo que predica. No es
suficiente con dominar todos los posibles diseños y métodos de análisis si no se conoce del
tema que se estudia. Por otro lado, tampoco es suficiente con conocer la “realidad” para
diseñar y ejecutar buenos experimentos/estudios. La sinergia teoría-práctica es esencial para
hacer buena ciencia.
5. Defina las variables que desea medir
Clasifíquelas como independientes (tratamientos) y dependientes (respuesta). De ser posible
indique el nivel de respuesta medio esperado por tratamiento y su variabilidad. Esto puede
hacerse basado en estudios previos. También debe clasificar las variables según su escala de
medición; esto le facilitará decidir cuál prueba estadística debe aplicar a los resultados.
¿Cumplen las variables con los requisitos de sus métodos de análisis? ¿Le permitirán dichas
variables responder a los objetivos de su estudio?
6. Costo del estudio
Estime el costo de obtener una observación para cada variable del experimento. Por ejemplo,
dinero necesario para determinar el % de germinación de un lote de 100 semillas.
7. Esquema del estudio
Haga un esquema de su diseño experimental (aunque sea general) y defina su hipótesis nula y
alternativa. En caso de analizar la interacción entre variables cuantitativas ¿qué tipo de
relación espera obtener? Prepare una tabla que muestre los resultados esperados de su estudio.
16. Algunos conceptos y terminología
Un concepto (del latín “conceptus”) es una abstracción mental de una realidad, un objeto o ente
que se expresa mediante palabras-símbolos y que en sí mismo es una unidad cognitiva de
significado dado. Los conceptos le permiten a los seres humanos comunicarse entre sí y a la vez
39
comprender su interacción como parte de su entorno (e.g. social, ambiental, lógico, ético). Sin
pretender ser exhaustivo, a continuación listo algunos conceptos y términos utilizados con
frecuencia en proyectos de investigación.
Métodos de razonamiento lógico
Los métodos de razonamiento lógico son: deducción, inducción y abducción (Burch, 2010, Markie
2008, Pereboom 2009). Al enfrentarse al reto de proponer y ejecutar su proyecto de investigación
usted utilizará estos tres conceptos en diferentes momentos y con diferentes propósitos, pero
siempre para sustentar sus conclusiones y argumentos.
Deducción: A partir del todo (población) se deriva una afirmación que aplica a una condición
particular (muestra). La conclusión « q » se sustenta en la premisa « p ».
Ejemplo: Todos los cursos de agua de Tortuguero son caños (Población) (Premisa)
Este curso de agua es de Tortuguero.
Deducción: El curso de agua es un caño (Conclusión).
Inducción: A partir de una porción de la realidad (muestras) se hace una afirmación sobre el todo
(población). Sustentada en la comprobación empírica (experimental) de una hipótesis. La inducción
crea una regla (hipotética) a partir de varios casos (se va de los “singular” a lo "universal").
Ejemplo: Muestrea 1: Este curso de agua de Tortuguero es un caño.
Muestrea 2: Este curso de agua de Tortuguero es un caño.
Muestrea n: Este curso de agua de Tortuguero es un caño.
Inducción: Todos los cursos de agua de Tortuguero son caños (Población).
La inducción al igual que la abducción requiere de una validación empírica (experimental); sin
embargo a pesar de estas validaciones siempre existe la posibilidad (incertidumbre) de que exista
una excepción.
Abducción: Según el filósofo Charles Sanders Peirce (1839-1914) la abducción consiste «en
examinar una masa de hechos y en permitir que esos hechos sugieran una teoría» (Barrena y Nubiola
2007, Burch 2010). Este método de razonamiento lógico está sustentado en hechos, a partir de los
cuales se plantea una hipótesis novedosa para explicarlos haciendo uso de la intuición y combinando
la lógica con el instinto de una manera creativa. El método consiste en explicar « q » mediante « p »
considerando a “p” como la hipótesis explicativa. Para Pierce, la investigación científica incluye los
siguientes pasos (Barrena y Nubiola, op.cit.):
1. Experiencia sensorial: se observan los fenómenos y, examinándolos cuidadosamente, se
propone una conjetura-hipótesis creativa como una explicación plausible (Fase abductiva).
2. Fase deductiva. A partir de la hipótesis se infieren, a través de un análisis lógico, una serie
de predicciones sujetas a prueba mediante métodos empíricos (experimentos).
40
3. Fase inductiva. Las predicciones sustentadas en la hipótesis son sometidas a prueba
empíricamente. Según Pierce esta fase permite saber «si la hipótesis es lógicamente correcta,
o si requiere alguna modificación no esencial, o si bien debe ser rechazada por completo»
(Barrena y Nubiola, op. cit.). Si el resultado de las pruebas experimentales no permiten
probar la hipótesis, las mismas pueden utilizarse para formular nuevas hipótesis.
Ejemplo:
Regla: Todas las corrientes de agua en Punta Castilla-río San Juan son “caños”
Caso: Estos cuerpos de agua son caños de Punta Castilla-río San Juan.
Abducción: Este caño procede de las corrientes de agua de Punta Castilla-río San Juan.
En la deducción la conclusión se obtiene de la premisa: dada la Regla y el Caso, el resultado hace
explícito algo ya implícito en las premisas ("va de lo universal a lo singular"). Pierce justifica el uso
del razonamiento abductivo sustentado en las veces que acierta gracias a la sintonía que existe entre
la mente del investigador(a) y la naturaleza, gracias a un instinto o luz natural que le permite al ser
humano inferir la respuesta adecuada. Esta afirmación de Pierce refleja su visión religiosa sobre la
existencia de Dios, la creación y el ser humano (somos parte de un todo interconectado).
Una suposición respaldada por datos (observaciones) es una hipótesis en tanto que si no está
respaldada por datos se denomina una conjetura.
La navaja de Ockham (Occam u Ockam), principio de economía o principio de parsimonia
Este es un principio filosófico que se le atribuye al monje franciscano y filósofo Guillermo de
Ockham (1280-1349), el cual indica que (http://enciclopedia.us.es/index.php/Navaja_de_Ockham):
“Cuando dos teorías en igualdad de condiciones tienen las mismas consecuencias, la teoría más
simple tiene más probabilidades de ser correcta que la compleja”.
En lenguaje cotidiano esto puede entenderse como “las cosas esenciales no se deben multiplicar
sin necesidad” y en el contexto de una investigación esto implica no multiplicar las causas o
hipótesis que explican los resultados obtenidos. Cuanto más sencillas y menos sean las premisas
utilizadas para explicar sus resultados más creíble será su argumento; ya que depende de un menor
número de suposiciones.
¿Cuál es la teoría más simple? Ockham respondió a esta pregunta indicando que “cuando dos teorías
tienen las mismas consecuencias, debe preferirse la teoría que postule la menor cantidad de tipos de
entidades (cualquier cosa material o no material que exista)” o sea, no debemos multiplicar las
entidades innecesariamente. Otra manera de medir la simplicidad, sin embargo, podría ser por el
número de axiomas2 de la teoría.
2 Un axioma es una regla o una declaración de que se acepta como verdad sin pruebas. Un axioma también se conoce
como un postulado (http://www.icoachmath.com/math_dictionary/axiom.html).
41
La implicación práctica de esta afirmación es que la simplicidad frente a la complejidad con
frecuencia conduce a la credibilidad y a mejores resultados. Sin embargo, al realizar una
investigación este principio no se utiliza como una afirmación lógica irrefutable sino más bien como
una regla para guiar el proceso de toma de decisiones. El mismo principio de Ockham establece que
"la explicación más simple y suficiente es la más probable, mas no necesariamente la verdadera".
Anti-navajas de Ockham
Algunos científicos y filósofos (e.g. Leibniz 1646–1716; Immanuel Kant 1724–1804, Albert
Einstein 1879-1955; Carl Menger 1840-1921) han considera “La Navaja de Ockham” como
demasiado extrema o imprudente. Ante su oposición a “La Navaja de Ockham”, el filósofo Walter
of Chatton aportó su propia anti-navaja; la cual indica que:
“Si tres cosas no son suficientes para verificar una proposición afirmativa sobre las cosas, una
cuarta debe ser añadida, y así sucesivamente”.
Por ejemplo, Leibniz sustentado en el “Principio de plenitud” afirmó que “Todo lo que sea posible
que ocurra, ocurrirá”.
Por su parte, Albert Einstein afirmó que: “A duras penas se puede negar que el objetivo supremo
de toda teoría es convertir a los elementos básicos en simples y tan pocos como sea posible, pero sin
tener que rendirse a la adecuada representación de un sólo dato de la experiencia. Simple, pero no
más simple”. (Einstein, 1934)
En resumen, la investigación es siempre más compleja que lo que parece en primera instancia y
solo la experiencia, los buenos hábitos de trabajo y la exploración de todas las posibles soluciones
pueden ayudarle a discernir la respuesta correcta.
17. Algunos conceptos y definiciones estadísticas3
Población, muestra y variables
En el análisis de datos con frecuencia se utilizan las palabras “variable independiente” y “variable
dependiente”; sin embargo en diferentes disciplinas dichos términos pueden tener diferentes
acepciones como se muestra a continuación:
Variable independiente, variable explicativa, variable control, variable manipulada, variable
predictiva, regresor, variable de exposición, insumo.
Variable dependiente, variable respuesta, variable medida, variable observada, variable
explicada, variable resultado, variable experimental, producto.
3 http://wiki.stat.ucla.edu/socr/index.php/EBook, http://writing.colostate.edu/guides/research/glossary/,
http://statistics.berkeley.edu/~stark/SticiGui/Text/index.htm, http://www.people.vcu.edu/~pdattalo/StatTextLinks3.htm y
http://www.statsoft.com/textbook/
42
• Variable "independiente" responde a la pregunta "¿Qué puedo cambiar?"
• Variable "dependiente" responde a la pregunta "¿Qué observo?
• Variable de control responde a la pregunta "¿Qué mantengo constante?"
• Variables externas responden a la pregunta "¿Cuáles variables no consideradas en el análisis
pueden modificar/explicar el efecto de la variable “independiente” en la variable dependiente?
Dado que la mayoría de las variables presentan algún grado de correlación es preferible utilizar los
términos variable respuesta y variable explicativa.
Población: Es el total o universo al cual se desea aplicar la inferencia o conclusión del estudio.
Muestra: Es una parte o porción de la realidad bajo estudio.
Aleatorización: Asignación aleatoria de los tratamientos a los sujetos o unidades experimentales.
Esto elimina cualquier sesgo conocido o desconocido en la asignación de los tratamientos.
Consistencia: Un método de análisis estadístico es consistente cuando la significancia de la prueba
depende exclusivamente de: 1) la diferencia entre los dos estimadores, 2) el error estándar de las
diferencias, 3) el número de grados de libertad del error, y 4) el nivel de significancia al cual se hace
la prueba.
Credibilidad: Capacidad/habilidad de un investigador(a) para demostrar que identificó con claridad
y exactitud las variables claves para su tema de estudiado.
Cuasi o seudo experimento: Estudio en el cual se utilizan los principios propuestos por Fisher para
el diseño de experimentos; sin embargo, por diversas razones prácticas, no es posible asignar los
tratamientos en forma aleatoria. Este tipo de estudios es común en el área de ecología y en general
en estudios de tipo observacional.
Error experimental: Variación natural o innata del material experimental no controlado por el
investigador(a). Este no es un error adrede o derivado de la aplicación errónea de técnicas de
medición sino simplemente un componente propio del material experimental. Es la variabilidad que
no puede ser explicada por los datos obtenidos en el estudio o experimento.
Medición: Proceso de asignar un valor numérico ó no numérico a un fenómeno, proceso u objeto.
Observación: Es la medición realizada en una unidad experimental u objeto.
Repetición: Réplica estadísticamente independiente de un tratamiento. Cuando el tratamiento es
aplicado a varias unidades experimentales independientes; cada aplicación brinda una estimación
43
independiente de la respuesta del sujeto experimental al tratamiento. Cuantas más réplicas se tenga
mejor será la estimación del error experimental. En la mayoría de los casos se recomienda un
mínimo de tres observaciones independientes por tratamiento.
La seudo replicación es el resultado de muestrear dos o más veces la misma condición (muestras
no independientes). Por ejemplo, al evaluar la densidad de peces en dos ríos; uno contaminado y
otro no, si se muestrean 5 sitios al azar en cada uno de ellos, dichas muestras no representan réplicas
ya que se está muestreando el mismo río. En el sentido estadístico para que se consideren réplicas
debería de elegirse al azar dos o más ríos por condición (contaminado-no contaminado) y luego
obtener muestras independientes de cada uno de ellos. Esto permitiría estimar la variabilidad natural
de cada uno de los sistemas acuáticos en los cuales viven los peces que se muestrean. Aun cuando el
análisis de los datos presupone la existencia de réplicas independientes, en la mayoría de los
estudios en el área de recursos naturales no es posible cumplir con este supuesto.
Significancia estadística: Esta es una regla que permite afirmar que la diferencia observada entre
dos o más tratamientos es el resultado del efecto del tratamiento y no del azar. Con frecuencia se
declaran como significativas aquellas diferencias que tienen una probabilidad inferior a 0.05 (o sea
5%) de ocurrir en forma aleatoria. En algunos textos de estadística se recomienda utilizar un
asterisco (*) para designar las diferencias significativas a un 5% (P<0.05), dos asteriscos (**) para
designar diferencias significativas al 1% (P<0.01) y tres asteriscos (***) para designar diferencias
significativas al 0.1% (P<0.001). Sin embargo, dado que los paquetes estadísticos le brindan el valor
de “p” se recomienda reportar dicho valor acompañado del tamaño de muestra (e.g. p=0.002;n=100).
Triangulación: El uso de una combinación de métodos de investigación en un estudio. Un ejemplo
de triangulación sería un estudio que incorpora las encuestas, entrevistas y observaciones.
Unidad experimental: Individuo, objeto, grupo o conjunto de sujetos experimentales a los cuales se
les aplica un determinado tratamiento. Por ejemplo, la unidad experimental puede ser una parcela en
una plantación, un grupo de semillas, un persona a la cual se entrevista, un árbol que se mide, etc.
En algunos textos se le denomina a la unidad experimental “caso”.
Validez: Indica el grado en que un estudio refleja con exactitud o evalúa el concepto específico que
el investigador(a) está tratando de medir. Un método puede ser fiable, consistente al medir la misma
cosa, pero no válido.
Validez interna: Expresa el rigor con que se llevó a cabo el estudio (e.g. diseño, toma de datos y
decisiones relativas a lo que fue y no fue medido) así como el análisis de otras posibles
explicaciones para cualquier relación causal que exploren.
Validez externa: Extensión y forma en que los resultados de un experimento pueden ser
generalizados (para cuáles condiciones, sujetos, poblaciones y lugares son válidas las conclusiones).
44
Verosimilutud: Tener la apariencia de verdad; en la investigación, se refiere a la probabilidad de
que los resultados del estudio sean consistentes con las manifestaciones observadas en el "mundo
real".
18. Sugerencias para analizar datos
1. Liste la variable(s) a analizar y su respectivo nivel de medición (nominal, ordinal, intervalo,
razón).
2. ¿Cuál es el historial y contexto de los datos (origen, métodos de colecta, instrumentos
utilizados, temporalidad, limitaciones)?
3. ¿Para qué realiza usted el análisis del set de datos? ¿Qué desea resaltar del set de datos?
4. Describa el producto esperado o solicitado (e.g. descripción del set de datos, prueba de una
hipótesis, comparación de datos, ajustar un modelo).
5. Seleccione el software a utilizar (e.g. Instat, XLSTatistics, PASS) y realice un análisis
exploratorio de datos.
a. Análisis gráfico
b. Elaboración de tablas
c. Estadísticos descriptivos
6. Busque valores atípicos o extremos que podrían indicar errores en la digitación de los datos y
distribuciones asimétricas o inusuales. ¿Concuerda la distribución de los datos con lo que
usted esperaba?
7. Estadística inferencial. Selecciones las pruebas estadísticas a realizar, defina el valor de
significancia a utilizar en las pruebas estadísticas.
8. Conclusiones
9. Retroalimentación
19. Conceptos generales
Análisis (Beaney 2009)
Un Análisis en sentido amplio es la descomposición de un todo en partes para poder estudiar
su estructura y/o sistemas operativos y/o funciones (http://es.wiktionary.org/wiki/).
La acción y el efecto de separar un todo en los elementos que lo componen con el objeto de
estudiar su naturaleza, función o significado (http://es.wiktionary.org/wiki/).
La acción y el efecto de identificar, distinguir y clasificar los diferentes aspectos que integran
un tema de estudio, examinando qué relaciones guardan entre ellos y cómo quedaría
modificado el conjunto si se eliminara o se añadiera algún aspecto a los previamente
identificados (http://es.wiktionary.org/wiki/).
Documento que revisa, separa o hace un resumen de los elementos o principios de un tema o
de una obra (http://es.wiktionary.org/wiki/).
Distinción y separación de las partes de un todo hasta llegar a conocer sus principios o
elementos (http://www.rae.es/rae.html).
45
Ciencia
Conocimiento estructurado y sistemático de las cosas por sus principios y causas; conjunto
de conocimientos que constituyen una rama del saber humano
(http://es.wiktionary.org/wiki/). E.g. ciencias políticas, naturales, sociales.
Conjunto de conocimientos obtenidos mediante la observación y el razonamiento,
sistemáticamente estructurados y de los que se deducen principios y leyes generales
(http://www.rae.es/rae.html).
Conocer
Saber de la existencia de una cosa (http://es.wiktionary.org/wiki/).
Averiguar por el ejercicio de las facultades intelectuales la naturaleza, cualidades y
relaciones de las cosas (http://www.rae.es/rae.html).
Conocimiento
Resultado de la acción de conocer. Comprensión, entendimiento, inteligencia, razón
(http://es.wiktionary.org/wiki/).
Acción y efecto de conocer; entendimiento, inteligencia, razón natural.
(http://www.rae.es/rae.html).
Esquema sobre el conocimiento desde el punto de vista de las ciencias de la información, cómo se
genera y cómo se aplica. Fuente: http://es.wikipedia.org/wiki/Saber.
Convicción
Acto o efecto de estar seguro sobre algo (http://es.wiktionary.org/wiki/).
Una convicción es una creencia de la que un cierto individuo opina que dispone de suficiente
evidencia para considerarla cierta. La diferencia entre una simple creencia y una convicción,
es que en el primer caso el individuo puede no tener evidencia suficiente para justificar su
veracidad, mientras que en el segundo el individuo la considera probada, con independencia
de que exista evidencia científica o intersubjetiva incontrovertible de que dicha convicción es
verdadera (http://es.wikipedia.org/wiki/Saber).
Idea religiosa, ética o política a la que se está fuertemente adherido
(http://www.rae.es/rae.html).
46
Creencia
Algo en lo que se cree, confianza en que algo existe o que es cierto.
(http://es.wiktionary.org/wiki/).
Una creencia es una proposición o conjunto de ellas, que un cierto individuo considera
ciertas, pero para la que en general no existe evidencia intersubjetiva suficiente para
considerarla conocimiento propiamente dicho. Una creencia puede ser acertada o equivocada.
Sin embargo el uso cotidiano, al oponer "creencia" y "conocimiento", la primera se usa
frecuentemente como proposiciones que alguien considera ciertas, pero de las que existe
evidencia de estar equivocadas o ser indemostrables (http://es.wikipedia.org/wiki/Saber).
Firme asentimiento y conformidad con algo; completo crédito que se presta a un hecho o
noticia como seguros o ciertos; religión, doctrina (http://www.rae.es/rae.html).
Criterio
Norma para conocer la verdad (http://www.rae.es/rae.html).
Juicio o discernimiento (http://www.rae.es/rae.html).
Ejemplo: Estándares de Sostenibilidad para el manejo de bosques naturales: Principios, Criterios
e Indicadores. Decreto Ejecutivo No 34559-MINAE, en la Gaceta No115 del 16 de junio del
2008 http://www.sirefor.go.cr/Documentos/Normativa/PCI_MFS_2009.pdf
Evaluar
Señalar el valor de algo (http://www.rae.es/rae.html).
Estimar, apreciar, calcular el valor de algo (http://www.rae.es/rae.html).
Estimar los conocimientos, aptitudes y rendimiento de los alumnos
(http://www.rae.es/rae.html).
Evaluación
Valoración de los conocimientos que se da sobre una persona o situación basándose en una
evidencia constatable y creible (http://es.wiktionary.org/wiki/).
Evidencia
Certeza clara y manifiesta de la que no se puede dudar (http://www.rae.es/rae.html).
Prueba determinante en un proceso (http://www.rae.es/rae.html).
Instrumento
Objeto o aparato, normalmente artificial, que se emplea para facilitar o posibilitar un trabajo,
ampliando las capacidades naturales del cuerpo humano. Sinónimos: herramienta, utensilio
(http://es.wiktionary.org/wiki/).
Aquello que sirve de medio para hacer algo o conseguir un fin; conjunto de diversas piezas
combinadas adecuadamente para que sirva con determinado objeto en el ejercicio de las artes
y oficios (http://www.rae.es/).
47
Información
Comunicación o adquisición de conocimientos que permiten ampliar o precisar los que ya se
poseen sobre una materia determinada (http://www.rae.es/rae.html).
Conocimientos así comunicados o adquiridos (http://www.rae.es/).
La información es un fenómeno que proporciona significado o sentido a las cosas. En sentido
general, la información es un conjunto organizado de datos procesados, que constituyen un mensaje
sobre un determinado ente o fenómeno. Los datos se perciben, se integran y analizan para generar la
información necesaria para producir el conocimiento que es lo que finalmente permite tomar
decisiones. La sabiduría consiste en determinar correctamente cuándo, cómo, dónde y con qué
objetivo emplear el conocimiento adquirido (http://es.wikipedia.org/wiki/Informaci%C3%B3n).
Fuente: http://es.wikipedia.org/wiki/Dato
Ejemplo:
Dato: Usted realiza un inventario en plantaciones de laurel en zona norte: para cada árbol mide su
diámetro, altura total y estado fitosanitario.
Información: Al procesar los datos observa que el 90% de los árboles con diámetros superiores a 20
cm están muriendo.
Conocimiento: Usted toma conciencia de que se enfrenta a un problema con las plantaciones de
laurel en su área de estudio.
Sabiduría: No recomendar nuevas plantaciones en la zona norte y plantear una investigación para
explicar lo observado.
Herramienta
Objeto o aparato, normalmente artificial, que se emplea para facilitar o posibilitar un trabajo,
ampliando las capacidades naturales del cuerpo humano. Sinónimos: instrumento, utensilio
(http://es.wiktionary.org/wiki/).
Principales características de la información
Significado (semántica)
Importancia (relativa al receptor)
Vigencia (en la dimensión espacio-tiempo)
Validez (relativa al emisor)
Valor (activo intangible volátil)
Polimorfismo
48
Instrumento, por lo común de hierro o acero, con que trabajan los artesanos
(http://www.rae.es/rae.html). En la actualidad también aplica a los instrumentos utilizados en
el laboratorio y el campo.
Método
Procedimiento, técnica o manera de hacer algo, en especial si se hace siguiendo un plan o de
forma sistemática, ordenada y lógica. (http://es.wiktionary.org/wiki/).
Lista ordenada de partes o pasos (avance logrado para la consecución de una tarea.) para
lograr un fin (http://es.wiktionary.org/wiki/).
Procedimientos y técnicas característicos de una disciplina o rama del saber
(http://es.wiktionary.org/wiki/).
Procedimiento que se sigue en las ciencias para hallar la verdad y enseñarla
(http://www.rae.es/rae.html).
Opinión:
Dictamen o juicio que se forma de algo cuestionable; fama o concepto que se tiene de
alguien o algo (http://www.rae.es/rae.html).
Estado de creencia común que tiene una colectividad respecto a determinado asunto. Su
validez lógica como verdad no se fundamenta en el grado de conocimiento sino en la
participación como miembro del grupo social (http://es.wikipedia.org/wiki/).
Percepción
La percepción es la función psíquica que permite al organismo, a través de los sentidos,
recibir, elaborar e interpretar la información proveniente de su entorno
(http://es.wikipedia.org/wiki/Percepci%C3%B3n).
Acción y efecto de percibir (http://www.rae.es/rae.html).
Sensación interior que resulta de una impresión material hecha en nuestros sentidos.
(http://www.rae.es/rae.html).
Conocimiento, idea (http://www.rae.es/rae.html).
Procedimiento
Un procedimiento es el modo de ejecutar determinadas acciones que suelen realizarse de la
misma forma, con una serie común de pasos claramente definidos, que permiten ejecutar un
trabajo correctamente. (http://es.wiktionary.org/wiki/).
Método de ejecutar alguna cosa (http://www.rae.es/rae.html).
Ejemplo: Manual de procedimientos para el aprovechamiento maderable en terrenos de usos
agropecuarios, sin bosque y situaciones especiales en Costa Rica.
http://www.sirefor.go.cr/Documentos/Manual_Aprovechamiento_Maderable_terrenos.pdf
49
Saber
Conjunto de conocimientos, adquiridos mediante el estudio o la experiencia, sobre alguna
materia, ciencia o arte. Sinónimo: sabiduría, erudición (http://es.wiktionary.org/wiki/).
Conocer algo, o tener noticia o conocimiento de ello (http://www.rae.es/rae.html).
Sabiduría
Conocimiento de las ciencias y artes (http://es.wiktionary.org/wiki/).
Prudencia en la forma de actuar (http://es.wiktionary.org/wiki/).
Grado más alto del conocimiento; conducta prudente en la vida o en los negocios;
conocimiento profundo en ciencias, letras o artes (http://www.rae.es/rae.html).
Técnica
Conjunto de habilidades requeridos para aplicar determinados conocimientos
(http://es.wiktionary.org/wiki/).
Conjunto de procedimientos y recursos de que se sirve una ciencia o un arte.
(http://www.rae.es/rae.html).
Teoría
Conocimiento especulativo considerado con independencia de toda aplicación
(http://www.rae.es/rae.html).
Serie de las leyes que sirven para relacionar determinado orden de fenómenos
(http://www.rae.es/rae.html).
Hipótesis cuyas consecuencias se aplican a toda una ciencia o a parte muy importante de
ella (http://www.rae.es/rae.html).
Una teoría es un sistema lógico compuesto de observaciones, axiomas, postulados y reglas de
inferencia que permiten explicar un conjunto de datos e incluso hacer predicciones sobre los hechos
que serán observables bajo ciertas condiciones. Las teorías además permiten ser ampliadas a partir
de sus propias predicciones, e incluso ser corregidas, mediante ciertas reglas o razonamientos,
siendo capaces de explicar otros posibles hechos diferentes de los hechos de partida de la teoría
(http://es.wikipedia.org/wiki/).
Algunos ejemplos de teorías son:
Biología: Teoría de la evolución, teoría de la selección natural
Psicología: Teoría psicoanalítica
Química: Teoría atómica
Comunicación: Teoría crítica | Teoría hipodérmica | Teoría funcionalista
Física: Teoría cuántica de campos | Teoría de cuerdas | Teoría de la relatividad
Geografía: Teoría de los lugares centrales
Geología: Deriva continental | Tectónica de placas
Matemáticas: Teoría del Caos
50
20. Fuentes o referencias: búsqueda, clasificación y análisis
Toda afirmación en un informe o en una publicación debe sustentarse en una fuente. Las fuentes
(e.g. libros, artículos, comunicaciones personales, bases de datos, geodatos) son la materia prima
que le permiten al investigador(a) formular su marco teórico, sustentar sus opiniones, seleccionar y
diseñar su metodología y poner en contexto el resultado de su investigación.
La veracidad, objetividad, credibilidad, fiabilidad y validez de las fuentes son aspectos esenciales
para diseñar y ejecutar un proyecto de investigación con un alto impacto académico y social. Al
analizar sus fuentes considere los siguientes criterios y variables:
El Autor
¿Quién escribió el documento? ¿Especialista o generalista?
¿Tiene el autor autoridad en el tema?
¿Está el autor afiliado a una institución/empresa/organización reconocida?
Temporalidad
¿Fecha de publicación del estudio?
¿Fecha de colecta-análisis de los datos utilizados en el estudio?
Imparcialidad
¿Obtiene el autor/organización algún beneficio con la publicación?
¿Cuál es la posición del autor sobre el tema?
Relevancia
¿Qué le aporta la publicación a su investigación? (e.g. datos, metodología, teoría).
¿Es la publicación relevante en el contexto de su tema de investigación? (e.g. aspecto central o
evidencia periférica).
¿Es una publicación sustenta en datos originales ó en otros fuentes? (Primaria, segundaria, terciaria).
¿Es lo publicado (conclusiones, datos, métodos) verificable con otras fuentes contemporáneas?
Tipo de publicación
La norma ISO 3297-Versión española (Revista española de Documentación Científica 2008)
reconoce como publicación a:
Los recursos continuos (“publicación, en cualquier medio, que se publica a lo largo del
tiempo sin una conclusión predeterminada”),
A las publicación seriadas (“recurso continuado publicado en partes sucesivas, generalmente
con una designación numérica, que no tiene finalización predeterminada”), y
A los recursos integrados (“recurso continuado que es incrementado o cambiado por medio
de actualizaciones que no permanecen separadas y que se integran en el conjunto”).
Algunos ejemplos de publicaciones seriadas son: periódicos, publicaciones anuales (e.g. informes,
anuarios, directorios), revistas, colecciones (series de monografías), memorias y actas de sociedades.
Observe que esta definición no considera de manera explícita la revisión de pares del material que se
publica.
51
Literatura gris: Tradicionalmente, este término se ha utilizado para designar publicaciones con una
distribución restringida y que generalmente no cuentan con una revisión de pares (no son editados)
ni con un número internacional normalizado (e.g ISSN-International Standard Serial Number,
Número Internacional Normalizado de Publicaciones Seriadas ó ISBN International Standard Book
Number, Número Estándar Internacional de Libro). Algunos ejemplos son informes
técnicos/investigación, tesis de posgrado, algunas publicaciones oficiales de ONGs, centros de
investigación y entes privados y gubernamentales y publicaciones en algunas conferencias y
simposios. Sin embargo con la llegada de nuevas tecnologías en la era de la información (e.g.
Internet, redes sociales, la nube) el término ha sido ampliado a “documentación o información gris”
y se considera como una forma de literatura no convencional aunque de amplia distribución. Si
usted está interesado en conocer más sobre el tema puede leer la siguiente publicación:
Biello David. Shades of "Gray Literature": How Much IPCC Reform Is Needed? Scientific
American Newsletter. August 30, 2010 24. Visitado 1 mayp 2012. Disponible en
http://www.scientificamerican.com/article.cfm?id=international-science-panel-recommends-ipcc-
reforms
Corlett, R. T. 2011. Trouble with the Gray Literature. Biotropica, Vol. 43:3–5.
Lacanilao, Flor. 1997. Continuing problems with gray literatura. Environmental Biology of Fishes.
Vol. 49 (1):1-5. http://dx.doi.org/10.1023/A:1007365518667
Publicaciones especializadas: Aun cuando la literatura-documentación gris es un texto publicado;
en el mundo de la academia se denomina publicación a aquellos escritos que cuentan con un consejo
editorial, que han sido revisados por pares y que además han sido publicados en una revista
reconocida por la comunidad científica a la cual pertenece el autor/editor. Si usted desea conocer
más sobre el proceso y las dificultades que involucra el proceso de revisión de artículos por pares le
recomiendo leer:
Gad Perry, Bertoluci Jaime, Bury Bruce, Hansen Robert W., Jehle Robert, Measey John, Moon Brad
R., Muths Erin, Zuffi Marco A. L. 2012. African Journal of Herpetology Vol. 61 (1):1-2.
Ghazoul, J. 2011. Reviewing Peer Review. Biotropica, 43, 1-2. Disponible en
http://www.ecology.ethz.ch/publications/publications/2011/Ghazoul_2011_Biotropica.pdf. Visitado
20 mayo 2012.
Griffiths, P. and Baveye P. C. 2010. Peer review-Beyond the call of duty? Int. J. Nurs. Stud., DOI:
DOI: 10.1016/j.ijnurstu.2009.12.013. Visitado 15-02-2011.
http://download.journals.elsevierhealth.com/pdfs/journals/0020-7489/PIIS0020748909004052.pdf
52
Lutz Bornmann, Hanna Herich, Hanna Joos, Hans-Dieter Daniel. 2012. In public peer review of
submitted manuscripts, how do reviewer comments differ from comments written by interested
members of the scientific community? A content analysis of comments written for Atmospheric
Chemistry and Physics. Scientometrics. 1-15. Url: http://dx.doi.org/10.1007/s11192-012-0731-8.
Xuan Liu, Hui Fang. 2012. Peer review and over-competitive research funding fostering mainstream
opinion to monopoly. Part II. Scientometrics. Vol. 90(2): 607-616.
Url:http://dx.doi.org/10.1007/s11192-011-0526-3
Tipo de fuentes
Una fuente es cualquier recurso que usted utilice en su investigación (e.g. un libro, un artículo, una
bitácora (blog), una entrevista, un video) y por tanto existen diferentes criterios para clasificarlos. La
lista que presento a continuación se basa en las normas ISO 690 y 690-2 así como las normas IICA-
CATIE:
Documentos (Impresos, digitales)
Literatura-documentación gris
Publicaciones
Redes sociales
Correo electrónico
Audiovisuales
Videos
Grabaciones, historia oral
Presentaciones digitales (e.g. power point)
Comunicaciones personales
Bases de datos
Geoespaciales
Organismos
Socioeconómicas
Programas de cómputo
Software libre
Software privativo
Normas y estándares
ISO
Nacionales
53
Legislación
Municipal
Institucional
Nacional
Internacional
Antes de realizar una búsqueda de fuentes, usted debe contar con una lista de palabras claves
estrechamente relacionadas con su tema o área de investigación. Si todavía no ha seleccionado su
tema de investigación, usted puede utilizar los objetivos, el perfil profesional y ocupacional de la
maestría para extraer conceptos y palabra claves.
21. Bases de datos de organismos
Species 2000 http://www.species2000.org/ Este sitio contiene 1.3 millones de especies
de 95 bases de datos.
TROPICOS® http://www.tropicos.org/ TROPICOS® incluye más
de 1,2 millones de nombres científicos de plantas y 3,9 millones de
registros de especies (plantas).
TROPICOS® Flora mesoamericana.
http://www.tropicos.org/NameSearch.aspx?projectid=3&langid=66
The International Plant Names Index (IPNI) http://www.ipni.org/ Base de datos de
nombres y referencias bibliográficas de plantas con semilla, helechos y similares.
“Bird Life International”. http://www.birdlife.org/ ONG de conservación en la
temática de aves, sus hábitats y diversidad global.
BIRDNET http://www.nmnh.si.edu/BIRDNET/ Tema ornitología.
“Index to Organism Names (ION)” http://www.organismnames.com/query.htm Registros de
organismos de la base de datos “Zoological Record®” de Thomson Reuters.
http://www.fishbase.org/ Base de datos sobre peces. 31.900 especies, 291.100
nombres comunes, 900 imágenes y 44.900 referencias.
“INHS Insect (and related groups) Collection Database” Base de datos sobre
insectos y grupos relacionados http://ctap.inhs.uiuc.edu/Insect/search_inhs.asp
54
Amphibian Species of the World 5.5, an Online Reference.
http://research.amnh.org/vz/herpetology/amphibia/index.php
“Amphibiaweb” http://amphibiaweb.org/ Datos e información sobre anfibios a nivel
mundial.
“Global Biodiversity Information Facility (GNIF)” http://www.gbif.org/ Base de datos
sobre biodiversidad.
“The IUCN Red List of Threatened Species” http://www.iucnredlist.org/. Lista de especies
amenazadas de UICN.
“Darwin Core” http://www.tdwg.org/activities/darwincore/ El “Darwin Core” está diseñado para
facilitar el intercambio de datos sobre la distribución geográfica de registros de organismos y su
relación con los especímenes que existen en las colecciones.
Ejemplo: uso de base de datos de organismos
La especie Osa pulchra (Rubiaceae) fue declarada como endémica
de Osa en 1979. Sin embargo en 1996 otra población de la especie
fue reportada cerca de Puerto Viejo, Limón, vertiente Caribe de
Costa Rica y por tanto su estatus cambió a endémica del Caribe
Sur y Osa (http://www.mobot.org/mobot/plantmap/Osa.html) y en
el 2007 fue reportada en Bocas del Toro Panamá (Aiello y
Galdames 2007) y por lo tanto la especie ya no es endémica de Costa Rica. Este ejemplo ilustra la
importancia de verificar el estatus de una especie antes de citar una fuente segundaria. Otro aspecto
importante es utilizar una fuente pertinente, confiable y actualizada. Por ejemplo, si usted visita
http://toptropicals.com/catalog/uid/Osa_pulchra.htm observará que la especie se cita con endémica
de Costa Rica; lo mismo ocurre con la página de la lista de plantas endémicas o amenazadas de Osa
de Tuva.org (http://www.tuva.org/osa/eer/endem.html).
22. Sugerencias para escribir y revisar sus informes
Responda a las siguientes preguntas:
1. ¿Cuál es el propósito del documento? (e.g. informe, artículo, tesis, resumen).
2. ¿A quién va dirigido el documento? (audiencia).
3. ¿Qué reacción espera lograr en la audiencia?
55
4. Prepare un índice general o tabla de contenido; procure listar cada sección y subdivisión a incluir
en el documento final. Incluya una breve descripción del contenido de cada sección/subsección.
Evalué este bosquejo con su asesor/tutor. Asegúrese de que todo el material está directamente
relacionado el tema central de su proyecto de investigación. Es más productivo tomar estas
decisiones muy temprano en el proceso de ejecución de su proyecto que después de haber invertido
mucho tiempo y recursos en escribir texto innecesario.
Nota: No existe un criterio único y estricto en cuanto a qué es necesario, qué es deseable y qué es
innecesario. Las reuniones con su tutor son fundamentales para clarificar estos aspectos de su
proyecto.
Al escribir su documento evite frases que reflejen su opinión personal pero que no tienen sustento
en la literatura ó en sus datos. Ejemplo: “La deforestación en Costa Rica es el principal problema
ecológico que enfrenta la sociedad costarricense” ó “el consumo de agua es excesivo en la ciudad
de….”. Recuerde toda afirmación debe sustentarse en estudios previos ó en sus datos.
Es recomendable diseñar una estrategia de difusión y divulgación de los resultados de su proyecto
de investigación utilizando diversos formatos y dirigido a diferentes audiencias. La meta final de su
investigación debe ser enriquecer la cultura y comprensión de la realidad por parte de la sociedad
costarricense e internacional.
Proceso de autorevisión
1. Lea el documento en su totalidad antes de iniciar las correcciones. Revise las grandes secciones
de su documento (Enfoque, organización, índice).
2. ¿Responde el documento/informe a lo solicitado?
3. Deje reposar el documento por algún tiempo previo a su revisión. Por ejemplo, escriba el texto
hoy y revíselo el día siguiente. Seleccione el mejor momento para realizar la revisión del
documento.
4. Imprima su documento. Léalo en voz alta y marque las secciones que deben reescribirse (e.g.
oraciones largas y confusas). Utilice una hoja blanca para cubrir las líneas de texto que no está
leyendo. Esto le ayudará a focalizar su atención en la oración que lee.
5. Busque párrafos o secciones del documento con los cuales usted se siente
satisfecho(a)/insatisfecho(a). Anote qué hace falta. Marque el texto que puede eliminarse o
reubicarse en otra sección del documento.
6. ¿Contiene el documento ideas claves o importantes para el(a) lector(a)?
7. ¿Los aspectos centrales a comunicar son claros y concisos?
56
8. ¿La organización del documento es eficiente (e.g. no es repetitivo)?
9. ¿Son los argumentos convincentes y están bien documentados?
10. ¿Son sus referencias actuales y las utiliza de manera apropiada? ¿Cuál es la fuente de sus
referencias? Por ejemplo, libro de texto, informes internos, artículos en revistas, periódicos,
entrevistas. ¿Son validos para sustentar sus argumentos?. ¿Utiliza referencias segundarias o
terciarias? Por ejemplo Juan dice que Pedro dijo.....
11¿Cómo puede mejorarse el documento? Asígnele tiempo a las mejoras (i.e. no más de 1 semana).
Recuerde que su tiempo es un recurso valioso y muy limitado.
12. Trate de buscar errores frecuentes. Por ejemplo, oraciones largas, subordinadas, confusas, dos o
más ideas. Oraciones inconclusas. Afirmaciones sin referencias. Palabras repetidas. Párrafos muy
largos (e.g. Cinco o más líneas).
13. Utilice su procesador de texto para revisar la ortografía (e.g. tildes; paréntesis y comillas
impares; referencias ausentes, concordancia en tiempo y género). Recuerde que el software no es
infalible.
14. Configure su procesador de texto para evitar "viudas" y "huérfanos" en el documento.
15. Utilice un formato y estilo consistente a lo largo del documento.
Forma
Sangrías, márgenes, tamaño de gráficos y tablas.
Ortografía: En caso de duda consulte el diccionario en línea de la Real Academia Española
http://www.rae.es/rae.html
Reglas ortográficas
http://www.rae.es/rae/gestores/gespub000015.nsf/(voanexos)/arch7E8694F9D6446133C125716400
39A189/$FILE/Ortografia.pdf.
23. Estadística: software gratuito
Si usted desea explorar programas estadísticos gratuitos, le recomiendo visitar los siguientes sitios.
BioEstat. Análisis estadístico para Windows y Mac. Estadística descriptiva e inferencial paramétrica
y no paramétrica, análisis de poder. Interfaz en español. Manual en Portugués.
http://www.mamiraua.org.br/downloads/programas.
57
Instat Análisis estadístico para Windows. Estadística descriptiva e inferencial paramétrica y no
paramétrica. Modulo para aplicaciones climáticas. http://www.reading.ac.uk/ssc/n/software.htm.
LazStats Análisis estadístico para Windows. Estadística descriptiva e inferencial paramétrica y no
paramétrica. http://www.statprograms4u.com/LazStats_Features.htm.
Diversity. Complemento para Excel que permite calcular índices de diversidad. Una buena
referencia introductoria al tema es el libro “Measuring Biological Diversity” de Anne E. Magurran
(2003) publicado por Blackwell Science.
http://www.reading.ac.uk/ssc/n/software/diversity/Diversity.html
SSC-Stat. Complemento para análisis estadístico con Excel.
http://www.reading.ac.uk/ssc/n/n_sscstat.htm
MacAnova Análisis estadístico para Mac, Windows y Linux. Estadística descriptiva e inferencial
paramétrica y no paramétrica, análisis de poder.
http://www.stat.umn.edu/macanova/macanova.home.html.
Mstat Windows Mac OSX Linux Análisis estadístico para Windows, Mac y Linux. Estadística
descriptiva e inferencial paramétrica y no paramétrica. http://www.mcardle.wisc.edu/mstat/#win
OpenEpi Software especializado en el análisis de datos epidemiológicos. Estadística descriptiva e
inferencial paramétrica y no paramétrica http://www.openepi.com/Menu/OpenEpiMenu.htm
OpenSTat Análisis estadístico para Windows. Estadística descriptiva e inferencial paramétrica y no
paramétrica. http://www.statprograms4u.com
PAST Análisis estadístico univariado, multivariado, índices de diversidad. Estadística descriptiva e
inferencial paramétrica y no paramétrica. WXP, Vista y W7. http://folk.uio.no/ohammer/past/
PSPP. Este es un programa para el análisis estadístico, su funcionalidad es similar al programa
comercial SPSS http://www.gnu.org/software/pspp/
Remuestreo Sofware para análisis estimación y pruebas de hipótesis utilizando remuestreo.
http://www.uvm.edu/~dhowell/StatPages/Resampling/Resampling.html
The R Project for Statistical Computing. Gran variedad de análisis, muy poderoso pero requiere de
usuarios experimentados. Opera en base a comandos. http://www.r-project.org/
WinIDAMS. Este es paquete de software para la validación, tratamiento y análisis estadístico de
datos desarrollado por la Secretaría de la UNESCO en cooperación con expertos de varios países.
http://portal.unesco.org/ci/en/ev.php-url_id=2070&url_do=do_topic&url_section=201.html
58
24. Bibliografía
Aiello, A., M. Correa and C. Galdames. 2007. Remarkable new plant record for Panama. STRI
News2007:4. Disponible en http://striweb.si.edu/strinews/PDFs/August_31_2007.pdf. Visitado 24
mayo 2012.
Baker, Alan, "Simplicity", en The Stanford Encyclopedia of Philosophy (Spring 2010 Edition),
Edward N. Zalta (ed.). Visitado 16-02-2011. En
http://plato.stanford.edu/archives/spr2010/entries/simplicity/.
Barrena, S. y Nubiola, J. 2007. Charles Sanders Peirce, en Fernández Labastida, F. – Mercado, J. A.
(editores), Philosophica: Enciclopedia filosófica on line. Visitado 19-02-2011. En
http://www.philosophica.info/archivo/2007/voces/peirce/Peirce.html
Beaney, Michael. Analysis, en The Stanford Encyclopedia of Philosophy (Summer 2009 Edition),
Edward N. Zalta (ed.). Visitado 19-02-2011. En
http://plato.stanford.edu/archives/sum2009/entries/analysis/.
Beniger, J. R. and Pobyn, D. L. 1978. Quantitative graphics in statisics: a brief history. The
American Statistician 32(1): 1-11.
Bryan F.J. Manly. Randomization, Bootstrap and Monte Carlo Methods in Biology, Third Edition.
Chapman and Hall/CRC. 388p. 2006.
Bryan F.J. Manly. Statistics for Environmental Science and Management, Second Edition. Chapman
& Hall/CRC. 292p. 2008.
Burch, Robert. Charles Sanders Peirce, en The Stanford Encyclopedia of Philosophy (Fall 2010
Edition), Edward N. Zalta (ed.). Visitado 19-02-2011. En
http://plato.stanford.edu/archives/fall2010/entries/peirce/
Cleveland, W.S. and McGill R. 1983. A color-caused optical illusions on statistical graphs. The
American Statistician 37(2): 101-105.
Cleveland, W. S. 1984. Graphs in scientific publications. The American Statistician 38(4): 261-269.
Cleveland, W. S. 1984. Graphical methods for data presentation: full scale breaks, dot charts, and
multibased logging. The American Statistician 38(4): 270-280.
Cleveland, W.S. and McGill, R. 1984. The many faces of a scatterplot. Jour. of the American
Statistical Association 79(388): 807-822.
59
Cox Nicholas J. 2004.Stata. Circular statistics in Stata, revisited. Users’ Meeting London June 2004
4p. Visitado en 23 mayo 2012. Disponible en http://www.stata.com/meeting/10uk/cox.pdf
Dinov, Ivo D. 2006. Statistics Online Computational Resource. Journal of Statistical Software 16
(1): 1–16. Visitado en 23 mayo 2012. Disponible en http://www.jstatsoft.org/v16/i11/paper.
Doane, D.P. 1976. Aesthetic frequency classifications. The American Statistician 30(4):181-183.
Elwert Felix y Winship Christopher. 2002. Commentary: Population versus individual level causal
effects. Int. J. Epidemiol.31 (2): 432-434. Visitado en 23 mayo 2012. Disponible en
http://ije.oxfordjournals.org/content/31/2/432.full.pdf+html
Freni-Titulaer, L.W. and Louv, W.C. 1984. Comparison of some graphical methods for exploratory
multivariate analysis. The American Statistician 38(3): 184-188.
Ghazoul, J. 2011. Reviewing Peer Review. Biotropica, 43: 1–2. Visitado en 23 mayo 2012.
Disponible en http://onlinelibrary.wiley.com/doi/10.1111/j.1744-7429.2010.00737.x/pdf
Hyndman R.J. 1995. The problem with Sturges’ rule for constructing histograms. Visitado en 23
mayo 2012. Disponible en http://robjhyndman.com/papers/sturges.pdf
Leland Wilkinson. 1999. Dot Plots.The American Statistician. Vol.53(3), 276-28. Visitado en 23
mayo 2012. Disponible en http://www.cs.uic.edu/~wilkinson/Publications/dots.pdf
Manly, B. F.J. 1992. The design and analysis of research studies. Cambridge University Press. Great
Britain. 353p.
Manly, B. F.J. 1991. Randomization and Monte Carlo Methods in Biology. Chapman and Hall.
London. 281p.
Maritz J. S. y Jarrett R. G. 1983. The Use of Statistics to Examine the Association Between Fluoride
in Drinking Water and Cancer Death Rates Journal of the Royal Statistical Society. Series C
(Applied Statistics) Vol. 32, No. 2 (1983), pp. 97-101.
Markie, Peter. Rationalism vs. Empiricism, en The Stanford Encyclopedia of Philosophy (Fall 2008
Edition), Edward N. Zalta (ed.). Visitado en 23 mayo 2012. Disponible en
http://plato.stanford.edu/archives/fall2008/entries/rationalism-empiricism
McDonald, J.H. 2009. Handbook of Biological Statistics (2nd ed.). Sparky House Publishing,
Maryland. Last revised August 18, 2009. Visitado en 23 mayo 2012. Disponible en
http://udel.edu/~mcdonald/statintro.html
60
McGill, R.; Tukey, J.W.; and Larsen, W.A. 1978. Variations of the box plots. The American
Statistician 32(1): 12-16.
Oldham P. D. y Newell, D. J. 1977. Flouridation of water supplies and cancer- a possible
association? Applied Statistics 26: 125-135.
Opinion. 2011. Too much or too little skepticism. Significance. Volume 8, Issue 1: 35.
Pereboom, Derk. Kant's Transcendental Arguments, en The Stanford Encyclopedia of Philosophy
(Winter 2009 Edition), Edward N. Zalta (ed.). Visitado 19-02-2011. En
http://plato.stanford.edu/archives/win2009/entries/kant-transcendental
Piantadosi, et al. 1988. The ecological fallacy. American Journal of Epidemiology. 127:893-904
Pérez, S. y Protti, F. 1978. Comportamiento del sector forestal durante el período 1950-1977.
Oficina de Planificación Sectorial Agropecuaria. Doc-OPSA 15. San José. 59p.
Research Methods Knowledge Base. 2006. Introduction to Validity. Visitado 19-02-2011. En
http://www.socialresearchmethods.net/kb/introval.php.
Scott, D. W. 1979. On optimal and data-based histograms. Biometrika. Vol. 66 (3): 605–610.
Scott David W. Scott's rule. WIREs Comp Stat 2010, 2: 497-502.
Sturges, H.A. 1926. The choice of a class interval. Journal of the American Statistical Association,
21, 65-66.
Sylvander, R.B. 1978. Los bosques del país y su distribución por provincias. Dirección General
Forestal-Organización de las Naciones Unidas para la Agricultura y la Alimentación. Documento de
trabajo No.15. San José. 64p.
Kish Leslie. Survey Sampling. Wiley.1995. 640p. New York, USA.
Sharon L. Lohr. Sampling: design and analysis, 2nd edition, 2009. 608 p. Duxbury Press.
Yiamouyiannis J. y Burk D. 1977. Flouridation and caner: age-dependence and cancer mortality
related to artificial flouridation. Fluoride 10:102-125.
61
24. Ejercicios
1. Brinde dos ejemplos de casos de confusión en su área de trabajo/estudio.
2. Comente ¿cómo la estadística le puede ser útil en su ambiente de trabajo?
3. ¿Qué es más importante un buen diseño estadístico o un análisis correcto de los datos? ¿Qué se
logra en cada caso?
4. Seleccione dos artículos de una revista científica en su área de interés y clasifíquelos utilizando el
esquema propuesto en la figura 5.
5. Defina o explique los siguientes términos:
a) distribución de frecuencia
h) frecuencia acumulada
b) intervalo de clase
i) histograma, diagrama de barra
c) valores agrupados
d) recorrido
e) diagrama circular
f) frecuencia absoluta y relativa
g) polígono de frecuencia
h) límite de clase, límite real de clase
i) ojiva
j) diagrama de tallo-hoja
k) pictograma
l) gráfica de rectángulos verticales
6. Clasifique las siguientes variables en cuantitativas (continuas/discretas) y cualitativas:
Calidad de la madera, humedad relativa, temperatura, velocidad del viento, volumen, diámetro,
pH, visibilidad, densidad de la madera, distancia, elevación, área, peso, tamaño, longitud, grado
de enrizamiento en estacas, color de las hojas.
7. ¿Cuáles son las posibles críticas que pueden hacerse a las siguientes clases?
A)
5-10
15-20
20-25
35-40
45-50
B)
34-38
30-35
24-31
17-24
5-10
D)
1-3
4-6
7-9
C)
6-8
40-12
12-14
19-20
62
8. Para los siguientes valores mínimos y máximos calcule lo siguiente: a) recorrido, b) intervalo de
clase, c) límites de clase para la primera y última clase d) límites reales.
A) 36-62 B) 27-101 C) 56-109 D) 187-821 E) 6,3-31,9 F) 1,27-6,47 G) 0,01-0,001
9. Obtenga los deciles, cuartiles y quintiles para los datos de diámetro (cm) y altura (m) del archivo
d_h_jaul.xlsx.
10. Para los datos del archivo d_h_jaul.xlsx elabore:
Una distribución de frecuencia utilizando una amplitud de clase de 10 cm. ¿Existe alguna
ventaja/desventaja en utilizar un menor/mayor número de clases? Explique.
Un histograma, una ojiva, un polígono de frecuencia y un diagrama de rectángulos.
Comente cada gráfico.
Una distribución de frecuencia acumulada absoluta y relativa. ¿Qué porcentaje de los
árboles tienen una altura superior a 10 metros? ¿Qué porcentaje menor que 15 metros? ¿A
cuál valor de diámetro corresponde el 50% de los datos?
¿Provienen las observaciones de diámetro (cm) y altura (m) de una distribución normal?
11. Para los datos del archivo peso_seco.xlsx elabore:
Una distribución de frecuencia; justifique el número de clases seleccionado.
Calcule frecuencia relativa y relativa acumulada (menor que).
Elabore un histograma, una ojiva, un polígono de frecuencia y un diagrama de rectángulos.
Comente cada gráfico.
¿Provienen las observaciones de una distribución normal?
12. ¿Cuáles son las diferencias entre un histograma y un diagrama de barras? Explique bajo cuáles
circunstancias utilizaría usted los siguientes gráficos: diagrama circular, diagrama de barras,
histograma, gráfico de rectángulos verticales y horizontales.
13. Setenta y dos plántulas de jaul fueron sometidas a dos métodos de inoculación (A y B). La
distribución de altura total por tratamiento al cabo de 7 meses se muestra en el archivo
frec_trat_a_b_altura cm.xlsx.
¿Cómo podría compararse la efectividad de cada tratamiento? ¿Cuál tratamiento parece ser el
más efectivo? Justifique su respuesta.
14. ¿Considera usted que las siguientes muestras provienen de una población infinita? ¿Por qué?
a. El salario de diez profesores de la UNED.
b. El diámetro normal (d) de 50 árboles de pochote de un bosque de 10 hectáreas en Cañas,
Guanacaste.
c. La altura total de 1000 árboles de la zona Norte de Costa Rica.
d. Una muestra de 10 tablas de laurel obtenidas de un depósito de madera en Heredia.
e. Una muestra de 150 semillas de un lote de 10.000 semillas de laurel.
63
15. ¿Consideraría usted las siguientes muestras como aleatorias? ¿Por qué?
a. Respuesta de los televidentes al discurso de un político.
b. Volumen de 100 árboles seleccionados en el borde del bosque o en lugares de fácil acceso.
c. Valor resultante de lanzar un dado.
d. Número de visitantes del Parque Nacional Poás en un día del año.
16. El archivo bolivia_pejibaye.xlsx contiene valores de precipitación (mm) y descarga anual (mm)
para la cuenca del río Pejibaye, Pacífico Sur. Represente los datos en forma gráfica. Utilice al
menos dos tipos de gráficos y seleccione aquél que mejor se ajuste a los datos. Justifique breve-
mente su elección. Comente brevemente la gráfica.
17. Analice uno de los periódicos dominicales de mayor circulación. ¿Cuáles son los gráficos más
utilizados? (Nota: indicar el periódico y la fecha).
18. Exprese gráficamente los siguientes datos:
Especie Peso (Kgr)
Venado 30
Saíno 10
Danta 80
Gatusa 3
19. El archivo ppt_mm.xls contiene valores de precipitación anual (mm) para las estaciones Juan
Santa María y San Rafael de Coronado, Costa Rica. Observa algún patrón en la precipitación
anual? ¿Cuáles gráficos le permitirían explorar la relación entre la precipitación de ambas
estaciones? ¿Qué es una media móvil?
20. El archivo enos_pacuare_q_anual.xlsx contiene valores de descarga anual para la estación
Pacuare clasificadas según episodio de ENOS (El Niño Oscilación Sur). Observa algún patrón
en la descarga anual? ¿Cuáles gráficos le permitirían explorar la relación entre ENOS y la
descarga anual?
21. Seleccione 5 artículos científicos de su preferencia y elabore una tabla con los tipos de gráficos
utilizados.
64
Anexo 1: Criterios para elaborar cuadros
1. Los cuadros deben explicarse por sí mismos. El cuadro debe tener un título y una descripción
clara de sus hileras y columnas; además deber incluir las unidades, así como las restricciones
que aplican al set de datos. Se pude incluir una nota a pie del cuadro para adicionar
información que el autor considere pertinente, pero que no puedo incluirse en el título por
razones de espacio.
2. Las hileras y columnas deben leerse sin dificultad. Esto puede lograrse separándolas por
espacios o líneas. Recordemos que el objetivo es facilitar la interpretación de la tabla y no
elaborar un cuadro para cada una de las cifras.
3. No sobresaturar el cuadro con datos. Al elaborar cuadros es esencial respetar el principio de
simplicidad. Es preferible utilizar dos o más cuadros y no uno que abarque la totalidad de lo
que se quiere comunicar.
4. Cuando el valor de la variable es cero debe indicarse claramente utilizando del numeral
correspondiente. No se deben dejar celdas en blanco; se pueden utilizar rayas, un código
numérico (Ej. 999) o de texto (ND) para expresar la ausencia de datos.
5. Cuando se reporten números con decimales se deben respetar las siguientes normas: a) utilizar
comas y no puntos para separar el número entero de sus decimales. b) cuando el número no
tiene unidades (Ej. 0,11) debe utilizarse un cero y no solamente la coma. c) utilizar el mismo
número de decimales para observaciones de una misma variable.
Anexo 2: Criterios para elaborar gráficos
1. Los gráficos deben explicarse por sí mismos. Con frecuencia el lector no lee la totalidad del
documento o reporte sino que pone especial atención a las figuras; por esta razón la
información suministrada por la misma debe ser tan completa como sea posible. Todo gráfico
debe incluir un título que indique quién es el sujeto o material experimental, qué
observaciones se hacen en los sujetos o material y a qué posición geográfica y tiempo se
refiere.
Por ejemplo, si nos referimos a tasas de reforestación en Costa Rica para el período 1970-1980
no debemos encabezar la figura como "tasa de reforestación", sino que puede escribirse:
"Costa Rica: tasa de reforestación (has/año) para el período 1970-1980".
La palabra clave al elaborar gráficos es "autosuficiencia" o sea el gráfico debe requerir de un
mínimo de información externa para interpretarse correctamente.
65
2. Los ejes del gráfico deben rotularse indicando lo que se mide con sus respectivas unidades.
Por ejemplo, una figura que muestra la altura de plántulas en función del tiempo puede
rotularse "altura (cm)" y "edad (meses)".
3. El gráfico debe ser sencillo. Con frecuencia se tratan de incluir todos los datos disponible en
una sola figura; esto resulta en gráficos complejos y confusos. Como regla general no debe
de incluirse más de tres series estadísticas en una misma figura. Cuando se quiera mostrar
tendencias o relaciones para un grupo de variables se deben utilizar varios gráficos a una
escala reducida. Cada gráfico representa una tendencia o relación.
4. Los gráficos deben brindar una visión general acerca de los datos resaltando los aspectos
sobresalientes. El objetivo de la gráfica es ilustrar tendencias generales de la serie estadística
y no brindar una visión detallada sobre la misma. Lo anterior se traduce en una ilustración
sencilla y no cargada de detalles.
5. Como regla general no se debe incluir números en el cuerpo de la gráfica. Lo recomendable es
rotular los ejes como se indicó en el numeral 1. Esta recomendación no aplica a
presentaciones orales (Ej. PowerPoint).
6. El punto donde se cortan los ejes debe ser cero. Cuando este no sea el caso, debe fracturarse la
escala respectiva para indicarle al lector que una porción se ha omitido.
7. La escala debe seleccionarse de tal forma que facilite la elaboración y posterior lectura de la
gráfica.
8. Para que la gráfica sea balanceada y a la vez para que distribuciones similares muestren una
forma similar; es necesario seleccionar la escala de tal forma que la altura sea
aproximadamente 0,75 veces la longitud del espacio ocupado por los valores graficados.
Tanto la altura como la longitud se refieren al espacio ocupado por los datos y no a los bordes
de la gráfica.
Anexo 3: Licencia de “Creative Commons”
Con una licencia de “Creative Commons” usted mantiene sus derechos de autor pero le puede
permite a otras personas copiar, modificar y distribuir su obra, siempre y cuando reconozcan la
correspondiente autoría y únicamente bajo las condiciones especificadas. Para mayores detalles
sobre este tipo de licencia visitar http://creativecommons.org/choose/?lang=es_ES.
66
Anexo 4: Abreviaturas y equivalencias
Factores de Multiplicación
Factor de multiplicación Abreviatura Prefijo Símbolo
1 000 000 000 000 000 000 10 18
exa- E
1 000 000 000 000 000 10 15
peta P
1 000 000 000 000 10 12
tera T
1 000 000 000 10 9 giga G
1 000 000 10 6 mega M
1 000 10 3 kilo k
100 10 2 hecto h
10 10 1 deca da
0,1 10 -1
deci d
0,01 10 -2
centí c
0,001 10 -3
ml m
0,0001 10 -4
micro
0, 000 000 001 10 -9
nano n
0, 000 000 000 001 10 -12
pico p
0, 000 000 000 000 001 10 -15
femto f
0, 000 000 000 000 000 001 10 -18
atto a
Equivalencias
1 tonelada métrica 1 000 Kg
1 kilogramo 1000 gr
1 kilogramo 2,2102 lb
1 hectárea 10 000 m 2
1Km 2 100 ha
1Km 3 1 000 000 m
3
1 m 3 100 lt
1lt 1 000 ml