UNIVERSIDAD DE LA HABANA
GUÍA DE ESTUDIO
CARRERA: Sociología, Historia, Estudios Socio Culturales, Bibliotecología y
Ciencias de la Información, Psicología
TIPOS DE CURSO: Universalización de la enseñanza
DISCIPLINA: Metodología de la Investigación.
ASIGNATURA: Estadística
AÑO: Segundo
SEMESTRE:.Segundo.
TOTAL DE HORAS: 16 horas.
EVALUACIÓN: Examen final.
OBJETIVOS GENERALES.
GENERALES EDUCATIVOS:
1. Contribuir a que los estudiantes reconozcan el papel auxiliar que otras
ciencias representan para la Sociología
2. Contribuir a que los estudiantes se identifiquen con la utilización de los
métodos estadísticos que le permitan clasificar, describir y presentar la
información obtenida a través de métodos y técnicas sociológicas.
GENERALES INSTRUCTIVOS:
Que el estudiante sea capaz de:
1. Clasificar las variables de acuerdo a la escala de medición.
2. Utilizar los estadísticos elementales adecuados para el análisis de los
datos obtenidos a través de los métodos y técnicas sociológicas.
3. Reconocer las posibilidades de los procedimientos estadísticos, en el
estudio de relaciones causales entre dos variables
1
TEMA 1: Estadística descriptiva.
OBJETIVOS:
Que el estudiante sea capaz de, dado un conjunto de datos:
1. Resumir adecuadamente la información de manera analítica y/o gráfica.
2. Presentar los resultados para su debida interpretación.
CONTENIDO.
Sistema de conocimientos:
El objeto de estudio de la Estadística. Utilidad de la Estadística Descriptiva.
Clasificación de variables. Tablas de frecuencias (absolutas, relativas,
absolutas acumuladas y relativas acumuladas). Representación gráfica de las
tablas de frecuencias. Otras representaciones gráficas. Interpretación de las
tablas de frecuencias y/o de sus correspondientes gráficas.
Sistema de habilidades.
Que el estudiante sea capaz de:
1. Reconocer el tipo de variable a la cual responde la información que se
posee para su análisis.
2. Construir tablas de frecuencias.
3. Representar gráficamente las tablas de frecuencias.
4. Interpretar tablas de frecuencias y/o sus gráficas
CANTIDAD DE HORAS: 4 horas
TIPO DE CLASE: Clase-encuentro
EVALUACIÓN: Si
2
TEMA 2: Medidas de posición.
OBJETIVOS:
Que el estudiante sea capaz de resumir adecuadamente, dado un conjunto de
datos, la información de manera analítica mediante el uso de las estadísticas
de posición e interpretar dicho resultado.
CONTENIDO:
Sistema de conocimientos:
Utilidad de los estadísticos de posición. La media aritmética. La mediana. La
moda. La media geométrica. La media armónica. La media ponderada.
Cuartiles, deciles y percentiles.
Sistema de habilidades.
Que el estudiante sea capaz de:
1. Calcular estadísticos de posición de conjuntos de datos agrupados o no.
2. Interpretar las estadísticas de posición.
CANTIDAD DE HORAS: 4 horas
TIPO DE CLASE: Clase-encuentro
EVALUACIÓN: Si
TEMA 3: Medidas de dispersión.
OBJETIVOS:
Que el estudiante sea capaz de, dado un conjunto de datos:
Resumir adecuadamente la información de manera analítica mediante el uso
de las estadísticas de dispersión e interpretar dicho resultado
CONTENIDO:
Sistema de conocimientos:
3
Utilidad de los estadísticos de dispersión La amplitud. La desviación media.
La varianza. La desviación estándar. El coeficiente de variación. La amplitud
(rango) intercuartílica(o). El coeficiente de variación Amplitud (rango) semi-
intercuartílica(o).
Sistema de habilidades.
Que el estudiante sea capaz de:
1. Calcular estadísticos de dispersión de conjuntos de datos agrupados o
no.
2. Interpretar las estadísticas de dispersión.
CANTIDAD DE HORAS: 4 horas
TIPO DE CLASE: Clase-encuentro
EVALUACIÓN: Si
TEMA 4: Medidas de asociación.
OBJETIVOS:
Que el estudiante sea capaz de, dada la información contenida en un conjunto
de datos que representan a dos o más variables:
Determinar si existe correlación (asociación) lineal entre pares de variables y
la intensidad de la misma.
Desarrollar, a partir de una tabla de contingencia de r x k, la prueba de
independencia entre dos variables usando el estadístico Chi-Cuadrado.
Conozca la posible uso de los coeficientes de correlación parcial y múltiple.
CONTENIDO:
Sistema de conocimientos:
El problema de la asociación entre dos variables. El coeficiente de correlación
lineal de Pearson. El diagrama de dispersión como una medida gráfica de la
4
correlación o asociación lineal entre dos variables. El coeficiente de
correlación lineal de Spearman o coeficiente de correlación por rangos.
Interpretación práctica del valor del coeficiente de correlación lineal. Tablas
de contingencia. Prueba de independencia usando el estadístico de Chi-
Cuadrado. Coeficiente de contingencia. Correlación múltiple y parcial.
Sistema de habilidades.
Que el estudiante sea capaz de:
1. Calcular coeficiente de correlación lineal.
2. Calcular el coeficiente de correlación por rangos.
3. Construir gráficas de dispersión.
4. Interpretar el valor de los estadísticos mencionados en (1) y (2), así
como el gráfico resultante de un diagrama de dispersión.
5. Construir tablas de contingencia de r x k
6. Calcular e interpretar el coeficiente de contingencia.
7. Realizar la prueba estadística basada en el estadístico Chi-Cuadrado
para probar independencia e interpretar el resultado.
8. Reconocer la utilidad de los coeficientes de correlación parcial y
múltiple.
CANTIDAD DE HORAS: 4 horas
TIPO DE CLASE: Clase-encuentro
EVALUACIÓN: Si
BIBLIOGRAFÍA MÍNIMA.
1. Bouza C . y Sistachs, V. (----): Estadística Básica: Teoría y Ejercicios.
(Entregado para publicar)
5
2. Freund, J. “Estadística Elemental Moderna”. Editorial Pueblo y
Educación. La Habana, 1984.
INTRODUCCIÓN
Como es conocido, la Estadística es una herramienta muy útil con la que
cuenta el hombre en su empeño por conocer y dominar, para su beneficio, las
leyes que rigen la naturaleza y la sociedad. En la actualidad no hay área del
saber humano que pueda prescindir de la Estadística para la realización de
estudios e investigaciones. Los investigadores en Ciencias Sociales, y en
general aquellos que investigan en cualquier otra área del saber, pueden hallar
en la Estadística los procedimientos adecuados para la planeación de la
obtención de la información, el análisis de ésta y la presentación e
interpretación de los resultados obtenidos, de los cuales podrán tomar las
decisiones oportunas.
En lo que corresponde al aspecto de la obtención de la información, la
Estadística cuenta con los procedimientos de muestreo o del diseño de
experimentos según convengan. Con ellos el investigador contará con la
metodología pertinente para recolectar la información adecuada de una manera
eficiente, que permita un mínimo de esfuerzo, tiempo y costo, según los fines
y objetivos del estudio o investigación que se pretende efectuar.
Una vez obtenida la información pertinente, información que dicho sea de
paso se expresa en términos cuantitativos, surge la necesidad de su análisis
para extraer de ella lo relevante sobre el fenómeno objeto de estudio. En este
empeño la Estadística con sus métodos y técnicas nos suministra las
6
herramientas capaces de lograr este objetivo, si las mismas son utilizadas
adecuadamente acorde con el tipo de datos que se posee, las condiciones bajo
las cuales fueron obtenidos y algunos supuestos teóricos.
Los resultados del análisis estadístico por si solo no son suficientes para
cualquier investigación. Para completar el estudio es necesario interpretar
éstos resultados estadísticos y vincularlos, claro está, con el significado en el
contexto del fenómeno que se estudia. Dicho de otro modo, sacar las
conclusiones apropiadas y tomar las decisiones oportunas. Pero no sólo eso,
hace falta además, comunicar de manera clara y precisa estas conclusiones. En
todo este conjunto de actividades mencionadas antes, la Estadística puede
coadyuvar con técnicas y procedimientos específicos.
Ahora bien, la utilidad de la Estadística sólo se materializará, en tanto sus
técnicas y procedimientos sean empleados en cada ocasión de una manera
correcta. Para ello es necesario conocer los fundamentos de estas técnicas y
procedimientos. Con la extensión del uso de las técnicas de la computación y
en especial de los sistemas estadísticos implementados en computadoras,
muchos han mal entendido las ventajas que esto trae aparejado y confunden el
conocimiento y dominio de la Estadística con el hábil manejo de uno o varios
de estos sistemas estadísticos. El uso de cualquier técnica o procedimiento
estadísticos que aparecen en un sistema estadístico sólo será válido si se
conoce el fundamento de dicha técnica o procedimiento.
Limitándonos a los aspectos del análisis de los datos, interpretación y
presentación de los resultados, se acostumbra a considerar que la Estadística
está integrada por dos partes esenciales: la estadística descriptiva y la
estadística inferencial o inferencia estadística. Realmente esta división suele
7
ser de utilidad en lo que respecta al estudio de la Estadística. Sin embargo, en
la actividad práctica, es decir, cuando se está trabajando en la solución de
cualquier problema vía la aplicación de la metodología estadística, en
ocasiones se torna muy difícil poder asegurar que sólo se está empleando la
estadística descriptiva o la inferencial. En general, la frontera entre lo
descriptivo y lo inferencial se vuelve impreciso y en esto ha contribuido, sin
dudas, el desarrollo de potentes medios de cómputo como los actualmente
existen, lo cual permite el uso de métodos de ambas áreas, que lejos de
entorpecerse, coadyuvan a análisis más completos, incorporando mayor
credibilidad a las conclusiones que se obtengan.
En el contenido de la presente asignatura, la mayor parte pertenece a los
métodos descriptivos de la estadística, quizás los más clásicos y sólo una
pequeña parte incursiona dentro del terreno de la estadística inferencial. En
general, la asignatura posee un nivel elemental. Con el conocimiento de la
matemática del preuniversitario será suficiente para cursar exitosamente la
asignatura. En los contenidos se excluye el estudio de las probabilidades, las
variables aleatorias, las principales distribuciones probabilísticas, la teoría de
la estimación y las pruebas de hipótesis. Si bien esto simplifica el volumen en
cuanto a contenido, puede hacer difícil la exposición y lo que sería más
importante, la comprensión por parte del estudiante. En consecuencia aparece
la necesidad de desarrollar el curso haciendo hincapié en la metodología
estadística en lo que respecta a su utilidad y en la interpretación de los
resultados, fundamentando el uso de cada técnica o procedimiento a la luz de
su lógica interna y no con complicadas demostraciones.
8
Es importante destacar que la Estadística no es Matemática. Esta distinción no
está justificada por el hecho de que en general se observa una tendencia de
que los estudiantes de Ciencias Sociales presentan un cierto rechazo por la
Matemática, sino por el propio objeto de estudio de la Estadística. Si bien el
objeto de estudio de la Matemática está caracterizado por la consideración de
fenómenos determinísticos, es decir, aquellos que están muy bien explicados,
es decir, que se conocen las leyes que lo rigen, en el caso de la Estadística los
fenómenos que se consideran son los del tipo aleatorio. Los fenómenos
aleatorios son aquellos en los cuales no se conocen las leyes que lo rigen y por
tanto el resultado de su realización es impredecible de manera exacta. De aquí,
el importantísimo papel que desempeña la Estadística en el proceso del
conocimiento de la realidad, para el dominio de sus leyes en beneficio de toda
la humanidad. Esta última declaración está también avalada por la práctica.
Hoy en día, existen aplicaciones de la Estadística en muy diferentes áreas del
conocimiento humano, por no decir que en todas, como ya de alguna manera
fue señalado en el primer párrafo de esta introducción.
Es importante destacar que la teoría de las probabilidades se encargan del
estudio de las leyes que rigen el comportamiento de los fenómenos aleatorios.
De hecho se ocupa de la modelación estocástica de los mismos. Mientras que
la Estadística, una vez establecida la ley de distribución de probabilidad en
menor o mayor grado, la utiliza para el análisis de la información sujeta a la
incertidumbre que produce el carácter aleatorio del fenómeno que se
considera. La incertidumbre se pone de manifiesto en las observaciones que se
realizan sobre el fenómeno aleatorio de interés, a través de la variabilidad
intrínseca de los valores de los datos numéricos. No puede esperarse que en
un grupo de jóvenes de una misma edad, los cuales residen en una misma
9
zona, con idénticos intereses en la vida y que fueron criados y educados de
manera muy similar, dediquen el mismo tiempo diario a informarse del
acontecer nacional e internacional. Incluso, no puede esperarse que un mismo
joven dedique diariamente el mismo tiempo a obtener el tipo de información
mencionada antes. Las fluctuaciones que se observan en estos datos son
producto de la incertidumbre provocada por el carácter aleatorio del hecho que
se considera. Se podrá conocer muchísimos factores que influyen en el tiempo
de dedicación para informarse del acontecer nacional e internacional, así
como, la interrelación de ellos, pero realmente no se conocen todos los
factores e incluso la totalidad de sus interrelaciones, por lo cual se torna
imposible predecir el tiempo exacto que cada uno de los jóvenes dedica a la
actividad de informarse. En consecuencia, hay incertidumbre en la respuesta
que se obtenga y la mejor forma de tratar esta información es a través de las
técnicas y procedimientos estadísticos.
Aclarados estos aspectos generales, se puede pasar al objetivo fundamental de
este documento, el cual no es otro que el de orientar al estudiante cómo cursar
satisfactoriamente esta asignatura apropiándose de la manera más eficiente de
los diferentes conocimientos y habilidades que se indican en el programa
analítico.
Una primera sugerencia general consiste en recomendar al estudiante que
asista en la medida de lo posible, a cada uno de los encuentros con la lectura
previa de los capítulos del libro de texto correspondiente a los contenidos que
se tratarán en cada uno de ellos. Entiéndase por el libro de texto el de J.
Freund, titulado “Estadística Elemental Moderna”. El segundo libro que se
señala en la bibliografía puede considerarse de mucha utilidad para la
10
ejercitación práctica de los contenidos. Para facilitar esta sugerencia a
continuación se señalan los capítulos del libro de texto que corresponden a
cada encuentro.
En el primer encuentro se aborda el tema 1, es decir, la estadística descriptiva.
Los capítulos del libro de texto que corresponden al contenido de este primer
encuentro es el. En el segundo encuentro se aborda el tema 2, cuyo contenido
se relacionan a las medidas de posición y el cual aparece en el libro de texto
en el capítulo 1, como ua sección. El encuentro 3 se dedica al estudio de las
medidas de dispersión. El libro de texto aborda esta temática en otra sección
del capítulo 1. El cuarto y último encuentro aborda lo referente al estudio de la
asociación y dependencia entre variables. Para este encuentro los capítulos 5 y
7.
Con el objetivo de dar una mínima organización a las sugerencias que se
brindan, esta guía de estudio se ha estructurado por tema.
TEMA 1
En relación con el capítulo 1 del texto este es dedicado al estudio de los
problemas de la “Estadística Descriptiva”, y se discute plenamente el tema
La exposición del texto esta particularmente enfocado a este tipo de curso
básico. Conviene apuntar en el significado de “estadística” o como también
suele aparecer en otros textos especializados bajo los nombres de
“estadístico” o “estadígrafo”. Este último empleado con mucha frecuencia en
libros de autores españoles o sencillamente traducidos al español en España.
Cuando se haga referencia a un estadístico y quede muy bien establecido que
no se refiere a aquella persona que trabaja en el área de la Estadística, lo que
11
se pretende significar es una función que depende de los datos y que produce
un valor numérico. Este concepto es esencial. Por ejemplo, si un trabajador
social observa en cada núcleo familiar que le corresponde atender el ingreso
per cápita, dando por resultado los valores que se muestran en la tabla 1.1,
Tabla 1.1
Núcleos
familiares
1 2 3 4 5 6 7 8 9
Ingreso per –
cápita en
pesos
58 60 46 67 70 29 50 59 69
varios son las estadísticas o estadísticos que pueden ser calculados. El máximo
de los ingresos per cápita (70), el mínimo de estos ingresos per cápita (29), y
la media aritmética o promedio de los ingresos per cápita (56.44) son ejemplos
de estadísticos. En realidad este concepto no es importante en este primer
tema, si no más bien en los temas 2 y 3, pero el autor del texto lo introdujo
desde el primer capítulo y se entendió necesario abundar un `poco más al
respecto.
En el capítulo 2 del texto se comienza la exposición de una técnica estadística
para agrupar datos provenientes de la observación de alguna característica de
interés del fenómeno que se estudia. Esta técnica es la de las tablas de
frecuencias, la cual en esencia consiste en formar grupos o clases de valores o
justamente cada uno de los valores diferentes de la característica observada,
asociándole a cada uno un número que representa la cantidad de veces que
12
dicha clase o valor ocurre dentro del conjunto de datos. Con la aplicación de
esta técnica se logra reducir el volumen de los datos a manipular, pero no la
información esencial o relevante contenida en ellos, siempre y cuando se
seleccione adecuadamente la cantidad de clases de valores diferentes.
En el caso en que las clases corresponden a cada uno de los valores
diferentes, ellos de por sí serán los grupos con un solo elemento y no hay
motivo para preocuparse por la cantidad de clases, ya que ésta queda bien
establecida. Cabe entonces la pregunta, ¿cuándo formar o no clases de valores
para la confección de la tabla de frecuencias?
La respuesta a esta pregunta está dada por el tipo de dato que se maneja. Si se
retoma el tercer párrafo de la introducción se aprecia que se señaló –“ la
Estadística con sus métodos y técnicas nos suministra las herramientas
capaces de lograr este objetivo, si las mismas son utilizadas adecuadamente
acorde con el tipo de datos que se posee, las condiciones bajo las cuales
fueron obtenidos y algunos supuestos teóricos”. Obsérvese que se puntualiza
que el tipo de datos es uno de los requisitos para el empleo adecuado de una
técnica o procedimiento estadístico.
En el libro de texto no se trata con toda extensión el aspecto del tipo de datos,
por tal motivo se dedican unas líneas a este rubro.
De alguna manera con anterioridad ya se estableció la necesidad de que la
información susceptible a cualquier análisis estadístico se exprese mediante
valores numéricos. Estos valores a su vez constituyen la expresión de la(s)
característica(s) que se considere(n) de interés observar en el estudio o
13
investigación. Comúnmente esta(s) característica(s) se le(s) conoce(n) con el
nombre de variable(s). Consecuentemente se dice que existen cuatro tipos
de variables o cuatro tipos de datos (numéricos) atendiendo a la escala
mediante la cual se expresan sus valores. Esta clasificación es la siguiente:
Las variables categóricas o nominales son aquellas que mediante sus valores
indican una cualidad. Por ejemplo, el color de los ojos de las personas, la
presencia o ausencia de una cualidad o atributo, la raza de un tipo de animal,
el estado civil de las personas. Esta clase de variable es de tipo cualitativo y su
representación numérica carece de valor para el uso de estadísticos. Variables
de este tipo se dicen que son discretas atendiendo a la cantidad de valores
diferentes que pueden ellas tomar. Más adelante retomaremos esta otra
clasificación que se basa en la cantidad de valores diferentes que pueden
tomar las variables o los datos.
14
Tipos de variables o de datos
Categórico o nominal
Ordinal
De intervalo
De razón
Las variables ordinales son aquellas que no sólo indican una cualidad, sino
que también establecen un orden. Por ejemplo, el nivel escolar de las
personas, los diferentes estados de salud de un paciente. Una variable del tipo
ordinal es una del tipo nominal que permite establecer un orden entre sus
diferentes valores. Estas variables o datos son también del tipo discreto.
Las variables de intervalo son aquellas cuyos valores expresan no tan sólo un
orden, sino que además se conoce la distancia entre dos valores cualesquiera.
Para este tipo de variable se tiene una unidad de medida común y constante
que asigna un número real. Con este tipo de variable la proporción de dos
intervalos cualesquiera es independiente de la unidad de medida y del punto
cero. En realidad, para las variables de este tipo la unidad de medida y el cero
son arbitrarios. Un ejemplo clásico de este tipo de variable es la medición de
la temperatura. La temperatura puede medirse en una escala de grados
centígrados y en una escala Fahrenheit. Como se conoce
,
lo que permite la transformación de una escala en otra.
Por ejemplo, el congelamiento del agua ocurre a los cero grados centígrados
en la escala de centígrados y la ebullición a los 100 grados. En la escala
Fahrenheit, el congelamiento ocurre a los 32 grados y la ebullición a los 212.
Por otro lado, la razón en la escala centígrados del intervalo entre las
temperaturas 30 – 10 respecto a 10 – 0 es 2. En el caso de la escala Fahrenheit
estas temperaturas son 86 – 50 a 50 – 32, lo cual produce nuevamente 2.
15
Las variables del tipo de razón son aquellas que además de ser del tipo de
intervalo tienen un punto cero real en su origen. Es decir, el cero representa la
ausencia. Para este tipo de variable la proporción de un valor a otro cualquiera
es independiente de la unidad de medida. Un ejemplo es cuando se mide el
peso en una escala de onzas y en una escala de libras. Estas escalas tienen un
verdadero punto cero, lo cual indica la ausencia de peso. Además, si se mide
el peso de dos objetos en ambas escalas la razón o proporción de los dos pesos
es la misma en ambas escalas. Así, si el objeto 1 pesa 2 libras y el objeto 2
pesa 4 libras, en la escala de onzas da como resultado 32 y 64 onzas
respectivamente. Evidentemente 2/4 = 32/64 = 0.5.
Como ya se anunció antes, otra posible clasificación de las variables o de los
datos puede realizarse atendiendo a la cantidad de valores diferentes que
puedan tomar. Si una variable puede tomar un número infinito de posibles
valores, se dice que la variable es del tipo continuo. En cambio, si la variable
sólo puede tomar un número finito o a lo más infinito numerable de valores
diferentes, entonces se dice que la variable es del tipo discreto. Ejemplos de
variables del tipo discreto son los siguientes: la cantidad de personas que
integran un núcleo familiar, el número de habitantes de una comunidad y la
cantidad de personas que llegan en una hora a un punto de recepción para
solicitar un servicio, Como ejemplos de variables del tipo continuo pueden
mencionarse las siguientes: el peso de una persona, la estatura de un niño de
10 años y el tiempo que dedica un joven a informarse del acontecer nacional e
internacional diariamente.
Las variables del tipo de razón y de intervalo son del tipo continuo. En
contraposición las variables del tipo nominal u ordinal son del tipo discreto.
16
Volviendo al libro de texto, este comienza por el estudio de las tablas de
frecuencias considerando variables del tipo continuo, bien sean de razón o de
intervalo.
Para iniciar la confección de una tabla de frecuencias es necesario definir
cuántas clases o grupos de valores se considerarán. Con esta definición la
amplitud de cada clase quedará bien determinada. O por el contrario, definir la
extensión de cada clase y así quedaría bien determinado el número de ella.
Como bien se señala en el libro no hay nada definido respecto al número más
adecuado de clases, de forma tal que se logre la mejor reducción del volumen
del conjunto de los datos sin afectar sensiblemente la información relevante
sobre el fenómeno bajo estudio. En el libro de texto se señala que un número
de clases no menor de 6 y no mayor de 15 es adecuado, según la experiencia
práctica. Más recientemente apareció una fórmula que permite determinar el
número de clases. Esta fue propuesta por T.P. Ryan (1989) en su libro titulado
“Statistical Methods por Quality Improvement”, mismo que fue editado por la
editora Wiley. La expresión en cuestión es
,
donde n representa la cantidad de datos del conjunto y ”a” la cantidad de
clases. Es decir, la cantidad de clases “a” debe escogerse de manera tal que la
relación anterior se satisfaga. Por ejemplo, si n = 100, entonces 26 < 100 < 27,
de donde la cantidad de clases sería 7. Como se aprecia, este criterio hace
depender el número de clases de la cantidad de datos que se posean en
contraposición al criterio que se menciona en el libro de texto.
Definitivamente no puede establecerse ninguno de los dos criterios como la
17
solución absoluta al problema de determinar el número de clases, pero si
puede usarse el criterio dado por Ryan como guía para determinar el número
entre 6 y 15, cuando esto sea factible.
El segundo problema consiste en como considerar los intervalos que definen
las clases. Es recomendable que la amplitud de las clases sea la misma.
Cuando todas las clases son de igual amplitud se suele facilitar el trabajo de
confección de la tabla y el procesamiento posterior de los datos agrupados. No
obstante, hoy en día, con los sistemas estadísticos instrumentados en
computadoras esta ventaja es insignificante. En el epígrafe 2.2 titulado
Distribuciones numéricas, se hace una detallada exposición de este aspecto.
Sólo se considera necesario agregar que en ocasiones puede resultar más
cómodo el uso de la simbología mediante la cual se denotan los intervalos
reales cerrados y abiertos para indicar cada una de las clases. Por ejemplo, si
los datos son expresados hasta con una precisión de las décimas, digamos,
35.6, 45.8, 50.1, ..., las clases pudiesen ser las siguientes:
(30.0 ; 35.0], (35.0 ; 40.0], (40.0 ; 45.0],.... lo cual nos indica que para cada
clase el número del límite inferior del intervalo no pertenece a dicha clase,
sino a la anterior, mientras que el número que indica el extremo superior de la
clase si pertenece a esa clase. En el caso de que los intervalos que representan
las clases sean del tipo [a ; b), entonces el extremo que pertenece a la clase es
en inferior, mientras que el superior pertenece a la siguiente clase.
Como ya el estudiante debe conocer del libro de texto, existen dos tipos
básicos de frecuencias que pueden asociarse a una tabla de frecuencia. A
saber, las frecuencias absolutas, las cuales aquí denotaremos por “n” y las
frecuencias relativas, las que denotaremos por “f”. En una tabla de frecuencia
18
puede ocurrir que sólo se muestre una de éstas frecuencias o ambas, según
convenga. Asociadas a estas frecuencias, se definen las frecuencias
acumuladas absolutas y las frecuencias acumuladas relativas. Una de estas
últimas o ambas también pueden aparecer señaladas en una misma tabla de
frecuencia. En definitiva, todo dependerá de lo que se desee señalar o resaltar
en la tabla.
Las frecuencias absolutas y las relativas cumplen una serie de propiedades, las
cuales nos permiten, entre otras cosas, chequear si la tabla está bien
confeccionada. Así se tiene que la suma de las frecuencias absolutas de una
tabla de frecuencias es igual a la cantidad de datos del conjunto a partir del
cual se construyó dicha tabla de frecuencias. Por su lado, las frecuencias
relativas satisfacen que su suma es la unidad. Toda frecuencia absoluta es
mayor o igual que cero y menor o igual que “n” (la cantidad total de datos del
conjunto). Toda frecuencia relativa es mayor o igual que cero y menor o igual
que 1. Existe otras propiedades que el estudiante si está interesado puede
consultar el libro “Estadística” editado por la editorial Pueblo y Educación,
año 1987
La representación gráfica de las tablas de frecuencias para datos continuos
más usada es la del histograma de frecuencias, tal y como se detalla en el
libro. En el caso de que se desea representar gráficamente las frecuencias
acumuladas, las gráficas adecuadas son las llamadas “ojivas”.
Cuando se trata de datos del tipo discreto, producidos por variables del tipo
nominal u ordinal, no hay que preocuparse por el número de clases ni la
amplitud de las mismas, ya que cada clase esta determinada por cada uno de
19
Categoría No. de
estudiantes
No graduados 10,942
Postgraduados 1,844
Profesionales 889
los valores diferentes de la variable. Cuando éste sea el caso y la variable que
se mida sea del tipo nominal no tiene sentido hablar de las frecuencias
acumuladas. En el caso de una variable ordinal si puede tener sentido
considerarse las frecuencias acumuladas.
En el libro de texto para la representación gráfica de las tablas de frecuencias
sólo se menciona la del tipo de un pastel, sin embargo, puede usarse un
gráfico de barras, parecido al histograma. Tomemos el ejemplo clásico
siguiente:
El gráfico de barras correspondiente pudiese ser
20
Otra forma para este gráfico de barra es
Para toda aplicación de un método o procedimiento estadístico se supone una
colección bien definida de entes o elementos, sobre la cual uno desea conocer
ciertas características, bien sea por la observación de todos los entes que la
componen o sencillamente mediante la observación de una parte de este todo.
La colección o conjunto se denomina población y la parte que pudiese ser
observada recibe el nombre de muestra. Parecería normal pensar que lo más
adecuado es observar todos los entes que componen la población, sin embargo
no siempre esto es factible por un problema de tiempo o de recursos o
sencillamente porque la observación implica la destrucción de los entes
observados y no tendría sentido práctico ni económico este proceder. En
consecuencia, la observación de sólo parte de la población, es decir, la
muestra, tiene sentido. Cuando lo que se observa es la muestra y se concluye
sobre la población el estudio estadístico se dice que es del tipo inferencial o
inductivo, ya que desde una parte se infiere sobre un todo. Los métodos
21
estadísticos que hacen posible lo señalado antes están dentro del campo de la
inferencia estadística o estadística inductiva. Por otra parte, cuando se tiene
toda la información sobre la población que es objeto de estudio, la inferencia
estadística nada tiene que hacer y en su lugar los métodos descriptivos pasan a
jugar su rol. Incluso, estos últimos pueden emplearse, y de hecho así se hace,
no sólo sobre la información tomada de toda la población, sino también sobre
aquella que produce una muestra. En este caso, la estadística descriptiva sirve
para explorar los datos y de alguna manera corroborar hipótesis o supuestos
teóricos necesarios para la aplicación de los métodos de la inferencia
estadística. Los elementos de una población dependerán de hasta donde se
pretende que abarque el estudio o investigación que se realiza. En ocasiones la
población será muy concreta, sin embargo hay muchas situaciones prácticas
donde la población podemos decir que es hipotética. Cuando nos estamos
refiriendo a una investigación donde se desea estudiar cuál es el tiempo
promedio que actualmente dedican los jóvenes de una comunidad a la
actualización del acontecer nacional e internacional, queda bien establecida
que la población que se estudia es el conjunto de jóvenes de esa comunidad. Si
de esta población sólo se observa una parte, ésta será la muestra. Con los
resultados de la muestra se inferirá entonces respecto al tiempo promedio de
toda la población que se ha considerado. Como se aprecia en este caso la
población es bien concreta y es además de tamaño finito. La misma está
integrada por todos los jóvenes que residen en la comunidad en cuestión. Otro
caso sería considerar una investigación que tiene como interés principal el
estudio de los factores que inciden en la motivación de los jóvenes respecto al
tiempo que dedican a su actualización del acontecer nacional e internacional.
Nótese que estamos hablando de todos los jóvenes que existan y existirán. En
este caso la población se dice que es de tipo hipotético, ya que si bien se
22
conocen cuáles son sus elementos que la integran, en este caso los jóvenes que
residan o residirán en esa comunidad, no se tienen a todos disponibles en el
momento en que se realice el estudio. Este tipo de población es de tamaño
infinito. Ahora bien, la población que se dispone para realizar el estudio es el
conjunto de jóvenes que en ese momento residen en la comunidad. A este
conjunto algunos denominan población objeto. En ocasiones la población
objetivo y la población objeto coinciden. Por ejemplo, si lo que se desea es
conocer los factores que inciden en la motivación de los jóvenes que residen
actualmente en la comunidad respecto al tiempo que dedican a la actualización
del acontecer nacional e internacional, ambas poblaciones, la población
objetivo y la población objeto coinciden.
Por último, debe destacarse que de la calidad de la muestra depende la calidad
de las inferencias que se obtengan. Para que una inferencia tenga credibilidad
es necesario que la muestra sea representativa de la población, en otras
palabras que la muestra sea una réplica en miniatura de la población objetivo.
Una muestra no representativa de una población sesgará los resultados y con
ello las inferencias. Si del conjunto de alumnos de una escuela seleccionamos
una muestra donde estén aquellos estudiantes más pequeños, sin duda que el
promedio de estatura estará por debajo de la media del grupo, luego si de este
promedio calculado a partir de la muestra inferimos sobre todo el grupo,
obviamente estaremos subestimando la estatura promedio de la población
objetivo.
Ejercicios propuestos
23
1.-Un sociólogo planifica un estudio en una comunidad. Parte de este estudio
implica la necesidad de realizar entrevistas a un grupo de personas de las
cuales va a obtener información sobre las siguientes variables. Edad, sexo,
ocupación, nivel escolar, ingreso mensual, opinión sobre los servicios de salud
del área y sobre la programación televisiva. Para cada una de las variables
identifique su tipo atendiendo a la escala de medición y atendiendo a la
cantidad de posibles valores que puedan tomar.
2.-Un trabajador social obtiene de su área de acción información sobre el
número de personas que componen cada uno de los núcleos familiares. Los
datos son los siguientes:
1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4
4 4 4 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 8 10
2.1) ¿Qué tipo de datos son éstos atendiendo a su escala de medición?
2.2) ¿Qué tipo de datos son éstos atendiendo a la posible cantidad de valores
diferentes que pueden tomar?
2.3) Construya una tabla de frecuencias, donde aparezcan reflejadas las
frecuencias absolutas, las relativas y las acumuladas de cada una de las
anteriores.
2.4) Represente gráficamente la tabla de frecuencias atendiendo a las
frecuencias absolutas y las relativas, mediante gráficos circulares (de
pastel) y de barras.
2.5) Saque sus conclusiones al respecto a partir de la tabla de frecuencias.
3.- Dada la siguiente tabla de frecuencias, obtenga el conjunto original de
valores de la variable considerada, así como las frecuencias absolutas de cada
una de las clases.
Estado civil Frecuencia relativa
Soltero 0.28
24
Casado 0.16
Divorciado 0.33
Otro 0.23
4.- Represente gráficamente la tabla de frecuencias del ejercicio 3, mediante
un gráfico de pastel para las frecuencias relativas y uno de barras para las
frecuencias absolutas.
5.- En una investigación que se efectuó para conocer sobre el estado y
conservación de las viviendas, así como, las condiciones de vida de los
habitantes de la zona en estudio, se observaron varias variables. Entre estas
variables se hallaban el estado de la vivienda y el número de metros cuadrados
por ocupante de cada una de las viviendas. Los datos originales fueron:
Para el estado de la vivienda: (B: buen estado; R: estado regular; I:
inhabitable)
B R I B B R R R I I I B I B R I R B B B R I B B I R R R R B B B I I B B B R
R R B B B I R R B B I B.
Metros cuadrados por ocupante:
0.80 6.49 5.45 4.78 3.23 4.39 6.12 2.98 3.98 5.31
0.94 5.90 6.20 1.02 1.86 5.76 6.00 3.03 4.45 5.33
1.60 4.99 5.33 2.10 1.56 4.97 5.66 3.05 4.36 4.66
1.96 5.00 5.45 2.02 3.01 3.97 4.99 2.21 5.39 5.01
25
1.56 6.30 3.78 3.00 4.06 3.76 3.78 2.08 3.91 4.44
5.1) ¿Qué tipo de variables son éstas, atendiendo a la escala de medición y
respecto a sus posibles valores?
5.2) Confeccione una tabla de frecuencias relativas para la variable estado de
la vivienda y represéntela gráficamente.
5.3) Confeccione una tabla de frecuencias absolutas que contenga 8 clases de
igual amplitud para la otra variable. Represéntela gráficamente.
5.4) En las respuestas de los incisos 1 y 2 intente dar una interpretación a tenor
con los resultados obtenidos.
5.5) A partir de la tabla de frecuencias del inciso 5.2 intente recuperar los
valores originales de la variable área (m2) por habitante de cada vivienda. Si
no logra la recuperación de todos y cada uno de los valores, analice el motivo.
6.-Se recomienda al estudiante que trate de resolver todos los ejercicios del
libro de texto y los ejercicios tipos del libro complementario.
TEMA 2
Si bien en el tema anterior se centró la atención fundamentalmente en la
caracterización gráfica de los conjuntos de datos, en éste y el que viene se
tratará de resumir la información con el cálculo de algunos estadígrafos. En
este segundo tema nos encargaremos de los estadígrafo de posición y en el
próximo de los que indican la variabilidad. En cualquiera de las dos
26
situaciones, se acostumbra a decir que la caracterización del conjunto de datos
se realiza de forma analítica. Debe aclararse que estas caracterizaciones no se
contradicen, sino al contrario, se complementan.
Dentro de las medidas de posición, las más usadas son las que de alguna
manera intentan darnos una idea del centro de la distribución de frecuencias.
Dentro de éstas, las más populares son la media aritmética (promedio) o
media muestral y la mediana. La mediana es de por si la que señala el valor
central de la distribución del conjunto de datos. La media muestral o
promedio, nos brinda una medida del valor que debe esperarse ocurra, aunque
éste realmente no tiene que ocurrir en ninguno de los datos que se poseen. La
mediana tiene sentido aplicarse cuando la escala de valores de los datos es al
menos del tipo ordinal. La media tiene sentido cuando la escala es al menos
del tipo de intervalo.
Cuando la escala de medición es del tipo nominal o categórico la moda, la
cual indica cuál es la cualidad o atributo más frecuente, es la medida
apropiada para de alguna manera tener una idea sobre la forma de la
distribución del conjunto de datos. No obstante, la moda puede ser calculada
en cualquier tipo de conjuntos de datos.
Las otras medidas de posición, tales como: la media geométrica, la media
armónica y la media ponderada aparecen bien detalladas en el libro de texto,
así como sus posibles aplicaciones, las cuales son algo más limitadas.
Nótese que cuando se dispone de los datos originales, es decir, cuando están
sin agrupar en una tabla de frecuencias absolutas o relativas, las expresiones
27
para el cálculo toman una forma diferente cuando los datos han sido
previamente agrupados en clases mediante una tabla de frecuencias.
En el caso de datos continuos se destaca que se pierde información respecto al
conjunto original de los datos y en consecuencia el valor numérico que se
obtiene al calcular la media o la mediana, etc. no coincide exactamente con el
valor que resulta de calcular el mismo estadístico pero con los datos sin
agrupar. No obstante, esto hecho no es alarmante. El estudiante debe poner
especial atención a las expresiones para el cálculo de los estadísticos en
cuestión cuando los datos están agrupados o no en tablas de frecuencias.
Vale aclarar que cuando la agrupación se efectúa sobre datos discretos, donde
cada clase está constituida por cada valor diferente de la variable, no hay en
realidad pérdida de información respecto a los valores de la variable del
conjunto original y por lo tanto, los valores de los estadísticos coinciden, estén
o no los datos agrupados.
Ejercicios propuestos
1.- Con relación al ejercicio propuesto número 2 del tema 1, calcule el
estadístico que nos dé una idea sobre el número promedio de personas que
componen cada núcleo familiar. Considere los datos sin agrupar. Interprete los
resultados.
2.- ¿Existirá una composición de núcleo familiar que más se repita? ¿Cuál es
éste? Considérese el mismo ejercicio propuesto 2 del tema 1 y los datos sin
agrupar. Interprete los resultados.
3.- Repita los ejercicios 1 y 2 pero considerando los datos agrupados.
28
4.- ¿Cuál es el valor mediano del conjunto de los datos a que se refiere el
ejercicio 2 del tema 1? Calcúlese éste considerando los datos sin agrupar y
agrupados. Interprete los resultados.
5.- Tomando la tabla de frecuencias del ejercicio propuesto 3 del tema 1,
aplique usted los estadísticos de posición que entienda oportuno para la
caracterización analítica de dicha distribución de frecuencias. Interprete los
resultados.
6.- Con los datos del ejercicio propuesto 5 del tema 1, calcule la media, la
mediana, la moda, la media geométrica, la media armónica, los cuartiles 1, 2 y
3. Interprete los resultados.
7.- Repita los cálculos indicados en el ejercicio anterior, pero tomando ahora
los datos agrupados obtenidos con la tabla de frecuencias que se elaboró como
una de las respuestas del ejercicio propuesto 5 del tema 1. Interprete los
resultados.
8.- Se recomienda al estudiante que trate de resolver todos los ejercicios del
libro de texto y los ejercicios tipos del libro complementario.
TEMA 3
Este tema se dedica al estudio de otros estadígrafos, los cuales tienen como
objetivo indicar de alguna manera la dispersión del conjunto de los datos. Es
ya conocido por el estudiante, que toda observación sujeta a incertidumbre
presenta una variación en sus valores.
Cuando se utilizan los estadísticos de posición se trata de obtener un patrón
del conjunto de datos del cual se dispone. Cuando se calcula un estadístico de
variación o de dispersión, lo que se intenta es determinar el grado de variación
29
en torno al patrón. En consecuencia, los estadígrafos de posición y de
dispersión se complementan en el objetivo de caracterizar conjuntos de datos.
Supóngase dos conjuntos de observaciones correspondientes a los ingresos
personales de los pobladores de dos consejos populares dentro de un
municipio. El primero de ellos reporta un ingreso anual personal de 2000
pesos y el segundo de 2500. En principio todo parece indicar que los
pobladores del segundo conjunto tienen un poder adquisitivo superior. Sin
embargo, cuando se calcula un estadístico de variación, resulta que el segundo
conjunto muestra una mayor variación que el primero. ¿Qué significa esto?
Sencillamente que en el segundo conjunto hay personas que tienen un alto
ingreso y por ende un mayor poder adquisitivo. Existirán en este mismo
conjunto pobladores que sus ingresos serán bajos y con ello su poder
adquisitivo. Sin embargo, en el primer conjunto el ingreso personal es más
parecido en todos pobladores, ya que la variación que presentan los datos es
más pequeña. Respecto a la variable que se mide, el primer conjunto es más
homogéneo.
Las medidas de variación que se estudian en este tema son: la amplitud o
recorrido, la desviación media o desviación promedio, la desviación estándar o
desviación típica, la varianza de la población, la varianza muestral, el
coeficiente de variación, la amplitud intercuartílica, la amplitud semi-
intercuartílica y el coeficiente de variación intercuartílico. de todas ellas las
más usadas son: la desviación estándar, la varianza y el coeficiente de
variación.
Nótese que la única diferencia entre la varianza de la población y la de la
muestra consiste en que en la primera se divide por la cantidad de datos del
30
conjunto y en la segunda por esa misma cantidad menos uno. Este hecho
responde a que en el segundo caso la inferencia que se realiza respecto a la
variación de toda la población, cuando se trata de un problema inferencial,
posee propiedades que la hacen ser más adecuadas. En consecuencia, la
varianza muestral suele ser utilizada también para medir la variación de un
conjunto de observaciones. Es también posible hablar de la desviación
estándar como la raíz cuadrada positiva de la varianza muestral.
El coeficiente de variación es muy útil cuando se trata de comparar la
variación entre dos o más conjuntos de observaciones, ya que de la propia
definición de este estadístico, el resultado numérico es independiente de las
unidad de medida.
Ejercicios propuestos
1. Con relación al ejercicio propuesto número 2 del tema 1, calcule todos
los estadísticos de variación estudiados en este tema. Interprete los
resultados.
2. Repita el ejercicio 1 considerando los datos agrupados.
3. Tomando la tabla de frecuencias del ejercicio propuesto 3 del tema 1,
cree usted oportuno y factible el cálculo de algunos de los estadísticos
de variación. En caso de que su respuesta sea positiva, calcule el
estadístico en cuestión.
4. Con los datos del ejercicio propuesto 5 del tema 1, calcule los
estadísticos de dispersión estudiados de los datos correspondientes a los
metros cuadrados por ocupante de las viviendas. Interprete los
resultados.
31
5. Repita los cálculos indicados en el ejercicio anterior, pero tomando
ahora los datos agrupados obtenidos con la tabla de frecuencias que se
elaboró como una de las respuestas del ejercicio propuesto 5 del tema 1.
Interprete los resultados.
6. Se recomienda al estudiante que trate de resolver todos los ejercicios del
libro de texto y los ejercicios tipos del libro complementario.
TEMA 4
En este tema, el cual está dedicado a estudiar la asociación entre variables, se
incursiona ligeramente dentro de la estadística inferencial, en lo que respecta a
las tablas de contingencia, las cuales en su completa solución necesitan de las
llamadas pruebas estadísticas de hipótesis. El coeficiente de correlación lineal,
así como, el coeficiente de correlación lineal por rangos, aunque pueden ser
utilizados para corroborar estadísticamente el grado de asociación lineal, los
mismos puede prescindir de la realización de una prueba estadística de
hipótesis, sirviendo sus valores como una mera indicación de la tal asociación.
El problema de las pruebas es tema de otro curso más avanzado.
Ejercicios propuestos
1.- En un estudio sociocultural se está interesado en probar estadísticamente
con un margen de error del 0.05 que las variables nivel cultural y estado civil
son dependientes. A partir de la muestra obtenida se confeccionó la siguiente
tabla de contingencia
32
soltero casado divorciado
primaria 49 20 32
secundaria 25 33 48
preuniversitaria 15 54 29
universitaria 18 51 11
Realice usted el análisis estadístico pertinente y diga sus conclusiones.
2.- En un consejo popular se ha obtenido una muestra de núcleos familiares en
los cuales se han observado las variables ingreso anual y tiempo de dedicación
promedio de horas por semana que el núcleo dedica a la recreación y
actividades culturales. Los resultados fueron los siguientes:
Núcleos
1 2 3 4 5 6 7 8 9 10
ingre-
so
2.8 3.9 4.9 6.4 5.5 4.8 3.0 7.1 5.6 3.7
tiem-
po
1 2 4 6 5 5 2 6 5 4
(*) El ingreso anual se expresa en miles de pesos.
Analice gráficamente si existe o no una relación lineal entre esas variables.
Indique sus conclusiones.
3.- Investigue analíticamente si existe relación lineal o no entre las variables
del ejercicio 2. Interprete el resultado.
33
4.- Al conjunto de valores que toman las variables del ejercicio 2, aplique el
coeficiente de correlación basado en los rangos. Interprete el resultado.
5.- Aplique el coeficiente de contingencia al problema 1. Interprete el
resultado.
6.- ¿Es posible calcular el coeficiente de contingencia a los datos del problema
2? En caso de que su respuesta sea positiva, indique cómo hacerlo.
7.- Se recomienda al estudiante que trate de resolver todos los ejercicios del
libro de texto y los ejercicios tipos del libro complementario.
Confeccionado por:
Dr. Carlos Bouza HerreraDpto. Matemática Aplicada.Fac. Matemática y Computación.UH.
34
Top Related