Estadadistica descriptiva exposicion
-
Upload
carlo-herrera -
Category
Documents
-
view
868 -
download
0
Transcript of Estadadistica descriptiva exposicion
Estadística descriptiva
La estadística descriptiva es una gran parte de la estadística que se dedica a recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente las características de ese conjunto. Este análisis es muy básico. Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor central. Esto es lo que podria ser un concepto aproximado.
Estadística y Los Conceptos.
La Estadística es la ciencia que se encarga de recolectar datos de una población o muestra. Los conceptos estadísticos se han trabajado intuitivamente desde la antigüedad, las primeras culturas recopilaban datos poblacionales por medio de censos como los realizados Egipto y por Moisés (según consta la Biblia) y el empadronamiento que fue efectuado por los romanos en Judea, solo a partir del siglo pasado Adolfo Quetelec (1796-1874) creo diferentes métodos para realizar observaciones con el fin de determinar el tipo de datos que regulan algunos fenómenos.
Lista de conceptos básicos en orden cronológico de estudio
La siguiente lista en orden cronológico para su estudio, recopila conceptos básicos con los que, todo aquel que se pretenda iniciar en las técnicas Estadísticas, debería estar familiarizado.
Probabilidad
Definición de Estadística
Definición de Descriptiva
Población
Estadístico
Frecuencia Estadística
Media
Mediana
Desviación estándar
Varianza
Varianza con probabilidad
Moda
Tabla de frecuencias
Análisis de frecuencia acumulada
Histograma
Estadística Inferencia
Encuesta
Error estadístico
Variable aleatoria
Variable estadística
Análisis de series temporales
Censo
Combinatoria
Diseño experimental
Distribución bionomíal
Distribución normal
Distribución t
Grados de libertad
Muestreo
Muestra
Parámetro estadístico
Prueba de χ²
Regresión estadística
Rango
Introducción Notación Sumatoria
Los números cuya suma se indica en una notación sigma pueden ser naturales,
complejos u objetos matemáticos más complicados. Si la suma tiene
un número infinito de términos, se conoce como serie infinita.
Dada una sucesión:
Ésta se puede representar como la suma de los primeros términos con la notación
de sumatoria o notación sigma.
El nombre de esta notación se denomina de la letra griega
(sigma mayúscula, que corresponde a nuesta S de "suma" ).
La notación sigma es de la siguiente manera:
La suma de los primeros pares
Impares
*Ejemplo:
DATOS NO AGRUPADOS.
Los datos no agrupados son los datos sin procesar, y las estadísticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los análisis.
Es el conjunto de datos obtenidos en la recopilación, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos.
1.- los datos son brutos(es decir, no se presentan clasificados)
2.- no es necesario clasificar ni generar una tabla de frecuentas, ya que no tiene “mucho sentido”.
3.- elementos que menor tamaño (generalmente menor a 20 elementos).Esto no sucede así siempre.
Aunque contemos con menos de 20 elementos, debe de verificarse que los datos no sean significativos, Esto es: que la información no sea “repetitiva”, de esta forma, sabremos que no se podrá clasificar y por lo tanto ser resumida en una “tabla de frecuencias”.
En caso de que una vez que hayamos ordenado los elementos, se cuente con datos significativos. Procedemos a clasificarlos (si es posible, ya que también debemos de buscar la lógica al clasificar los elementos) para convertirlos en “datos agrupados”.
4.- los datos no agrupados, también pueden ser ordenados y de la misma forma, también se pueden obtener graficas, determinar media, desviación estándar, etc.El hecho de que los datos “no agrupados” pueden ordenarse, no significa que se conviertan en “datos agrupados”.
Ejemplos:Vas a investigar la edad a un grupo de 20 Niños en datos no agrupados (es decir, vienen los 20 niños y asi como te dan la edad asi la anotas
2,2,1,3,3,3,4,4,5,6,1,2,2,3,3,3,4,4,3,6 (Total 20 niños)Estos son datos no agrupados por qué no los has clasificado y contado
1,1,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5,5,6 (Total 20 niños)Los datos no agrupados también los puedes ordenar, por ejemplo de la edad menor a la edad mayor, no están contabilizados ni clasificados solamente están ordenados
Para que sean datos agrupados tienes que contarlos y clasificarlos, por ejemplo cuántos niños había de cada año. (y siguen siendo 20 niños)
Edad..........Frecuencia1..................22..................43..................74..................45..................26..................1Total............20
Medidas de tendencia central: Media, Mediana, Moda
Supóngase que un determinado alumno obtiene 35 puntos en una prueba de matemática. Este puntaje, por sí mismo tiene muy poco significado a menos que podamos conocer el total de puntos que obtiene una persona promedio al participar en esa prueba, saber cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas calificaciones.
En otras palabras, para que una calificación tenga significado hay que contar con elementos de referencia generalmente relacionados con ciertos criterios estadísticos.
Las medidas de tendencia central (media, mediana y moda) sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba.
Volviendo a nuestro ejemplo, digamos que la calificación promedio en la prueba que hizo el alumno fue de 20 puntos. Con este dato podemos decir que la calificación del alumno se ubica notablemente sobre el promedio. Pero si la calificación promedio fue de 65 puntos, entonces la conclusión sería muy diferente, debido a que se ubicaría muy por debajo del promedio de la clase.
En resumen, el propósito de las medidas de tendencia central es:
Mostrar en qué lugar se ubica la persona promedio o típica del grupo.
Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico.
Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones.
Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.
Las medidas de tendencia central más comunes son:
La media aritmética: comúnmente conocida como media o promedio. Se representa por medio de una letra M o por una X con una línea en la parte superior.
La mediana: la cual es el puntaje que se ubica en el centro de una distribución. Se representa como Md.
La moda: que es el puntaje que se presenta con mayor frecuencia en una distribución. Se representa Mo.
De estas tres medidas de tendencia central, la media es reconocida como la mejor y más útil. Sin embargo, cuando en una distribución se presentan casos cuyos puntajes son muy bajos o muy altos respecto al resto del grupo, es recomendable utilizar la mediana o la moda. (Porque dadas las características de la media, esta es afectada por los valores extremos).
La media es considerada como la mejor medida de tendencia central, por las siguientes razones:
Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media.
Es la medida de tendencia central más conocida y utilizada.
Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras que las medianas y las modas de las distribuciones no se promedian.
La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la mediana y la moda en muy pocos casos.
Cómo calcular, la media, la moda y la mediana
Media aritmética o promedio
Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total. En palabras más simples, corresponde a la suma de un conjunto de datos dividida por el número total de dichos datos.
Ejemplo 1:
En matemáticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3
n = 6 (número total de datos)
La media aritmética de las notas de esa asignatura es 4,8. Este número representa el promedio.
Ejemplo 2:
Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de frecuencias y luego calcular la media aritmética. El siguiente cuadro con las medidas de 63 varas de pino lo ilustra.
Largo (en m) Frecuencia absoluta Largo por Frecuencia absoluta
5 10 5 . 10 = 50
6 15 6 . 15 = 90
7 20 7 . 20 = 140
8 12 8 . 12 = 96
9 6 9 . 6 = 54
Frecuencia total = 63 430
Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor, por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces).
Moda (Mo)
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o sea, cual se repite más.
Ejemplo 1:
Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de niñas de un Jardín Infantil.
5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3)
Ejemplo 2:
20, 12, 14, 23, 78, 56, 96
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de valores no tiene moda.
Mediana (Med)
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante corresponde al número del caso que representa la mediana de la distribución.
Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores antes y después de él en un conjunto de datos agrupados.
Según el número de valores que se tengan se pueden presentar dos casos:
Si el número de valores es impar, la Mediana corresponderá al valor central de dicho conjunto de datos.
Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2).
Ejemplo 1:
Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2
Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5, 8, 9, 10
El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares.
Ejemplo 2:
El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med será el promedio de los valores centrales.
21, 19, 18, 15, 13, 11, 10, 9, 5, 3
Ejemplo 3:
Interpretando el gráfico de barras podemos deducir que:
5 alumnos obtienen puntaje de 62
5 alumnos obtienen puntaje de 67
8 alumnos obtienen puntaje de 72
12 alumnos obtienen puntaje de 77
16 alumnos obtienen puntaje de 82
4 alumnos obtienen puntaje de 87
lo que hace un total de 50 alumnos
Sabemos que la mediana se obtiene haciendo
lo cual significa que la mediana se ubica en la posición intermedia entre los alumnos 25 y 26 (cuyo promedio es 25,5), lo cual vemos en el siguiente cuadro:
puntaje alumnos
62 1
62 2
62 3
62 4
62 5
67 6
67 7
67 8
67 9
67 10
72 11
72 12
72 13
72 14
72 15
72 16
72 17
72 18
77 19
77 20
77 21
77 22
77 23
77 24
77 25
77 26
77 27
77 28
77 29
77 30
82 31
82 32
82 33
82 34
82 35
82 36
82 37
82 38
82 39
82 40
82 41
82 42
82 43
82 44
82 45
82 46
87 47
87 48
87 49
87 50
El alumno 25 obtuvo puntaje de 77
El alumno 26 obtuvo puntaje de 77
Entonces, como el total de alumnos es par debemos promediar esos puntajes:
La mediana es 77, lo cual significa que 25 alumnos obtuvieron puntaje desde 77 hacia abajo (alumnos 25 hasta el 1 en el cuadro) y 25 alumnos obtuvieron puntaje de 77 hacia arriba (alumnos 26 hasta el 50 en el cuadro).
Medidas de posición
Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación de éstos dentro de un contexto de valores posible.
Son indicadores usados para señalar que porcentajes de datos dentro de una distribución de frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en el centro de la distribución de frecuencia, por lo que también se llaman medida de tendencia central.
Medidas de posición más comunes:
- Cuartiles: hay tres cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y tercer cuartil.
- Deciles: hay nueve deciles que la dividen en 10 partes iguales: (del primero al noveno decil).
- Percentiles: hay noventa y nueve percentiles que dividen a una serie en 100 partes iguales.
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenadosen cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.
Q2 coincide con la mediana.
Cálculo de los cuartiles
1 Ordenamos los datos de menor a mayor.
2 Buscamos el lugar que ocupa cada cuartil mediante la expresión .
Número impar de datos
2, 5, 3, 6, 7, 4, 9
Número par de datos
2, 5, 3, 4, 6, 7, 1, 9
Cálculo de los cuartiles para datos agrupados
En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Ejercicio de cuartiles
Calcular los cuartiles de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Cálculo del primer cuartil
Cálculo del segundo cuartil
Cálculo del tercer cuartil
Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.
Cálculo de los deciles
En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Ejercicio de deciles
Calcular los deciles de la distribución de la tabla:
fi
Fi
[50, 60)
8 8
[60, 70)
10
18
[70, 8
16
34
0)
[80, 90)
14
48
[90, 100)
10
58
[100
5 63
, 110)
[110, 120)
265
65
Cálculo del primer decil
Cálculo del segundo decil
Cálculo del tercer decil
Cálculo del cuarto decil
Cálculo del quinto decil
Cálculo del sexto decil
Cálculo del séptimo decil
Cálculo del octavo decil
Cálculo del noveno decil
Percentiles
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
Cálculo de los percentiles
En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Ejercicio de percentiles
Calcular el percentil 35 y 60 de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Percentil 35
Percentil 60
Medidas de dispersión
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza)
Desviación media
La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética. Di = x - x
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media; La desviación media se representa por :
Desviación media para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:
Ejemplo: Calcular la desviación media de la distribución:
xi fi xi · fi |x - x| |x - x| · fi
[10, 15) 12.5 3 37.5 9.286 27.858
[15, 20) 17.5 5 87.5 4.286 21.43
[20, 25) 22.5 7 157.5 0.714 4.998
[25, 30) 27.5 4 110 5.714 22.856
[30, 35) 32.5 2 65 10.174 21.428
21 457.5 98.57
Varianza
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.
La varianza se representa por: varianza para datos agrupados
Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.: Ejercicios de varianza, Calcular la varianza de la distribución:9, 3, 8, 8, 9, 8, 9, 18
Calcular la varianza de la distribución de la tabla:
xi fi xi · fi xi2 · fi
[10, 20) 15 1 15 225
[20, 30) 25 8 200 5000
[30,40) 35 10 350 12 250
[40, 50) 45 9 405 18 225
[50, 60 55 8 440 24 200
[60,70) 65 4 260 16 900
[70, 80) 75 2 150 11 250
42 1 820 88 050
Propiedades de la varianza
La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales; Si a todos los valores de la variable se les suma un número la varianza no varía; Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número; Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total;
Observaciones sobre la varianza
La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas; En los casos que no se pueda hallar la media tampoco será posible hallar la varianza; La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado
Desviación típica
La desviación típica es la raíz cuadrada de la varianza,es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación. La desviación típica se representa por σ.
Desviación típica para datos agrupados: Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
Ejercicios de desviación típica: Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9, 18
Calcular la desviación típica de la distribución de la tabla:
xi fi xi · fi xi2 · fi
[10, 20) 15 1 15 225
[20, 30) 25 8 200 5000
[30,40) 35 10 350 12 250
[40, 50) 45 9 405 18 225
[50, 60) 55 8 440 24 200
[60,70) 65 4 260 16 900
[70, 80) 75 2 150 11 250
42 1 820 88 050
Propiedades de la desviación típica: La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales; Si a todos los valores de la variable se les suma un número la desviación típica no varía; Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número; Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total.
Observaciones sobre la desviación típica: La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas; En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica; Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.
Medidas de Forma
Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución, con la distribución normal.
MEDIDA DE ASIMETRÍA
Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden.
Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que
la distribución es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es
el Coeficiente de Asimetría de Pearson:
Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la
derecha y negativo cuando existe asimetría a la izquierda.
MEDIDA DE APUNTAMIENTO O CURTOSIS
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
El número de diás necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales características han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media, mediana, moda, varianza y desviación típica.
SOLUCIÓN:
La media: suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone:
La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de observaciones es par (10 individuos),
los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de
la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana.
La moda: el valor de la variable que presenta una mayor frecuencia es 60
La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable
y la media aritmética de la distribución.
Sx2=
La desviación típica S: es la raíz cuadrada de la varianza.
S = √ 427,61 = 20.67
El rango: diferencia entre el valor de las observaciones mayor y el menor
80 - 15 = 65 días
El coeficiente de variación: cociente entre la desviación típica y el valor absoluto de
la media aritmética
CV = 20,67/52,3 = 0,39
FUENTES DE INFORMACION:
http://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva
http://tgrajales.net/tendencentral.pdf
http://www.profesorenlinea.cl/matematica/EstadisticaMediaMedianaModa.htm
http://www.ditutor.com/estadistica/medidas_posicion.html
Bibliografía
Manuel García Ferrando: Socio estadística. Introducción a la estadística en sociología.
Marcelo Cordero :Estadista
J.R. Bízmanos y R. Asensio: Bioestadística.
Jose Gonzales Villanueva: Estadístico.
Guillermo Gonzalez Velazquez.
Emilia Ortiz :Temas estadisticos
Richard I. Levin : Estadística para Administradores.