Graficas, tablas y medidas de
tendencia central
1
Descripción de datos: graficas y
tablas
2
Contenido
Objetivo
Introducción
Conceptos básicos de Excel
Conceptos básicos
Variables y observaciones
Tipos de datos
Tablas de frecuencia e histogramas
3
Objetivo El objetivo de este tema es utilizar las herramientas de Excel
2007/2010 para poder resumir datos y poder utilizarlos en la toma de decisiones. En esta presentación nos centraremos en la presentación de datos mediante tablas y graficas.
4
Introducción
La cantidad de datos con las que cuentan actualmente las
empresas en un mundo computarizado tiende a ser
extremadamente grande, por lo que uno de los retos es
resumir los datos de manera que la información importante
se pueda visualizar.
Notaremos en estos casos que obtener información a partir
de tablas y graficas es mucho mas representativo que una
listado de una gran cantidad de datos.
5
Introducción a Excel
Los conocimientos necesarios básicos para poder realizar las
prácticas los podrás encontrar en la siguientes ligas:
Video conceptos básicos de Excel
Video introducción básica a Excel
A continuación se definirán los conceptos básicos de la teoría
de esta unidad.
6
Conceptos básicos
Una población incluye todas las entidades de interés.
Algunas poblaciones típicas son:
Todos los votantes potenciales en una elección presidencial
Todos los suscriptores a una televisión de cable
Una población incluye todas las entidades de interés en un
estudio, sean personas, maquinas, o lo que sea. Una muestra
es un subconjunto de la población, generalmente
seleccionadas al azar y preferentemente que sean
representativos de la población.
7
Variables y observaciones
Para estandarizar el análisis de datos, especialmente en
computadora, es recomendable presentar los datos en filas y
columnas. Cada columna representa una variable (campo),y
cada fila corresponde a una observación (caso o registro),
esto es, un miembro de la población o muestra.
Una variable (campo) es un atributo, o medida en los
miembros de una población, tal como altura, genero, salario.
Una observación (registro, caso) es una lista de todos los
valores de las variables para un miembro de la población.
8
Variables y observaciones
Nombre Edad Sexo Hijos
Claudia 23 F 0
Susana 32 F 2
En este ejemplo tenemos las variables o campos: nombre, edad,
sexo e hijos (las columnas)
Existen en este ejemplo dos registros u observaciones
variables
observaciones
9
Tipos de datos Una variable es numérica si se pueden llevar a cabo
operaciones aritméticas. De otro modo es alfanumérica (categorica).
Cuando existe un orden natural de las categorías, se clasifica como ordinal, por ejemplo una variable opinión: totalmente de acuerdo, de acuerdo, neutral, en desacuerdo, totalmente en desacuerdo. Si no hay un orden como por ejemplo: género, estado, se clasifica como nominal.
Las variables categóricas pueden ser codificadas numéricamente, por ejemplo genero:1- femenino, 2-masculino
10
Tipos de datos
La variable sueldo es numérica, se pueden hacer
operaciones aritméticas con esta.
La variable nombre es alfanumérica , por ejemplo: “Juan”
La variable edad puede ser categorizada como:
Joven (34 o menos)
Medio (35 a 59)
Maduro (60 o mas)
11
Variables continuas y discretas
Las variables numéricas pueden ser clasificadas como
discretas o continuas. Una variable es discreta si es posible
llevar un conteo. Una variable continua es el resultado de
una medida esencialmente continua.
Por ejemplo, número de hijos, es una variable discreta,
Salario es una variable continua.
12
Transversal o series de tiempo
Datos transversales son datos en un punto en el tiempo.
Las series de tiempo son datos obtenidos durante el
tiempo.
Por ejemplo, algún tipo de dato opinión, es transversal,
ocurre en un punto particular en el tiempo. Una serie de
tiempo ocurre cuando damos seguimiento a una o mas
variables en el tiempo. Por ejemplo algún índice en la bolsa
de valores.
13
Tablas de frecuencia e histogramas
14
Distribución de frecuencia
La distribución de frecuencia es un listado de todas las
puntuaciones observadas de una variable y la frecuencia (f) de
cada puntuación (o categoría).
Estandarización de distribución de puntuaciones
La distribución de frecuencias con proporciones.
Listado de la proporción de respuesta para cada categoría o
puntuación de una variable.
La distribución de frecuencias de porcentajes. Listado
del porcentaje de respuestas para cada categoría o puntuación
de una variable.
15
Ejemplo
Frecuencia, frecuencia proporcional y distribución de
frecuencia porcentual de la variable género para una muestra
de 10 estudiantes.
Especificaciones Cálculos
Genero (X) Frecuencia (f) Frecuencia
proporcional
Frecuencia
porcentual
Hombre 7 0.700 (7/10) 70.0%
Mujer 3 0.300 (3/10) 30.0%
Total 10 1.00 (0.7+0.3) 100.0%
En total había 10
estudiantes, 7 hombres
y 3 mujeres
El 70%
son
hombres
y el 30%
mujeres
16
Tabla de frecuencia e histogramas
Una tabla de frecuencias lista el número de observaciones
de alguna variable en varias categorías. Un histograma es
una grafica de barras de estas frecuencias.
Ejercicio interactivo histogramas
A continuación veremos como obtener una tabla de
frecuencias en Excel para Windows
Video para realizar histogramas en Mac
17
Tablas de frecuencia
18
El directivo de la empresa Cilsa, desea conocer la longitud de
los cilindros fabricados por una máquina y la cantidad de
cilindros por cada longitud. Los datos obtenidos al medir los
cilindros se presentan en la tabla siguiente; sin embargo, no
es posible llegar a una conclusión con los datos desordenados,
por lo que será necesario agruparlos y presentarlos de
manera clara para facilitar la interpretación de la
información; para lograr esto, se analizará de qué modo se
puede utilizar una distribución de frecuencia para organizar
el conjunto de datos.
Tabla de frecuencias
19
Paso1.Seleccionamos el máximo y el mínimo y obtenemos el
rango
El valor mayor El valor menor
Tabla de frecuencias
20
Al ver los datos sin procesar, no organizados o no agrupados,
podemos identificar claramente que son 60 datos
recopilados, que el valor mayor es 259, y el valor menor es
de 236, en resumen.
n = 60 (número de observaciones)
Valor máximo: 259
Valor mínimo: 236
Rango = valor máximo – valor mínimo =
259-236 =23
Número de clases
21
Paso 2. Seleccionamos el número de clases
Para poder graficar el histograma, necesitamos obtener el
número de clases (k) , existen varias formas:
La regla de Sturge: k = 1 + 3.322(log10 n)
Para el ejemplo anterior, tenemos n= 60, esto es:
k = 1 + 3.322(log10 n)
k = 1 + 3.322(log10 60)
k = 1 + 3.322(1.778)
k = 6.90
Redondeando al valor entero más cercano, tenemos k=7
Número de clases
22
Otra forma de obtener el número de clases es:
25=32 como 26 =no es mayor a 60,
26=64 como 64≥ 60, el número de clases seleccionadas es 6.
Y la manera más sencilla es obtener la raíz cuadrada del número de observaciones, esto es:
por lo que el número de clases sugerido por este método es el entero más cercano, que en este caso es 8.
clases de número :c
nesobservacio de número :n
2 nc
74.760
Intervalo de clase
23
Paso 3. Calculamos el intervalo de clase
Para el ejemplo que estamos trabajando seleccionaremos el
número de clases 6, calculado por el segundo método.
Ahora nos falta obtener el intervalo de clase, que se puede
obtener de la forma siguiente:
En nuestro caso, el valor más pequeño del conjunto de datos
es 236 y el valor más grande es 259, esto es (259-
236)/6=3.83, debido a que estamos trabajando con valores
enteros, el intervalo de clase para nuestro caso será 4
clases de número
mínimo valor - máximovalor IC
Tabla de frecuencias
24
Paso 4. Construimos la tabla de frecuencias.
A partir del intervalo de clase, obtenemos nuestras clases
comenzando con el valor más pequeño y utilizando el
intervalo de clase calculado, esto es; clase 1:236 a 236+4=
240, clase 2: 240 a 240+4= 244, etc., y obtenemos la
siguiente tabla:
Histograma
25
Paso 5. Obtenemos el histograma
Finalmente obtenemos la representación gráfica de esta tabla,
que consiste de un grafico de barras de las frecuencias
obtenidas.
0
5
10
15
20
25
30
236-240 240-244 244-248 248-252 252-256 256-260
Fre
cue
nc
ia
Clases
Histogramas en Excel
26
Histogramas en Excel
27
A continuación se explicará como obtener un histograma en
Excel, donde se podrá apreciar que el número de clases se
obtiene de manera automática, o lo podemos especificar.
Ejercicio 1
Abra el archivo Actors.xls
El archivo contiene información de 66 estrellas de cine, con 4
variables (una muestra de los datos aparece a continuación).
Con los datos dados estamos interesados en resumir los
salarios en una tabla de frecuencias.
28
Activar función de histogramas en
Excel 2007
Antes de poder utilizar la función de histogramas de Excel, es
necesario activar las herramientas de análisis, en las siguientes
diapositivas se explica como hacerlo.
29
Activar Herramienta para análisis
Haga clic en el Botón de Microsoft Office y, a
continuación, haga clic en Opciones de Excel.
30
Activar Herramienta para análisis
Haga clic en la categoría Complementos.
En la lista Administrar, seleccione Complementos de
Excel y haga clic en Ir.
31
Activar Herramienta para análisis
En el cuadro de diálogo Complementos, asegúrese de que
la casilla Herramientas para análisis esté activada. Haga
clic en Aceptar (se instalará este componente).
32
Crear tabla de frecuencias
Haga click en la ficha Datos, y seleccione Análisis de
Datos en grupo Análisis seleccionar Histograma
33
Crear tabla de frecuencias
Con esto obtenemos la tabla de frecuencias (modifique solo
lo que se indica).
Verifique que “Crear
gráfico “este habilitado,
ya que esto le
permitirá crear el
histograma
Inserte o seleccione el rango de
entrada (sin encabezados)
Haga click en Aceptar
34
Crear tabla de frecuencias Se debe obtener la siguiente tabla que aparece
en la una hoja nueva, en este caso Hoja1.
Los resultados nos indican en la primera fila
que los actores que ganan entre 0 y 2 millones
(clase) son 2 (frecuencia); puede verificar esto
en la hoja de datos (Data) : Andie Macdowell
(fila 19) y Danny Glover (fila 24).
La segunda fila nos indica los actores que ganan
entre 2.01 y 4.25 millones son 15 actores, y así
sucesivamente, hasta aquellos actores que ganan
más de 17.75 millones que son 7 actores.
35
Crear histograma
Si usted ya cuenta con la tabla de frecuencias y desea obtener
la grafica de estos datos, lo puede realizar de la siguiente
forma.
Para graficar los datos vamos a crear un histograma.
En el siguiente video puedes visualizar como se utilizan los
gráficos en Excel para obtener el histograma
Histogramas
Otro video Histogramas
36
Crear histograma
Para obtener el histograma, seleccione los datos con
encabezados (en este caso, Clase y Frecuencia), haga click en
la ficha Insertar en el botón Columna y haga click en
0
2
4
6
8
10
12
14
16
2 4.25 6.5 8.75 11 13.25 15.5 17.75 y mayor...
Fre
cu
en
cia
Clase
Histograma
Frecuencia
37
Histogramas
En el histograma obtenido podemos visualizar la tabla de
frecuencias obtenida anteriormente, y una mejor
visualización de los datos. Con esta gráfica nos podemos dar
cuenta que la mayoría de los actores de los datos
proporcionados gana entre 2.01 y 4.25 mdd
0
2
4
6
8
10
12
14
16
Mil
lon
es
de
Dll
s
Sueldos
Sueldos de actores
Series1
38
Histogramas Normalmente conocemos 4 diferentes formas de
histogramas: simétrico , sesgo positivo, (sesgo a la derecha) sesgo negativo (sesgo a la izquierda) y bimodal.
Ejemplo1: Abra el documento Otis1.xls (diámetros de rieles de elevadores) , y grafique su histograma, ¿qué observa de los datos proporcionados?, observe que se trata de un histograma simétrico.
Ejemplo 2: Abra el documento Bank.xls (tiempos de llegadas entre clientes), ¿qué observa de los datos proporcionados?, observe que se trata de un histograma con sesgo positivo.
39
Histogramas
Ejemplo 3: Abra el archivo Midterm.xls (calificaciones de
medio termino de estudiantes), ¿qué observa de los datos
proporcionados?, observe que se trata de un histograma
con sesgo negativo.
Ejemplo 4. Abra el archivo Otis2.xls (diámetros de rieles
producidos en un solo día), ¿qué observa de los datos
proporcionados?, observe que se trata de un histograma
con distribución bimodal.
40
Ejercicio
Una profesora de finanzas ha realizado un examen a sus
alumnos. Esta interesada en visualizar el desempeño de los
alumnos. Seleccione el archivo P02_05.xls,
a) Obtenga un histograma de la distribución de las calificaciones
en el examen
b) De acuerdo a los resultados cual seria su conclusión con
respecto al desempeño de los alumnos
41
Ejercicio (opcional)
El administrador de un local de comida rápida esta interesado
en mejorar el servicio que se provee a sus clientes, por lo que
registra el tiempo que le lleva atender a 200 consumidores.
Analice los datos de la hoja P02_04.xls con un histograma y
comente sus conclusiones sobre el tiempo de atención.
42
Distribuciones de frecuencia
43
Codificación y conteo de datos de
intervalo/razón
Las variables con niveles de medición de intervalo/razón se
distinguen de las variables nominales/ordinales por sus
cualidades numéricas.
44
Distribuciones de frecuencias de
proporciones y de porcentajes para
variables de intervalos Las distribuciones de frecuencias de proporciones y
porcentajes para variables de intervalo/razón se calculan en
la misma forma que para variables nominales ordinales,
excepto que en lugar de categorías tenemos puntuaciones.
45
Distribuciones de frecuencias de
porcentajes acumulados
La siguiente tabla muestra la frecuencia de porcentaje y las
distribuciones de frecuencia de porcentajes acumulados de
los niveles de educación de 20 cuidadores (parientes que
acompañan a los pacientes de Alzheimer en una clínica).
En la siguiente grafica podemos contestar : ¿qué porcentaje
tienen un nivel de educación hasta e inclusive el nivel
preparatoria? , lo cual podemos contestar obteniendo el
porcentaje acumulado para los que tienen 12 años o menos,
que corresponde a u n 85% y un 15% que tienen mas
estudios que la preparatoria.
46
Distribuciones de frecuencias de
porcentajes acumulados
Especificaciones Cálculos
Años de educación
formal (X)
Frecuencia (f) Frecuencia porcentual
(frecuencia / total)
Porcentaje acumulado (f)
5 1 5% (1/20) 5%
6 1 5% (1/20) 10% (5%+5%)
7 1 5% (1/20) 15% (10%+5%)
9 2 10% (2/20) 25% (15%+10%)
10 1 5% (1/20) 30% (25%+5%)
11 1 5% 35%
12 10 50% 85%
14 2 10% 95%
16 1 5% 100%
Total 20 100% 100%
47
Porcentaje acumulado en Excel
En Excel se puede obtener el porcentaje acumulado de la
misma forma que con el histograma. Es necesario tener
habilitada la opción de porcentaje acumulado.
48
Percentiles y cuartiles Para visualizar los conceptos de los cuartiles visita la siguiente
liga Video de ejemplo de cuartiles
Las distribuciones de frecuencia acumuladas proporcionan una herramienta para identificar fractiles (o cuarties), puntuaciones que separan una fracción de los casos de una distribución.
El rango percentilar es el porcentaje de casos que caen en o están debajo de un valor específico X.
Los cuartiles son fractiles que identifican los valores de la puntuación que fraccionan una distribución en cuatro grupos del mismo tamaño (25% en cada grupo)
49
Percentiles y cuartiles
El primer cuartil Q1 es el percentil 25; el segundo cuartil
Q2, percentil 50; el tercero Q3, percentil 75.
En la siguiente tabla se presenta la distribución de las
calificaciones en un examen. El 25% menor tiene calificación
menor a 69.
50
Ejemplo cuartilesEspecificaciones Cálculos
Calificación en el
examen (X)f f porcentil f porcentual acumulada
Ubicación de los cuartiles
(Q)
31 1 (1/20) =5.0% (1/20)=5.0%
58 1 (1/20) =5.0% (1+1)/20=10.0%
63 1 (1/20)=5.0% 15.0%
68 1 5.0% 20.0%
69 1 5.0% 25.0% Q1= percentil 25
72 1 5.0% 30.0%
76 1 5.0% 35.0%
77 1 5.0% 40.0%
82 1 5.0% 45.0%
84 1 5.0% 50.0% Q2= percentil 50
85 1 5.0% 55.0%
86 2 10.0% 65.0%
88 1 5.0% 70.0%
91 1 5.0% 75.0% Q3= percentil 75
93 2 10.0% 85.0%
94 1 5.0% 90.0%
95 1 5.0% 95.0%
97 1 5.0% 100.0%
Total 20 100%51
Medidas de sumarización y
variabilidad
52
Objetivo
El objetivo de esta actividad es utilizar las funciones de Excel
de medidas de sumarización y variabilidad, para utilizarlos
como una herramienta de apoyo a la toma de decisiones.
53
Medidas centrales
Número de ocurrencias (datos): función =CONTAR( )
Media: función= AVERAGE() o =PROMEDIO()
Mediana: función =MEDIAN() o MEDIANA() (cuando los
datos son pares es la media de las dos observaciones
intermedias, cuando es non es la observación que se
encuentra en medio, una vez que los datos han sido
ordenados)
Moda: función =MODE() o =MODA() (es la observación
más frecuente)
Demostración visual de las propiedades del promedio
54
Ejemplo promedio, mediana y moda
Hallar el promedio, mediana y moda de los siguientes datos: 3, 5, 6, 4, 3, 2, 2, 3, 4
Mediana: ordenamos los datos
2,2,3,3,3,4,4,5,6
y seleccionamos el elemento central
2,2,3,3,3,4,4,5,6
mediana = 3
55.39
432234653promedio
55
Ejemplo promedio, mediana y moda
Moda. Seleccinamos el elemento mas frecuente
2,2,3,3,3,4,4,5,6
en este caso el elemento 3 es el mas frecuente
moda = 3
56
Cuartil y percentil
Funciones en Excel Cuartil: función =QUARTILE o CUARTIL(var, 1) Percentil: función =PERCENTILE o PERCENTIL(var, 0.25)
Cuartil superior Q3: La mediana separa los datos en dos partes: la parte superior y la inferior. El cuartil superior es la mediana de la mitad superior de los datos.
Cuartil inferior Q1, es la mediana de la parte inferior de los datos.
Percentil 50 o el
segundo cuartil o
mediana
Q1 Q2 Q3 Q4
Q1 es el cuartil inferior
(percentil 25)
Q3 es el cuartil superior
(percentil 75)
57
Cuartil Q1 = Valor de la variable que agrupa el 25% de los datos.
Q2 = Valor de la variable que agrupa el 50% de los datos.
Q3 = Valor de la variable que agrupa el 75% de los datos.
Q4 = Valor de la variable que agrupa el 100% de los datos.
En el ejemplo se muestan los cuartiles: Q1 o cuartil inferior,
Q2 que esl igual a la mediana y Q3 que es el cuartil superior
58
Otros recursos
59
En la siguiente liga puedes modificar los datos para ver el
comportamiento de los diagramas de caja y bigotes. Para
ejecutarlo recuerda dar la opción de “Ejecutar esta vez” y “
Cerrar” el panel que aparece a la derecha de la pantalla.
Ejercicio interactivo: diagrama de caja y bigotes
En las siguientes ligas puedes consultar herramientas de
apoyo para el uso e interpretación del diagrama de caja y
bigotes.
Ejemplos e interpretación de diagrama de caja y bigotes
Demostración visual de deciles, percentiles y cuartiles
Mínimo, máximo y rango
Funciones en Excel
Mínimo: función =MIN( )
Máximo: función =MAX( )
Rango: es la diferencia entre el máximo y el mínimo (no existe
una función definida en Excel =MAX( )-MIN( ))
60
Liga de apoyo
Puedes consultar la siguiente liga de internet para poder
visualizar de manera sencilla como se obtienen los datos que
solicitamos en los próximos ejercicios.
Aquí puedes encontrar una explicación de las medidas
centrales y cuartiles
Video de Calculo de promedio, mediana, media, etc., con
Excel
61
Ejercicio
De la hoja de calculo Salary.xls obtenga los siguientes datos:
Numero de muestras
Salario mínimo
Salario máximo
Salario promedio
Mediana
Cuartil superior
Cuartil inferior
Percentil 5
Percentil 95
62
Diagrama de caja y bigotes (box
and whisker plots)
63
Diagrama de caja y bigotes
Una gráfica de este tipo consiste en una caja rectangular
dividida por un segmento vertical que nos indica la posición
de la mediana, y su relación con el primero y tercer cuartil.
El segundo cuartil coincide con la mediana. En ambos
extremos de la caja sobresalen dos líneas llamadas bigotes
cuyos límites de prolongación son un valor mínimo y otro
máximo. El espacio comprendido de los bigotes es entre el
valor mínimo y el primer cuartil (Xmín, Q1) y entre el
tercer cuartil y el valor máximo (Q3, Xmáx)
Ejercicio interactivo: diagrama de caja y bigotes
64
Diagrama de caja y bigotes Supongamos que la siguiente gráfica representa niños de edades entre 1
y 10 años
El bigote comprendido en (Xmín,Q1) es más largoque el comprendido en (Q3,Xmáx) lo cual nos indica que el 25% de niños comprendidos tienen de 1 a 4 años habiendo una diferencia máxima de 3 años entre ellos, en el más corto el 25% de los niños tienen edades de 9 y 10 años, con una diferencia de edades de apenas un año.
65
Diagrama de caja y bigotes
Observamos que el espacio (Q1,M) es m compacto si lo
comparamos con (M,Q3) por lo que podemos asegurar que
el Q1 está integrado por niños de entre 4 y 5 años, mientras
que el Q3 lo forman niños de entre 5 y 9 años habiendo una
diferencia mayor de edades.
Si queremos saber el rango intercuartílico (RIC) buscamos la
diferencia entre Q3 y Q1, Q3 – Q1 = 9 – 4 = 5 o sea que el
50% de los casos ordenados dentro de la caja está
comprendidos en 5 años.
66
Diagrama de caja y bigotes
Para dibujar los bigotes se obtiene el límite superior e
inferior.
Limite inferior
Q1-1.5*RIC
Limite superior
Q3+1.5*RIC
67
Como construir un diagrama de
caja y bigotes en Excel
68
Diagrama de caja y bigotes
Paso 1. Seleccionar datos
Paso 2. Seleccionar ficha Insertar, en el grupo Gráficos
hacer click en Línea con marcadores
69
Diagrama de caja y bigotes
Paso 3. Hacer click en la ficha Diseño en el botón Cambiar
entre filas y columnas
70
Diagrama de caja y bigotes
Paso 4. Seleccione una serie de datos, haga click en botón
derecho del mouse, y seleccione la opción Dar formato a
serie de datos
71
Diagrama de caja y bigotes
Paso 5. seleccionar Color de línea, Sin línea
Repita paso 4 y 5 paso para las demás series)
72
Diagrama de caja y bigotes
Paso 6. Seleccione el grafico y en la ficha Presentación en el
grupo Análisis haga click en Líneas y seleccione Líneas de
máximos y mínimos
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Género
73
Diagrama de caja y bigotes
Paso 7. Seleccione la grafica y en la ficha Presentación en el
grupo Análisis haga click en Barras ascendentes o
descendentes y seleccione Barras ascendentes o descendentes
74
Ejercicio
Seleccione el archivo Actors.xls, y obtenga el diagrama de
caja y bigotes de los salarios de las actrices, y otro de los
salarios de los actores, en el mismo diagrama. Concluya
sobre los resultados obtenidos.
75
Ejercicio (opcional)
Seleccione el archivo P03_06.xls, que contiene los niveles
de ingreso de ciudadanos que viven en E.U. en zona
metropolitana. Que puede inferir de la forma de las
distribución de ingresos, utilice un diagrama de caja y
bigotes.
76
Medición de la dispersión o variación
en una distribución de puntuaciones
77
Introducción
Reportar un estadísticos de tendencia central por sí mismo
no es suficiente para comunicar la forma de una distribución
de puntuaciones . Dos muestras con las mismas medidas
pueden tener formas sumamente diferentes.
78
Ejercicio (opcional)
Supongamos que Otis detendrá la producción de rieles de
elevador, y en vez de eso conseguirá un proveedor externo.
Otis desea que cada riel tenga un diámetro de una pulgada.
La empresa ha obtenido muestras de rieles de 10 elevadores
de cada proveedor (Otis4.xls), como seleccionar al mejor
proveedor?
Obtenga la media, mediana y moda de cada proveedor, y
concluya.
79
Medidas de variabilidad
Ahora calculemos la variabilidad de los dos proveedores y
elijamos el que presenta menos variabilidad.
Las medidas más comunes de variabilidad son la varianza y la
desviación estándar.
Varianza. Es la media aritmética del cuadrado de las
desviaciones respecto a la media, para una muestra.
Para la población
1
2
12
n
xn
i i
N
xn
i i
2
12
80
Medidas de variabilidad Desviación estándar: grandes desviaciones de la media
contribuyen en gran medida a la varianza, porque ésta se eleva
al cuadrado (y las unidades son cuadradas, por ejemplo dólares
cuadrados), por lo que es más intuitivo utilizar la desviación
estándar que es la raíz cuadrada de la varianza.
Varianza: función =VAR( )
Desviación estándar: función =STDEV( ) o =DESVEST( )
Raíz cuadrada: función =SQRT( ) o =RAIZ ( )
Demostración visual de la desviación estándar
81
Dispersión
La dispersión se refiere a cómo se extienden las puntuaciones
de una variable de intervalo/razón de la menor a la mayor y
la forma de la distribución entre estas.
Los estadísticos de dispersión describen cómo se extienden
las puntuaciones de una variable de intervalo razón a través
de su distribución.
82
Rango
El rango es una expresión de cómo las puntuaciones de una
variable de intervalo/razón se distribuyen de la menor a la
mayor – la distancia entre las puntaciones mínima y máxima
en una muestra.
Cálculo del rango de una variable X de intervalo
1. Ordene las puntaciones de mayor a menor
2. Identifique las puntuaciones mínima y máxima
3. Calcule el rango
Rango = (puntuación máxima – puntuación mínima)
83
Rango (ejemplo)
Suponga que X = edad y tenemos la siguiente distribución de
puntuaciones
21,23,43,26,20,21,25
Paso 1. ordenamos las puntuaciones
20, 21, 21, 23, 25, 26, 43
Paso 2: Seleccionar puntuación mínima y máxima
Mínima: 21
Máxima: 43
Paso 3. Calcular el rango
(43-21)=23 años
84
Limitaciones del rango
Un valor extremo inflará enormemente el cálculo
En el ejemplo, el 43 hace parecer que el rango está extendido
por encima de los 24 años.
Al reportar esto se daría la impresión de que hay un número
considerable de sujetos entre 30 y 40 años.
Un reporte más exacto estipularía que con la excepción del
estudiante de 43 años, las edades tenían un rango de 6 años
(20-26)=6
Omitir el valor extremo e indicarlo como una excepción es
una forma razonable de ajustar esta limitación del rango.
85
Limitaciones del rango
El rango no nos dice nada sobre la forma de la distribución
entre las puntaciones extremas
En el ejemplo el rango de las dos distribuciones es la misma.
86
Desviación estándar
La desviación estándar es otra medida sumaria de la
dispersión o la variación de las puntaciones en una
distribución.
La desviación estándar describe como las puntuaciones en
una variable intervalo/razón u ordinal de tipo intervalo se
extienden a lo largo de la distribución, en relación con la
puntación media.
87
Método directo
El método directo para calcular la desviación estándar
muestra la de tamaño:
X de media
estándar desviación :
:Donde
1
2
n
:X
s
n
XXs
x
x
88
Método directo
¿Porqué se divide entre n-1?
Se divide entre n-1 (y no entre n) para ajustar el tamaño y el
error de la muestra.
La suma de cuadrados presenta dos problemas
Suponga que queremos comparar dos muestras de tamaños
diferentes (cuanto mas observaciones existan ,mayor será la
suma de cuadrados )
Cuanto mayor sea la muestra, menor será el error de muestreo
89
Varianza
La varianza es el valor promedio de las puntuaciones en una
distribución.
La varianza es aceptable para los cálculos pero las unidades de
la medida están elevadas al cuadrado, por ejemplo para el
peso ¿libras cuadradas?, es por eso importante obtener la
desviación estándar que es la raíz cuadrada de la varianza.
1
2
2
n
XXsx
90
Formato desglosado
Formato desglosado para calcular la desviación estándar
Contamos con los datos de
entrada X.
Obtenemos el promedio
Especificaciones
(1) (2)
Jugador X
1 165
2 200
3 216
4 217
5 226
6 236
7 239
8 244
9 261
10 268
11 283
12 301n=12
libras
856,2 X
91
23812
2856X
Desviación estándar
92
Especificaciones Cálculos
(1) (2) (3) (4)
Jugador X
1 165 165-238= -73 (73*73)=5,329
2 200 200-238= -38 (38*38)=1,444
3 216 216-238= -22 (22*22)= 484
4 217 -21 441
5 226 -12 144
6 236 -2 4
7 239 1 1
8 244 6 36
9 261 23 529
10 268 30 900
11 283 45 2,025
12 301 63 3,969n=12 15,306
XX 2XX
Cálculo de la desviación estándar
libras 30.37
45.391,1
11
306,15
1
2
n
XXsx
93
Desviación estándar
Imaginemos que María y Juan tienen resultados de una
prueba académica en una Universidad_A y María obtiene 26
puntos, y Juan lo hizo en otra Universidad_B y obtuvo 900
puntos. Los puntos de la universidad PAU van de 0 a 36 y los
de la Universidad_B van de 200 a 1600.
Una manera de compararlas es mediante las medias y la
desviación estándar utilizando la puntuación z.
X:puntuación Universidad_A,
Y: puntuación Universidad_B, puntos 100 puntos 1000
puntos 2 puntos 22
y
x
sY
sX
94
Puntuación Z
Puntuación en bruto. Se expresa en sus unidades de
medida observadas originales, ejemplo: la puntuación en
bruto X de María es 26 puntos.
Puntuación estandarizada (puntuación z). La
puntuación se expresa como un número de desviaciones
estándar de la media de la puntuación. Donde
estándar desviación:
media:
D.E 00.22
4
2
2226
x
X
X
s
X
s
XXZ
95
Puntuación Z
96
Para el caso de María
Para el caso de Juan
D.E 00.22
4
2
2226
X
Xs
XXZ
D.E 00.1100
100
2
1000900
X
Xs
XXZ
Puntuación z En el caso de María su puntuación está arriba de la media (2 veces
2 desviaciones estándar). Juan es 1 desviación estándar debajo de la media. Por lo que con estos datos podemos comparar el desempeño de ambos, y por lo tanto, la beca se le asignaría a María.
97
-3σ -2σ -σ σ 2σ 3σ
Juan María
Puntuaciones Z
La puntuación de un sujeto de la investigación en cualquier
variable de intervalo/razón puede expresarse de diversas
maneras.
Cálculo de puntuaciones estandarizadas
X deestándar desviación :
X de media :
razónintervalo/ variableuna :
media la de desvía se X)n (puntuació brutoen
desviación una queestándar esdesviacion de número :
X deun valor para adaestandariz puntuación:
:donde
X
X
X
X
s
X
X
Z
s
XXZ
98
Puntuación Z
Una puntuación Z es la distancia de una puntuación X hacia la
media dividida entre la desviación estándar de las distancias.
Ejemplo de una muestra aleatoria de mujeres estudiantes en
la universidad local:
Caso X (peso)
Esteban Juarez 110 libras -10 libras (110-120) -1 DE (-10/10)
Francisco Suarez 125 libras 5 libras (125-120) 0.5 DE (5/10)
Ricardo Ruiz 107 libras -13 libras (107-120) -1.3 DE (-13/10)
libras 10 libras 120 xsX
XX xs
XX
xZ )(
desviación de puntuación XX adaestandariz puntuación xZ
99
Curvas de distribución de frecuencias: relaciones
entre la media, la mediana y la moda
Una curva de distribución de frecuencias es un sustituto de
un histograma de frecuencias o polígono, donde
reemplazamos estos gráficos con una curva suavizada. El área
bajo la curva representa el número total de sujetos en la
población y es igual a una proporción de 1.00 o a un
porcentaje de 100 por ciento.
Demostración visual de la puntuación Z
100
Distribución normal
Curva de distribución de frecuencias donde la media, la
mediana y la moda de una variable son iguales entre sí y la
distribución de las puntuaciones tiene una forma de campana.
101
Distribución sesgada
Curva de distribución de frecuencias aquella en la cual la
media, la mediana y la moda de uan variable son desiguales y
muchos de los sujetos tienen puntuaciones sumamente altas o
bajas.
102
Distribuciones sesgadas
Ejemplos distribuciones sesgadas
103
Distribución normal
Punto de
inflexión
104
Distribución normal
La curva normal ilustra el hecho de que cuando nos
desviamos más allá de la media, esperamos encontrar cada
vez menos casos. Por ejemplo, la altura de las personas.
105
Distribución normal
Para cualquier variable normalmente distribuida:
50% de las puntuaciones caen encima de la media y 50% debajo
(recuerde que la mediana es igual a la media)
El 99.7% están a una distancia de 3 puntuaciones Z debajo,
hasta 3 puntuaciones encima de la media.
Cerca del 95% de las puntuaciones de una variable caen dentro
de una distancia de 2 desviaciones estándar
El 68% de las puntuaciones de una variable normalmente
distribuida cae dentro de una distancia de 1 desviación estándar.
106
Distribución normal
Supongamos que X= peso y
Debemos asegurarnos que la distribución de las puntuaciones
es normal, mediante un histograma.
Realizamos las siguientes estimaciones de los pesos de la
población de mujeres
La mitad de las estudiantes pesa arriba de 120 libras
Cerca del 68% pesan entre 110 y 130 libras
Aproximadamente el 95% pesan entre 100 y 140
Muy pocas pesan menos de 90 libras o más de 150 libras
libras 10 libras 120 xsX
107
Ejemplo
La siguiente tabla presenta una tabla desglosada de los
impuestos a la gasolina cobrados por estado.
X: impuesto de gasolina por galón
Rango: 28-17=11
108
EjemploEpecificaciones Cálculos
(1) (2) (3) (4)
Estado X
Nuevo México 17 (17-21.7)= -4.7 (4.7*4.7)=22.09
California 18 -3.7 13.69
Arizona 18 -3.7 13.69
Utah 19 -2.7 7.29
Colorado 22 0.3 0.09
Washington 23 1.3 1.69
Nevada 23 1.3 1.69
Oregon 24 2.3 5.29
Idaho 25 3.3 10.89
Montana 28 6.3 39.69
N=10
XX 2
XX
217 X 0XX
10.1162
XX109
Ejemplo
Calculamos la desviación estándar
Con el ejercicio podemos concluir que el promedio de
gasolina por galón es de cerca de (217/10)=21.7 centavos.
Y que el 68 porciento de los estados están dentro de 3.59
centavos de este promedio, esto es de 21.7-3.59 a
21.7+3.59.
59.3
9
10.116
1
2
n
XXsx
110
Top Related