MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf
-
Upload
marcelo-camacho -
Category
Documents
-
view
21 -
download
2
Transcript of MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf
MEDIDAS DE CENTRALIZACION
Comúnmente se trata de resumir la información de un conjunto de observaciones en
un solo valor, así se habla de la altura promedio del hombre peruano, de los ingresos
promedios mensuales, del promedio de notas, edad promedio de los estudiantes, etc.
Al condensar toda la información en un solo valor podemos pensar que todas
las observaciones poseen ese valor.
Medidas de centralización:
Definición:Una medida de centralidad es un valor (o categoría) que, calculado a partir de una
serie de datos (muestrales o poblacionales) o de una distribución de frecuencias, se caracteriza
por representar el valor (o categoría) alrededor del cual se agrupan las observaciones.
Intuitivamente se la puede considerar como el “centro” de la distribución de los datos.
Las medidas de centralidad más frecuentes son: la media, la mediana, y la moda.
Estudiaremos primero la media:
a) La media ( )
Para Datos no clasificados o no agrupados.
Se define como la media aritmética de una muestra de datos: x1, x2, …, xn ; esto es:
(x1 + x2 + … + xn ) / n =
∑
Si hubieran en la muestra k valores diferentes, que los denotásemos por xi, tendríamos:
X1 con frecuencia f1
X2 “ “ “ f2
X3 “ “ “ f3
Xk “ “ “ fk
Entonces la media muestral estaría dada por: ∑ . Por Ejemplo:
I xi fi xi . fi
1 151 4 604
2 152 6
3 153 4
4 154 5
5 155 2
6 156 0
7 157 3
8 158 4
9 159 3
10 160 1
11 161 0
12 162 1
13 163 2
De donde obtenemos el valor de la media muestral:
Para datos clasificados o agrupados:
En el caso de tener los datos agrupados en una tabla de distribución de frecuencias,
calcularemos el valor para la media de datos agrupados de manera aproximada:
∑ , donde k = números de intervalos de clase.
En el caso del Ejemplo 1 realizado antes, tendremos:
∑ = 156,0142857
Media aritmética ponderada:
Algunas veces se asocia a los números x1, x2, … , xk ciertos factores o pesos w1,w2,… wk que
dependen de la importancia de cada uno de los números. Obteniéndose, de esta manera ,
∑
∑
que recibe el nombre de media ponderada.
Ejemplo:
Si María en su curso de matemáticas ha obtenido en su primer examen 14, en el examen final
12, y su promedio de prácticas es 16, y se sabe además que el examen final se valora como
cuatro veces el promedio de las practicas, entonces su promedio final en el curso será:
( ) ( )
Ventajas y desventajas:
i. Ventajas
Fácil de calcular e interpretar.
Es equitativa porque usa todos los datos.
Si existe simetría en los datos es la mas recomendable.
Es estable al muestreo.
ii. Desventajas
Si existen valores “extremos” se desplaza en la dirección del valor extremo y no representa
apropiadamente a la muestra.
b) La mediana (Me)
Es el valor central de las observaciones cuando éstas se ordenan de menor a mayor. Divide a la
serie en dos grupos de igual número de elementos.
Ordenados los datos en forma creciente:
i. Si el número de datos es par, se acostumbra tomar como la mediana al promedio de los datos
centrales.
ii. Si el número de datos es impar, la mediana es valor central.
Ejemplo:
1. Para los datos del Ejemplo 1, se tiene:
Como n = 35 es impar, se calcula la mediana como aquel valor que se ubica en el centro de la
serie de los datos ordenados de menor a mayor; en este caso sería el que ocupa la
decimoctava posición, entonces:
Me = x18 = 154
2. Dada una muestra de tamaño n = 6:
-2, 0, 3, 7, 11, 15
en este caso en que n es un numero par, se calcula el valor de la mediana como el promedio
los dos datos centrales, esto es:
Me = ( x3 + x4 ) /2 = 10 /2 = 5
En el caso de tener los datos agrupados, se calcula el valor de la mediana de manera
aproximada, a través de la siguiente fórmula:
(
) ( )
En donde:
n = número de datos
i = el menor intervalo i, tal que se cumple: Fi > n/2
Fi-1= Frecuencia acumulada del intervalo (i – 1)
fi = frecuencia absoluta del intervalo i
Ai = Amplitud del intervalo i
li =límite inferior del i-ésimo intervalo de clase que contiene a la mediana.
Para el Ejemplo 1:
La mediana: en el caso de estar los datos agrupados, por medio de la tabla de distribución de
frecuencias, tendremos:
El intervalo i de la clase de la mediana será el segundo intervalo ( i = 2), ya que
F2 > 17,5 por lo que: l2 = 154, f2 = 7
Entonces, haciendo uso de la fórmula (
)
Para el ejemplo 2: El intervalo para la mediana es el cuarto intervalo (i = 4), por lo tanto: l4 =
143,6, F3=15, y f4 = 12
Entonces, haciendo uso de la fórmula para la mediana, tenemos:
(
)
Ventajas y desventajas
i. Ventajas
No es afectada por valores extremos y se puede usar cuando hay asimetría.
No varía con el cambio de amplitudes.
ii. Desventajas:
No tiene definición algebraica
Es inestable al muestreo
Su interpretación no es fácil.
c) Moda (Mo).
Se define como la observación que se presenta con más frecuencia dentro del conjunto de
datos.
Ejemplos:
1. Considera la siguiente muestra de datos simples: 1, 1, 2, 3, 4, 5, 5, 7, 1, 5, 7, 1.
Advierte que la observación que se presenta con mayor frecuencia es el dato: x1=1, ya que se
presenta cuatro veces dentro del conjunto; por lo tanto, la moda de la muestra es: Mo = 1
2. Sea la siguiente muestra de datos simples: 1, 2, 4, 0, 6, 7.
En este caso, se puede apreciar que todos los datos se presentan con la misma frecuencia, por
lo tanto, no existe la moda de la muestra.
3. Sea la muestra de datos simples: 1, 1, 3, 5, 7, 3, 1, 6, 3.
En este conjunto de datos se observa que hay dos datos: x1 = 1, y x3 = 3, que se presentan con
la misma frecuencia: por lo tanto, concluimos que la muestra posee dos modas: Mo1 =1 Mo2=3
Tenemos asi una muestra bimodal.
La moda para datos agrupados se obtiene por medio de la formula:
(
)
En donde:
i = es la clase modal (la que tiene mayor frecuencia absoluta).
d1 = fi – fi-1 , d2 = fi – fi-1
fi = frecuencia modal
fi-1 = frecuencia de la clase inmediatamente anterior a la clase modal
fi+1 = frecuencia de la clase inmediatamente posterior a la clase modal
A1 = amplitud del intervalo de la clase modal
li = límite inferior de la clase modal
Para el Ejemplo 1:
i. La moda para los datos simples es aquella observación que tiene mayor frecuencia, en
este caso el dato 152 muestra la mayor frecuencia (6 veces), luego Mo=152
ii. La moda para datos agrupados:
El intervalo de la clase modal es el primer intervalo, ya que es el que tiene la mayor
frecuencia, por lo tanto:
l1 = 151
d1 = 14 – 0 = 14 d2 = 14 – 7 = 7
A1 = 3
Entonces (
)
Para el Ejemplo 2:
La moda para datos agrupados:
El intervalo modal es el cuarto intervalo, por lo tanto:
i = 4 l4 = 143,6
d1 = 12 – 7 = 5
d2 = 12 – 6 = 6
A4 = 8,2 Entonces: (
)
Ventajas y desventajas
1. Ventajas
Se utiliza para variables cualitativas o cuantitativas, pero especialmente para las primeras.
2. Desventajas
No es equitativa
No tiene definición algebraica
Es inestable al cambio de amplitudes y al muestreo
Puede existir más de una o no existir.
Ejercicios 1. Analiza la verdad o falsedad de las siguientes afirmaciones:
a) El valor que más se repite en un conjunto de datos recibe el nombre de media aritmética.
b) Después de agrupar un conjunto de datos en varias clases, podemos identificar la mediana de
clase como aquella que posee el mayor número de observaciones.
c) Los valores extremos en un conjunto de datos influyen profundamente en la mediana
2. La siguiente tabla muestra la distribución de la carga máxima en toneladas que soportan
ciertos cables producidos por una compañía.
Máximo de carga Número de cables
[9,3 , 9,8[ 2
[9,8 , 10,3[ 5
[10,3 , 10,8[ 12
[10,8 , 11,3[ 17
[11,3 , 11,8[ 14
[11,8 , 12,3[ 6
[12,3 , 12,8[ 3
[12,8 , 13,3[ 1
Determinar
a) La media de la carga máxima.
b) La mediana
c) La moda
d) ¿Cuál elegiría?
3. Halle la media, la mediana y la moda de los ejercicios realizados en clase.
MEDIDAS DE LOCALIZACIÓN
CUANTILES
Son medidas descriptivas que pueden dividir al total de datos en cierto número de partes
igualmente numerosos y nace como consecuencia del estudio de la mediana; las principales son:
a) Cuartiles ( Qi)
Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 4 partes
igualmente numerosas.
1. PARA DATOS NO TABULADOS
Ejemplo:
a) Cuando da entero el punto de Posición. Se tiene los pesos de 11 niños expresados en kg
3 ; 6 ; 8 ; 8 ; 10 ; 11 ; 12 ; 13 ; 19 ; 22 ; 36
Se pide determinar: Q1 ; Q2 ; Q3
Resolución:
1º Numerar los datos ordenadas
3 ; 6 ; 8 ; 8 ; 10 ; 11 ; 12 ; 13 ; 19 ; 22 ; 36
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11
Punto de posición correspondiente: ( )
Para i = 2 : Reemplazando: ( )
; Q2 = 11
Posición x9
b) Cuando no da entero el punto de posición. Sean los sueltos diarios de 12 trabajadores
9 ; 11 ; 13 ; 15 ; 15 ; 16 ; 16 ; 17 ;17 ;18 ;19 ; 20
Se pide determinar: Q1 ; Q2 y Q3
Resolución
9 ; 11 ; 13 ; 15 ; 15 ; 16 ; 16 ; 17 ;17 ;18 ;19 ; 20
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12
Punto de posición correspondiente: ( )
Para i = 1 : Reemplazando: ( )
; Q2 = 13 +
( )
Tomamos la parte entera; Posición x3 x3 Diferencia entre x3 y x4
Para i = 2 : Reemplazando: ( )
; Q2 = 16 +
( )
Tomamos la parte entera; Posición x6 x6 Diferencia entre x6 y x7
Observación
Cuando el punto de posición no arroja valores enteros para el caso de Q1 tomamos la
posición de la parte entera mas el 25 % de la diferencia entre esta y la siguiente; algo
parecido sucede con Q2 sólo que se tomará el 50% y para Q3 el 75%.
2. PARA DATOS TABULADOS
[
]
: Límite inferior de la clase donde se encuentra el cuartil.
: Amplitud de la clase donde se encuentra el cuartil.
: Número que indica el cuartil deseado.
: Número total de datos
: Frecuencia absoluta acumulada anterior a la clase donde se encuentra el cuartil.
: Frecuencia absoluta de la clase donde se encuentra el cuartil.
Ejemplo:
En el siguiente cuadro estadístico:
Ii fi
[10 – 20 > 3
[20 – 30 > 17
[30 – 40 > 8
[40 – 50 > 22
Se pide determinar: Q1 y Q2
Resolución:
Ii fi Fi
[10 – 20 > 3 3
[20 – 30 > 17 20
[30 – 40 > 8 28
[40 – 50 > 22 50
Calculando Q1:
Punto de posición correspondiente:
se ubica el cuartil donde Fi >
Para i = 1 ;
; Como F2 > 12,5 Clase: [20 – 30 >
Q1 = 20 + 10 *
+
Calculando Q2:
Punto de posición correspondiente:
Para i = 2 ;
; Como F3 > 25 Clase: [30 – 40 >
Q2 = 30 + 10 *
+
b) Deciles ( Di)
Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 10
partes igualmente numerosas.
1. PARA DATOS NO TABULADOS
Se calcula en forma similar a los cuartiles ordenando los datos de menor a mayor y
hallando el punto de posición correspondiente:
Punto de posición: ( )
2. PARA DATOS TABULADOS
[
]
: Límite inferior de la clase donde se encuentra el decil.
: Ancho o amplitud de la clase donde se encuentra el decil.
: Número que indica el decil deseado.
: Número total de datos
: Frecuencia absoluta acumulada anterior a la clase donde se encuentra el decil.
: Frecuencia absoluta de la clase donde se encuentra el decil.
Ejemplo:
En el siguiente cuadro estadístico:
Ii fi
[10 – 20 > 8
[20 – 30 > 16
[30 – 40 > 10
[40 – 50 > 4
[50 – 60 > 12
Se pide determinar: D3
Resolución:
Ii fi Fi
[10 – 20 > 8 8
[20 – 30 > 16 24
[30 – 40 > 10 34
[40 – 50 > 4 38
[50 – 60 > 12 50
Calculando D1:
Punto de posición correspondiente:
se ubica el decil donde Fi >
Para i = 3 ;
; Como F2 > 15 Clase: [20 – 30 >
D3 = 20 + 10 *
+
c) Percentiles ( Pi)
Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 100
partes igualmente numerosas.
1. PARA DATOS NO TABULADOS
Se calcula en forma similar que los cuartiles y deciles ordenando los datos de menor a
mayor y hallando el punto de posición correspondiente:
Punto de posición: ( )
2. PARA DATOS TABULADOS
[
]
: Límite inferior de la clase donde se encuentra el percentil.
: Ancho o amplitud de la clase donde se encuentra el percentil.
: Número que indica el percentil deseado.
: Número total de datos
:Frecuencia absoluta acumulada anterior a la clase donde se encuentra el
percentil.
: Frecuencia absoluta de la clase donde se encuentra el percentil.
Ejemplo:
En el siguiente cuadro estadístico:
Ii fi
[5 – 10 > 16
[10 – 15> 7
[15 – 20 > 3
[20 – 25 > 14
[25 – 30 > 10
Se pide determinar: P40
Resolución:
Ii fi Fi
[5 – 10 > 16 16
[10 – 15> 7 23
[15 – 20 > 3 26
[20 – 25 > 14 40
[25 – 30 > 10 50
Calculando P40:
Punto de posición correspondiente:
se ubica el percentil donde Fi >
Para i = 40 ;
; Como F2 > 20 Clase: [10 – 15 >
P40 = 10 + 5 *
+
MEDIDAS DE DISPERSIÓN
Son aquellos que miden la dispersión que existe entre los datos de una muestra. La descripción
más clara de la dispersión son aquellos que tienen que ver con la desviación promedio a partir
de alguna medida de tendencia central las más importantes son:
I. DESVIACIÓN MEDIA ABSOLUTA (DM)
Es el promedio aritmético que existe entre los valores absolutos de las desviaciones de
los datos observados respecto a la media aritmética.
1. PARA DATOS NO TABULADOS
∑ | |
xi : Son los respectivos datos.
: Media o promedio
n = Número total de datos.
Ejemplos:
Sean las longitudes de 6 huesos expresado en centímetros.
12 ; 24 ; 6 ; 18 ; 60 ; 36
Se pide determinar la desviación media
Resolución
xi xi - | |
6 -20 20
12 -14 14
18 -8 8
24 -2 2
36 10 10
60 34 34
88
∑ | |
2. PARA DATOS TABULADOS
∑ | |
: Número de intervalos.
: Son las respectivas marcas de clase.
: Número total de datos
: Son las respectivas frecuencias
: Media o promedio.
Ejemplo:
En el siguiente cuadro estadístico:
Ii fi
[2 – 4 > 2
[4 – 6 > 4
[6 – 8 > 10
[8 – 10 > 1
[10 – 12 > 12
[12 – 14 > 11
[14 – 16 > 3
[16 – 18 > 7
Se pide determinar la desviación media:
Ii fi yi yi fi yi - | | | |
[2 – 4 > 2 3 6 -7,8 7,8 15,6
[4 – 6 > 4 5 20 -5,8 5,8 23,2
[6 – 8 > 10 7 70 -3,8 3,8 38
[8 – 10 > 1 9 9 -1,8 1,8 1,8
[10 – 12 > 12 11 132 0,2 0,2 2,4
[12 – 14 > 11 13 143 2,2 2,2 24,2
[14 – 16 > 3 15 45 4,2 4,2 12,6
[16 – 18 > 7 17 119 6,2 6,2 43,4
544 161,2
∑
;
∑ | |
II. LA VARIANZA (V(x) ; S2 )
Es la media de los cuadrados de las desviaciones, y la denotaremos por o también
por .
Aunque también es posible calcularlo como:
Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm2.
III. DESVIACIÓN ESTÁNDAR (S)
Es la raíz cuadrada de la varianza, se denota por Sx o s x.
Este estadístico se mide en la misma unidad que la variable por lo que se puede interpretar mejor.
Otros dos estadísticos importantes son la cuasivarianza y la cuasidesviación típica, que como veremos cuando estudiemos el tema de estimación estadística, son los estimadores de la varianza y desviación típica poblacionales respectivamente.
IV. COEFICIENTE DE VARIACIÓN (C.V)
Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por C.V.
Ejemplo
Veamos por último un ejemplo de cómo se calculan todas estas medidas.
45 55 6 6 50 300 -19,4
116,4 2258,16 15000
55 65 10 16 60 600 -9,4 94 883,6 36000
65 75 19 35 70 1330 0,6 11,4 6,84 93100
75 85 11 46 80 880 10,6 116,6 1235,96 70400
85 95 4 50 90 360 20,6 82,4 1697,44 32400
N= 50 3470 420,8 6082 246900
=
Dm=
=
c.v. =