MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

13
MEDIDAS DE CENTRALIZACION Comúnmente se trata de resumir la información de un conjunto de observaciones en un solo valor, así se habla de la altura promedio del hombre peruano, de los ingresos promedios mensuales, del promedio de notas, edad promedio de los estudiantes, etc. Al condensar toda la información en un solo valor podemos pensar que todas las observaciones poseen ese valor. Medidas de centralización: Definición:Una medida de centralidad es un valor (o categoría) que, calculado a partir de una serie de datos (muestrales o poblacionales) o de una distribución de frecuencias, se caracteriza por representar el valor (o categoría) alrededor del cual se agrupan las observaciones. Intuitivamente se la puede considerar como el “centro” de la distribución de los datos. Las medidas de centralidad más frecuentes son: la media, la mediana, y la moda. Estudiaremos primero la media: a) La media ( ) Para Datos no clasificados o no agrupados. Se define como la media aritmética de una muestra de datos: x 1 , x 2 , …, x n ; esto es: (x 1 + x 2 + … + x n ) / n = ̈ Si hubieran en la muestra k valores diferentes, que los denotásemos por x i , tendríamos: X 1 con frecuencia f 1 X 2 f 2 X 3 f 3 X k f k Entonces la media muestral estaría dada por: ̅ ∑ . Por Ejemplo: I x i f i x i . f i 1 151 4 604 2 152 6 3 153 4 4 154 5 5 155 2 6 156 0 7 157 3 8 158 4 9 159 3 10 160 1 11 161 0 12 162 1 13 163 2 De donde obtenemos el valor de la media muestral:

Transcript of MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

Page 1: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

MEDIDAS DE CENTRALIZACION

Comúnmente se trata de resumir la información de un conjunto de observaciones en

un solo valor, así se habla de la altura promedio del hombre peruano, de los ingresos

promedios mensuales, del promedio de notas, edad promedio de los estudiantes, etc.

Al condensar toda la información en un solo valor podemos pensar que todas

las observaciones poseen ese valor.

Medidas de centralización:

Definición:Una medida de centralidad es un valor (o categoría) que, calculado a partir de una

serie de datos (muestrales o poblacionales) o de una distribución de frecuencias, se caracteriza

por representar el valor (o categoría) alrededor del cual se agrupan las observaciones.

Intuitivamente se la puede considerar como el “centro” de la distribución de los datos.

Las medidas de centralidad más frecuentes son: la media, la mediana, y la moda.

Estudiaremos primero la media:

a) La media ( )

Para Datos no clasificados o no agrupados.

Se define como la media aritmética de una muestra de datos: x1, x2, …, xn ; esto es:

(x1 + x2 + … + xn ) / n =

Si hubieran en la muestra k valores diferentes, que los denotásemos por xi, tendríamos:

X1 con frecuencia f1

X2 “ “ “ f2

X3 “ “ “ f3

Xk “ “ “ fk

Entonces la media muestral estaría dada por: ∑ . Por Ejemplo:

I xi fi xi . fi

1 151 4 604

2 152 6

3 153 4

4 154 5

5 155 2

6 156 0

7 157 3

8 158 4

9 159 3

10 160 1

11 161 0

12 162 1

13 163 2

De donde obtenemos el valor de la media muestral:

Page 2: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

Para datos clasificados o agrupados:

En el caso de tener los datos agrupados en una tabla de distribución de frecuencias,

calcularemos el valor para la media de datos agrupados de manera aproximada:

∑ , donde k = números de intervalos de clase.

En el caso del Ejemplo 1 realizado antes, tendremos:

∑ = 156,0142857

Media aritmética ponderada:

Algunas veces se asocia a los números x1, x2, … , xk ciertos factores o pesos w1,w2,… wk que

dependen de la importancia de cada uno de los números. Obteniéndose, de esta manera ,

que recibe el nombre de media ponderada.

Ejemplo:

Si María en su curso de matemáticas ha obtenido en su primer examen 14, en el examen final

12, y su promedio de prácticas es 16, y se sabe además que el examen final se valora como

cuatro veces el promedio de las practicas, entonces su promedio final en el curso será:

( ) ( )

Ventajas y desventajas:

i. Ventajas

Fácil de calcular e interpretar.

Es equitativa porque usa todos los datos.

Si existe simetría en los datos es la mas recomendable.

Es estable al muestreo.

ii. Desventajas

Si existen valores “extremos” se desplaza en la dirección del valor extremo y no representa

apropiadamente a la muestra.

b) La mediana (Me)

Es el valor central de las observaciones cuando éstas se ordenan de menor a mayor. Divide a la

serie en dos grupos de igual número de elementos.

Ordenados los datos en forma creciente:

i. Si el número de datos es par, se acostumbra tomar como la mediana al promedio de los datos

centrales.

ii. Si el número de datos es impar, la mediana es valor central.

Page 3: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

Ejemplo:

1. Para los datos del Ejemplo 1, se tiene:

Como n = 35 es impar, se calcula la mediana como aquel valor que se ubica en el centro de la

serie de los datos ordenados de menor a mayor; en este caso sería el que ocupa la

decimoctava posición, entonces:

Me = x18 = 154

2. Dada una muestra de tamaño n = 6:

-2, 0, 3, 7, 11, 15

en este caso en que n es un numero par, se calcula el valor de la mediana como el promedio

los dos datos centrales, esto es:

Me = ( x3 + x4 ) /2 = 10 /2 = 5

En el caso de tener los datos agrupados, se calcula el valor de la mediana de manera

aproximada, a través de la siguiente fórmula:

(

) ( )

En donde:

n = número de datos

i = el menor intervalo i, tal que se cumple: Fi > n/2

Fi-1= Frecuencia acumulada del intervalo (i – 1)

fi = frecuencia absoluta del intervalo i

Ai = Amplitud del intervalo i

li =límite inferior del i-ésimo intervalo de clase que contiene a la mediana.

Para el Ejemplo 1:

La mediana: en el caso de estar los datos agrupados, por medio de la tabla de distribución de

frecuencias, tendremos:

El intervalo i de la clase de la mediana será el segundo intervalo ( i = 2), ya que

F2 > 17,5 por lo que: l2 = 154, f2 = 7

Entonces, haciendo uso de la fórmula (

)

Para el ejemplo 2: El intervalo para la mediana es el cuarto intervalo (i = 4), por lo tanto: l4 =

143,6, F3=15, y f4 = 12

Entonces, haciendo uso de la fórmula para la mediana, tenemos:

(

)

Ventajas y desventajas

i. Ventajas

No es afectada por valores extremos y se puede usar cuando hay asimetría.

No varía con el cambio de amplitudes.

Page 4: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

ii. Desventajas:

No tiene definición algebraica

Es inestable al muestreo

Su interpretación no es fácil.

c) Moda (Mo).

Se define como la observación que se presenta con más frecuencia dentro del conjunto de

datos.

Ejemplos:

1. Considera la siguiente muestra de datos simples: 1, 1, 2, 3, 4, 5, 5, 7, 1, 5, 7, 1.

Advierte que la observación que se presenta con mayor frecuencia es el dato: x1=1, ya que se

presenta cuatro veces dentro del conjunto; por lo tanto, la moda de la muestra es: Mo = 1

2. Sea la siguiente muestra de datos simples: 1, 2, 4, 0, 6, 7.

En este caso, se puede apreciar que todos los datos se presentan con la misma frecuencia, por

lo tanto, no existe la moda de la muestra.

3. Sea la muestra de datos simples: 1, 1, 3, 5, 7, 3, 1, 6, 3.

En este conjunto de datos se observa que hay dos datos: x1 = 1, y x3 = 3, que se presentan con

la misma frecuencia: por lo tanto, concluimos que la muestra posee dos modas: Mo1 =1 Mo2=3

Tenemos asi una muestra bimodal.

La moda para datos agrupados se obtiene por medio de la formula:

(

)

En donde:

i = es la clase modal (la que tiene mayor frecuencia absoluta).

d1 = fi – fi-1 , d2 = fi – fi-1

fi = frecuencia modal

fi-1 = frecuencia de la clase inmediatamente anterior a la clase modal

fi+1 = frecuencia de la clase inmediatamente posterior a la clase modal

A1 = amplitud del intervalo de la clase modal

li = límite inferior de la clase modal

Para el Ejemplo 1:

i. La moda para los datos simples es aquella observación que tiene mayor frecuencia, en

este caso el dato 152 muestra la mayor frecuencia (6 veces), luego Mo=152

ii. La moda para datos agrupados:

El intervalo de la clase modal es el primer intervalo, ya que es el que tiene la mayor

frecuencia, por lo tanto:

l1 = 151

d1 = 14 – 0 = 14 d2 = 14 – 7 = 7

A1 = 3

Entonces (

)

Page 5: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

Para el Ejemplo 2:

La moda para datos agrupados:

El intervalo modal es el cuarto intervalo, por lo tanto:

i = 4 l4 = 143,6

d1 = 12 – 7 = 5

d2 = 12 – 6 = 6

A4 = 8,2 Entonces: (

)

Ventajas y desventajas

1. Ventajas

Se utiliza para variables cualitativas o cuantitativas, pero especialmente para las primeras.

2. Desventajas

No es equitativa

No tiene definición algebraica

Es inestable al cambio de amplitudes y al muestreo

Puede existir más de una o no existir.

Ejercicios 1. Analiza la verdad o falsedad de las siguientes afirmaciones:

a) El valor que más se repite en un conjunto de datos recibe el nombre de media aritmética.

b) Después de agrupar un conjunto de datos en varias clases, podemos identificar la mediana de

clase como aquella que posee el mayor número de observaciones.

c) Los valores extremos en un conjunto de datos influyen profundamente en la mediana

2. La siguiente tabla muestra la distribución de la carga máxima en toneladas que soportan

ciertos cables producidos por una compañía.

Máximo de carga Número de cables

[9,3 , 9,8[ 2

[9,8 , 10,3[ 5

[10,3 , 10,8[ 12

[10,8 , 11,3[ 17

[11,3 , 11,8[ 14

[11,8 , 12,3[ 6

[12,3 , 12,8[ 3

[12,8 , 13,3[ 1

Determinar

a) La media de la carga máxima.

b) La mediana

c) La moda

d) ¿Cuál elegiría?

3. Halle la media, la mediana y la moda de los ejercicios realizados en clase.

Page 6: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

MEDIDAS DE LOCALIZACIÓN

CUANTILES

Son medidas descriptivas que pueden dividir al total de datos en cierto número de partes

igualmente numerosos y nace como consecuencia del estudio de la mediana; las principales son:

a) Cuartiles ( Qi)

Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 4 partes

igualmente numerosas.

1. PARA DATOS NO TABULADOS

Ejemplo:

a) Cuando da entero el punto de Posición. Se tiene los pesos de 11 niños expresados en kg

3 ; 6 ; 8 ; 8 ; 10 ; 11 ; 12 ; 13 ; 19 ; 22 ; 36

Se pide determinar: Q1 ; Q2 ; Q3

Resolución:

1º Numerar los datos ordenadas

3 ; 6 ; 8 ; 8 ; 10 ; 11 ; 12 ; 13 ; 19 ; 22 ; 36

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11

Punto de posición correspondiente: ( )

Para i = 2 : Reemplazando: ( )

; Q2 = 11

Posición x9

b) Cuando no da entero el punto de posición. Sean los sueltos diarios de 12 trabajadores

9 ; 11 ; 13 ; 15 ; 15 ; 16 ; 16 ; 17 ;17 ;18 ;19 ; 20

Se pide determinar: Q1 ; Q2 y Q3

Resolución

9 ; 11 ; 13 ; 15 ; 15 ; 16 ; 16 ; 17 ;17 ;18 ;19 ; 20

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12

Punto de posición correspondiente: ( )

Para i = 1 : Reemplazando: ( )

; Q2 = 13 +

( )

Tomamos la parte entera; Posición x3 x3 Diferencia entre x3 y x4

Para i = 2 : Reemplazando: ( )

; Q2 = 16 +

( )

Tomamos la parte entera; Posición x6 x6 Diferencia entre x6 y x7

Observación

Cuando el punto de posición no arroja valores enteros para el caso de Q1 tomamos la

posición de la parte entera mas el 25 % de la diferencia entre esta y la siguiente; algo

parecido sucede con Q2 sólo que se tomará el 50% y para Q3 el 75%.

Page 7: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

2. PARA DATOS TABULADOS

[

]

: Límite inferior de la clase donde se encuentra el cuartil.

: Amplitud de la clase donde se encuentra el cuartil.

: Número que indica el cuartil deseado.

: Número total de datos

: Frecuencia absoluta acumulada anterior a la clase donde se encuentra el cuartil.

: Frecuencia absoluta de la clase donde se encuentra el cuartil.

Ejemplo:

En el siguiente cuadro estadístico:

Ii fi

[10 – 20 > 3

[20 – 30 > 17

[30 – 40 > 8

[40 – 50 > 22

Se pide determinar: Q1 y Q2

Resolución:

Ii fi Fi

[10 – 20 > 3 3

[20 – 30 > 17 20

[30 – 40 > 8 28

[40 – 50 > 22 50

Calculando Q1:

Punto de posición correspondiente:

se ubica el cuartil donde Fi >

Para i = 1 ;

; Como F2 > 12,5 Clase: [20 – 30 >

Q1 = 20 + 10 *

+

Calculando Q2:

Punto de posición correspondiente:

Para i = 2 ;

; Como F3 > 25 Clase: [30 – 40 >

Q2 = 30 + 10 *

+

b) Deciles ( Di)

Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 10

partes igualmente numerosas.

1. PARA DATOS NO TABULADOS

Se calcula en forma similar a los cuartiles ordenando los datos de menor a mayor y

hallando el punto de posición correspondiente:

Page 8: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

Punto de posición: ( )

2. PARA DATOS TABULADOS

[

]

: Límite inferior de la clase donde se encuentra el decil.

: Ancho o amplitud de la clase donde se encuentra el decil.

: Número que indica el decil deseado.

: Número total de datos

: Frecuencia absoluta acumulada anterior a la clase donde se encuentra el decil.

: Frecuencia absoluta de la clase donde se encuentra el decil.

Ejemplo:

En el siguiente cuadro estadístico:

Ii fi

[10 – 20 > 8

[20 – 30 > 16

[30 – 40 > 10

[40 – 50 > 4

[50 – 60 > 12

Se pide determinar: D3

Resolución:

Ii fi Fi

[10 – 20 > 8 8

[20 – 30 > 16 24

[30 – 40 > 10 34

[40 – 50 > 4 38

[50 – 60 > 12 50

Calculando D1:

Punto de posición correspondiente:

se ubica el decil donde Fi >

Para i = 3 ;

; Como F2 > 15 Clase: [20 – 30 >

D3 = 20 + 10 *

+

c) Percentiles ( Pi)

Son aquellos valores que dividen al total de datos ordenados de menor a mayor en 100

partes igualmente numerosas.

1. PARA DATOS NO TABULADOS

Se calcula en forma similar que los cuartiles y deciles ordenando los datos de menor a

mayor y hallando el punto de posición correspondiente:

Punto de posición: ( )

Page 9: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

2. PARA DATOS TABULADOS

[

]

: Límite inferior de la clase donde se encuentra el percentil.

: Ancho o amplitud de la clase donde se encuentra el percentil.

: Número que indica el percentil deseado.

: Número total de datos

:Frecuencia absoluta acumulada anterior a la clase donde se encuentra el

percentil.

: Frecuencia absoluta de la clase donde se encuentra el percentil.

Ejemplo:

En el siguiente cuadro estadístico:

Ii fi

[5 – 10 > 16

[10 – 15> 7

[15 – 20 > 3

[20 – 25 > 14

[25 – 30 > 10

Se pide determinar: P40

Resolución:

Ii fi Fi

[5 – 10 > 16 16

[10 – 15> 7 23

[15 – 20 > 3 26

[20 – 25 > 14 40

[25 – 30 > 10 50

Calculando P40:

Punto de posición correspondiente:

se ubica el percentil donde Fi >

Para i = 40 ;

; Como F2 > 20 Clase: [10 – 15 >

P40 = 10 + 5 *

+

Page 10: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

MEDIDAS DE DISPERSIÓN

Son aquellos que miden la dispersión que existe entre los datos de una muestra. La descripción

más clara de la dispersión son aquellos que tienen que ver con la desviación promedio a partir

de alguna medida de tendencia central las más importantes son:

I. DESVIACIÓN MEDIA ABSOLUTA (DM)

Es el promedio aritmético que existe entre los valores absolutos de las desviaciones de

los datos observados respecto a la media aritmética.

1. PARA DATOS NO TABULADOS

∑ | |

xi : Son los respectivos datos.

: Media o promedio

n = Número total de datos.

Ejemplos:

Sean las longitudes de 6 huesos expresado en centímetros.

12 ; 24 ; 6 ; 18 ; 60 ; 36

Se pide determinar la desviación media

Resolución

xi xi - | |

6 -20 20

12 -14 14

18 -8 8

24 -2 2

36 10 10

60 34 34

88

∑ | |

2. PARA DATOS TABULADOS

∑ | |

: Número de intervalos.

: Son las respectivas marcas de clase.

: Número total de datos

: Son las respectivas frecuencias

: Media o promedio.

Page 11: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

Ejemplo:

En el siguiente cuadro estadístico:

Ii fi

[2 – 4 > 2

[4 – 6 > 4

[6 – 8 > 10

[8 – 10 > 1

[10 – 12 > 12

[12 – 14 > 11

[14 – 16 > 3

[16 – 18 > 7

Se pide determinar la desviación media:

Ii fi yi yi fi yi - | | | |

[2 – 4 > 2 3 6 -7,8 7,8 15,6

[4 – 6 > 4 5 20 -5,8 5,8 23,2

[6 – 8 > 10 7 70 -3,8 3,8 38

[8 – 10 > 1 9 9 -1,8 1,8 1,8

[10 – 12 > 12 11 132 0,2 0,2 2,4

[12 – 14 > 11 13 143 2,2 2,2 24,2

[14 – 16 > 3 15 45 4,2 4,2 12,6

[16 – 18 > 7 17 119 6,2 6,2 43,4

544 161,2

;

∑ | |

II. LA VARIANZA (V(x) ; S2 )

Es la media de los cuadrados de las desviaciones, y la denotaremos por o también

por .

Aunque también es posible calcularlo como:

Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. La varianza vendrá en cm2.

Page 12: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

III. DESVIACIÓN ESTÁNDAR (S)

Es la raíz cuadrada de la varianza, se denota por Sx o s x.

Este estadístico se mide en la misma unidad que la variable por lo que se puede interpretar mejor.

Otros dos estadísticos importantes son la cuasivarianza y la cuasidesviación típica, que como veremos cuando estudiemos el tema de estimación estadística, son los estimadores de la varianza y desviación típica poblacionales respectivamente.

IV. COEFICIENTE DE VARIACIÓN (C.V)

Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por C.V.

Ejemplo

Veamos por último un ejemplo de cómo se calculan todas estas medidas.

45 55 6 6 50 300 -19,4

116,4 2258,16 15000

55 65 10 16 60 600 -9,4 94 883,6 36000

65 75 19 35 70 1330 0,6 11,4 6,84 93100

75 85 11 46 80 880 10,6 116,6 1235,96 70400

85 95 4 50 90 360 20,6 82,4 1697,44 32400

N= 50 3470 420,8 6082 246900

=

Page 13: MEDIDAS-DE-CENTRALIZACION-Y-VARIACION-DISPERSION.pdf

Dm=

=

c.v. =