Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar...

12
Universidad Técnica Federico Santa María Departamento de Informática ILI-280 Capítulo 2 Análisis Exploratorio de datos Estadística Computacional II Semestre 2004 Profesores: Héctor Allende ([email protected] ) Rodrigo Salas ([email protected] ) Página: www.inf.utfsm.cl/~hallende 2 Profesores: H.Allende, R. Salas Análisis exploratorio de datos Es el proceso de explorar los datos sin tener ideas previas y claras respecto a lo que estamos buscando. Técnicas de AED consisten en calcular una serie de valores que resuman y se deriven a partir de un conjunto de datos. Pueden ser interactivos y visuales. 3 Profesores: H.Allende, R. Salas Naturaleza del Dato Los datos son un conjunto de mediciones tomadas de algún ambiente o proceso. Los datos pueden tomar muchas formas y no solamente numérico. Ejemplos: Categorías (Sexo, Estado Civil, Educación) Textos (Diagnósticos médicos) Imágenes (Rayos X, resonancia magnética) Sonidos (Música, conversaciones) OBS: Estos datos pueden ser expresados numéricamente. Profesores: H.Allende, R. Salas Cualitativo (Categorías) Nominal Viña = 1 ; Santiago = 2 ; Temuco = 3 ..etc. Ordinal Pobre = 1; Aceptable = 2; Bueno = 3; Excelente = 4 Cuantitativo (Números) Intervalo estatura, viscosidad, distancia, duración...etc Razón temperatura, peso...etc NOTA: El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate. Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones) Clasificación/Tipo de Datos 5 Profesores: H.Allende, R. Salas Escala Nominal Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación. La variable induce una partición sobre la población la información puede clasificarse en clases o categorías. Cada clase debe estar perfectamente definida y diferenciada de las demás. La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases: Ejemplos alumnos por cursos: primero (1), segundo (2),...., sexto (6) año; sexo: masculino (M), femenino (F); 6 Profesores: H.Allende, R. Salas Escala Ordinal Existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de areglar los elementos de acuerdo al orden establecido. La variable admite grados de calidad:existe una relación de orden total entre las clases. No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases. Ejemplo: Calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)

Transcript of Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar...

Page 1: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 1

Universidad Técnica Federico Santa María

Departamento de Informática

ILI-280

Capítulo 2Análisis Exploratorio de datos

Estadística ComputacionalII Semestre 2004

Profesores: Héctor Allende ([email protected])Rodrigo Salas ([email protected])

Página: www.inf.utfsm.cl/~hallende

2Profesores: H.Allende, R. Salas

Análisis exploratorio de datos

Es el proceso de explorar los datos sin tener ideas previas y claras respecto a lo que estamos buscando.Técnicas de AED consisten en calcular una serie de valores que resuman y se deriven a partir de un conjunto de datos. Pueden ser interactivos y visuales.

3Profesores: H.Allende, R. Salas

Naturaleza del Dato

Los datos son un conjunto de mediciones tomadas de algún ambiente o proceso.Los datos pueden tomar muchas formas y no solamente numérico.Ejemplos:

Categorías (Sexo, Estado Civil, Educación)Textos (Diagnósticos médicos)Imágenes (Rayos X, resonancia magnética)Sonidos (Música, conversaciones)

OBS: Estos datos pueden ser expresados numéricamente.

4Profesores: H.Allende, R. Salas

Cualitativo (Categorías)Nominal Viña = 1 ; Santiago = 2 ;

Temuco = 3 ..etc.Ordinal Pobre = 1; Aceptable = 2;

Bueno = 3; Excelente = 4 Cuantitativo (Números)

Intervalo estatura, viscosidad, distancia, duración...etcRazón temperatura, peso...etc

NOTA:

El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.

Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)

Clasificación/Tipo de Datos

5Profesores: H.Allende, R. Salas

Escala Nominal

Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.

La variable induce una partición sobre la población la información puede clasificarse en clases o categorías. Cada clase debe estar perfectamente definida y diferenciada de las demás. La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:

Ejemplos alumnos por cursos: primero (1), segundo (2),...., sexto (6) año; sexo: masculino (M), femenino (F);

6Profesores: H.Allende, R. Salas

Escala Ordinal

Existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de areglar los elementos de acuerdo al orden establecido.La variable admite grados de calidad:existe una relación de orden total entre las clases. No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases. Ejemplo:

Calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)

Page 2: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 2

7Profesores: H.Allende, R. Salas

Escala Intervalar

Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantificar la diferencia de todos los individuos pertenecientes a los intervalos, clases o categorías distintas.Está involucrado el concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.Ejemplos:

temperatura al interior de un lugar, interés sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos.

8Profesores: H.Allende, R. Salas

Escala de Razón

Esta escala se usa cuando no sólo el orden y tamaño del intervalo son importantes.La única diferencia entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no.

9Profesores: H.Allende, R. Salas

Tipos de Variables

Tanto en la escala intervalar como en la de razón es posible distinguir dos tipos de variables aleatorias:

Variables Discretas: toma valores de un conjunto de puntos aislados (subconjunto de valores en R)Variables Continuas: toma sus valores en un conjunto donde todos sus elementos son puntos de acumulación (un intervalo en R). Siempre es posible tratar una variable continua como discreta mediante la construcción de “intervalos de clase” representando cada uno de los intervalos por su valor medio denominado “marca de clase

10Profesores: H.Allende, R. Salas

Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.Frecuencia Absoluta.

Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenece a dicha clase y se denota por ni. Como las clases c1, c2, ..... ck son una partición de la muestra, es fácil verificar que

número total de observaciones o tamaño de la muestra

Organización/Presentación

∑=

=k

iinn

1

11Profesores: H.Allende, R. Salas

Organización/Presentación

Frecuencia Relativa.Se llama frecuencia relativa de la clase ci a la proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra. Se de nota por fi. Se puede verificar que

∑=

==k

ii

ii fnnf

11 .... que notese

12Profesores: H.Allende, R. Salas

Presentación de Datos Cualitativos

Reglas: Partición de la PoblaciónCada observación debe pertenecer a una, y sólo una clase o categoría.Todas las observaciones deben pertenecer a una.

Tablas Tabligrama.Gráficos de Barras Diagrama de Pareto.Gráficos Circulares o de Torta.

Page 3: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 3

13Profesores: H.Allende, R. Salas

107

60

51

25

10

8

1

2

3

4

5

6

Clase Descripción Frecuencia

Ejemplo: Tablas

14Profesores: H.Allende, R. Salas

107

6051

25

10 8

0

20

40

60

80

100

120

1 2 3 4 5 6

Clase

Frec

uenc

ia

Diagrama de Pareto

Escala Nominal

15Profesores: H.Allende, R. Salas

140%

223%

320%

410%

54%

63%

Diagrama Circular

Escala Nominal

16Profesores: H.Allende, R. Salas

0

1

2

3

4

5

6

7

8

9

Pobre Regular Aceptable Bueno Muy Bueno

Diagrama de Bloques

Escala Ordinal

17Profesores: H.Allende, R. Salas

Ejemplo: 40 Datos10 7 811 1 2 3 7 912 0 3 3 4 6 813 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 815 0 2 3 3 8 816 0 0 1 2

Ejemplo: Tabligrama

Presentación:Tablas de frecuenciasGráficos: Diagramas de BloquesCirculares, Barras Diagrama acumulativo

18Profesores: H.Allende, R. Salas

K := N° Clases R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8

Límites

106,5-114,5114,5-122,5122,5-130,5130,5-138,5138,5-146,5146,5-154,5154,5-162,5

Marca

110,5118,5126,5134,5142,5150,5158,5

FrecuenciasABS - REL - REL. AC.5 0,125 0,1253 0,075 0,25 0,125 0,3258 0,2 0,5256 0,15 0,6757 0,175 0,856 0,15 1

Conteo

/////////////// /////// ///// ////// /

Tabla de Frecuencias

Page 4: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 4

19Profesores: H.Allende, R. Salas

0

1

2

3

4

5

6

7

8

9

110,5 118,5 126,5 134,5 142,5 150,5 158,5

Histograma

20Profesores: H.Allende, R. Salas

0

1

2

3

4

5

6

7

8

9

110.5 118,5 126,5 134,5 142,5 150,5 158,5102,5 166,5

Polígono de Frecuencias

21Profesores: H.Allende, R. Salas

110,5 118,5 126,5 134,5 142,5 150,5 158,5102,5 166,5

Frecuencia Acumulada: Ojiva

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

22Profesores: H.Allende, R. Salas

Extraer Información desde la Muestra

Mediciones de Tendencia CentralEstas medidas tienden a ubicarse en el centro del conjunto. Proporcionan un valor simple y representativo, que resume un gran volumen de información.

Mediciones de DispersiónMiden la “dispersión” de valores dentro del conjunto de datos respecto de alguna medida de tendencia central.

• Media Aritmética • Media Geométrica• Media Armónica

• Moda• Mediana • Semi Rango

• Rango• Rango Cuartílico• Rango Percentil

• Varianza• Desviación Estándar• Desviación Media

23Profesores: H.Allende, R. Salas

Extraer Información desde la Muestra

Medidas de HomogeneidadEsta medida es utilizada para comparar dos o más muestras según su grado de homogeneidad.Es una relación entre la medida de tendencia central y la de dispersión.No posee dimensión, es sólo un escalar.

• Señal de ruido

•Coeficiente de VariaciónXSC

XS

v =

−= 2

2

logη

24Profesores: H.Allende, R. Salas

0,0000

0,0500

0,1000

0,1500

0,2000

0,2500

0,3000

0,3500

0,4000

0,4500

0,5000

4 5 6 70 1 2 3

Q1 Q2 Q3 Q4

Moda

MediaAritmética

Mediana

Rango

Medidas de Tendencia y Dispersión

Page 5: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 5

25Profesores: H.Allende, R. Salas

Variables Categóricas: (Escala Nominal)Moda (Medida del centro)Tasa de Variación (Medida de Dispersión)

fM ≥ fi = i = 1, 2, 3, ..., k. ni

n

V = 1 – fM = 1 - =nM

nn - nM

n

Tipo de Variable

26Profesores: H.Allende, R. Salas

En un estudio de mercado se considera una muestra de 1100 fumadores averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla

Marca A B C D

Frecuencia 220 270 310 300

Frec. Relativa 0,200 0,245 0,282 0,273

fM = 0,282 Clase modal C

TV = 1 – 0,282 = 0,718 Tasa de variación

Ejemplo

27Profesores: H.Allende, R. Salas

Escala Intervalar

Existen dos maneras de realizar los cálculos de las medidas características de datos de escala inervalar, con …

Datos Agrupados: cuando los datos disponibles se presentan ya “trabajados” en tablas de frecuencias y no se cuenta con los datos originales.Datos No agrupados: cuando los datos se presentan como “materia” en bruto

28Profesores: H.Allende, R. Salas

Datos Agrupados:

fi : Frec. relativa Clase i Xi : Marca Clase ik : N° de clases

Tendencia Central: Promedio

∑=

=k

iii xfx

1

Datos NO Agrupados:

X : Media AritméticaXi : i-ésimo valor observadon : Tamaño Muestra

∑=

=n

iixn

x1

1

29Profesores: H.Allende, R. Salas

L : Límite inferior Clase modalaM : Amplitud Clase Modal∆1 : nM - n1∆2 : nM - n2nM : Frec. absoluta Clase Modaln1 : Frec. absoluta Clase anterior a Clase Modaln2 : Frec. absoluta Clase posterior a Clase Modal

xML

aM

n1

nM

n2

∆1 ∆2

Datos Agrupados: Datos NO Agrupados:

Es el valor que ocurre con mayor frecuencia: el valor más común.

• Puede que no exista moda.

• Puede que exista más un valor Modal

V = Tasa de Variación = 1 – fM

Tendencia Central: Moda

∆+∆

∆+=

21

10 MaLM

30Profesores: H.Allende, R. Salas

Tendencia Central: Mediana

Datos NO Agrupados:

Si los datos se ordenan de orden ascendente de magnitud, entonces la Mediana está dada por:

• Si n es impar , la Mediana es exactamente el valor del medio

• Si n es par , la Mediana es el promedio de los valores centrales

( ) ( )

par es si )(

21

impar es si

12/2/

21

+=

+

+

nxx

nx

Mnn

n

e

L : Límite inferior Clase Mediana (C Me)Ne-1 : Frec. Acumulada hasta antes (C Me)ne : Frecuencia Absoluta (C Me)ae : Amplitud (C Me)n : Tamaño de la muestra

Datos Agrupados:Datos Agrupados:

e

e

ee n

Nn

aLM12 −−

+=

jCfjCMClase j

j

kkje clase: 5.0min:

1≥∃= ∑

=

Page 6: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 6

31Profesores: H.Allende, R. Salas

Dispersión: Varianza Muestral

Datos NO Agrupados:

s2 : Variancia Muestral

X : Media Aritmética

Xi : i-ésimo valor observado

n : Tamaño Muestra

∑=

−=n

ii xx

ns

1

22 )(1

Datos Agrupados:

fi : Frec. relativa Clase iXi : Marca Clase iX : Media Aritméticani : Frec. absoluta Clase in : Tamaño Muestrak : N° de clases_

∑=

−=n

iii xxfs

1

22 )(

32Profesores: H.Allende, R. Salas

Dispersión: Desviación MediaDatos NO Agrupados:

MD : Desviación Media

X : Media Aritmética

Xi : i-ésimo valor observado

n : Tamaño Muestra

∑=

−=n

ii xx

nMD

1||1

Datos Agrupados:Datos Agrupados:

fi : Frec. relativa Clase iXi : Marca Clase iX : Media Aritméticani : Frec. absoluta Clase in : Tamaño Muestrak : N° de clases| | : valor absoluto

∑=

−=k

iii xxfMD

1

||

33Profesores: H.Allende, R. Salas

Rango Inter-Cuartílico = IRQ = (Q3– Q1) / 2

Cuartil

Datos NO Agrupados:Si los datos se ordenan de orden ascendente de magnitud, entonces el cuartil Qi, para i = 1, 2, 3, 4 está dado por

contrario casoen )1(

entero es 4

1 si

41

41

41

+−

+

=

+

+

+

nini

ni

ixx

nixQ

αα

+

+

=4

14

1 niniαL : Límite inferior Qi; i = 1,2,3,4NQí-1 : Frec. Absoluta acumulada hasta antes de la clase QiaQi : Amplitud cuartil i-ésimonQi : Frecuencia Absoluta de la clase del cuartil i-ésimon : Tamaño de la muestra

Datos Agrupados:

i

i

iQ

Q

Qi n

Nin

aLQ14 −−⋅

+=

jCifjCQClase j

j

kkji clase:

4min:

1≥∃= ∑

=

34Profesores: H.Allende, R. Salas

Rango Percentil = RP = (P90 – P10)

Percentil

Datos NO Agrupados:Si los datos se ordenan de orden ascendente de magnitud, entonces el percentil Pi, para i = 1, 2, .., 99 está dado por

contrario casoen )1(

entero es 100

1 si

1001

1001

1001

+−

+

=

+

+

+

nini

ni

ixx

nixP

αα

+

+

=100

1100

1 niniα

L : Límite inferior percentil i-ésimoNPí-1 : Frec. Absoluta acumulada hasta antes de la

clase percentil i-ésimoaPi : Amplitud percentil i-ésimonPi : Frecuencia Absoluta de la clase del percentil

i-ésimon : Tamaño de la muestra

Datos Agrupados:

i

i

iP

P

Pi n

Nin

aLP1100 −−⋅

+=

jCifjCPClase j

j

kkji clase:

100min:

1

≥∃= ∑=

35Profesores: H.Allende, R. Salas

Se tiene la impresión que el servicio prestado por una sucursal bancaria no es buena; por lo tanto, la gerencia ordena un estudio al respecto. Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio recibido

Q1 = 0,286 > 0,25 PQ2 = 0,686 > 0,50 SQ3 = 0,914 > 0,75 BQ4 = E

1 2 3 4 5Calificacion P R S B EFrec. Absoluta 20 10 18 16 6Frec. Relativa 0,286 0,143 0,257 0,229 0,086Frec. Acumul 20 30 48 64 70Frec. Acumul. Relat. 0,286 0,429 0,686 0,914 1,000

Ejemplo

75.01514

1

714.0286.011

286.0

)()(

)(

13

2

=−−

=−

−=

=−=−=

=→==→=

KrCrC

D

fV

SCCMedPCf

QQ

M

MedQ

MM

36Profesores: H.Allende, R. Salas

Representación visual para describir, simultáneamente, varias características importantes tales como

CentroDispersiónDesviación de la asimetríaIdentificación de las observaciones (valores atípicos)

Q1 Q2 Q33 IRQ 3 IRQ

Mediana

Valores Atípicos

Valores Atípicos

Gráficos de Cajas

1dispersion de Indice 13

−−

==KrangQrangQD

Page 7: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 7

37Profesores: H.Allende, R. Salas

Gráficos de Cajas

Comparaciones gráficas entre conjuntos de datos

1

2

3

70 80 90 100 110 120

38Profesores: H.Allende, R. Salas

Momentos Muestrales

Momentos no centrados:

OBS:

Momentos centrados:

∑=

=n

i

kik x

nm

1

1

212

21

mms

mx

−=

=

∑=

−=n

i

kik mx

nm

11)(1

39Profesores: H.Allende, R. Salas

Coeficiente de Simetría de Fisher Sesgo

0 2,5 5 7,5 10 12,5 15 17,5 20

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

γ1 < 0

Distribución, tiende a concentrarse en Valores Altos de la Variable

Mo > MA > Me

0

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-4 -3 -2 -1 0 1 2 3 4

γ1 = 0

Distribución, es simétrica respecto a la Media

Mo = MA = Me

γ1 > 0

Distribución, tiende a concentrarse en Valores Bajos de la Variable

Mo < MA < Me

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0 2,5 5 7,5 10 12,5 15 17,5 20

Características de forma: Simetría

33

1 sm

13

231 2QQQQQIS

−−+

=Indice de Simetría

40Profesores: H.Allende, R. Salas

Coeficiente Curtosis

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-4 -3 -2 -1 0 1 2 3 4

γ2 = 0

Distribución “Normal”

γ2 < 0

Distribución tiende a concentrarse alrededor de la Media.

Variancia Pequeña

Aguzada

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-2 -1 0 1 2

γ2 > 0

Distribución tiende a dispersarse

Variancia grande

Achatada.

0

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

-4 -3 -2 -1 0 1 2 3 4 5-5

Características de forma: Achatamiento

344

2 −=smγ

41Profesores: H.Allende, R. Salas

Ejemplo

Se desea determinar las características de resistencia a la ruptura bajo cargas de tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de 0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2. El laboratorio de resitencia de materiales proporciona la tabla de frecuencias

Determine: Todas las medidas de localización, escala, simetria yforma

Clase Limites Marca Frecuencia Frecuencia Frecuencia Frecuencia dde Clase de Clase Absoluta Abs. Acum. Relativa Relat. Acum.

1 407,5-412,5 410 4 4 0.032 0.0322 412,5- 417,5 415 5 9 0.040 0.0723 417,5- 422,5 420 8 17 0.064 0.1364 422,5- 427,5 425 14 31 0.112 0.2485 427,5- 432,5 430 13 44 0.104 0.3526 432,5- 437,5 435 19 63 0.152 0.5047 437,5- 442,5 440 20 83 0.160 0.6648 442,5- 447,5 445 15 98 0.120 0.7849 447,5- 452,5 450 12 110 0.096 0.880

10 452,5- 457,5 455 6 116 0.048 0.92911 457,5- 462,5 460 7 123 0.056 0.98412 462,5- 467,5 465 2 125 0.016 1.000

42Profesores: H.Allende, R. Salas

Sea yi = h ( xi ) con i = 1,...,n

1. Lineales yi = axi + b

y = ax + bSy = a Sx

2. No lineales yi = h( xi )

y = h(x) + h”(x) SX2

Sy2≈ Sx

2 [ h’ (x)]2En particular h(x) = ln x y = ln x - ( Sx

2 / x2 )Sy

2 ≈ ( Sx2 / x2 ) = CV

2

21

21

Transformaciones

Page 8: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 8

Universidad Técnica Federico Santa María

Departamento de Informática

ILI-280

Análisis de una muestra estratificada

44Profesores: H.Allende, R. Salas

E2

n2 V2

2X

E1n1 V11X

Emnm VmmX

∑=

=m

hh nn

1

nnp h

h =

Supongamos que la variable admite una clasificación en k-clases, representadas por X1, X2,.....Xk.

m- estratos

Análisis de una muestra estratificada

45Profesores: H.Allende, R. Salas

nih = Cantidad de individuos de la submuestra del estrato “h” que pertenece a Ci.

h

ih

nn

=ihf ∑=

=k

i 11ihf ∑

=

=k

ihih nn

1

∑=

=k

iih XX

1ihf ∑

=

−=k

ihih XXV

1

2)(ihf

∑=

=m

hhp

1ihi ff

Análisis de una muestra estratificada

46Profesores: H.Allende, R. Salas

2

11)(∑∑

==

−+=m

hhh

m

hhhT XXpVpV

Entonces:

∑=

=m

hnh XpX

1

erraT VVV intint +=

Análisis de una muestra estratificada

47Profesores: H.Allende, R. Salas

Ejemplo

Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán [1,00 ; 1,50] [1,50 ; 2,00] [2,00 ; 2,50].

Centros

01,251,752,25

Frecuencias Absolutas(1) (2) (3)5 10 1010 20 3030 150 505 20 10

Calcular

Note que existen 3 estratos y 4 clases

raer

Thh

VVVXVX

intint ,,,,

48Profesores: H.Allende, R. Salas

FrecuenciaRelativa

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0 1,25 1,75 2,25

1,00 1,50 2,00 2,50

Peso

Criadero 1Criadero 2Criadero 3

Histograma Apilado por Peso

Análisis Muestra Estratificada

Page 9: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 9

49Profesores: H.Allende, R. Salas

Criadero 1Criadero 2Criadero 3

1,00 1,50 2,00 2,50

FrecuenciaRelativa

0

0,1

0,2

0,3

0,4

0,5

0 1,25 1,75 2,25

Peso

Histograma por Estrato y por Peso

Análisis Muestra Estratificada

50Profesores: H.Allende, R. Salas

Estrato (2) P2=4/7

fi2 fi2X1 Xi-X2 ( )2 fi2( )2

0 0,05 0 -1,662 2,76 0,1381,25 0,10 0,125 -0,412 0,17 0,0171,75 0,75 1,312 0,088 0, 01 0,0062,25 0,10 0,225 0,588 0,35 0,035

X2=1,662

V2=0,195

Estrato (3) P3=2/7

fi3 fi3X1 Xi-X3 ( )2 fi3( )2

0 0,10 0 -1,475 2,17 0,2181,25 0,30 0,375 -0,225 0,05 0,0151,75 0,50 0,875 0,275 0, 08 0,0392,25 0,10 0,225 0,775 0,60 0,060

X3=1,475

V3=0,331

Estrato (1) P1=1/7

Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2

0 0,1 0 -1,525 2,325 0,23251,25 0,2 0,250 -0,275 0,0756 0,01511,75 0,6 1,050 0,225 0,0501 0,03042,25 0,1 0,225 0,725 0,525 0,0526

X1=1,525

V1=0,331

51Profesores: H.Allende, R. Salas

Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2

Xh Vh

(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00058(2) 4/7 1,662 0,195 0,950 0,111 0,073 0,005 0,00305(3) 2/7 1,475 0,331 0,421 0,095 -0,114 0,013 0,00371

1,589 0,253 0,0073

52Profesores: H.Allende, R. Salas

Se ha obtenido, entonces:Media Total

X = 1,589Varianza promedio dentro de los estratos

Vintra= 0,253Varianza entre estratos

Vinter= 0,0073Varianza Total

VT= 0,2606

Resultados

Universidad Técnica Federico Santa María

Departamento de Informática

ILI-280

Estadística Bivariada

54Profesores: H.Allende, R. Salas

Supongamos que se toma una muestra de tamaño n de una población y que se está investigando, o se desea estudiar, dos características de la misma.

Sean estas características X e Y. Siguiendo los procedimientos habituales, la Muestra se divide en

r clases Ai para la variable X s clases Bj para la variables Y

Existirán elementos que pertenecerán simultánea-mente a AiBj. Los datos los podemos ordenar en una tabla o matriz llamada Tabla de Contingencia

Estadística Bivariada

Page 10: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 10

55Profesores: H.Allende, R. Salas

Y B1 B2 ..... Bj ..... Bs Total

A1 n11 n12 ..... n1j ..... n1s n1

A2 n21 n22 ..... n2j ..... n2s n2

Ai ni1 ni2 ..... nij ..... nis ni

Ar nr1 nr2 ..... nrj ..... nrs nr

Total n 1 n 2 ..... n j ..... n s n

X

n = n_

Tabla de Contingencia

56Profesores: H.Allende, R. Salas

Y B1 B2 ..... Bj ..... Bs Total

A1 f11 f12 ..... f1j ..... f1s f1A2 f21 f22 ..... f2j ..... f2s f2

Ai fi1 fi2 ..... fij ..... fis fi

Ar fr1 fr2 ..... frj ..... frs frTotal f 1 f 2 ..... f j ..... f s f

X

f = 1_

Tabla de Contingencia

57Profesores: H.Allende, R. Salas

Notación:

fij := frecuencia conjunta = fr(xi,yj)

fii = = frecuencia marginal =

fi j = = frecuencia marginal =

fi/j = = frecuencia condicional =

∑j

ijf ∑ =j

iji xyx )(),( rr ff

∑i

ijf ∑ =i

jji yyx )(),( rr ff

j

ij

ff

•)(

),()/(

j

jiji y

yxyx

r

rr f

ff =

Estadística Bivariada

58Profesores: H.Allende, R. Salas

∑=

• =s

jiji nn

1

Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r(Independiente de la clases Bj a la que estén asociadas Suma de los valores de la fila i-ésima )

∑=

• =r

iijj nn

1

Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s(Independiente de las clases Ai a la que estén asociadas. Suma de los valores de la columna j-ésima)

nij = Frecuencia Absoluta de la clase conjunta AiBj.(Valor observado en la celda (i,j) de la Tabla de Contingencia)

fij = nijn Frecuencia Relativa“conjunta” de la clase conjunta correspondiente a la intersección de Ai y Bj.

∑=

s

jijf

1∑=

r

i 1= 1

Tabla de Contingencia

59Profesores: H.Allende, R. Salas

Para frecuencias relativas , i = 1,....,r se tiene:

Además se verifica que:

∑=

• =s

jiji ff

1(Suma de los valores de la fila i-ésimade la tabla de contingencia de frecuencias)

∑=

• =r

iijj ff

1

••

•• = nni

if••

•• =

nn j

jfj

ij

nn

••

==j

iji/j f

ff

Tabla de Contingencia

60Profesores: H.Allende, R. Salas

•• =ni

if

•• =

••nn j

jf

Frecuencia (relativa) “marginal” de la variable X, Conjunto de valores pertenecientes a las clases Ai, considerandolas independientemente de las calses Bj

Frecuencia (relativa) “marginal” de la variable Y, Conjunto de valores pertenecientes a las clases Bj, considerandolas independientemente de las calses Ai

Dado el experimento anterior, cuando sólo interesa conocer la frecuencia de ocurrencia de cada una de las variables por separado se habla de Frecuencia Marginal de la variable

••n

Frecuencia Marginal

Page 11: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 11

61Profesores: H.Allende, R. Salas

Una tela se clasifica en tres categorías A, B y C según cantidad y severidad de pequeñas imperfecciones. La empresa tiene 5 telares, en un mes dado de producción se registraron los siguientes datos.

# piezas de tela en la clasificaciónTelar A B C Marginal

1 185 16 12 2132 190 24 21 2353 170 35 16 2214 158 22 7 1875 185 22 15 222

Marginal 888 119 71 1078

Ejemplo

Tabla de Contingencia

62Profesores: H.Allende, R. Salas

Se dice que X es independiente de Y si las frecuencias condicionales de X/Y son todas iguales; es decir, no dependen de la clase condicionante, esto es

fi/1 = fi/2 = fi/3 = = fi/s = fi•

Ai = 1, 2, 3, ... , r

i1n

1n•= i2

n2n•= i3

n3n•= = is

n

Sn•

i1n

1n•

i2n

i3n

isn

2n• 3n• sn•

+ +

+ +

+ +....

+ +....i•

nn=

••

....

....

= fi•

•= ii/j ff j•= ffj/i

•×= ji/jij fff ×=ij •if • jff

Luego similarmente

•=

ji/j f

ijffComo

Independencia Estadística

63Profesores: H.Allende, R. Salas

ijnjn•

=•

=j

i/j fijff

• Cuando se “pregunta” por la frecuencia relativa de una de las varia-bles, digamos X, restrigida a los elementos observados de una clase dada de la otra; esto es, estudiar el comportamiento de una variable dado un valor fijo de la otra.

Frecuencia (relativa) de la variable X en la clase conjunta AiBj, “dado” que sólo nos interesa respecto a lo observado en la clase Bjde la variable Y; para i = 1, 2, .., r

f1/j, f2/j, f3/j, ... , fr/j

Constituye la distribución de frecuencia relativa condicional de la variable X dada la clase Bj de la variable Y.Nótese que se trabaja “condicionado” sobre un tamaño de muestra “reducido” al número de observaciones de la clase Bj dada

Frecuencia Condicional

64Profesores: H.Allende, R. Salas

Notación:

Análogamente, se tiene:

fj/i = = frecuencia condicional =

•i

ij

ff

)(),(

)/(i

jiij x

yxxy

r

rr f

ff =

Independencia Estadística

X e Y son variables estadísticamente independientes ssi:

ó

ó

)()/( jij yxy rr ff = )()/( iyi xyx rr ff =

•= ii/j ff j•= ffj/i

Estadística Bivariada

65Profesores: H.Allende, R. Salas

Independencia Estadística

como ⇒•×= ij/iij fff •• ×= ijij fff

Asociación de Variables

Datos no agrupados Cov(x,y) =

Datos agrupados : Cov(x,y) =

Coeficiente de Correlación = r =

))((1 yyxxn ii −−∑

))(( yyxx ii −−∑ ifCov (x,y)

Sx Sy

Estadística Bivariada

66Profesores: H.Allende, R. Salas

Fallas AnualesTemperatura 120 140 160 Marginal

Averías

2 20 15 10 453 12 7 5 244 4 10 2 165 - 5 10 15

Marginal 36 37 27 100

Obtener :Distribuciones marginalesDistribuciones condicionales (4 averías), Mediay Varianza condicional

Ejercicio

Page 12: Universidad Técnica Federico Santa María Es el …hallende/bajadas/2004/Cap2-04.pdfPara estudiar las características de una variable se ordenan los valores observados de la muestra

Universidad Técnica Federico Santa María

Profesor: Rodrigo Salas 12

67Profesores: H.Allende, R. Salas

Fallas AnualesTemperatura 120 140 160 Marginal

Averías

2 0,20 0,15 0,10 0,453 0,12 0,07 0,05 0,244 0,04 0,10 0,02 0,165 0 0,05 0,10 0,15

Marginal 0,36 0,37 0,27 1,00

fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5

Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2

+1//8(160-137,5)2 =

Ejercicio