Tabla de Contenidos An´alisis Exploratorio de...

Javier Roca Pardiñas mail: [email protected]

Departamento de Estatística e I.O. Universidade de Vigo

Analisis Exploratorio de DatosIntroduccion. Analisis descriptivo unidimensional

Javier [email protected]

Dpto. de Estatıstica e I.O.

Universidade de Vigo

J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 1 / 74



Tabla de Contenidos

1 Introduccion

2 Poblacion y Muestra

3 Variables CualitativasTablas de FrecuenciasRepresentaciones Graficas

4 Variables Cuantitativas DiscretasTablas de FrecuenciasRepresentaciones graficas

5 Estudio de Variables ContinuasRepresentaciones graficasMedidas de Posicion y DispersionDiagrama de Cajas. Datos atıpicos




Introduccion

Se puede definir la estadıstica como la ciencia de los “datos”, que generalmente sonobtenidos mediante la observacion reiterada de un experimento de interes.

Experimento

Un experimento es un proceso por el que se obtiene una observacion. Los experimentosse pueden clasificar en:

experimentos deterministas: es aquel qe realizado repetidas veces en condiciones

identicas proporciona siempre el mismo resultados.

Por ejemplo, si tomamos una piedra y la soltamos a una determinadaaltura estamos seguros de que caera.

experimentos aleatorios: en este caso se pueden establecer todos los posiblesresultados, pero no se puede predecir un resultado concreto.

Por ejemplo, cuando se lanza una moneda, solo hay dos posiblesresultados (cara o cruz), pero no se puede predecir cual de los dosresultados ocurrira. Dependera del “azar”.




Idea intuitiva de probabilidad

Como ya se ha comentado en los experimentos aleatorios no es posible predecir losvalores del experimentos. Sin embargo, en muchas ocasiones se podra determinar elmodelo probabilıstico que rige el experimento.

La probabilidad es un numero, entre 0 y 1, asociado a la verosimilutud de que ocurra unsuceso.

La probabilidad es 0 cuando el suseso nunca ocurre.

La probabilidad es 1 cuando el susceso siempre ocurre




Ejemplos

Los modelos probabilıstico que rigen el lanzamiento de una moneda y el numero de carasen tres lanzamientos son respectivamente:

resultado probabilidad

cara 0.5cruz 0.5

Cuadro: lanzamiento de una moneda

resultado probabilidad

0 1/81 3/82 3/83 1/8

Cuadro: numero de caras en 3 lanzamientos




Metodologıa en ciencias experimentales

El metodo de trabajo habitual en las ciencias experimentales incluye la elaboracion demodelos que permitan la explicacion de un determinado fenomeno.

Los modelos deben ser verificados posteriormente a partir de la observacionexperimental que dara lugar a la obtencion de datos.

En este sentido, la Estadıstica es una “ciencia transversal”que permitira lainterpretacion de datos empıricos obtenidos en otros campos de investigacion:

1 medicina,

2 epidemiologıa,

3 neurociencia,

4 biologıa,

5 medioambiente,

6 ...




Historia

La Estadıstica actual es el resultado de la union de dos disciplinas que evolucionaronindependientemente hasta el siglo XIX:

1 La recopilacion de datos y elaboracion de estadısticas es una actividad antiquısima.Ası, la Estadıstica o Ciencia del Estado, se remonta a la antiguedad y surge delinteres de los gobiernos por inventariar de una forma mas o menos regular lapoblacion y las riquezas existentes en su territorio.

2 El calculo de probabilidades constituye la segunda raız de la Estadıstica Moderna,incorporandose a partir del siglo XVII como un importante instrumento de analisispara el estudio de fenomenos economicos y sociales y en general para el estudio defenomenos cuyas causas son demasiado complejas para su posible analisisdeterminıstico.

3 De la union de estas disciplinas aparece mas recientemente la EstadısticaInferencial que permite obtener conclusiones generales (a una poblacion) a partirde resultados empıricos (muestra)




Estadıstica Descriptiva y Estadıstica Inferencial

La Estadıstica actual se compone de dos grandes ramas:

1 Estadıstica Descriptiva: son un conjunto de tecnicas orientadas a extraerinformacioin de un conjunto de datos. Para ello se utilizaran tablas, medidasestadısticas (media, varianza,...) y procedimientos graficos.

2 Estadıstica Inferencial: Su objetivo es obtener informacion sobre el modelo

probabilıstico que subyace del experimento aleatorio del que se han obtenido losdatos.

Por ejemplo, la inferencia estadıstica aborda cuestiones como la quesigue: Si al lanzar una moneda 10 veces se han obtenido solo 4 caras¿se puede decir que la moneda esta trucada

Esta materia se centrara en la Estadıstica Descriptiva tambien llamada modernamenteAnalisis de Datos.




Tabla de Contenidos

1 Introduccion








Poblacion

El objectivo de la Estadıstica Descriptiva es la toma de informacion sobre loselementos, llamados individuos, de un cierto colectivo llamado poblacion.

Ejemplos de poblaciones:

alumnos matriculados en una universidad.

habitantes de un paıs.

coches hechos en una fabrica.

arboles de un bosque, ...




Variable estadıstica

Cada una de las caracterıstica de interes de los individuos de una poblacion se conocecomo varible estadıstica. Las variables se suele denotar por letras mayusculas: X, Y , ...

EJemplos

X=“sexo”

Y=”no de hijos”

Cada uno de los posibles valores con los que se manifiesta una varible se denominanmodalidades.

EJemplos

la variable X=“sexo” presenta dos modalidades, que son “hombre” y “mujer”

la variable Y=”no de hijos” puede presentar las modalidades 0, 1, 2, . . .




Tipos de variables

Dependiendo de la naturaleza de las modalidades:

Cualitativas: las modalidades son cualidades no medibles

Ejemplos: sexo, nacionalidad, marca de un ordenador,...

Cuantitativas: las modalidades son cantidades numericas

Ejemplos: edad, peso, duracion de una pieza, ...

Dependiendo del numero de posibles valores:

Discretas: no finito o infinito numerable de valores distintos

Ejemplos: no de hijos, no de llamadas a una centralita de telefono, ...

Continuas: toman valores en un intervalo de la recta real.

Ejemplos: peso, tiempo de respuesta de un servidor, ...




Censo y Muestra

En los estudios estadısticos de una cierta variable X sera necesario obtener informacionde dicha variable en la poblacion de estudio. La informacion que interesa obtener de lapoblacion suele ser algun “resumen”de X:

valor medio de X (peso medio, salario medio,...),

proporcion de unidades que poseen un cierto atributo (proporcion de fumadores,proporcion de personas con acceso a internet,...), ...

Existen dos estrategias posibles para la recopilacion de datos:

Examinar todas las unidades de la poblacion, es decir, realizar un censo, o

Examinar un subconjunto de la poblacion, denominado muestra, seleccionadoescogido “adecuadamente”para que los resultados obtenido sean extrapolables atoda la poblacion.

Esta claro, que con el primer metodo se pueden describir perfectamente la variables bajoestudio, mientras que mediante el segundo se extrapolan las conclusiones obtenidas en lamuestra a la poblacion (inferencia).




Motivos para la realizacion de un muestreo

Es evidente que la inferencia siempre supone un riesgo, por lo que cabrıa preguntarse lasrazones de la amplia utilizacion de las “muestras” frente a la “seguridad” que supone uncenso.

Existen causas que pueden hacer ventajoso el muestreo, como su costo reducido, mayorrapidez y mayor exactitud. Pero, ademas, hay ocasiones en las que no queda otrasolucion que la eleccion de una muestra debido principalmente a que:

1 La poblacion es tan grande que excede las posibilidades del investigador, tantoeconomicas como limitaciones temporales (por ejemplo la poblacion se destruyeantes de que se puedan investigar).

2 La poblacion es suficientemente homogenea como para que cualquier muestrade una buena representacion.

3 El proceso de medida o investigacion es destructivo, como ocurre al consumir uncierto artıculo para juzgar su calidad.




Ejemplo 1

Considerese un estudio orientado a conocer el porcentaje de espanoles que tieneacceso a internet.

La poblacion es de mas de 40 millones de personas, y es obvio que obtener informacionde toda la poblacion supone un gran esfuerzo en varios sentidos:

tiempo necesario, y coste economico (se necesitarıa contratar a muchosencuestadores)

dificulad de llegar a todos y cada uno de los espanoles (gente de viaje fuera delpaıs, gente enferma, etc.)

Por tanto, debido a los motivos anteriores, sera conveniente entrevistar a una ciertaparte de la poblacion, una muestra, elegida convenientemente para poder extraerdespues conclusiones a toda la poblacion.




Ejemplo 2

Considerese ahora un estudio en el que interesa la duracion media de una determinadamarca de pilas. En este caso la problematica es diferente al caso anterior:

Para poder estudiar la duracion de una pila, se debera usar hasta que se gaste, lo quenos impide volver a usar la pila.

Es decir, de alguna manera se “destruye” este elemento de la poblacion. Si se quisieseprobar todas y cada una de las pilas, nos quedarıamos sin ellas.

En este caso, de nuevo sera conveniente estudiar solo un conjunto de esas pilas y luegoextraer conclusiones mas generales a partir del conjunto que hemos estudiado.




Eleccion de la muestra

Por las razones anteriores, en muchos casos es conveniente el uso de muestras, pero paraque podamos extraer conclusiones, es importante que elijamos bien las muestras paranuestros estudios.Por ejemplo, para el caso de el acceso a internet de los espanoles:

elegir a 10 personas de 40 millones es insuficiente, no es representativo.

tampoco sera correcto considerar informacion de personas de Madrid, o elegir apersonas jovenes, ....

En el proceso de muestreo se debera tener en cuenta varios aspectos:

1 El metodo de seleccion de los individuos de la poblacion (tipo de muestreo que seva a utilizar).

2 El tamano de la muestra

3 El grado de fiabilidad de las conclusiones que vamos a presentar, es decir, unaestimacion del error cometido.




Software Estadıstico

El objetivo de la estadıstica descriptiva es proporcionar procedimientos para organizar,resumir, presentar graficamenente y analizar informacion contenida en una muestraX1, . . . , Xn de n individuos de una variable de interes X.

Las posibilidades computacionales que presentan los ordenadores actuales, con una grancapacidad de calculo, hace que se puedan automatizar los procesos numericossubyacecentes a los metodos estadısticos. Por lo tanto, la posibilidad de disponer deapoyo informatico es muy importante para que los metodos estadısticos puedan seraplicados directamente en bases de datos reales con tamanos muestrales elevados.

Existen multitude de programas y paquetes informaticos con modulo estadısticos: R,Excel, SPSS, S-Plus, Matlab, ...

En esta materia (y en todo el POP) se utilizara el paquete estadıstico R.




¿Que es R?

R es un lenguaje derivado del S (Bell Labs.) con implementaciones para

manipulacion de datos

calculo matricial

analisis grafico

R Puede ser utilizado como:

Paquete estadıstico: Las principais tecnicas estadısticas y su correspondienteanalisis grafico estan implementadas

Lenguaje de programacion:

Software Libre con codigo fuente de libre accesoCreacion y modificacion de nuevas funcionesAdemas, es posible compartir informacion (funciones, datos, ...) conotros usuarios a traves de paquetes.

El programa R esta disponible para los principales sistemas operativos ( Windows,Linux, MacOS, etc.), y puede ser decargado en http://www.r-project.org/




1 Introduccion








Tablas de Frecuencias

El estudio de la distribucion de frecuencias tiene por objeto la construccion de tablas defrecuencias que se pueden utilizar para una mejor presentacion e interpretacion de losdatos

Ejemplo1 - Titanic

El fichero titanic.txt recoge informacion sobre el naufragio del buque Titanic:

clase: primera, segunda, tercera, tripulacion.

sexo: hombre, mujer.

edad: variable binaria con posibles valores: nino, adulto.

superviviente: si,no.




Titanic

Codigo R

> datos<-read.table(file="Titanic.txt",header=T)

> datos[1:5,]

clase sexo edad superviviente

1 tercera hombre ni~no no





> attach(datos)

> levels(clase)

[1] "primera" "segunda" "tercera" "tripulacion"

> levels(sexo)

[1] "hombre" "mujer"

> levels(edad)

[1] "adulto" "ni~no"

> levels(superviviente)

[1] "no" "si"




Frecuencias

Sea X una variable cualitativa con k posibles modalidades o clases C1, . . . , Ck.

A partir de una muestra de n observaciones X1, . . . , Xn de la variable X, se define paracada una de las posibles modalidades Cj :

frecuencia absoluta de Cj (se denota como nj): numero de obversaciones de lamuestra que presenta dicha modalidad

frecuencia relativa de Cj (se denota como fj): proporcion de individuos quepresentan una determinada modalidad y que viene dada por el cociente fj = nj/nentre la frecuencia absoluta y el total de individuos.

clase frecuencia absoluta frecuencia relativa

primera 325 14.8%segunda 285 12.9%tercera 706 32.1%

tripulacion 885 40.2%

2201 100.0%

Cuadro: Tabla de frecuencias de la variable “clase”




Titanic

Codigo R

> datos<-read.table("titanic.txt",header=T)

> attach(datos)

> n=length(clase)

> nj=table(clase)

> nj

clase

primera segunda tercera tripulacion

325 285 706 885

> fj=nj/n

> fj

clase

primera segunda tercera tripulacion

0.1476602 0.1294866 0.3207633 0.4020900




1 Introduccion








Representaciones Graficas

Con el fin de comunicar rapidamente una imagen visual de los datos, se representan lasfrecuencias mediante distintos tipos de graficas.

A continuacion se relacionan los tipos de representacion mas utilizados que convieneconocer para elegir el mas adecuado a cada caso.

Diagrama de Barras

Polıgono de Frecuencias

Grafivo de Puntos

Grafico de Sectores




Diagrama de barras

Para cada modalidad Cj , se representa un rectangulo cuya altura coincide con lafrecuencia (nj) o relativa (fj).

primera segunda tercera tripulación

diagrama de barras de clase

frecuencia

absolu

tas

0200

400

600

800

primera segunda tercera tripulación

diagrama de barras de clase

frecuencia

rela

tiva

s

0.0

0.1

0.2

0.3

0.4




Polıgono de frencuencias

De manera similar se obtiene el polıgono de frecuncias:

05

10

15

polígono de frecuencias de clase

ocupantes

frecuencia

absolu

ta

1 2 3 4 5

0.0

0.1

0.2

0.3

polígono de frecuencias de clase

ocupantes

frecuencia

rela

tiva

1 2 3 4 5




Grafico de puntos

Otra alternativa es el grafico de puntos, que es como el polıgono de frecuencias salvoque no se conectan las frecuencias con lıneas.

1

2

3

4

5

2 4 6 8 10 12 14

gráfico de puntos de clase




Grafico de sectores

Se descompone un cırculo en sectores de area proporcional a la frecuencia de lamodalidad correspondiente.

1

2

3

4

5

gráfico de sectores de clase




Codigo R

Los graficos anteriores han sido obtenidos son el siguiente codigo:

>par(mfrow=c(1,2))

>barplot(nj,main=’diagrama de barras de clase’,

ylab="frecuencia absolutas")

>barplot(fj,main=’diagrama de barras de clase’,

ylab="frecuencia relativas")

>par(mfrow=c(1,2))

>plot(nj,type=’l’,main="polıgono de frecuencias de clase",

ylab="frecuencia absoluta")

>plot(fj,type=’l’,main="polıgono de frecuencias de clase",

ylab="frecuencia relativa")

>dotchart(nj,main=’grafico de puntos de clase’)

>pie(nj,col=rainbow(6),main=’grafico de sectores de clase’)




1 Introduccion








Tablas de Frecuencias

Sean X1 . . . , Xn una muestra de la variable X cuantitativa discreta con k posiblesmodalidades C1, . . . , Ck ordenadas de forma creciente

C1 < C2 < . . . < CK

De forma analoga al caso de variables cualitativas, se define:

frecuencia absoluta de Cj (se denota como nj): numero de obversaciones de lamuestra que presenta dicha modalidad

frecuencia relativa de Cj (se denota como fj): fj = nj/n

Ademas, ahora se pueden definir frecuencias acumuladas: 1

frecuencia absoluta acumulada de Cj (se denota como Nj): numero deobversaciones que presenta dicha modalidad o alguna de las anteriores

Nj = n1 + . . .+ nj

frecuencia relativa acumulada de Cj (se denota como Fj):

Fj = Nj/n = f1 + . . .+ fj

1En las varibles cualitativas, como son las del ejemplo Titanic, no tienen sentido lasfrecuencias acumuladas ya que no es posible establacer orden en las modalidades.J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 33 / 74



Frecuencias. Propiedades

De las definiciones anteriores se obtiene la siguiente tabla

modalidad frecuencia frecuencia frec.absoluta. frec.relativaabsoluta relativa acumulada acumulada

C1 n1 f1 N1 F1

C2 n2 f2 N2 F2

......

......

...Cj nj fj Nj Fj

......

......

...Ck nk fk Nk = n Fk = 1

total n 1

Propiedades

0 ≤ nj ≤ n 0 ≤ fj ≤ 1 n1 + . . .+ nk = nf1 + . . .+ fk = 1 nj = Nj −Nj−1 fj = Fj − Fj−1




Ejemplo Trafico

En un estudio de trafico se ha recabado informacion acerca del numero de ocupantes enlos automoviles. Para ello se conto el numero de ocupantes en 40 automoviles.

1 3 2 2 3 1 1 2 2 1 1 4 3 1 3 2 3 2 2 21 2 5 1 3 1 2 1 3 1 4 1 1 3 4 2 2 1 1 4

obteniendose la tabla frecuencias

clase f.abs. f.rel. f.abs.acu. f.rel.acu.

1 15 0.38 15 0.382 12 0.30 27 0.683 8 0.20 35 0.884 4 0.10 39 0.985 1 0.03 40 1.00

40 1




Codigo R

Las tablas anteriores han sido obtenidas con el siguiente codigo:

> ocupantes<-c(1,3,2,2,3,1,1,2,2,1,1,4,3,1,3,2,3,2,2,2,

+ 1,2,5,1,3,1,2,1,3,1,4,1,1,3,4,2,2,1,1,4)

> n=length(ocupantes); nj=table(ocupantes); fj=nj/n;nj

ocupantes

1 2 3 4 5

15 12 8 4 1

> fj

ocupantes

1 2 3 4 5

0.375 0.300 0.200 0.100 0.025

> Nj=as.table(cumsum(nj)); Fj=as.table(cumsum(fj)); Nj

1 2 3 4 5

15 27 35 39 40

> Fj

1 2 3 4 5

0.375 0.675 0.875 0.975 1.000




1 Introduccion








Representaciones graficas (I)

Con las frecuencias obtenidas se pueden hacer resumenes graficos que se realizan deforma similar al caso de las variables cualitativas.

1 2 3 4 5

frecuencia absolutas

ocupantes

02

46

81

01

21

4

1 2 3 4 5

frecuencia relativas

ocupantes

0.0

00

.10

0.2

00

.30

1 2 3 4 5

frecuencia absolutas acumuladas

ocupantes

01

02

03

04

0

1 2 3 4 5

frecuencia relativas acumuladas

ocupantes

0.0

0.2

0.4

0.6

0.8

1.0

1

2

3

4

5

ocupantes

Figura: Graficos para ocupantes




Codigo R

Los graficos anteriores se obtienen con el siguiente codigo:

>pdf(file="plots.pdf",width=12)

>nf <- layout(matrix(c(1,2,5,3,4,5), 2, 3, byrow=TRUE), respect=TRUE)

>barplot(nj,main="frecuencia absolutas",xlab=’ocupantes’)

>barplot(fj,main="frecuencia relativas",xlab=’ocupantes’)

>barplot(Nj,main="frecuencia absolutas acumuladas",xlab=’ocupantes’)

>barplot(Fj,main="frecuencia relativas acumuladas",xlab=’ocupantes’)

>pie(nj,col=rainbow(6),main=’ocupantes’)

>dev.off()




1 Introduccion








Tabla de Frecuencias. Variables Continuas

Cuando la variable en estudio es continua (o discreta con un numero elevado de valoresdistintos) toma tantos posibles valores como numero de observaciones y, por tanto, noes posible escribirlos todos ellos en una columna, como se hizo anteriormente.

Para tabular estos datos conviene agruparlos en unos cuantos intervalos y determinar elnumero de individuos que pertenecen a cada uno de ellos.

Tomar el intervalo como unidad de estudio, en lugar de cada valor de la variable, suponeuna simplificacion pero resulta una perdida de informacion. Por lo tanto, es importanteelegir un numero adecuado de intervalos que equilibre estos dos aspectos.




Ejemplo: Cacharros

El fichero cacharros.txt recoge datos recogidos en una fabrica de cacharros.

Hay 59 datos de 4 variables:

”tipo de cacharro’ (codificada con numeros del 1 al 4),

”diametro” (en cm.),

”tiempo de fabricacion” (en min.) y

”precio de venta” (en euros).




Ejemplo 3: Cacharros

Para hacer una tabla de frecuencias para la variable ”tiempo’, primero se discretizara enclases

clase frec. frec. fr.abs. fr.rel.absol. relat. acum. acum.

≤ 35 38 0.64 38 0.64(35,60] 15 0.25 53 0.90(60,85] 4 0.07 57 0.97> 85 2 0.03 59 1.00

59 1

Las frecuencias relativas y relativas acumuladas tambien se pueden expresar enporcentajes (64%, 25%, . . . )




Codigo R

> cacharros<-read.table("cacharros.txt",header=T)

> attach(cacharros)

> n=length(tiempo)

> (nj=table(cut(tiempo,breaks=c(-Inf,35,60,85,Inf))))

(-Inf,35] (35,60] (60,85] (85, Inf]

38 15 4 2

> (fj=nj/n)

(-Inf,35] (35,60] (60,85] (85, Inf]

0.64406780 0.25423729 0.06779661 0.03389831

> (Nj=cumsum(nj))

(-Inf,35] (35,60] (60,85] (85, Inf]

38 53 57 59

> (Fj=cumsum(fj))

(-Inf,35] (35,60] (60,85] (85, Inf]

0.6440678 0.8983051 0.9661017 1.0000000




Codigo R

Tabla de frecuencas con 5 clases> (nj=table(cut(tiempo,breaks=5)))

(11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]

29 20 7 2 1

> (fj=nj/n)

(11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]

0.49152542 0.33898305 0.11864407 0.03389831 0.01694915

> (Nj=cumsum(nj))

(11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]

29 49 56 58 59

> (Fj=cumsum(fj))

(11.9,31.4] (31.4,50.9] (50.9,70.5] (70.5,90] (90,109]

0.4915254 0.8305085 0.9491525 0.9830508 1.0000000




1 Introduccion








Histograma (I)

El histograma de un conjunto de datos es un grafico de barras que representan lasfrecuencias con que aparecen las mediciones agrupadas en ciertos intervalos y luegocontar cuantas observaciones caen en cada intervalos. Solo se utiliza con variablescontinuas, y cuando se dispone de una cantidad grande de datos.

Para cada clase, Cj se dibuja un rectanguloapoyado en el eje X cuya base sea elintervalo y cuya area sea proporcional a lafrecuencia nj a representar.

Por lo tanto, la altura (hj) quedadeterminada por el cociente nj/aj entre lafrecuencia nj y la amplitud aj del intervalo.

Histogram of tiempo

tiempo

Fre

qu

en

cy

20 40 60 80 100

05

10

15

20

>hist(tiempo)




Histograma

Los histogramas son muy utiles para apreciar la forma de la distribucion de los datos, sise escoge adecuadamente el numero de clases y su amplitud.

Sin embargo, la seleccion del numero de clases y su amplitud que adecuadamenterepresentan la distribucion puede ser complicado:

Un histograma con muy pocas clases agrupa demasiado las observaciones y

un histograma con muchas clases deja muy poscas observaciones en cada una deellas.

Ninguno de los dos extremos es apropidado.

Existen varias reglas para determinar el numero de clases. R por defecto selecciona elnumero de clases siguiendo el llamado metodo de Sturges.




Efecto del numero de clases

2 clases

tiempo

Fre

qu

en

cy

0 50 100 150

01

02

03

04

05

0

5 clases

tiempo

Fre

qu

en

cy

0 20 40 60 80 100 120

05

10

15

20

25

30

11 clases

tiempo

Fre

qu

en

cy

20 40 60 80 100

05

10

15

20

25 clases

tiempo

Fre

qu

en

cy

20 40 60 80 100

02

46

81

01

2

>par(mfrow=c(2,2))

>hist(tiempo,breaks=2,main="2 clases")

> hist(tiempo,breaks=5,main="5 clases")






Arbol de Tallo y Hojas

Otro grafico que puede ser utilizado para la representacion de variables continuas es elllamado arbol de tallo y hojas. Este tipo de grafico son faciles de realizar a mano, y sesolıan utilizar como una forma rapida (aunque igual no demasiado pulida) de viasualizarlos datos.

> stem(tiempo)

The decimal point is 1 digit(s) to the right of the |

1 | 23667788

2 | 01111123334446677899

3 | 01233444457

4 | 0344556899

5 | 3569

6 | 349

7 | 4

8 | 6

9 |

10 | 9




1 Introduccion








Medidas de Posicion y Dispersion

Hasta ahora se han mostrado, para una variable de interes X, distintas formas depresentar en forma de tablas y graficos una coleccion de datos de dicha variable

X1 . . . , Xn

A veces conviene reducir toda esta informacion en una o varias medidas resumen.Algunas de estas medidas son las que siguen a continuacion:

Medidas de Posicion

Media Muestral

Mediana

Cuantiles

Medidas de Dispersion

Varianza y Desviacion Tıpica

Rango y Rango Intercuartılico

Coeficiente de Variacion




Media Muestral

La media muestral se define como el promedio de los datos:

X =X1 + · · ·+Xn

n

Consumo de automovilesEl X=”Consumo de combustible (litros/100km a 90km/h)” de seis automoviles de lamisma marca ha sido de

6,7 6,3 6,5 6,5 6,4 6,6

obteniendose un consumo medio muestral de

X =6,7 + 6,3 + 6,5 + 6,5 + 6,4 + 6,6

6=

32,4

6= 6,5

> consumo<-c(6.7, 6.3, 6.5, 6.5,6.4, 6.6)

mean(consumo)

[1] 6.5




Mediana

La media aritmetica puede ser muy sensible a los valores extremos de la variable.

Diametro de un CilindroDiez medidas de la variable X=”diametro de un cilindro (en cm.)” fueron anotadas porun cientıfico como:

3.88 4.09 3.92 3.97 4.02 3.95 4.03 3.92 3.98 40.6

La media aritmetica de los valores anteriores es

X =3,88 + . . .+ 40,6

10= 7,636

Esta medida no representa la posicion central de los datos obtenidos ya que esta muyinfluenciada por el valor 40.6 que claramente un valor ”raro” con respecto al resto de losdatos obtenidos.




Mediana

Ante este tipo de situaciones sera conveniente utilizar otra medida mas robusta comopuede ser la mediana.

La mediana es aquel valor Me que divide a la poblacion en dos partes de igual tamano,la mitad son mayores que el y la otra mitad inferior a el.

Supuestos ordenados los datos de menor a mayor X1 ≤ . . . ≤ Xn, entonces

1 Si n es impar, la mediana coincide con el valor central.

2 si n es par, la mediana se calcula como la media de los dos valores centrales




Ejemplo. Diametro de un Cilindro (cont.)

Los diametros ordenados son:

3.88 3.92 3.92 3.95 3.97 3.98 4.02 4.03 4.09 40.6.

Como n = 10 es un numero par la mediana se calcula como la media de los dos valorescentrales situados en las posiciones 5 y 6

Me =3,97 + 3,98

2= 3,975

> diametro=c(3.88,4.09,3.92,3.97,4.02,3.95, 4.03, 3.92, 3.98, 40.6)

> mean(diametro)

[1] 7.636

> median(diametro)

[1] 3.975




Cuantiles (I)

Se define el cuantil de orden p con 0 < p < 1 como aquel valor xp que divide a dichamuestra en dos partes de tal manera que una proporcion p de la muestra es menor quedicho valor y el resto mayor.

Sea la muestra ordenada X1 ≤ X2 . . . ≤ Xn. Si p es multiplo de de 1/(n− 1) el cuantilxp es el dato situado en la posicion 1 + (n− 1)p. En otro caso se interpola paradeterminar el valor de xp.


La posicion del cuantil 0.25 de los 10 diametros ordenados

3.88 3.92 3.92 3.95 3.97 3.98 4.02 4.03 4.09 40.6

es1 + (10− 1) · 0,25 = 3,25

El diametro que se encuentra en la tercera posicion es 3.92 y el diametro en la cuartaposicion es 3.95. Por lo tanto el cuantil 0.25 se obtiene como

x0,25 = 3,92 + 0,25 · (3,95− 3,92) = 3,9275




Cuantiles (II)


De igual modo, la posicion del cuantil 0.45 es

1 + (10− 1) · 0,45 = 5,05

resultandox0,45 = 3,97 + 0,05 · (3,98− 3,97) = 3,9705

Se distinguen tres tipos de cuantiles que dividen a la poblacion en 4, 10 o 100 partes:

1 Cuartiles: son los cuantiles de orden 0.25, 0.50 y 0.75 (dividen a muestra en 4

partes de igual frecuencia).

Normalmente se denotan por Q1, Q2 e Q3 y se denominan primer,segundo y tercer cuartil muestral, respectivamente.El segundo cuartil muestral coincide con la mediana muestral.

2 Deciles: son los cuantiles muestrales de orden 0.1,. . . ,0.9

3 Centiles: son los cuantiles muestrales de orden 0.01,. . . ,0.99




Codigo R

Los cuantiles se obtienen en R con la funcion quantile()

> quantile(diametro,probs=c(0.25,0.45))

25% 45%

3.9275 3.9705

> quantile(diametro)

0% 25% 50% 75% 100%

3.8800 3.9275 3.9750 4.0275 40.6000




Varianza y Desviacion Tıpica

La varianza muestral es la medida de dispersion por excelencia

s2 =(X1 − X)2 + . . .+ (Xn − X)2

n

La varianza puede ser calculada de de forma mas ”rapida” utilizando la expresionequivalente

s2 =X2

1 + . . .+X2

n

n− X2

Las unidades de s2 son las mismas que las de X al cuadrado. Para mantener la mismaunidad de medida de las observaciones, se define la desviacion tıpica muestral de unconjunto de dados como la raız cuadrada positiva de la varianza:

s =√s2 =

√

(X1 − X)2 + . . .+ (Xn − X)2

n




Ejemplo: Consumo de Automoviles (cont.)

Con anterioridad se habıa calculado la media muestral del consumo de automoviles

X =6,7 + 6,3 + 6,5 + 6,5 + 6,4 + 6,6

6=

32,4

6= 6,5

La varianza muestral del consumo es

s2X =(6,7− 6,5)2 + . . .+ (6,6− 6,5)2

6=

0,1

6= 0,0167

Esta cantidad puede ser calculada de forma equivalente como

s2X =6,72 + . . .+ 6,62

6− 6,52 =

253,6

6− 6,52 = 0,0167

La desviacion tıpica muestral de los datos es

sX =√

0,0167 = 0,129




Cuasi Varianza Muestral

Se sabe que la varianza muestral s2 tiende a dar valores mas bajos de los esperados. Poreste motivo, en la practica, se suelem utilizar la cuasivarianza S2 y cuasidesviacion tıpicaS muestrales:

S2 =n

n− 1s2 =

(X1 − X)2 + · · ·+ (Xn − X)2

n− 1y S =

√S2

Consumo de AutomovilesLa cuasi-varianza y cuasi-desviacion tıpica muestral de la variable consumo son

S2 =(6,7− 6,5)2 + . . .+ (6,6− 6,5)2

5=

0,1

5= 0,02 y S =

√

0,02 = 0,1414214

> var(consumo)

[1] 0.02

> sd(consumo)

[1] 0.1414214




Rango

La medida de dispersion mas simple es el rango o recorrido que corresponde a ladiferencia entre el mayor valor observado de la variable y el menor.

El rango de un conjunto de datos en Excel se calcula con la funcion

=max(datos)-min(datos)

Consumo de Automoviles (cont.)

El rango de consumos es

rango = 6,7− 6,3 = 0,4

> (maximo=max(consumo))

[1] 6.7

> (minimo=min(consumo))

[1] 6.3

> (rango=maximo-minimo)

[1] 0.4

>

> (rango=range(consumo)) # de forma equivalente

[1] 6.3 6.7

> rango[2]-rango[1]

[1] 0.4J. Roca-Pardinas ([email protected]) Analisis Exploratorio de Datos 63 / 74



Rango Intercuartılico

Se define el rango intercuartılico como la diferencia entre el tercer y el primer cuartil. Esdecir, es la longitud del intervalo donde se encuentran el 50% de los datos centrales.

RI = 3o cuartil− 1o cuartil = Q3 −Q1


El rango de consumos es

RI = 6,575− 6,425 = 0,15

> (Q=quantile(consumo,probs=c(0.25,0.75)))

25% 75%

6.425 6.575

> (RI=Q[2]-Q[1])

75%

0.15




Coeficiente de Variacion (I)

Otra medida que se suele utilizar es el coeficiente de variacion (CV). Es una medida dedispersion relativa de los datos y se calcula dividiendo la desviacion tıpica muestral porla media y multiplicando el cociente por 100.

CV = 100S

|X|


El CV de la variable consumo es

CV = 1000,1414

6,50= 2,176%

CV<-function(X){100*sd(X)/abs(mean(X))}

> CV(consumo)

[1] 2.175713




Coeficiente de Variacion (II)

La utilidad del CV estriba en que permite comparar la dispersion o variabilidad de dos omas grupos.

Peso vs. TensionSe ha registrado el peso X (en kg.) y la tension arterial Y (en mmHg.) de 5 pacientes

peso 70 60 56 83 79

tension 150 170 135 180 195

obteniendose

un peso medio X = 69, 6kg. con desviacion tıpica SX = 11,67, y

una tension media de Y = 166 mmHg con desviacion tıpica SY = 23,82.

¿que distribucion es mas dispersa, el peso o la tension arterial?




Peso vs. Tension

Si se comparan las desviaciones tıpicas se observa que la desviacion tıpica de la tensionarterial es mucho mayor. Sin embargo, no se pueden comparar dos variables que tienenescalas de medidas diferentes, por lo que se calculan los coeficientes de variacion:

CV de peso = 10011,67

69,6= 16,77%

CV de tension = 10023,82

166= 14,35%

A la vista de los resultados, se observa que la variable peso tiene una mayor dispersion.

> mean(peso); mean(tension)

[1] 69.6

[1] 166

> sd(peso);sd(tension)

[1] 11.67476

[1] 23.82226

> CV(peso);CV(tension)

[1] 16.77408

[1] 14.35076




1 Introduccion








Diagrama de Cajas. Datos atıpicos

Los diagramas de caja son representacionesbasadas en los cuartiles y que permiten:

mostrar las principales caracterısticasde la muestra:

posicion, dispersion, asimetrıa,....

identificar la presencia deobservaciuones atıpicas (valoresmissing)

20 40 60 80 100

tiempo

>cacharros<-read.table(file=cacharros.txt’,header=T)

>boxplot(tiempo,horizontal=T,main=’tiempo’)




Construccion (I)

Para su construccion se procede del siguiente modo:

1 Se dibuja una caja horizonatal que comienza en el primer cuartil Q1 y termina enel tercer cuartil Q3, con una lınea vertical en la mediana Me.

2 A continuacion se trazan dos lıneas verticales situadas respectivamente a laizquierda de Q1 y derecha Q3 a una distancia de 1,5RI. Estas constituyen lasbarreras interiores.

3 Despues se repite la misma operacion a una distancia de 3RI y estas reciben elnombre de barreras exteriores.

4 Finalmente, se traza un segmento desde cada lado de la caja al dato mas extremoque aparezca dentro de las barreras interioresc

El resultado de esta construccion aparece en la siguiente figura:




Construccion (II)

A continuacion se muestra el boxplot construido a partir de los siguientes datos

x<-c(-180,-174,52,600,73,-154,108,-74,31,-450,183,-174,-131,

-67,17,165,-21,-45,4,-33,-45,4,-540)

-500 0 500

atípicos

extremos

atípicos

extremos

Q1 Me Q3

RI

L. interior

1.5RI

L. interior

1.5RI

L. exterior

3RI

L. exterior

3RI




Datos atıpicos(I)

Como ya se ha comentado este tipo de graficos permiten la deteccion de datos atıpicos:

La caja del diagrama contiene la mitad central de los datos y cada una de las otrasdos cuartas partes queda a uno de los lados de las caja.

A las observaciones que estan fuera de las barreras interiores (area sombreada enazul) se les llama datos atıpicos. En particular los que caen fuera de las barrerasexteriores (area sombreada en rojo) son los datos atıpicos extremos.

Este tipo de datos requieren una atencion especial:

bien porque corresponden a errores de medida,o bien porque contienen informacion relevante de la variable en estudio.

En cualquier caso sera muy importante la deteccion de dichos valores




Datos atıpicos(II)

Con los datos anteriores los valores atıpicos son -450, -540 y 600, siendo este ultimo unatıpico extremo

> x<-c(-180,-174,52,600,73,-154,108,-74,31,-450,183,-174,

-131,-67,17,165,-21,-45,4,-33,-45,4,-540)

> boxplot(x)

> Q=quantile(x,probs=c(0.25,0.5,0.75))

> Q1=as.numeric(Q[1]); Q2=as.numeric(Q[2])

> Q3=as.numeric(Q[3]);RI=Q3-Q1

> #atıpicos

> x[x<Q1-1.5*RI] #inferiores

[1] -450 -540

> x[x>Q3+1.5*RI] #superiores

[1] 600

> #atıpicos extremos

> x[x<Q1-3*RI] #inferiores

numeric(0)

> x[x>Q3+3*RI] #superiores

[1] 600

−400 −200 0 200 400 600




Histograma vs. Boxplot

A continuacion se comparan los histogramas y boxplots obtenidos con las variables delejemplo de cacharros.

Histogram of tiempo

tiempo

Fre

quency

20 40 60 80 100

05

10

15

20

20 40 60 80 100

Histogram of diametro

diametro

Fre

quency

10 20 30 40 50 60 70

05

10

15

20

20 30 40 50 60

Histogram of precio

precio

Fre

quency

0 50 150 250

05

10

15

20

25

50 100 150 200 250

>par(mfcol=c(2,3))

>hist(tiempo)

>boxplot(tiempo,horizontal=T)

>hist(diametro)

>boxplot(diametro,horizontal=T)

>hist(precio)

>boxplot(precio,horizontal=T)


Tabla de Contenidos An´alisis Exploratorio de...

Documents

Transcript of Tabla de Contenidos An´alisis Exploratorio de...