Download - Trabajo de Tecnicas Multivariadas Final

Transcript

8/3/2019 Trabajo de Tecnicas Multivariadas Final

1/35

CAPITULO I:

APROXIMACIN HISTRICO DEL ANALISIS MULTIVARIADO.

Los orgenes del anlisis multivariable se encuentran en las primerasgeneralizaciones de la correlacin y regresin, en donde se establecieron las

primeras ideas del anlisis de componentes principales (Pearson; 1901 y

Spearman; 1904). Sin embargo, el establecimiento definitivo de la mayora del

anlisis multivariable se ubica en los aos treinta con los estudios de Hotelling

(1931, 1933); Willes (1932, 1935); Fisher (1935, 1936); Mahalanobis (1936) y

Bartlett (1939). En cuanto a la maduracin de los fundamentos del anlisis

multivariable, este se debe a los pioneros de la estadstica moderna que inicioen Inglaterra (Galton, Pearson, Fisher, Snecodor) Posteriormente, el centro de

gravedad se desplaz hacia los Estados Unidos (Hotelling, Wilks, Bartlett),

aunque sin dejar de considerar las aportaciones que se dieron con el

nacimiento de otras escuelas tan importantes como la escuela india

(Mahalanobis, Roy, Krishnaah), la escuela francesa surgida en los aos

sesenta (Benzecri, Lebart, Morineau, Fenelon, etc.) y la escuela sueca surgida

en los aos setenta (Jreskog y Srborn).

A partir de Spearman (1904) se estableci el inicio del anlisis factorial

cuando en su estudio sobre la inteligencia distingui un factor general con

respecto a un cierto nmero de factores especficos. Este autor haba

considerado como antecedentes tericos las tcnicas de regresin lineal

propuestas por Galton (1888). Por otra parte, Pearson (1901) propuso el

mtodo de componentes principales como un primer paso previo para llevar a

cabo las estimaciones del anlisis factorial. Posteriormente, Hotelling (1933)

aplic el mtodo de extraccin de factores mediante la tcnica de componentes

principales, la cual hasta nuestros das se ha confirmado como una de las ms

aceptadas entre los diversos trabajos multivariables. La relacin entre las

correlaciones y las saturaciones de las variables en los factores fue expuesta

por Thurstone (1947). Este autor introdujo la idea de la estructura simple, as

como la teora y el mtodo de las rotaciones factoriales ortogonales y oblicuas

con el objetivo de obtener una estructura factorial ms sencilla para facilitar la
8/3/2019 Trabajo de Tecnicas Multivariadas Final

2/35

interpretacin de los factores. Otra aportacin importante relacionada con este

tipo de anlisis fue la de Keiser (1958), quien desarroll una serie de

procedimientos matemticos mediante el mtodo varimax para llevar a cabo las

rotaciones ortogonales, pues antes de sus trabajos dichas rotaciones

nicamente eran grficas.

Bizquerra (1989) y Prieto (1985) indican que el anlisis multivariable

distingue entre mtodos predictivos y mtodos reductivos. Los primeros

identifican a un grupo de variables independientes (predictoras), un criterio o

variable dependiente, y en ocasiones a un grupo de variables aleatorias

(intervinientes) cuyo efecto se desea mantener bajo control. Sin embargo, el

problema radica en especificar las dependencias o correlaciones significativas

entre los dos primeros tipos de variables, tal es el caso de la regresin mltiple.

Con respecto a los mtodos reductivos, estos analizan las interdependencias

entre todas las variables con el objeto de reducir al mnimo el nmero de

variables necesarias para describir la informacin relevante contenida en las

observaciones.

Una clasificacin tambin utilizada para los modelos multivariables es la

que los divide en: a) mtodos descriptivos o exploratorios (no se establece

ninguna hiptesis previa); y b) mtodos explicativos o confirmatorios (se basan

en un marco terico para fundamentar y validar empricamente una hiptesis).

Otra importante clasificacin es la que divide a los mtodos en: a) mtodos

reductivos (anlisis factorial, componentes principales, correlacin cannica,

anlisis de clusters, anlisis de correspondencias); y b) mtodos de

dependencia (anlisis de la varianza, anlisis de la covarianza, regresinmltiple, anlisis discriminante, anlisis de probabilidad condicional Logit y

anlisis de probabilidad condicional Probit).

Con el desarrollo de la Informtica, se ha hecho posible desarrollar e

implementar programas estadsticos que contienen las tcnicas multivariantes;

as, todos los programas de este tipo contienen una parte importante dedicada

a estas tcnicas (e.g. se puede ver en R, STATGRAPHICS, SPSS, ...).
8/3/2019 Trabajo de Tecnicas Multivariadas Final

3/35

En definitiva, el desarrollo terico surgido en el siglo XX junto con las

aplicaciones crecientes de la estadstica en la vida econmica de los pases

han hecho de las tcnicas del Anlisis Multivariante junto con el Anlisis de

Regresin, uno de los instrumentos ms empleados para el estudio del entorno

ambiental, econmico y social.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

4/35

CAPITULO II

APLICACIONES DEL ANLISIS MULTIVARIADO EN

PSICOLOGA

Las tcnicas de anlisis de datos ms frecuentemente utilizados por los

psiclogos en sus investigaciones fueron creadas por un pequeo grupo de

estadsticos ingleses: Francis Galton, Karl Pearson, William Gosset (Student), Ronald

Fisher y Egon Pearson (hijo de Karl Pearson); este ltimo (Egon Pearson) trabaj en

colaboracin con el matemtico polaco Jerzy Neyman, quien vivi por un tiempo en

Inglaterra y ms tarde se estableci en Los Estados Unidos de Amrica. Las ideas de

correlacin y regresin provienen de Galton; el primer Pearson, adems de producir lafrmula para el clculo de la correlacin, es el creador de laprueba de la ji cuadrada.

Gosset cre la prueba ten su forma original, Fisher desarroll an ms la prueba t

bautizndola con el nombre de "la t de Student"y no la t de Gosset, porque ste,

debido a los trminos del contrato laboral suscrito entre l y la cervecera Guinness de

Dubln, Irlanda, slo poda firmar con su verdadero nombre los informes y documentos

preparados para la empresa, y por esa razn usaba el pseudnimo de "Student" para

firmar sus artculos sobre estadstica.

Pero el legado ms controversial de Fisher es la prueba de la hiptesis nula

como la estrategia de inferencia inductiva que debe guiar el anlisis estadstico de los

datos en una investigacin cientfica. Es en este punto, donde han intervenido Egon

Pearson y Jerzy Neyman (de aqu en adelante, Pearson & Neyman), contradiciendo la

posicin de Fisher y generando un debate, desconocido para la mayora de

estadsticos y psiclogos, que por medio de los libros de texto hemos heredado una

estrategia de anlisis que aparentemente ha disuelto la contradiccin. (Aron & Aron,

2001; Gigerenzer et al., 2004).

El investigador formula la hiptesis nula. En trminos generales, la hiptesis

nula afirma que no existe ninguna relacin real o verdadera entre las variables

independiente y dependiente de una investigacin, y que, por tanto, si alguna relacin

es observada entre dichas variables en los datos de la investigacin, la misma podra

explicarse como resultado del azar. Es por eso que a la hiptesis nula se le llama la

hiptesis del azar. Dicho de otra manera, la hiptesis nula expresa que si se repitiera

la investigacin un nmero suficiente de veces, siempre con una muestra distintaextrada aleatoriamente de la misma poblacin, las diferencias en la variable
8/3/2019 Trabajo de Tecnicas Multivariadas Final

5/35

dependiente entre los grupos de la investigacin tenderan a neutralizarse y

terminaran siendo cero. El razonamiento implcito en la hiptesis nula es el siguiente:

Suponiendo que el resultado de una investigacin particular constituye una seleccin

al azar de entre una multitud de resultados posibles, el investigador se pregunta cul

sera la probabilidad de obtener por azar la diferencia que l ha encontrado entre los

grupos de su investigacin.

Es obvio que la decisin sobre la hiptesis nula requiere de que se haya

establecido previamente un nivel de significacin estadstica, es decir, un criterio que

sirva de base a la decisin de rechazar o no rechazar la hiptesis nula. Al establecer

un criterio de decisin sobre la hiptesis nula, el investigador puede ponderar loserrores que podra cometer en su decisin sobre la hiptesis nula. Una primera forma

de error (se conoce como el error tipo I) consiste en rechazar una hiptesis nula

verdadera, es decir, descartar el azar como explicacin cuando los resultados podran

explicarse razonablemente con base en el mismo. Este es el error que comete el

investigador que ve ms lo que hay en los datos; es decir, el investigador concluye que

existe una relacin real o verdadera entre las variables independiente y dependiente

de la investigacin, cuando en realidad la relacin observada se puede explicar

razonablemente como resultado del azar. El llamado error tipo I es el error delinvestigador que se apresura a concluir a favor de su hiptesis de investigacin. Fisher

no habl de ningn otro error, pues la prueba de la hiptesis nula para l no era otra

cosa que un freno a la tendencia natural de un investigador a creer que hiptesis ha

sido confirmada por el simple hecho de que los resultados de la investigacin siguen la

misma direccin de la hiptesis.

En la estrategia de Fisher slo hay un error posible: rechazar una hiptesis nulaverdadera. Una segunda forma de error (se conoce como el error tipo II), introducida

por Egon Pearson y Jerzy Neyman consiste en no rechazar una hiptesis nula falsa,

es decir, no descartar el azar aun cuando ste no constituye una explicacin razonable

de los datos. Este es el error que comete el investigador que ve menos que lo que hay

en los datos; por miedo a rechazar incorrectamente el azar, el investigador puede

exponerse al riesgo de pasar por alto una relacin real o verdadera entre las variables

de su investigacin. Fueron Pearson y Neyman los que, al introducir un segundo tipo

de error, bautizaron como error tipo uno al error de que haba hablado Fisher.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

6/35

Segn Fisher, el nivel de significacin estadstica equivale a la magnitud del

riesgo que est dispuesto a correr el investigador, de cometer el error de rechazar una

hiptesis nula verdadera (el llamado error tipo I). Para la mayora de los propsitos, el

nivel de significacin previamente establecido suele ser de 0.05, aunque en reas de

investigacin ms rigurosas se trabaja con un nivel de significacin de 0.01.

Suponiendo que se trabaja con un nivel de significacin de 0.05, se rechazara la

hiptesis nula siempre que la probabilidad de explicar los resultados obtenidos en una

investigacin como si fueran obra del azar sea igual o menor que 0.05.

Es la perspectiva de Pearson y Neyman, para establecer el nivel de

significacin estadstica habra que atender al impacto de cada tipo de error en el

objetivo del investigador, y a partir de ah se decidira cul de ellos es preferibleminimizar. Pearson y Neyman llamaron alfa al error tipo I y beta al error tipo II; a partir

de este ltimo tipo de error, introdujeron el concepto de "poder de una prueba

estadstica", el cual se refiere a su capacidad para evitar el error tipo II, y est definido

por 1-beta, y en estrecha relacin con ste se ha desarrollado el concepto de "tamao

del efecto" que algunos han propuesto como sustituto de los valores p en los informes

de investigacin cientfica. (Cohen, 1990, 1994; Kraemer & Thiemann, 1987; Murphy &

Myors, 2004).

El tercer paso del llamado ritual de la prueba de significacin

estadstica consiste en la eleccin de la prueba estadstica que se utilizar para

someter a pruebala hiptesis nula. Hay dos clases de pruebas estadsticas: las

paramtricas y las no paramtricas. Se llama paramtricas a aquellas pruebas

estadsticas que exigen que los datos a los que se aplican cumplan con los siguientes

requisitos: que los valores de la variable dependiente sigan la distribucin de la curva

normal, por lo menos en la poblacin a la que pertenezca la muestra en la que se hizo

la investigacin; que las varianzas de los grupos que se comparan en una variable

dependiente sean aproximadamente iguales (homoscedasticidad, u homogeneidad de

las varianzas); y que la variable dependiente est medida en una escala que sea por lo

menos de intervalo, aunque este ltimo requisito no es compartido por todos los

estadsticos (McGuigan, 1993; Siegel, 1956). Cuando los datos cumplen con los

requisitos indicados, especialmente con los dos primeros, las pruebas estadsticas

paramtricas exhiben su mximo poder, es decir, su mxima capacidad para detectar

una relacin real o verdadera entre dos variables, si es que la misma existe. Las

pruebas paramtricas ms conocidas y usadas son la prueba t de Student, la prueba

F, llamada as en honor a Fisher, y el coeficiente de correlacin de Pearson,
8/3/2019 Trabajo de Tecnicas Multivariadas Final

7/35

simbolizado por r. Cuando estas pruebas estadsticas se aplican a datos que violan los

dos primeros de los requisitos sealados, pierden parte de su poder. Las pruebas

estadsticas no paramtricas, en cambio, no hacen a los datos ninguna de las

exigencias que les hacen las pruebas estadsticas paramtricas, por eso se les

denomina "pruebas estadsticas libres de distribucin". Las ms conocidas y usadas

de estas pruebas son la ji cuadrada de Pearson, la prueba de la probabilidad exacta

de Fisher, los coeficientes de contingencia de Pearson y Cramer, la prueba U de Mann

& Whitney, el coeficiente de correlacin de rangos de Spearman, y el coeficiente de

asociacin ordinal de Goodman y Kruskal (coeficiente gamma), (Conover, 1999;

Leach, 1979; Siegel, op. cit.). Todas estas pruebas poseen menos poder que las

pruebas paramtricas correspondientes, pero han demostrado ser muy tiles como

alternativas cuando no se considera apropiado el uso de pruebas paramtricas.

EJEMPLO

Sea X una variable aleatoria que representa la calificacin obtenida en la

prueba de conocimientos sobre educacin ambiental (escala vigesimal) de los

alumnos de la Facultad de Educacin, si la poblacin consta de 300 alumnos,

entonces: X1, X2, X3,..., X300.

Es una poblacin en trminos de variable aleatoria, que se lee as:La calificacin que ha obtenido el alumno 1 en la prueba de conocimientos

sobre educacin ambiental, la calificacin que ha obtenido el alumno 2 en la

prueba de conocimientos sobre educacin ambiental, la calificacin que ha

obtenido el alumno 3 en la prueba de conocimientos sobre educacin

ambiental, y as sucesivamente hasta la calificacin que ha obtenido el alumno

300 en la prueba de conocimientos sobre educacin ambiental.

El propsito de un estudio estadstico es extraer conclusiones acerca de lanaturaleza de la poblacin, pero resulta que las poblaciones son grandes, o por

razones de tica, recursos financieros, metodolgicos u otros no ser posible,

entonces se debe trabajar con una muestra extrada de la poblacin bajo

estudio.

Una vez identificados los seis alumnos, podemos determinar los valores

numricos de las seis variables aleatorias X1, X2, X3, X4, X5, X6. Supongamos
8/3/2019 Trabajo de Tecnicas Multivariadas Final

8/35

que el primer alumno seleccionado ha obtenido 13 en la prueba de educacin

ambiental.

En este caso, la variable aleatoria X1toma el valor x1= 13.

Si el segundo alumno seleccionado ha obtenido 10 en la prueba de educacin

ambiental, en este caso la variable aleatoria 2 Xtoma el valor 2 x= 10. De igual

forma, las variables aleatorias X3, X4, X5, X6, tomarn valores numricos que

van a depender de las calificaciones que obtengan los alumnos seleccionados

en la tercera, cuarta, quinta y sexta seleccin.

Ahora estamos utilizando el trmino muestra aleatoria, no para referirnos a los

alumnos seleccionados o a las variables aleatorias asociados con ellos, sino a

los seis valores numricos x1, x2, x3, x4, x5 que toman respectivamente cada

una de las seis variables aleatorias.

Por tanto hay tres formas de considerar a una muestra aleatoria:

1. Como un conjunto de unidades seleccionadas que son sometidas al

estudio.

2. Como un conjunto de variables aleatorias tericas asociadas con esas

unidades.

3. Como un conjunto de valores numricos tomados por las variables.

Las definiciones no son equivalentes pero estn estrechamente relacionadas.

Al seleccionar una muestra aleatoria de tamao seis, una vez identificados los

seis alumnos, se obtienen las siguientes calificaciones x1= 13, x2=10, x3=

13, X4= 14, x5= 11, x6= 10. La media obtenida de los seis alumnos es de

11,83, llamada media muestral y se representa mediante x, cuya expresin es:

El numerador de la expresin es la suma de los seis valores, que da 71, que

dividido por 6, resulta x = 11,83, es decir en promedio los alumnos han

obtenido 11,83 de calificacin en la prueba de educacin ambiental.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

9/35

La varianza de esta muestra aleatoria es 2,4722, y se representa mediante S2,

cuya expresin es:

Para su clculo, disponemos de la tabla en la que mostramos paso a paso el

uso de la expresin anterior, sabiendo que x= 11,83

El numerador de la expresin anterior es la suma del cuadrado de las seis

desviaciones de cada valor que toma la variable, respecto a su mediaaritmtica, que es igual a 14,8334, que dividido por 6 es justamente 2,4722.

La raz cuadrada, positiva, de la varianza se llama desviacin estndar o

desviacin tpica, esto es:

Entonces, usando la expresin anterior, la desviacin estndar es S= 1,5723.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

10/35

CAPITULO III

APLICACIN DEL ANALISIS MULTIVARIADO DE ACUERDO A

LA BASE DE DATOS BRINDADA

IDENTIFICACIN DE VARIABLE INDEPENDIENTE Y DEPENDIENTE:

Variable Independiente: Consumo de anticidos

N de cigarrillos por da

Consumo de cerveza

Consumo de tasas de caf.

Variable Dependiente: Tiempo de vida.

CALCULAR LAS TABLAS DE FRECUENCIA PARA CADA UNA DE LAS

VARIABLES.

Variable: Nmero de cigarrillos por da.

n 50

k 6,606601014 7

I 13

C 1,857142857 2

I' 14

exec 1 1

Vmin 1

Intervalos f F f% F%

1 3 9 9 18 18

3 5 9 18 18 36

5 7 7 25 14 50

7 9 6 31 12 62

9 11 6 37 12 74

11 13 4 41 8 82

13 15 9 50 18 100

50 100

Existe un 36% de consumidores de cigarrillos que consume entre 1 a 5cigarrillos por da.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

11/35

Variable: consumo de litros de cerveza mensual

n 50

k 6,60660101 7

I 13

C 1,85714286 2I' 14

exec 1 1

Vmin 0

Intervalos f F f% F%

0 2 7 7 14 14

2 4 8 15 16 30

4 6 8 23 16 466 8 7 30 14 60

8 10 6 36 12 72

10 12 11 47 22 94

12 14 3 50 6 100

50 100

Un porcentaje mayoritario (22%) consume entre 10-12 litros de cerveza

mensual.

Variable: Consumo de tazas de caf.

Tazas de

caff F f% F%

0 1 1 2 2

1 5 6 10 12

2 7 13 14 263 5 18 10 36

4 12 30 24 60

5 5 35 10 70

6 6 41 12 82

7 3 44 6 88

8 3 47 6 94

9 3 50 6 100

50

Existe un 24% que consume 4 tazas de caf.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

12/35

Variable: Consumo de anticidos

Consumo

de

anticidos

f F f% F%

0 2 2 4 4

1 7 9 14 18

2 7 16 14 32

3 2 18 4 36

4 5 23 10 46

5 6 29 12 58

6 3 32 6 64

7 9 41 18 82

8 5 46 10 92

9 4 50 8 100

50

El 18% consume anticidos por una cantidad de 9.

Variable: Tiempo de vida

n 50

k 6,60660101 7

I 25

C 3,57142857 4

I' 28

exec 3 1 2

Vmin 63

Intervalos f F f% F%

63 67 16 16 32 32

67 71 15 31 30 62

71 75 0 31 0 62

75 79 1 32 2 64

79 83 5 37 10 74

83 87 4 41 8 82

87 91 9 50 18 10050 100
8/3/2019 Trabajo de Tecnicas Multivariadas Final

13/35

REPRESENTAR GRFICAMENTE LAS VARIABLES.

0

2

4

6

8

10

12

14

16

18

1-3 3-5 5-7 7-9 9-11 11-13 13-15

Porcentaje

Consumo

Consumo de cigarrillos por da

14%

16%

16%14%

12%

12%

6%

Consumo de litros de cerveza mensual

0-2

2-4

4-6

6-8

8-1010-12

12-14
8/3/2019 Trabajo de Tecnicas Multivariadas Final

14/35

0

5

10

15

20

25

30

0 1 2 3 4 5 6 7 8 9

Porcentaje

N de tazas de caf

Consumo de tazas de caf

0

2

4

6

8

10

12

14

16

18

0 1 2 3 4 5 6 7 8 9

Porcentaje

Uniddes de anticidos

Consumo de Anticidos
8/3/2019 Trabajo de Tecnicas Multivariadas Final

15/35

0

5

10

15

20

25

30

35

63-67 67-71 71-75 75-79 79-83 83-87 87-91

Porcentaje

Aos

Tiempo de Vida
8/3/2019 Trabajo de Tecnicas Multivariadas Final

16/35

CALCULAR LAS MEDIDAS DE TENDENCIA CENTRAL

1) Cigarrillos por da.

Media

Mediana:

n/2 = 25 i=3

Moda:

d1 = fi fi-1 = 9 9 = 0

d2 = fi fi+1 = 9 - 7 = 2
8/3/2019 Trabajo de Tecnicas Multivariadas Final

17/35

2) Consumo de cerveza mensual

Media

Mediana:

n/2 = 25

Moda:

d1 = fi fi-1 = 11 6 = 5

d2 = fi fi+1 = 11 - 3 = 8
8/3/2019 Trabajo de Tecnicas Multivariadas Final

18/35

3) Tazas de caf.

Media

Mediana:

n/2 = 25

Moda:

4) Consumo de anticidos

Media

Mediana:

n/2 = 25

Moda:
8/3/2019 Trabajo de Tecnicas Multivariadas Final

19/35

5) Tiempo de vida

Media

Mediana:

n/2 = 25

Moda:

d1 = fi fi-1 = 16 0 = 16

d2 = fi fi+1 = 16 - 0 = 16
8/3/2019 Trabajo de Tecnicas Multivariadas Final

20/35

CALCULAR LAS MEDIDAS DE DISPERSIN

De las tablas:

N de cigarrillos por da:

Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

1 3 9 9 18 18 2 18 4 36 -5,56 955,65066 8.600,86

3 5 9 18 18 36 4 36 16 144 -3,56 160,62014 1.445,58

5 7 7 25 14 50 6 42 36 252 -1,56 5,922409 41,46

7 9 6 31 12 62 8 48 64 384 0,44 0,037481 0,22

9 11 6 37 12 74 10 60 100 600 2,44 35,445353 212,67

11 13 4 41 8 82 12 48 144 576 4,44 388,62602 1.554,50

13 15 9 50 18 100 14 126 196 1764 6,44 1720,0595 15.480,54

50 100 378 3756 27.335,83

Consumo de litros de cerveza mensual:

Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

0 2 7 7 14 14 1 7 1 7 -5,68 1040,862 7286,03718

2 4 8 15 16 30 3 24 9 72 -3,68 183,3966 1467,17278

4 6 8 23 16 46 5 40 25 200 -1,68 7,965942 63,7275341

6 8 7 30 14 60 7 49 49 343 0,32 0,010486 0,073400328 10 6 36 12 72 9 54 81 486 2,32 28,97023 173,821379

10 12 11 47 22 94 11 121 121 1331 4,32 348,2852 3831,13691

12 14 3 50 6 100 13 39 169 507 6,32 1595,395 4786,18595

50 100 334 2946 17608,1551
8/3/2019 Trabajo de Tecnicas Multivariadas Final

21/35

Consumo de tazas de caf:

Tazas de

caff F f% F% fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

0 1 1 2 2 0 0 0 -4,3 341,8801 341,8801

1 5 6 10 12 5 1 5 -3,3 118,5921 592,9605

2 7 13 14 26 14 4 28 -2,3 27,9841 195,88873 5 18 10 36 15 9 45 -1,3 2,8561 14,2805

4 12 30 24 60 48 16 192 -0,3 0,0081 0,0972

5 5 35 10 70 25 25 125 0,7 0,2401 1,2005

6 6 41 12 82 36 36 216 1,7 8,3521 50,1126

7 3 44 6 88 21 49 147 2,7 53,1441 159,4323

8 3 47 6 94 24 64 192 3,7 187,4161 562,2483

9 3 50 6 100 27 81 243 4,7 487,9681 1463,9043
8/3/2019 Trabajo de Tecnicas Multivariadas Final

22/35

Consumo de anticidos:

Consumo

de

anticidos

f F f% F% fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

0 2 2 4 4 0 0 0 -4,68 479,715126 959,430252

1 7 9 14 18 7 1 7 -3,68 183,396598 1283,77618

2 7 16 14 32 14 4 28 -2,68 51,5868698 361,108088

3 2 18 4 36 6 9 18 -1,68 7,96594176 15,9318835

4 5 23 10 46 20 16 80 -0,68 0,21381376 1,0690688

5 6 29 12 58 30 25 150 0,32 0,01048576 0,06291456

6 3 32 6 64 18 36 108 1,32 3,03595776 9,10787328

7 9 41 18 82 63 49 441 2,32 28,9702298 260,732068

8 5 46 10 92 40 64 320 3,32 121,493302 607,466509

9 4 50 8 100 36 81 324 4,32 348,285174 1393,1407

50 234 1476 4891,82554
8/3/2019 Trabajo de Tecnicas Multivariadas Final

23/35

Tiempo de Vida:

Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)

63 67 16 16 32 32 65 1040 4225 67600 -8,96 6445,1353 103122,165

67 71 15 31 30 62 69 1035 4761 71415 -4,96 605,238723 9078,58084

71 75 0 31 0 62 73 0 5329 0 -0,96 0,84934656 0

75 79 1 32 2 64 77 77 5929 5929 3,04 85,4071706 85,4071706

79 83 5 37 10 74 81 405 6561 32805 7,04 2456,35219 12281,761

83 87 4 41 8 82 85 340 7225 28900 11,04 14855,1244 59420,4977

87 91 9 50 18 100 89 801 7921 71289 15,04 51167,1638 460504,475

50 100 3698 277938 644492,886

Clculo de la Varianza:

=
8/3/2019 Trabajo de Tecnicas Multivariadas Final

24/35

Cuadro resumen

Nmero

de

cigarrillos

por da

Consumo

de litros

de cerveza

mensual

Tazas de

caf

Consumo

de

anticidos

Tiempo de

vida

Media 7,56 6,68 4,3 4,68 73,96

Mediana 7 6,57 4 5 69,4

Varianza (s2) 17,97 14,3 5,37 7,62 88,68Desv. Estndar (s) 4,24 3,78 2,32 2,76 9,42
8/3/2019 Trabajo de Tecnicas Multivariadas Final

25/35

CALCULAR LA ASIMETRA Y KURTOSIS

Nmero de

cigarrillos

por da

Consumo

de litros de

cerveza

mensual

Tazas de

caf

Consumo

de

anticidos

Tiempo de

vida

Media 7,56 6,68 4,3 4,68 73,96

Mediana 7 6,57 4 5 69,4

Varianza (s2) 17,97 14,3 5,37 7,62 88,68

Desv. Estandar (s) 4,24 3,78 2,32 2,76 9,42

0,56 0,11 0,3 -0,32 4,56

1,68 0,33 0,9 -0,96 13,68

As= 0,39622642 0,08730159 0,38793103 -

0,34782609

1,4522293

S4 322,9209 204,49 28,8369 58,0644 7864,1424

27.335,83 17608,1551 1463,9043 66,8165739 644492,886

M4 546,716613 352,163103 29,278086 1,33633148 12889,8577

K 1,6930357 1,72215317 1,01529936 0,02301464 1,63906718
8/3/2019 Trabajo de Tecnicas Multivariadas Final

26/35

PREDECIR SI AL CONSUMIR 10 CIGARRILLOS DIARIOS CUL ES EL

TIEMPO DE VIDA QUE SE ESPERA?

Definiendo:

X = Consumo de cigarrillos

Y = Tiempo de vida

Y = a + bX

Para hallar:

Nmero de

cigarrillos por

da (X)

Tiempo de

vida (Y)

XY X2 Y2

14 89 1246 196 7921

14 90 1260 196 8100

356 3703 28196 3418 278303

a= 2619078 59,30345983

44164

b= 91532 2,072547776

44164

Y = 59.30 + 2.07x

Si X = 10 Y = 59.30 + 2.07 (10)

Y = 59.30 + 2.07

Y = 80

El tiempo de vida esperado si es que se consume 10 cigarrillos al da es de 80

aos.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

27/35

PREDECIR SI AL CONSUMIR 12 LITROS DE CERVEZA AL MES CUL ES

EL TIEMPO DE VIDA QUE SE ESPERA?

Definiendo:

X = Consumo de cerveza al mes

Y = Tiempo de vida

Y = a + bX

Para hallar:

Consumo

de litros de

cerveza

mensual

(X)

Tiempo de

vida (Y)

XY X2 Y2

12 89 1068 144 7921

13 90 1170 169 8100

313 3703 24802 2681 278303

a= 2164717 59,9960367

36081

b= 81061 2,246639506

36081

Y = 59.99 + 2.25x

Si X = 12 Y = 59.99 + 2.23 (12)

Y = 86.99

El tiempo de vida esperado si es que se consume 12 litros de cerveza al meses de 87 aos.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

28/35

PREDECIR SI AL CONSUMIR 6 TAZAS DE CAF DIARIOS CUL ES EL

TIEMPO DE VIDA QUE SE ESPERA?

Definiendo:

X = Consumo de tazas de caf diarios

Y = Tiempo de vida

Y = a + bX

Para hallar:

Tazas de caf (X)Tiempo de vida

(Y)

XY X2 Y2

9 89 801 81 7921

9 90 810 81 8100

215 3703 16908 1193 278303

a= 782459 58,28372439

13425

b= 49255 3,668901304

13425

Y = 58.29 + 3.67x

Si X = 12 Y = 58.29 + 3.67 (6)

Y = 80.31

El tiempo de vida esperado si es que se consume 6 tazas de caf diarios es de

80 aos.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

29/35
8/3/2019 Trabajo de Tecnicas Multivariadas Final

30/35

OBTENER EL COEFICIENTE DE DETERMINACIN R2

[ ] [ ]

N de cigarrillos por da:

Nmero de

cigarrillos por

da (X)

Tiempo de

vida (Y)

XY X2 Y2

14 89 1246 196 7921

14 90 1260 196 8100

356 3703 28196 3418 278303

a= 2619078 59,30345983

44164

b= 91532 2,072547776

44164

r2 91532 8378107024 0,93

44164 8962686324

202941

R2 = 93%
8/3/2019 Trabajo de Tecnicas Multivariadas Final

31/35

Consumo de litros de cerveza mensual:

Consumo de litros

de cerveza

mensual (X)

Tiempo de

vida (Y)

XY X2 Y2

12 89 1068 144 7921

13 90 1170 169 8100

313 3703 24802 2681 278303

a= 2164717 59,9960367

36081

b= 81061 2,246639506

36081

r2 81061 6570885721 0,8974

36081 7322314221

202941

R2 = 89.74%

Tazas de caf:

Tazas

de

caf

(X)

Tiempo de

vida (Y)

XY X2 Y2

9 89 801 81 7921

9 90 810 81 8100

215 3703 16908 1193 278303

a= 782459 58,28372439

13425

b= 49255 3,668901304

13425

r2 49255 2426055025 0,89

13425 2724482925

202941

R2 = 89%
8/3/2019 Trabajo de Tecnicas Multivariadas Final

32/35

Consumo de anticidos:

Consumo

de

anticidos(X)

Tiempo

de vida

(Y)XY X2 Y2

9 89 801 81 7921

9 90 810 81 8100

234 3703 18490 1476 278303

a= 1138968 59,80718336

19044

b= 57998 3,04547364

19044

r2 57998 3363768004 0,87036

19044 3864808404

202941

R2 = 87.05%
8/3/2019 Trabajo de Tecnicas Multivariadas Final

33/35

CUL DE LAS VARIABLES PREDICE MEJOR UN MENOR TIEMPO DE

VIDA?

N de cigarrillos = 93%

Consumo de litros de Cerveza = 89.7%

Tazas de caf = 89%

Consumo de anticido = 87.04%

RPTA: La variable que predice mejor, es el consumo de nmero de cigarrillos

diarios.

PREDECIR, SI SE TIENE UN TIEMPO DE VIDA DE 80 AOS CUNTOS

CIGARRILLOS Y TAZAS DE CAF SE DEBERN CONSUMIR?

Si: Tiempo de vida= 80

Cigarrillos:

Y = 59.30 + 2.07x

Y = 80 80 = 59.30 + 2.07 x

20.7 = 2.07x

Entonces X = 10 cigarrillos diarios

Tazas de caf:

Y = 58.29 + 3.678 (X)

80 = 58.29 + 3.67 X

21.71 = 3.67xX = 5.91 tazas de caf diarios se deberan consumir.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

34/35

CONCLUSIONES

Nos muestra que el consumo de cigarrillos diarios, es la variable que

afecta o predice mejor el tiempo de vida de las personas. Por tanto, se

debera de tomar en cuenta esta informacin para las personas que

tienen el hbito de fumar, para que tomen conciencia de que su

consumo afecta directamente a la cantidad de aos de vida.

La variable que menos afecta es el consumo de anticidos, sin embargo,

sta es relativamente alta, ya que su consumo constante afecta a la

salud de las personas y condicionan la calidad de vida y su duracin.

El consumo de litros de cerveza y el consumo de tazas de caf, el

mismo nivel de prediccin, a pesar de ser dos elementos completamente

diferentes, una de ellas contiene alcohol y la otra ingredientes que

afectan considerablemente a la salud, si es que se consumen con

frecuencia y en cantidades altas.
8/3/2019 Trabajo de Tecnicas Multivariadas Final

35/35

BIBLIOGRAFA

1. CANAVOS C. George; Probabilidad y Estadstica, Edit. McGraw-Hill,

Mxico 1995.

2. CRDOVA ZAMORA, Carlos, Estadstica Descriptiva e inferencial edit.

Moshera IV ed. Lima

3. VILA ACOSTA, Roberto; Estadstica Elemental Edit. R.A. Lima-Per.

4. JONSON, Roberto R.: Estadstica Elemental Edit. Trillas 2 edic. Mxico

1991.5. MOYA CALDERN, Rufino, Estadstica Descriptiva, Edit. San Marcos

Lima-Per 1991

6. VELIZ CAPUAY, Carlos: Estadstica Aplicaciones, Edit. CCG S.A. Lima-

Per 1993.

7. INTERNET