8/3/2019 Trabajo de Tecnicas Multivariadas Final
1/35
CAPITULO I:
APROXIMACIN HISTRICO DEL ANALISIS MULTIVARIADO.
Los orgenes del anlisis multivariable se encuentran en las primerasgeneralizaciones de la correlacin y regresin, en donde se establecieron las
primeras ideas del anlisis de componentes principales (Pearson; 1901 y
Spearman; 1904). Sin embargo, el establecimiento definitivo de la mayora del
anlisis multivariable se ubica en los aos treinta con los estudios de Hotelling
(1931, 1933); Willes (1932, 1935); Fisher (1935, 1936); Mahalanobis (1936) y
Bartlett (1939). En cuanto a la maduracin de los fundamentos del anlisis
multivariable, este se debe a los pioneros de la estadstica moderna que inicioen Inglaterra (Galton, Pearson, Fisher, Snecodor) Posteriormente, el centro de
gravedad se desplaz hacia los Estados Unidos (Hotelling, Wilks, Bartlett),
aunque sin dejar de considerar las aportaciones que se dieron con el
nacimiento de otras escuelas tan importantes como la escuela india
(Mahalanobis, Roy, Krishnaah), la escuela francesa surgida en los aos
sesenta (Benzecri, Lebart, Morineau, Fenelon, etc.) y la escuela sueca surgida
en los aos setenta (Jreskog y Srborn).
A partir de Spearman (1904) se estableci el inicio del anlisis factorial
cuando en su estudio sobre la inteligencia distingui un factor general con
respecto a un cierto nmero de factores especficos. Este autor haba
considerado como antecedentes tericos las tcnicas de regresin lineal
propuestas por Galton (1888). Por otra parte, Pearson (1901) propuso el
mtodo de componentes principales como un primer paso previo para llevar a
cabo las estimaciones del anlisis factorial. Posteriormente, Hotelling (1933)
aplic el mtodo de extraccin de factores mediante la tcnica de componentes
principales, la cual hasta nuestros das se ha confirmado como una de las ms
aceptadas entre los diversos trabajos multivariables. La relacin entre las
correlaciones y las saturaciones de las variables en los factores fue expuesta
por Thurstone (1947). Este autor introdujo la idea de la estructura simple, as
como la teora y el mtodo de las rotaciones factoriales ortogonales y oblicuas
con el objetivo de obtener una estructura factorial ms sencilla para facilitar la
8/3/2019 Trabajo de Tecnicas Multivariadas Final
2/35
interpretacin de los factores. Otra aportacin importante relacionada con este
tipo de anlisis fue la de Keiser (1958), quien desarroll una serie de
procedimientos matemticos mediante el mtodo varimax para llevar a cabo las
rotaciones ortogonales, pues antes de sus trabajos dichas rotaciones
nicamente eran grficas.
Bizquerra (1989) y Prieto (1985) indican que el anlisis multivariable
distingue entre mtodos predictivos y mtodos reductivos. Los primeros
identifican a un grupo de variables independientes (predictoras), un criterio o
variable dependiente, y en ocasiones a un grupo de variables aleatorias
(intervinientes) cuyo efecto se desea mantener bajo control. Sin embargo, el
problema radica en especificar las dependencias o correlaciones significativas
entre los dos primeros tipos de variables, tal es el caso de la regresin mltiple.
Con respecto a los mtodos reductivos, estos analizan las interdependencias
entre todas las variables con el objeto de reducir al mnimo el nmero de
variables necesarias para describir la informacin relevante contenida en las
observaciones.
Una clasificacin tambin utilizada para los modelos multivariables es la
que los divide en: a) mtodos descriptivos o exploratorios (no se establece
ninguna hiptesis previa); y b) mtodos explicativos o confirmatorios (se basan
en un marco terico para fundamentar y validar empricamente una hiptesis).
Otra importante clasificacin es la que divide a los mtodos en: a) mtodos
reductivos (anlisis factorial, componentes principales, correlacin cannica,
anlisis de clusters, anlisis de correspondencias); y b) mtodos de
dependencia (anlisis de la varianza, anlisis de la covarianza, regresinmltiple, anlisis discriminante, anlisis de probabilidad condicional Logit y
anlisis de probabilidad condicional Probit).
Con el desarrollo de la Informtica, se ha hecho posible desarrollar e
implementar programas estadsticos que contienen las tcnicas multivariantes;
as, todos los programas de este tipo contienen una parte importante dedicada
a estas tcnicas (e.g. se puede ver en R, STATGRAPHICS, SPSS, ...).
8/3/2019 Trabajo de Tecnicas Multivariadas Final
3/35
En definitiva, el desarrollo terico surgido en el siglo XX junto con las
aplicaciones crecientes de la estadstica en la vida econmica de los pases
han hecho de las tcnicas del Anlisis Multivariante junto con el Anlisis de
Regresin, uno de los instrumentos ms empleados para el estudio del entorno
ambiental, econmico y social.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
4/35
CAPITULO II
APLICACIONES DEL ANLISIS MULTIVARIADO EN
PSICOLOGA
Las tcnicas de anlisis de datos ms frecuentemente utilizados por los
psiclogos en sus investigaciones fueron creadas por un pequeo grupo de
estadsticos ingleses: Francis Galton, Karl Pearson, William Gosset (Student), Ronald
Fisher y Egon Pearson (hijo de Karl Pearson); este ltimo (Egon Pearson) trabaj en
colaboracin con el matemtico polaco Jerzy Neyman, quien vivi por un tiempo en
Inglaterra y ms tarde se estableci en Los Estados Unidos de Amrica. Las ideas de
correlacin y regresin provienen de Galton; el primer Pearson, adems de producir lafrmula para el clculo de la correlacin, es el creador de laprueba de la ji cuadrada.
Gosset cre la prueba ten su forma original, Fisher desarroll an ms la prueba t
bautizndola con el nombre de "la t de Student"y no la t de Gosset, porque ste,
debido a los trminos del contrato laboral suscrito entre l y la cervecera Guinness de
Dubln, Irlanda, slo poda firmar con su verdadero nombre los informes y documentos
preparados para la empresa, y por esa razn usaba el pseudnimo de "Student" para
firmar sus artculos sobre estadstica.
Pero el legado ms controversial de Fisher es la prueba de la hiptesis nula
como la estrategia de inferencia inductiva que debe guiar el anlisis estadstico de los
datos en una investigacin cientfica. Es en este punto, donde han intervenido Egon
Pearson y Jerzy Neyman (de aqu en adelante, Pearson & Neyman), contradiciendo la
posicin de Fisher y generando un debate, desconocido para la mayora de
estadsticos y psiclogos, que por medio de los libros de texto hemos heredado una
estrategia de anlisis que aparentemente ha disuelto la contradiccin. (Aron & Aron,
2001; Gigerenzer et al., 2004).
El investigador formula la hiptesis nula. En trminos generales, la hiptesis
nula afirma que no existe ninguna relacin real o verdadera entre las variables
independiente y dependiente de una investigacin, y que, por tanto, si alguna relacin
es observada entre dichas variables en los datos de la investigacin, la misma podra
explicarse como resultado del azar. Es por eso que a la hiptesis nula se le llama la
hiptesis del azar. Dicho de otra manera, la hiptesis nula expresa que si se repitiera
la investigacin un nmero suficiente de veces, siempre con una muestra distintaextrada aleatoriamente de la misma poblacin, las diferencias en la variable
8/3/2019 Trabajo de Tecnicas Multivariadas Final
5/35
dependiente entre los grupos de la investigacin tenderan a neutralizarse y
terminaran siendo cero. El razonamiento implcito en la hiptesis nula es el siguiente:
Suponiendo que el resultado de una investigacin particular constituye una seleccin
al azar de entre una multitud de resultados posibles, el investigador se pregunta cul
sera la probabilidad de obtener por azar la diferencia que l ha encontrado entre los
grupos de su investigacin.
Es obvio que la decisin sobre la hiptesis nula requiere de que se haya
establecido previamente un nivel de significacin estadstica, es decir, un criterio que
sirva de base a la decisin de rechazar o no rechazar la hiptesis nula. Al establecer
un criterio de decisin sobre la hiptesis nula, el investigador puede ponderar loserrores que podra cometer en su decisin sobre la hiptesis nula. Una primera forma
de error (se conoce como el error tipo I) consiste en rechazar una hiptesis nula
verdadera, es decir, descartar el azar como explicacin cuando los resultados podran
explicarse razonablemente con base en el mismo. Este es el error que comete el
investigador que ve ms lo que hay en los datos; es decir, el investigador concluye que
existe una relacin real o verdadera entre las variables independiente y dependiente
de la investigacin, cuando en realidad la relacin observada se puede explicar
razonablemente como resultado del azar. El llamado error tipo I es el error delinvestigador que se apresura a concluir a favor de su hiptesis de investigacin. Fisher
no habl de ningn otro error, pues la prueba de la hiptesis nula para l no era otra
cosa que un freno a la tendencia natural de un investigador a creer que hiptesis ha
sido confirmada por el simple hecho de que los resultados de la investigacin siguen la
misma direccin de la hiptesis.
En la estrategia de Fisher slo hay un error posible: rechazar una hiptesis nulaverdadera. Una segunda forma de error (se conoce como el error tipo II), introducida
por Egon Pearson y Jerzy Neyman consiste en no rechazar una hiptesis nula falsa,
es decir, no descartar el azar aun cuando ste no constituye una explicacin razonable
de los datos. Este es el error que comete el investigador que ve menos que lo que hay
en los datos; por miedo a rechazar incorrectamente el azar, el investigador puede
exponerse al riesgo de pasar por alto una relacin real o verdadera entre las variables
de su investigacin. Fueron Pearson y Neyman los que, al introducir un segundo tipo
de error, bautizaron como error tipo uno al error de que haba hablado Fisher.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
6/35
Segn Fisher, el nivel de significacin estadstica equivale a la magnitud del
riesgo que est dispuesto a correr el investigador, de cometer el error de rechazar una
hiptesis nula verdadera (el llamado error tipo I). Para la mayora de los propsitos, el
nivel de significacin previamente establecido suele ser de 0.05, aunque en reas de
investigacin ms rigurosas se trabaja con un nivel de significacin de 0.01.
Suponiendo que se trabaja con un nivel de significacin de 0.05, se rechazara la
hiptesis nula siempre que la probabilidad de explicar los resultados obtenidos en una
investigacin como si fueran obra del azar sea igual o menor que 0.05.
Es la perspectiva de Pearson y Neyman, para establecer el nivel de
significacin estadstica habra que atender al impacto de cada tipo de error en el
objetivo del investigador, y a partir de ah se decidira cul de ellos es preferibleminimizar. Pearson y Neyman llamaron alfa al error tipo I y beta al error tipo II; a partir
de este ltimo tipo de error, introdujeron el concepto de "poder de una prueba
estadstica", el cual se refiere a su capacidad para evitar el error tipo II, y est definido
por 1-beta, y en estrecha relacin con ste se ha desarrollado el concepto de "tamao
del efecto" que algunos han propuesto como sustituto de los valores p en los informes
de investigacin cientfica. (Cohen, 1990, 1994; Kraemer & Thiemann, 1987; Murphy &
Myors, 2004).
El tercer paso del llamado ritual de la prueba de significacin
estadstica consiste en la eleccin de la prueba estadstica que se utilizar para
someter a pruebala hiptesis nula. Hay dos clases de pruebas estadsticas: las
paramtricas y las no paramtricas. Se llama paramtricas a aquellas pruebas
estadsticas que exigen que los datos a los que se aplican cumplan con los siguientes
requisitos: que los valores de la variable dependiente sigan la distribucin de la curva
normal, por lo menos en la poblacin a la que pertenezca la muestra en la que se hizo
la investigacin; que las varianzas de los grupos que se comparan en una variable
dependiente sean aproximadamente iguales (homoscedasticidad, u homogeneidad de
las varianzas); y que la variable dependiente est medida en una escala que sea por lo
menos de intervalo, aunque este ltimo requisito no es compartido por todos los
estadsticos (McGuigan, 1993; Siegel, 1956). Cuando los datos cumplen con los
requisitos indicados, especialmente con los dos primeros, las pruebas estadsticas
paramtricas exhiben su mximo poder, es decir, su mxima capacidad para detectar
una relacin real o verdadera entre dos variables, si es que la misma existe. Las
pruebas paramtricas ms conocidas y usadas son la prueba t de Student, la prueba
F, llamada as en honor a Fisher, y el coeficiente de correlacin de Pearson,
8/3/2019 Trabajo de Tecnicas Multivariadas Final
7/35
simbolizado por r. Cuando estas pruebas estadsticas se aplican a datos que violan los
dos primeros de los requisitos sealados, pierden parte de su poder. Las pruebas
estadsticas no paramtricas, en cambio, no hacen a los datos ninguna de las
exigencias que les hacen las pruebas estadsticas paramtricas, por eso se les
denomina "pruebas estadsticas libres de distribucin". Las ms conocidas y usadas
de estas pruebas son la ji cuadrada de Pearson, la prueba de la probabilidad exacta
de Fisher, los coeficientes de contingencia de Pearson y Cramer, la prueba U de Mann
& Whitney, el coeficiente de correlacin de rangos de Spearman, y el coeficiente de
asociacin ordinal de Goodman y Kruskal (coeficiente gamma), (Conover, 1999;
Leach, 1979; Siegel, op. cit.). Todas estas pruebas poseen menos poder que las
pruebas paramtricas correspondientes, pero han demostrado ser muy tiles como
alternativas cuando no se considera apropiado el uso de pruebas paramtricas.
EJEMPLO
Sea X una variable aleatoria que representa la calificacin obtenida en la
prueba de conocimientos sobre educacin ambiental (escala vigesimal) de los
alumnos de la Facultad de Educacin, si la poblacin consta de 300 alumnos,
entonces: X1, X2, X3,..., X300.
Es una poblacin en trminos de variable aleatoria, que se lee as:La calificacin que ha obtenido el alumno 1 en la prueba de conocimientos
sobre educacin ambiental, la calificacin que ha obtenido el alumno 2 en la
prueba de conocimientos sobre educacin ambiental, la calificacin que ha
obtenido el alumno 3 en la prueba de conocimientos sobre educacin
ambiental, y as sucesivamente hasta la calificacin que ha obtenido el alumno
300 en la prueba de conocimientos sobre educacin ambiental.
El propsito de un estudio estadstico es extraer conclusiones acerca de lanaturaleza de la poblacin, pero resulta que las poblaciones son grandes, o por
razones de tica, recursos financieros, metodolgicos u otros no ser posible,
entonces se debe trabajar con una muestra extrada de la poblacin bajo
estudio.
Una vez identificados los seis alumnos, podemos determinar los valores
numricos de las seis variables aleatorias X1, X2, X3, X4, X5, X6. Supongamos
8/3/2019 Trabajo de Tecnicas Multivariadas Final
8/35
que el primer alumno seleccionado ha obtenido 13 en la prueba de educacin
ambiental.
En este caso, la variable aleatoria X1toma el valor x1= 13.
Si el segundo alumno seleccionado ha obtenido 10 en la prueba de educacin
ambiental, en este caso la variable aleatoria 2 Xtoma el valor 2 x= 10. De igual
forma, las variables aleatorias X3, X4, X5, X6, tomarn valores numricos que
van a depender de las calificaciones que obtengan los alumnos seleccionados
en la tercera, cuarta, quinta y sexta seleccin.
Ahora estamos utilizando el trmino muestra aleatoria, no para referirnos a los
alumnos seleccionados o a las variables aleatorias asociados con ellos, sino a
los seis valores numricos x1, x2, x3, x4, x5 que toman respectivamente cada
una de las seis variables aleatorias.
Por tanto hay tres formas de considerar a una muestra aleatoria:
1. Como un conjunto de unidades seleccionadas que son sometidas al
estudio.
2. Como un conjunto de variables aleatorias tericas asociadas con esas
unidades.
3. Como un conjunto de valores numricos tomados por las variables.
Las definiciones no son equivalentes pero estn estrechamente relacionadas.
Al seleccionar una muestra aleatoria de tamao seis, una vez identificados los
seis alumnos, se obtienen las siguientes calificaciones x1= 13, x2=10, x3=
13, X4= 14, x5= 11, x6= 10. La media obtenida de los seis alumnos es de
11,83, llamada media muestral y se representa mediante x, cuya expresin es:
El numerador de la expresin es la suma de los seis valores, que da 71, que
dividido por 6, resulta x = 11,83, es decir en promedio los alumnos han
obtenido 11,83 de calificacin en la prueba de educacin ambiental.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
9/35
La varianza de esta muestra aleatoria es 2,4722, y se representa mediante S2,
cuya expresin es:
Para su clculo, disponemos de la tabla en la que mostramos paso a paso el
uso de la expresin anterior, sabiendo que x= 11,83
El numerador de la expresin anterior es la suma del cuadrado de las seis
desviaciones de cada valor que toma la variable, respecto a su mediaaritmtica, que es igual a 14,8334, que dividido por 6 es justamente 2,4722.
La raz cuadrada, positiva, de la varianza se llama desviacin estndar o
desviacin tpica, esto es:
Entonces, usando la expresin anterior, la desviacin estndar es S= 1,5723.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
10/35
CAPITULO III
APLICACIN DEL ANALISIS MULTIVARIADO DE ACUERDO A
LA BASE DE DATOS BRINDADA
IDENTIFICACIN DE VARIABLE INDEPENDIENTE Y DEPENDIENTE:
Variable Independiente: Consumo de anticidos
N de cigarrillos por da
Consumo de cerveza
Consumo de tasas de caf.
Variable Dependiente: Tiempo de vida.
CALCULAR LAS TABLAS DE FRECUENCIA PARA CADA UNA DE LAS
VARIABLES.
Variable: Nmero de cigarrillos por da.
n 50
k 6,606601014 7
I 13
C 1,857142857 2
I' 14
exec 1 1
Vmin 1
Intervalos f F f% F%
1 3 9 9 18 18
3 5 9 18 18 36
5 7 7 25 14 50
7 9 6 31 12 62
9 11 6 37 12 74
11 13 4 41 8 82
13 15 9 50 18 100
50 100
Existe un 36% de consumidores de cigarrillos que consume entre 1 a 5cigarrillos por da.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
11/35
Variable: consumo de litros de cerveza mensual
n 50
k 6,60660101 7
I 13
C 1,85714286 2I' 14
exec 1 1
Vmin 0
Intervalos f F f% F%
0 2 7 7 14 14
2 4 8 15 16 30
4 6 8 23 16 466 8 7 30 14 60
8 10 6 36 12 72
10 12 11 47 22 94
12 14 3 50 6 100
50 100
Un porcentaje mayoritario (22%) consume entre 10-12 litros de cerveza
mensual.
Variable: Consumo de tazas de caf.
Tazas de
caff F f% F%
0 1 1 2 2
1 5 6 10 12
2 7 13 14 263 5 18 10 36
4 12 30 24 60
5 5 35 10 70
6 6 41 12 82
7 3 44 6 88
8 3 47 6 94
9 3 50 6 100
50
Existe un 24% que consume 4 tazas de caf.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
12/35
Variable: Consumo de anticidos
Consumo
de
anticidos
f F f% F%
0 2 2 4 4
1 7 9 14 18
2 7 16 14 32
3 2 18 4 36
4 5 23 10 46
5 6 29 12 58
6 3 32 6 64
7 9 41 18 82
8 5 46 10 92
9 4 50 8 100
50
El 18% consume anticidos por una cantidad de 9.
Variable: Tiempo de vida
n 50
k 6,60660101 7
I 25
C 3,57142857 4
I' 28
exec 3 1 2
Vmin 63
Intervalos f F f% F%
63 67 16 16 32 32
67 71 15 31 30 62
71 75 0 31 0 62
75 79 1 32 2 64
79 83 5 37 10 74
83 87 4 41 8 82
87 91 9 50 18 10050 100
8/3/2019 Trabajo de Tecnicas Multivariadas Final
13/35
REPRESENTAR GRFICAMENTE LAS VARIABLES.
0
2
4
6
8
10
12
14
16
18
1-3 3-5 5-7 7-9 9-11 11-13 13-15
Porcentaje
Consumo
Consumo de cigarrillos por da
14%
16%
16%14%
12%
12%
6%
Consumo de litros de cerveza mensual
0-2
2-4
4-6
6-8
8-1010-12
12-14
8/3/2019 Trabajo de Tecnicas Multivariadas Final
14/35
0
5
10
15
20
25
30
0 1 2 3 4 5 6 7 8 9
Porcentaje
N de tazas de caf
Consumo de tazas de caf
0
2
4
6
8
10
12
14
16
18
0 1 2 3 4 5 6 7 8 9
Porcentaje
Uniddes de anticidos
Consumo de Anticidos
8/3/2019 Trabajo de Tecnicas Multivariadas Final
15/35
0
5
10
15
20
25
30
35
63-67 67-71 71-75 75-79 79-83 83-87 87-91
Porcentaje
Aos
Tiempo de Vida
8/3/2019 Trabajo de Tecnicas Multivariadas Final
16/35
CALCULAR LAS MEDIDAS DE TENDENCIA CENTRAL
1) Cigarrillos por da.
Media
Mediana:
n/2 = 25 i=3
Moda:
d1 = fi fi-1 = 9 9 = 0
d2 = fi fi+1 = 9 - 7 = 2
8/3/2019 Trabajo de Tecnicas Multivariadas Final
17/35
2) Consumo de cerveza mensual
Media
Mediana:
n/2 = 25
Moda:
d1 = fi fi-1 = 11 6 = 5
d2 = fi fi+1 = 11 - 3 = 8
8/3/2019 Trabajo de Tecnicas Multivariadas Final
18/35
3) Tazas de caf.
Media
Mediana:
n/2 = 25
Moda:
4) Consumo de anticidos
Media
Mediana:
n/2 = 25
Moda:
8/3/2019 Trabajo de Tecnicas Multivariadas Final
19/35
5) Tiempo de vida
Media
Mediana:
n/2 = 25
Moda:
d1 = fi fi-1 = 16 0 = 16
d2 = fi fi+1 = 16 - 0 = 16
8/3/2019 Trabajo de Tecnicas Multivariadas Final
20/35
CALCULAR LAS MEDIDAS DE DISPERSIN
De las tablas:
N de cigarrillos por da:
Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)
1 3 9 9 18 18 2 18 4 36 -5,56 955,65066 8.600,86
3 5 9 18 18 36 4 36 16 144 -3,56 160,62014 1.445,58
5 7 7 25 14 50 6 42 36 252 -1,56 5,922409 41,46
7 9 6 31 12 62 8 48 64 384 0,44 0,037481 0,22
9 11 6 37 12 74 10 60 100 600 2,44 35,445353 212,67
11 13 4 41 8 82 12 48 144 576 4,44 388,62602 1.554,50
13 15 9 50 18 100 14 126 196 1764 6,44 1720,0595 15.480,54
50 100 378 3756 27.335,83
Consumo de litros de cerveza mensual:
Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)
0 2 7 7 14 14 1 7 1 7 -5,68 1040,862 7286,03718
2 4 8 15 16 30 3 24 9 72 -3,68 183,3966 1467,17278
4 6 8 23 16 46 5 40 25 200 -1,68 7,965942 63,7275341
6 8 7 30 14 60 7 49 49 343 0,32 0,010486 0,073400328 10 6 36 12 72 9 54 81 486 2,32 28,97023 173,821379
10 12 11 47 22 94 11 121 121 1331 4,32 348,2852 3831,13691
12 14 3 50 6 100 13 39 169 507 6,32 1595,395 4786,18595
50 100 334 2946 17608,1551
8/3/2019 Trabajo de Tecnicas Multivariadas Final
21/35
Consumo de tazas de caf:
Tazas de
caff F f% F% fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)
0 1 1 2 2 0 0 0 -4,3 341,8801 341,8801
1 5 6 10 12 5 1 5 -3,3 118,5921 592,9605
2 7 13 14 26 14 4 28 -2,3 27,9841 195,88873 5 18 10 36 15 9 45 -1,3 2,8561 14,2805
4 12 30 24 60 48 16 192 -0,3 0,0081 0,0972
5 5 35 10 70 25 25 125 0,7 0,2401 1,2005
6 6 41 12 82 36 36 216 1,7 8,3521 50,1126
7 3 44 6 88 21 49 147 2,7 53,1441 159,4323
8 3 47 6 94 24 64 192 3,7 187,4161 562,2483
9 3 50 6 100 27 81 243 4,7 487,9681 1463,9043
8/3/2019 Trabajo de Tecnicas Multivariadas Final
22/35
Consumo de anticidos:
Consumo
de
anticidos
f F f% F% fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)
0 2 2 4 4 0 0 0 -4,68 479,715126 959,430252
1 7 9 14 18 7 1 7 -3,68 183,396598 1283,77618
2 7 16 14 32 14 4 28 -2,68 51,5868698 361,108088
3 2 18 4 36 6 9 18 -1,68 7,96594176 15,9318835
4 5 23 10 46 20 16 80 -0,68 0,21381376 1,0690688
5 6 29 12 58 30 25 150 0,32 0,01048576 0,06291456
6 3 32 6 64 18 36 108 1,32 3,03595776 9,10787328
7 9 41 18 82 63 49 441 2,32 28,9702298 260,732068
8 5 46 10 92 40 64 320 3,32 121,493302 607,466509
9 4 50 8 100 36 81 324 4,32 348,285174 1393,1407
50 234 1476 4891,82554
8/3/2019 Trabajo de Tecnicas Multivariadas Final
23/35
Tiempo de Vida:
Intervalos f F f% F% x fx x2 x2(f) X-X_ (X-X_)4 (X-X_)4 x(fi)
63 67 16 16 32 32 65 1040 4225 67600 -8,96 6445,1353 103122,165
67 71 15 31 30 62 69 1035 4761 71415 -4,96 605,238723 9078,58084
71 75 0 31 0 62 73 0 5329 0 -0,96 0,84934656 0
75 79 1 32 2 64 77 77 5929 5929 3,04 85,4071706 85,4071706
79 83 5 37 10 74 81 405 6561 32805 7,04 2456,35219 12281,761
83 87 4 41 8 82 85 340 7225 28900 11,04 14855,1244 59420,4977
87 91 9 50 18 100 89 801 7921 71289 15,04 51167,1638 460504,475
50 100 3698 277938 644492,886
Clculo de la Varianza:
=
8/3/2019 Trabajo de Tecnicas Multivariadas Final
24/35
Cuadro resumen
Nmero
de
cigarrillos
por da
Consumo
de litros
de cerveza
mensual
Tazas de
caf
Consumo
de
anticidos
Tiempo de
vida
Media 7,56 6,68 4,3 4,68 73,96
Mediana 7 6,57 4 5 69,4
Varianza (s2) 17,97 14,3 5,37 7,62 88,68Desv. Estndar (s) 4,24 3,78 2,32 2,76 9,42
8/3/2019 Trabajo de Tecnicas Multivariadas Final
25/35
CALCULAR LA ASIMETRA Y KURTOSIS
Nmero de
cigarrillos
por da
Consumo
de litros de
cerveza
mensual
Tazas de
caf
Consumo
de
anticidos
Tiempo de
vida
Media 7,56 6,68 4,3 4,68 73,96
Mediana 7 6,57 4 5 69,4
Varianza (s2) 17,97 14,3 5,37 7,62 88,68
Desv. Estandar (s) 4,24 3,78 2,32 2,76 9,42
0,56 0,11 0,3 -0,32 4,56
1,68 0,33 0,9 -0,96 13,68
As= 0,39622642 0,08730159 0,38793103 -
0,34782609
1,4522293
S4 322,9209 204,49 28,8369 58,0644 7864,1424
27.335,83 17608,1551 1463,9043 66,8165739 644492,886
M4 546,716613 352,163103 29,278086 1,33633148 12889,8577
K 1,6930357 1,72215317 1,01529936 0,02301464 1,63906718
8/3/2019 Trabajo de Tecnicas Multivariadas Final
26/35
PREDECIR SI AL CONSUMIR 10 CIGARRILLOS DIARIOS CUL ES EL
TIEMPO DE VIDA QUE SE ESPERA?
Definiendo:
X = Consumo de cigarrillos
Y = Tiempo de vida
Y = a + bX
Para hallar:
Nmero de
cigarrillos por
da (X)
Tiempo de
vida (Y)
XY X2 Y2
14 89 1246 196 7921
14 90 1260 196 8100
356 3703 28196 3418 278303
a= 2619078 59,30345983
44164
b= 91532 2,072547776
44164
Y = 59.30 + 2.07x
Si X = 10 Y = 59.30 + 2.07 (10)
Y = 59.30 + 2.07
Y = 80
El tiempo de vida esperado si es que se consume 10 cigarrillos al da es de 80
aos.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
27/35
PREDECIR SI AL CONSUMIR 12 LITROS DE CERVEZA AL MES CUL ES
EL TIEMPO DE VIDA QUE SE ESPERA?
Definiendo:
X = Consumo de cerveza al mes
Y = Tiempo de vida
Y = a + bX
Para hallar:
Consumo
de litros de
cerveza
mensual
(X)
Tiempo de
vida (Y)
XY X2 Y2
12 89 1068 144 7921
13 90 1170 169 8100
313 3703 24802 2681 278303
a= 2164717 59,9960367
36081
b= 81061 2,246639506
36081
Y = 59.99 + 2.25x
Si X = 12 Y = 59.99 + 2.23 (12)
Y = 86.99
El tiempo de vida esperado si es que se consume 12 litros de cerveza al meses de 87 aos.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
28/35
PREDECIR SI AL CONSUMIR 6 TAZAS DE CAF DIARIOS CUL ES EL
TIEMPO DE VIDA QUE SE ESPERA?
Definiendo:
X = Consumo de tazas de caf diarios
Y = Tiempo de vida
Y = a + bX
Para hallar:
Tazas de caf (X)Tiempo de vida
(Y)
XY X2 Y2
9 89 801 81 7921
9 90 810 81 8100
215 3703 16908 1193 278303
a= 782459 58,28372439
13425
b= 49255 3,668901304
13425
Y = 58.29 + 3.67x
Si X = 12 Y = 58.29 + 3.67 (6)
Y = 80.31
El tiempo de vida esperado si es que se consume 6 tazas de caf diarios es de
80 aos.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
29/35
8/3/2019 Trabajo de Tecnicas Multivariadas Final
30/35
OBTENER EL COEFICIENTE DE DETERMINACIN R2
[ ] [ ]
N de cigarrillos por da:
Nmero de
cigarrillos por
da (X)
Tiempo de
vida (Y)
XY X2 Y2
14 89 1246 196 7921
14 90 1260 196 8100
356 3703 28196 3418 278303
a= 2619078 59,30345983
44164
b= 91532 2,072547776
44164
r2 91532 8378107024 0,93
44164 8962686324
202941
R2 = 93%
8/3/2019 Trabajo de Tecnicas Multivariadas Final
31/35
Consumo de litros de cerveza mensual:
Consumo de litros
de cerveza
mensual (X)
Tiempo de
vida (Y)
XY X2 Y2
12 89 1068 144 7921
13 90 1170 169 8100
313 3703 24802 2681 278303
a= 2164717 59,9960367
36081
b= 81061 2,246639506
36081
r2 81061 6570885721 0,8974
36081 7322314221
202941
R2 = 89.74%
Tazas de caf:
Tazas
de
caf
(X)
Tiempo de
vida (Y)
XY X2 Y2
9 89 801 81 7921
9 90 810 81 8100
215 3703 16908 1193 278303
a= 782459 58,28372439
13425
b= 49255 3,668901304
13425
r2 49255 2426055025 0,89
13425 2724482925
202941
R2 = 89%
8/3/2019 Trabajo de Tecnicas Multivariadas Final
32/35
Consumo de anticidos:
Consumo
de
anticidos(X)
Tiempo
de vida
(Y)XY X2 Y2
9 89 801 81 7921
9 90 810 81 8100
234 3703 18490 1476 278303
a= 1138968 59,80718336
19044
b= 57998 3,04547364
19044
r2 57998 3363768004 0,87036
19044 3864808404
202941
R2 = 87.05%
8/3/2019 Trabajo de Tecnicas Multivariadas Final
33/35
CUL DE LAS VARIABLES PREDICE MEJOR UN MENOR TIEMPO DE
VIDA?
N de cigarrillos = 93%
Consumo de litros de Cerveza = 89.7%
Tazas de caf = 89%
Consumo de anticido = 87.04%
RPTA: La variable que predice mejor, es el consumo de nmero de cigarrillos
diarios.
PREDECIR, SI SE TIENE UN TIEMPO DE VIDA DE 80 AOS CUNTOS
CIGARRILLOS Y TAZAS DE CAF SE DEBERN CONSUMIR?
Si: Tiempo de vida= 80
Cigarrillos:
Y = 59.30 + 2.07x
Y = 80 80 = 59.30 + 2.07 x
20.7 = 2.07x
Entonces X = 10 cigarrillos diarios
Tazas de caf:
Y = 58.29 + 3.678 (X)
80 = 58.29 + 3.67 X
21.71 = 3.67xX = 5.91 tazas de caf diarios se deberan consumir.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
34/35
CONCLUSIONES
Nos muestra que el consumo de cigarrillos diarios, es la variable que
afecta o predice mejor el tiempo de vida de las personas. Por tanto, se
debera de tomar en cuenta esta informacin para las personas que
tienen el hbito de fumar, para que tomen conciencia de que su
consumo afecta directamente a la cantidad de aos de vida.
La variable que menos afecta es el consumo de anticidos, sin embargo,
sta es relativamente alta, ya que su consumo constante afecta a la
salud de las personas y condicionan la calidad de vida y su duracin.
El consumo de litros de cerveza y el consumo de tazas de caf, el
mismo nivel de prediccin, a pesar de ser dos elementos completamente
diferentes, una de ellas contiene alcohol y la otra ingredientes que
afectan considerablemente a la salud, si es que se consumen con
frecuencia y en cantidades altas.
8/3/2019 Trabajo de Tecnicas Multivariadas Final
35/35
BIBLIOGRAFA
1. CANAVOS C. George; Probabilidad y Estadstica, Edit. McGraw-Hill,
Mxico 1995.
2. CRDOVA ZAMORA, Carlos, Estadstica Descriptiva e inferencial edit.
Moshera IV ed. Lima
3. VILA ACOSTA, Roberto; Estadstica Elemental Edit. R.A. Lima-Per.
4. JONSON, Roberto R.: Estadstica Elemental Edit. Trillas 2 edic. Mxico
1991.5. MOYA CALDERN, Rufino, Estadstica Descriptiva, Edit. San Marcos
Lima-Per 1991
6. VELIZ CAPUAY, Carlos: Estadstica Aplicaciones, Edit. CCG S.A. Lima-
Per 1993.
7. INTERNET
Top Related