ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

29
UNIVERSIDAD DE CONCEPCIÓN CAMPUS CONCEPCIÓN ANÁLISIS ESTADÍSTICO MULTIVARIADO PRIMER SEMESTRE 2015 Resumen El estudio muestra un análisis que permite conocer cuáles son las características que hace que un posible cliente compre o no a través de Internet, como también cuales son las variables que influyen en el nivel de compra. Para realizar el análisis se ha obtenido una muestra de 112 casos extraídos de la guía telefónica. Los encuestados a través de llamadas respondieron una serie de preguntas que facilitaron la recolección de datos asociados a cada variable. Para realizar el análisis, se utilizaron tres métodos: Análisis Discriminante, Análisis de Regresión Lineal Múltiple y Análisis Factorial. El primero fue efectuado solo con 111 observaciones, la faltante fue eliminada ya que fue considerada un caso atípico; se consideraron 68 observaciones de selección y 43 de validación, la muestra cumplió con todos l os supuestos. Las variables   ,      y   tuvieron un gran desempeño clasificatorio, con un 92,6% de casos bien clasificados en la muestra de análisis y un 90,7% en la muestra de validación. Para el segundo la muestra utilizada fue solo de 68 observaciones, ya que el propósito es saber qué tanto compran los usuarios, al reducir la muestra no hubo inconveniente con los supuestos que demanda este análisis. La capacidad predictiva de las variables   ,   y    fue solo de un 40,5%, valor considerado pequeño, esto se puede deber a que tal vez las variables explicativas no fueron escogidas de manera adecuada. Para el tercero se utilizó la totalidad de la muestra y en primera instancia todas las variables métricas independientes. A medida que se realizaba el análisis, se fueron o bservando indicios de que una variable debía ser e xcluida, al suprimirla, se mostró una mejora en el KMO lográndose un valor de 0,763, lo cual nos permite clasificarlo como un análisis adecuado, además las variables restantes fueron representadas por un único factor. Se observó la existencia de dos factores, los cuales fueron denominados como “logros del servicio” y “entorno”.

Transcript of ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 1/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Resumen

El estudio muestra un análisis que permite conocer cuáles son las características que hace que un posible

cliente compre o no a través de Internet, como también cuales son las variables que influyen en el nivel

de compra. Para realizar el análisis se ha obtenido una muestra de 112 casos extraídos de la guía

telefónica. Los encuestados a través de llamadas respondieron una serie de preguntas que facilitaron la

recolección de datos asociados a cada variable. Para realizar el análisis, se utilizaron tres métodos: Análisis

Discriminante, Análisis de Regresión Lineal Múltiple y Análisis Factorial. El primero fue efectuado solo con

111 observaciones, la faltante fue eliminada ya que fue considerada un caso atípico; se consideraron 68

observaciones de selección y 43 de validación, la muestra cumplió con todos los supuestos. Las variables

 ,   y  tuvieron un gran desempeño clasificatorio, con un 92,6% de casos bien clasificados en la

muestra de análisis y un 90,7% en la muestra de validación. Para el segundo la muestra utilizada fue solo

de 68 observaciones, ya que el propósito es saber qué tanto compran los usuarios, al reducir la muestra

no hubo inconveniente con los supuestos que demanda este análisis. La capacidad predictiva de las

variables ,  y  fue solo de un 40,5%, valor considerado pequeño, esto se puede deber a que tal

vez las variables explicativas no fueron escogidas de manera adecuada. Para el tercero se utilizó la

totalidad de la muestra y en primera instancia todas las variables métricas independientes. A medida que

se realizaba el análisis, se fueron observando indicios de que una variable debía ser excluida, al suprimirla,

se mostró una mejora en el KMO lográndose un valor de 0,763, lo cual nos permite clasificarlo como un

análisis adecuado, además las variables restantes fueron representadas por un único factor. Se observó

la existencia de dos factores, los cuales fueron denominados como “logros del servicio” y “entorno”.

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 2/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Abstract

This study shows an analysis that allows to define the different characteristics that make a client buy using

the internet or not, as well as to specify which are the variables involved on the purchase level. The

analysis is based on data collected among a sample of 112 cases extracted from the phone book. Through

numerous phone calls, the respondants answered to a series of questions designed to collect the data

asssociated with every variable. Three methods were used in order to execute the analysis: Discriminating

Analysis, Multiple Linear Regression Analysis and Factorial Analysis. Being the first of them effected with

only 111 cases, the case missing was excluded due to be considered an atypical case; 68 observations

were contemplated as selection and 43 as validation observations, tha sample fulfilled all the

assumptions. Variables X 3 , X 6 , X 8  and X 12 strongly performed as classificatory variables, with a 92,6% of

cases well classified from the analysis sample, and a 90,7% on the validation sample. For the following

analysis, only 68 observations were used, considering that the target now is to know how much do the

customers buy. There was no inconvenience with the assumptions this analysis demands, reducing the

sample. The predictive capacity from the samples X 2 , X 6 and X 11 was only of a 40,5%, value considered

short. This might be explained with the variables being selected not in the best adequate way. For the

third analysis, the totality of the sample was used, conjointly with all the independent metric variables.

While the analysis was being done, there was the inkling that a variable should be excluded. Once

removed, the KMO showed a noteworthy improvement, achieving a 0,763 value, that allowed us to

classifly it as a adequate analysis, furthermore, the residuary variables were represented by an only factor.

Two factors were discerned, being called: “Service achievements” and “Enviroment”. 

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 3/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Introducción

En enero de 1992 se realizó la primera conexión a internet en Chile, marcando una nueva herramienta

que sin duda llegó para quedarse entre los chilenos, muchas son los beneficios que aporta Internet a la

sociedad, por ejemplo; la búsqueda de información, comunicación a distancia en tiempo real, y uno de

los más importantes, la gran cantidad de recursos que aporta para el desarrollo del conocimiento y la

investigación

Internet ya no sólo cumple las mismas funciones de hace diez años atrás, una de las tendencias que se ha

ido quedado con el tiempo, es el hecho de que los consumidores están optando por realizar sus compras

vía internet ya que ahí pueden encontrar miles de productos, incluso más que en las mismas tiendas desde

la comodidad de sus hogares. Es por esto que las empresas se han visto obligadas a realizar cambios en

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 4/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

sus tecnologías y métodos de pago para cubrir las necesidades de sus usuarios, brindando un servicio

eficaz, seguro y fácil de usar.

Es por lo anterior, que se realizará una investigación de mercado, con el fin de detectar aquellas

características que definan el comportamiento de quienes se han vueltos adherentes a esta tendencia y

a su vez detectar aquellas que mejor expliquen el hecho de que cada día sea algo más masivo.

Para lo anterior se emplazarán tres técnicas de análisis multivariado: análisis discriminante, regresión

lineal múltiple y análisis factorial. Es importante tener presente lo útil que pueden ser estas técnicas en la

cotidianidad, por ejemplo; análisis discriminante lo vemos en bancos para ver si ¿devolverá o no el cliente

el crédito? también para estudiar la aceptación de un nuevo producto que se planea lanzar en el mercado

¿será aceptado o no?, así mismo las técnicas de regresión sirven por ejemplo, para explicar el estrés de

una persona, por medio de variables como; cantidad de días que se trabaja por semana, exceso de

actividades, etc, y el análisis factorial representando en muchas ocasiones aspectos de la vida cotidiana.

En nuestra investigación se comenzará por un análisis discriminante con el fin de distinguir las

características que más diferencian a aquellos que compran a través de internet de aquellos que aún no

son partícipes de esta tendencia, se seguirá con una regresión lineal múltiple para ver que características

influyen que una persona compre más o menos y para terminar se empleará un análisis factorial para

resumir y reducir los datos en factores que expliquen las relaciones presentes entre las características de

los usuarios.

Metodología

La población de interés para llevar a cabo este estudio son todas las personas residentes en el Gran

Concepción, reduciendo a nuestro marco muestral solo a las personas que están registradas en la guía

telefónica del año 2011. La muestra en estudio serán aquellas personas que contesten la encuesta a través

de llamadas telefónicas.

Tipo de muestreo: Como nuestro marco muestral esta reducido a las personas registradas en la guía

telefónica, cada una de las personas pertenecientes a esta tiene la misma probabilidad de salir sorteada.

Así el mejor tipo de muestreo posible es el de Muestreo Aleatorio Simple (MAS). 

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 5/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Recolección de datos: El procedimiento para escoger cada individuo fue el siguiente; se ingresaron en

Excel el número de cada página de la guía telefónica, para escoger así las páginas que entrarían en el

proceso, luego se le asignaron números a las columnas de esta misma, y del mismo modo anterior se eligió

una columna específica, cuando ya contábamos con la columna, se eligió de modo aleatorio 5 números

del 1 al 100 en Excel y se buscó la posición correspondiente a ese número en la columna seleccionada,

con eso ya se contaba al menos con cinco números por página, luego cada integrante del grupo tenía la

misión de conseguir alrededor de 40 personas dispuestas a responder la encuesta telefónica. Se contaba

con una gran cantidad de números ya que se predecía que muchas personas rechazarían el responder la

encuesta.

Grado de confianza deseado y tamaño de la muestra: Para este estudio se utilizará un nivel de confianza

dado, α= 0,05 (margen de error), para cualquier requerimiento durante los análisis.

El tamaño de la muestra está dado por:

 

Lo que da como resultado 384,16 ≈ 385. Es decir, es necesario mínimo 385 personas encuestadas,

pero en vista a los recursos necesarios para realizar las encuestas, como lo es el gasto económico en

realizar cada una de las llamadas, solo es posible efectuar 112 observaciones.

Cuestionario realizado: La encuesta efectuada contaba de 16 preguntas, cada una de ellas asociada a una

variable.

1.- Edad ____

2.- Sexo ____

3.- Cantidad de miembros en el núcleo familiar ____

4.- Cantidad de años que ha tenido acceso a internet ____

5.- Cantidad de equipos electrónicos con conectividad a Internet que manipula ____

Donde

K : Constante que depende del nivel de confianza (K=1,96)

: Proporción de individuos que poseen en la población la

característica de estudio

: Proporción de individuos que no poseen esa característica

e: error de margen 

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 6/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

6.- Cantidad de horas diarias de navegación en Internet ____

7.- Cantidad de horas recreativas diarias ____

8.- ¿Posee Internet móvil? ____

9.- ¿Conoce a alguien que haya comprado a través de internet? ____

10.- ¿Conoce los medios de pago para efectuar compras a través de Internet? ____

11.- ¿Tiene acceso a tarjetas de crédito o débito? ____

12.- ¿Alguna vez ha comprado algún producto a través de Internet? ____

13.- Si usted ha comprado. ¿Cuál es la cantidad promedio anual de productos

comprados?________

Calificación

14.- Respecto a su ingreso, califique su situación

económica

1 2 3 4 5 6 7 8 9 10

15.- Confianza percibida al navegar por Internet 1 2 3 4 5 6 7 8 9 10

16.- Percepción de las ofertas que se encuentran

en Internet

1 2 3 4 5 6 7 8 9 10

Todos los datos presentados a continuación fueron obtenidos al efectuar el análisis correspondiente en

el software IBM SPSS Statistics.

Resultados y Discusión

i)  Análisis Discriminante

En este análisis se querrá responder la siguiente interrogante¿Compra o no compra a través de internet? ,

para ello se considerarán nueve variables métricas (independientes) y una no métrica (dependiente) que

será en este caso nuestra variable de agrupación

Variables métricas - Independientes Descripción

 : Edad Edad del encuestado

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 7/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

En primera instancia se realizó la prueba M de Box, obteniendo el resultado deseado, el cual es que la

matriz de varianzas – covarianzas combinadas es igual en ambos grupos de interés, condición necesaria

para realizar el análisis. Lo anterior se pudo afirmar ya que la significancia de la prueba F es de 0,185, este

valor es mayor que 0,05, por ende se acepta la hipótesis de interés. Con esto se puede comprobar uno

de los supuestos más importantes del análisis discriminante, “Matriz de varianzas y covarianzas

desconocidas pero iguales entre los grupos”  

 : Ingresos Calificación de 1 a 10 a la situación económica

 : Integrantes Integrantes del núcleo familiar

 : Años internet Años que lleva con acceso a internet

 : Confianza internet Calificación de 1 a 10 a la confianza que percibe con

internet

 : Equipos electrónicos Cantidad de equipos con conectividad a internet que

manipula

 : Horas navegación Horas de navegación promedio al día en internet

 : Horas libres Horas de recreación promedio al día

 : Percepción ofertas Calificación de 1 a 10 a la ofertas que percibe en internet

Variable no métrica - Dependiente Descripción

  : Comportamiento Comportamiento del encuestado con el servicio

1 = compra por internet y 0 = no compra por internet

M de Box 14,739

F

 Aprox. 1,375

gl1 10

gl2 18329,767

Sig. ,185

Para continuar es necesario comprobar el resto de los supuestos, la “Normalidad mul tivariante de las variables

independientes” , como se trata de una muestra grande, por teorema del límite central, cualquier combinación

Tabla 1: Variables métricas y su correspondiente descripción empleadas en el AD

Tabla 2: Variable dependiente y su correspondiente descripción empleada en el AD

Tabla 3: Resultados prueba M de Box

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 8/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

En cuanto a los “casos atípicos”  se identificó una observación y fue eliminada, luego de eso se indicó que

no se mostraban anomalías según los criterios especificados.

Una vez cumplidos los supuestos, se procede a estimar la función discriminante y a la evaluación del

ajuste global. Las variables introducidas luego de realizar la prueba de igualdad de medias fueron ,  

  y  que corresponden a aquellas cuyas significancias fueron menores a 0,05, por ende rechazaron

la hipótesis nula que indica que las media del grupo 1 es igual a la media del grupo 2 para cada variable

independiente, en este caso se tuvieron nueve pruebas de hipótesis con sus respectivos valores – p, siendo

las anteriores quienes pasaron la prueba y entraron al análisis

lineal de las variables hará que estas se distribuyan de forma independiente. Para verificar la “ausencia de

multicolinealidad” , se calcula la matriz de correlaciones, donde se puede ver que la relación entre las variables

independiente no es alta, por ende, entre ellas no están muy relacionadas y permiten discriminar con claridad

entre un grupo y otro.

X1 X3 X4 X5 X6 X7 X8 X9 X12

Correlación

X1 1,000 ,100 ,036 -,113 -,232 -,553 -,226 ,192 -,122

X3 ,100 1,000 ,068 -,013 -,186 -,075 -,145 -,145 -,070

X4 ,036 ,068 1,000 -,130 -,157 -,028 ,096 -,131 -,138

X5 -,113 -,013 -,130 1,000 ,399 ,200 ,451 ,305 ,091

X6 -,232 -,186 -,157 ,399 1,000 ,275 ,278 ,237 ,043

X7 -,553 -,075 -,028 ,200 ,275 1,000 ,240 ,035 ,220

X8 -,226 -,145 ,096 ,451 ,278 ,240 1,000 ,249 -,153

X9 ,192 -,145 -,131 ,305 ,237 ,035 ,249 1,000 ,038

X12 -,122 -,070 -,138 ,091 ,043 ,220 -,153 ,038 1,000

Tabla 5: Muestra las variables introducidas con sus respectivas Lambdas de Wilks y significanciaTabla 4: Matriz de correlaciones de las variables independientes

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 9/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

A continuación se presenta una tabla que muestra el autovalor de la función discriminante y su respectiva

correlación canónica, se desea que haya un autovalor grande ya que representa el cociente entre la

variación debido a las diferencias entre los grupos y la variación que se da dentro de cada grupo, como no

tiene un valor máximo es difícil interpretarlo por sí solo y se recurre al Lambda de Wilks ahora asociado a

la función discriminante

Como la correlación canónica es la correlación entre la función discriminante y nuestra variable

dicotómica ( ) deseamos que ésta sea alta para que así indique con claridad que las variables

discriminantes ingresadas permiten diferenciar entre los grupos. En la tabla se ven valores satisfactorios,

un autovalor de 2,003 y una correlación canónica de un 81,7% que demuestran que las variables escogidas

discriminarán de buena forma entre sí los encuestados compran o no a través de internet.

Sumado a lo anterior, se tiene la prueba de Bartlett donde el interés es rechazar la hipótesis nula, que

plantea que el promedio multivariante de las p funciones discriminantes, en este caso p = 4, es igual en

los grupos comparados, como el estadístico V de la prueba carece de distribución propia se comparará

con uno chí-cuadrado. El valor V obtenido es de 70,375 y el chí-cuadrado asociado a esta prueba con

cuatro grados de libertad es 9,49, por lo tanto como el estadístico V es considerablemente mayor que

9,49 se rechaza la hipótesis nula y se asume la diferencia entre ambos promedios comparados. Como la

prueba de Bartlett requiere del Lambda de Wilks de la función discriminante, un procedimiento análogo

sería detenerse a analizar éste por separado.

Paso Introducidas Lambda de Wilks

Estadístico gl1 gl2 gl3 F exacta

Estadístico gl1 gl2 Sig.

1 X3 ,593 1 1 66,000 45,261 1 66,000 ,000

2 X6 ,418 2 1 66,000 45,246 2 65,000 ,000

3 X12 ,360 3 1 66,000 37,982 3 64,000 ,000

4 X8 ,333 4 1 66,000 31,544 4 63,000 ,000

Función Autovalor % de varianza % acumulado Correlación canónica

1 2,003a  100,0 100,0 ,817

Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig.

1 ,333 70,371 4 ,000

Tabla 6: Autovalor asociado a la función discriminante y su respectiva correlación canónica

Tabla 7: Resultados asociados al Lambda de Wilks de la función discriminante

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 10/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Como el Lambda de Wilks expresa la proporción de variabilidad total no debida a las diferencias entre los

grupos; a medida que los grupos se vayan separando más y más, es decir, se vayan diferenciando, la

variabilidad inter-grupos irá aumentando y la variabilidad intra-grupos se irá haciendo menos respecto a

la variabilidad total, disminuyendo así, el valor del Lambda de Wilks, es por eso que valores cercanos a 0

son los que nos interesan porque demuestran una gran diferencia entre los grupos. En la tabla anterior

podemos ver un Lambda de Wilks de 0,333, un valor relativamente pequeño, y una significancia menor a

0,05 por ende se rechaza la hipótesis nula, procedimiento que ya se había hecho con el estadístico chi – 

cuadrado.

Además con los valores obtenidos del Lambda de Wilks y la correlación canónica, se puede comprobar

que la suma del Lambda más la bondad de ajuste da un valor de 1,00048, cercano a 1, esto se debe a quela suma de ambos elementos está representando la suma de cuadrados del error más la suma de

cuadrados de la regresión respecto a la suma total, por lo tanto debe ser uno.

Con todo lo anterior se concluye que las variables introducidas en el análisis serán suficientes para

discriminar entre ambos grupos de interés.

Ahora se procede a formar la función discriminante gracias a los coeficientes no tipificados de las

funciones discriminantes canónicas

Por lo tanto la función discriminante asociada al análisis resulta

= -5,478 + 0,368  + 0,307  + 0.151  + 0,277  

Función

1

X3 ,368

X6 ,307

X8 ,151

X12 ,277

(Constante) -5,478

Tabla 8: Coeficientes no tipificados de las funciones canónicas

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 11/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Donde  : Ingresos en la k  observación

 : Confianza internet en la k observación

 : Horas navegación en la k observación

 : Percepción ofertas en la k  observación

Si nuestro objetivo consistiera en saber en que difieren ambos grupos con lo ya analizado bastaría, sin

embargo, la mayor utilidad de una función discriminante radica en su capacidad para clasificar nuevos

casos, es por esto, que se comparará la puntuación discriminante de cada observación con el puntaje de

corte asociado, como se trata de grupos de diferente tamaño, el punto de corte será desplazado hacia el

centroides del grupo de menor tamaño buscando así igualar los errores de clasificación

Con los centroides mostrados en tabla y sabiendo que el tamaño de la muestra de quienes compran es 38

y de quienes no compran es 30 (68 observaciones seleccionadas), se tiene que el −0,330 

aproximadamente, por lo tanto, si la puntuación del encuestado es menor que  entonces quedará

clasificado como que “no compra a través de internet”, y aquellos cuya puntuación discriminante supereel valor de  quedarán clasificados como que “compra a través de internet”. 

A continuación se presentan los resultados de la clasificación en nuestro análisis, donde se consideraron

68 observaciones en la muestra de selección y 43 en la de validación.

X15 Función

1

No compra a través de internet -1,569

Compra a través de internet 1,239

Tabla 9: Centroides de los grupos de interés

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 12/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Los resultados de la clasificación son satisfactorios, con un 92,6% de casos bien clasificados en la muestra

de análisis y un 90,7 % en la muestra de validación, en la primera muestra se tuvo que 3 encuestados que

no compraban quedaron clasificados como que compraban, a su vez 2 encuestados que compraban

quedaron clasificados en el grupo de los que no compran a través de internet, así mismo en la muestra de

validación fueron 2 en ambos grupos los que quedaron mal clasificados.

Como medida adicional de bondad del modelo se puede comprobar que la precisión clasificatoria es

superior al límite marcado por el criterio de aleatoriedad proporcional que en nuestro análisis

corresponde a 50,6%, la cual efectivamente es mayor por ende

superamos el umbral del Cpro. Ahora un nivel más alto de

valoración para el ajuste sería compararlo con el criterio de aleatoriedad máxima que se obtiene al asignar

todas las observaciones al grupo con la mayor probabilidad de ocurrencia, en este caso, toma un valor de

55,8%, y nuestra precisión clasificatoria sigue siendo superior, dado que el CMA > Cpro el modelo debería

alcanzar el nivel del 55,8% , ahora considerando un umbral un poco más alto correspondiente al CMA más

el 25%, es decir, un 69,7%, nuestra precisión vuelve a superar la barrera, por lo tanto concluimos que la

clasificación fue bien realizada por ende se obtuvieron grupos muy cercanos a la realidad.

Para terminar, es necesario realizar la prueba del estadístico Q de Press con el fin de contrastar la

capacidad discriminatoria de la matriz de clasificación al compararla con un modelo de aleatoriedad.

Dentro del grupo de los seleccionados, el estadístico toma un valor de 49,47 y en el grupo de los no

seleccionados un valor de 28,48, estos valores se compararán con un ,, , que tiene un valor de 3,84,

siendo el Q de Press de la muestra de análisis y de validación considerablemente mayor, por lo tanto,

puede concluirse que en ambas muestras la precisión clasificatoria es mejor a la esperada si esta fuese

aleatoria.

Tabla 10: Resultados de la clasificación

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 13/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

ii)  Regresión lineal múltiple

Para el caso en estudio, se está interesado en saber qué variables explicativas están relacionadas con el

nivel de compra que tienen los usuarios que han utilizado la compra por internet. Para la realización de

este estudio solo tomaremos en cuenta las observaciones que si han hecho uso de la compra a través de

internet, si bien no se considerarán todas las observaciones utilizadas en el análisis anterior no podía ser

de otra forma para el propósito de la regresión

Las variables utilizadas en este análisis de regresión múltiple son:

Variables explicativas Descripción

 

: Edad  Edad del encuestado.

 : Sexo  Sexo del encuestado.

1= Mujer y 0= Hombre

   Ingreso  Calificación de 1 a 10 a la situación económica.

 : Integrantes  Integrantes del núcleo familiar

Tabla 11: Variables explicativas o dependientes

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 14/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

  

Años internet  Años en que usuario ha tenido acceso a Internet

 : Confianza internet  Calificación de 1 a 10 la confianza que percibe con Internet

 : Equipos electrónicos  Cantidad de equipos electrónicos que manipula

 : Horas navegación  Horas de navegación promedio al día en Internet

 : Horas libres  Horas de recreación promedio al día

 : Internet móvil  Posesión de internet móvil.

1= Si posee y 0=No posee

 : Referencia  Referencia de alguien que ha comprado por internet

1= Tiene referencia y 0= No tiene referencia

 : Percepción  Calificación de 1 a 10 a las ofertas que percibe en Internet

 : Forma de Pago  Conocimiento de las formas de pago a través de internet

1= Si tiene conocimiento y 0= No tiene conocimiento

 : Tarjeta de crédito o

débito 

Posesión de tarjetas de crédito o débito

1= Posee tarjetas y 0= No posee tarjetas

EL modelo de regresión queda determinado de la siguiente forma:

+   + X + X + X + … … … . . +X + X + X + X +ε 

Donde:

Y: Variable dependiente (respuesta)

: Intercepto poblacional

: Pendientes poblacionales

 : Variables independientes (explicativas)

: Error aleatorio

Variable independiente Descripción

 : Nivel de compra  Cantidad promedio de productos comprados en un año por los

encuestados

Tabla 12: Variables explicada o independiente

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 15/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Las variables X13 y X14 fueron eliminadas del análisis ya que el software arrojo que estas columnas eran

constantes. Para empezar con el análisis primero se comprobaran los supuestos que debe cumplir el

modelo.

Para tener un buen modelo de regresión no es suficiente que los residuos sean pequeños, también se

requiere que estos se distribuyan de

forma normal, con media igual a cero y

varianza igual a σ2. Para chequear el

“Supuesto de normalidad”   se utiliza la

prueba de Kolmogorov-Smirnov, con la hipótesis nula de que los residuos se distribuyen de modo normal.

El resultado obtenido es el deseado ya que la significancia arrojada para este test es de 0,307, el cual es

mayor a 0,05 (ver Tabla 13); por lo tanto se acepta la hipótesis nula de que los errores se distribuyen de

forma normal.

El “Supuesto de Homocedasticidad” exige igualdad de varianza para los residuos. Si se observa el Gráfico

A podemos ver que existe una gran dispersión de los valores alrededor de la media igual cero. Además en

Unstandardized Residual

N 68

Parámetros normalesa,b Media ,0000000

Des. típica 10,63469471

Z de Kolmogorov-Smirnov ,967

Sig. asintót. (bilateral) ,307

Tabla 13: Prueba de Kolmogorov - Smirnov

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 16/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

el Grafico B no se detecta ninguna pauta de asociación entre los pronósticos y los residuos, es decir, el

tamaño de los residuos es independiente del tamaño de los pronósticos. Por lo tanto no existe presencia

de heterocedasticidad.

El supuesto de “no auto-correlación”   postula que los residuos con diferentes subíndices no están

correlacionados entre sí (E (ui,u j)=0). Para detectar la existencia o no de auto-correlación se observará el

resultado de la prueba de Durbin-Watson, con la cual veremos si los valores presentan algún tipo de

dependencia en cuanto al orden de obtención. Si fuera así se estaría incumpliendo una de las condiciones

del modelo. Si observamos la Tabla 14 el estadístico de Durbin-Watson arroja un valor igual a 1,942 el cual

se encuentra dentro del intervalo de aceptación de la hipótesis nula (IC= [1,87 2,103]). Por lo tanto se

puede afirmar que no existe auto-correlación entre los residuos, es decir, los residuos se distribuyen

aleatoriamente por encima y por debajo de la media igual a cero.

Para verificar el “supuesto de no multicolinealidad” se utilizó el Factor de Inflación de la Varianza (VIF) los

cuales están tabulados en la Tabla 15. Cuando un VIF se acerca a uno para alguna variable sugiere que la

multicolinealidad para esa variable no es un problema. En este caso todos los VIF son cercanos a uno, por

ello podemos asegurar que no existe evidencia de multicolinealidad entre las variables. 

Luego de haber chequeado los supuestos del modelo, daremos paso a la interpretación de los resultados

asociados a la regresión.

El modelo estimado para lo observación i-ésima con los   tabulados en la Tabla 15 y las variables

anteriormente señaladas está dado por:

−29,142 + 0,139 − 6,420X + 0,848X − 0370X + 0,278X + 4,434X − 0,462X − 0,144X −

  −0,800X   − 1,364X + 11,161 X − 0,736X 

Modelo R R cuadrado R cuadrado

corregida

Error típ. de la

estimación

Durbin-Watson

1 ,636a  ,405 ,275 11,738 1,942

Tabla 14: Resumen del modelo

Gráfico BGráfico A

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 17/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Los coeficiente   miden el efecto parcial de la variable Xi, manteniendo las otras variables fijas, es

decir,  mide el cambio en Y  cuando Xi aumenta en 1 unidad.

Modelo Coeficientes no

estandarizados

Coeficient

es

tipificados

t Sig. Intervalo de confianza de

95,0% para B

Estadísticos de

colinealidad

B Error típ. Beta Límite

inferior

Límite

superior

Toleranci

a

FIV

(Constante) -26,142 16,204 -1,613 ,112 -58,616 6,333

X1_Edad ,139 ,120 ,142 1,157 ,252 -,101 ,379 ,722 1,385

X2_Sexo -6,420 3,091 -,233 -2,077 ,043 -12,615 -,225 ,860 1,163

X3_Ingreso ,848 ,882 ,121 ,961 ,341 -,920 2,615 ,687 1,455

X4_Integrantes -,370 1,121 -,036 -,330 ,743 -2,617 1,877 ,889 1,124

X5_AñosInternet ,278 ,368 ,089 ,756 ,453 -,459 1,016 ,788 1,269

X6_Confianza 4,434 1,113 ,451 3,983 ,000  2,203 6,666 ,843 1,186

X7_Equipos -,462 2,543 -,022 -,182 ,856 -5,558 4,634 ,766 1,305

X8_HorasInternet -,144 ,721 -,024 -,200 ,842 -1,590 1,302 ,760 1,316

X9_HorasLibres -,800 ,586 -,167 -1,364 ,178 -1,975 ,375 ,720 1,388

X10_IntMovil -1,364 4,087 -,038 -,334 ,740 -9,555 6,826 ,835 1,198

X12_Percepción -,736 ,842 -,095 -,874 ,386 -2,423 ,951 ,912 1,096

X11_Referencia 11,161 3,533 ,377 3,159 ,003 4,081 18,242 ,760 1,315

En primer lugar se obtuvo la tabla Anova para saber si la regresión es significativa, obteniendo el resultado

deseado para la prueba F, de que por lo menos algún   ≠ 0 para todo i desde 1 hasta 12. Esto se puede

respaldar con los datos tabulados en la Tabla 16, el valor de F estimado es de 3,114, mayor al valor de F

de tabla igual a 1,875 aproximadamente, además la significancia arrojada es de 0,002 que es menor que

0,05, por lo tanto se tiene evidencia suficiente para asegurar que existe al menos un que está explicando

el modelo de regresión.

Modelo Suma de

cuadrados

Gl Media

cuadrática

F Sig.

1

Regresión 5147,990 12 428,999 3,114 ,002b 

Residual 7577,481 55 137,772

Total 12725,471 67

Tabla 15: Tabla de coeficientes

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 18/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Como ya es sabido que la regresión es significativa, es de interés saber cuáles de los coeficientes son

realmente los que están explicando la variable independiente Y. Para que los  sean significativos su

valor-p correspondiente debe ser menor que 0,05, por ende será necesario tener doce pruebas de

hipótesis para probar la significancia de cada  , el objetivo de estas pruebas será rechazar la hipótesis

de que cada 0. Observando los datos de la Tabla 16 los coeficientes que son significativos son los

que están asociados a las variables X2: Sexo, X6: Confianza y X11: Referencia.

Por lo tanto el modelo de regresión asociado al estudio quedaría de la siguiente forma

−29,142 − 6,420X + 4,434X + 11,161 X 

Las variables X, X y X nos dan indicio de que dependiendo del género, en este caso mujeres, y la

confianza que el usuario perciba en internet, además de poseer referencia de alguien que haya usado el

servicio, el nivel de compra se verá influenciado, en este caso, como solo X es una variable métrica, a

mayor valor de esta y tratándose de mujeres y de personas que sí tengan referencia de un tercero, mayor

será el valor de Y, y por ende, mayor la demanda del servicio.

Luego de saber que variables explican la variable independiente del modelo, es de importancia saber cuál

es la capacidad predictiva de las variables independientes, es decir, el porcentaje de la variación total en

la variable independiente y, que está siendo explicada por las variables explicativas X i . Para ello se obtiene

el “Coeficiente de Determinación Múltiple, R2” . Idealmente se espera que este número sea un valor alto

para que exista un gran porcentaje de explicación, en este caso el R2 obtenido es de 0,405, es decir, las

variables independientes X i  explican en un 40,5% la variable independiente Y . Como el R2 conseguido es

pequeño, se puede asegurar que las variables independientes no están muy relacionadas con la variable

dependiente, esto se puede deber a que, las variables seleccionadas no fueron las adecuadas para explicar

la variable dependiente, también puede estar influenciado por el hecho de que no se está ocupando la

totalidad de las observación obtenidas, y además puede existir una error arrastrado de haber realizado el

análisis discriminante antes que el de regresión.

Con lo que respecta a las observaciones influyentes en el modelo, el intervalo de confianza para los

residuos típicos es [-1,9921 1,9921], con ello se puede asegurar que existen 18 observaciones que tienen

Tabla 16: Tabla ANOVA

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 19/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

gran influencia en el modelo, por tanto los 50 observaciones restantes tienen residuos atípicos. El tener

tal cantidad de observaciones no influyentes perjudicó la explicación del modelo.

iii)  Análisis Factorial

El objetivo de este análisis es reducir el número de variables utilizadas a un número más pequeño de

factores o componentes, de tal modo que estos las representen en su totalidad y así logar explicarlas

en términos de sus características comunes.

En el siguiente análisis se utilizarán las variables mostradas a continuación, todas ellas independientes.

Variables métricas - Independientes Descripción

 : Edad Edad del encuestado

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 20/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

En

primera instancia analizaremos la matriz de correlaciones para verificar que se cumpla el supuesto

principal del análisis; “C orrelaciones entre las variables deben ser altas” . La tabla 18 ofrece la matriz de

correlaciones (coeficientes de correlación de Pearson) entre cada par de variables. Se desea que la matriz

indique grupos de variables que se correlacionen fuertemente entre ellas, en el caso contrario, cada

variable será su propio factor. Para valores mayores a 0.30, las correlaciones son consideradas

sustanciales. Además, la tabla 4 muestra la significancia de cada correlación; un nivel crítico menor que

0,05 indica que la correlación poblacional entre el par asociado de variables puede ser considerada

significativamente distinta de cero (esto es deseable).

Para nuestro análisis, se obtuvo 17 correlaciones significativas (47.2%) a un nivel de 0.01de un total de 36,

lo que resulta un indicio de que nuestro análisis podría ser no apropiado.

X1 X3 X4 X5 X6 X7 X8 X9 X12

Correlación

X1 1,000 -,182 -,125 -,307 -,337 -,584 -,368 ,141 -,248

X3 -,182 1,000 ,134 ,291 ,272 ,219 ,137 -,090 ,332

X4 -,125 ,134 1,000 ,130 ,003 ,140 ,211 -,078 ,013

X5 -,307 ,291 ,130 1,000 ,501 ,306 ,521 ,168 ,269

X6 -,337 ,272 ,003 ,501 1,000 ,351 ,354 ,121 ,315

X7 -,584 ,219 ,140 ,306 ,351 1,000 ,345 ,047 ,282

 : Ingresos Calificación de 1 a 10 a la situación económica

 : Integrantes Integrantes del núcleo familiar

 : Años internet Años que lleva con acceso a internet

 : Confianza internet Calificación de 1 a 10 a la confianza que percibe con

internet

 : Equipos electrónicos Cantidad de equipos con conectividad a internet que

manipula

 : Horas navegación Horas de navegación promedio al día en internet

 : Horas libres Horas de recreación promedio al día

 : Percepción ofertas Calificación de 1 a 10 a la ofertas que percibe en internet

Tabla 17: Variables métricas y su correspondiente descripción empleadas en el AF

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 21/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

X8 -,368 ,137 ,211 ,521 ,354 ,345 1,000 ,173 ,081

X9 ,141 -,090 -,078 ,168 ,121 ,047 ,173 1,000 ,014

X12 -,248 ,332 ,013 ,269 ,315 ,282 ,081 ,014 1,000

Sig.

(Unilateral)

X1 ,027 ,094 ,000 ,000 ,000 ,000 ,069 ,004

X3 ,027 ,080 ,001 ,002 ,010 ,076 ,174 ,000

X4 ,094 ,080 ,086 ,485 ,070 ,013  ,208 ,446

X5 ,000 ,001 ,086 ,000 ,001 ,000 ,038 ,002

X6 ,000 ,002 ,485 ,000 ,000 ,000  ,102 ,000

X7 ,000 ,010 ,070 ,001 ,000 ,000 ,313 ,001

X8 ,000 ,076 ,013 ,000 ,000 ,000 ,034 ,198

X9 ,069 ,174 ,208 ,038 ,102 ,313 ,034 ,442

X12 ,004 ,000 ,446 ,002 ,000 ,001 ,198 ,442Tabla 18. Muestra la matriz de correlaciones entre las variables.

Para continuar con nuestro análisis aplicamos los estadísticos KMO y prueba de esfericidad de Bartlett

que permiten valorar si el análisis ha sido el apropiado.

La Medida de Suficiencia Muestral (KMO) es un índice que compara la magnitud de los coeficientes de

correlación con la magnitud de los coeficientes de correlación parcial entre las variables. Los valores de la

medida de suficiencia muestral varían entre 0 y 1. Se considera que es pertinente utilizar el análisis en

cuestión si presenta valores de KMO próximos a 1.

La Prueba de Esfericidad de Bartlett  contrasta la hipótesis nula de que la matriz de correlaciones es una

matriz identidad (lo que indicaría correlaciones entre variables iguales a 0). De esta forma, se esperan

valores de significancia mayores a 0,05 para poder así rechazar la hipótesis mencionada, para luego

clasificar de buena forma al análisis.

En nuestro análisis se puede observar un valor de KMO de 0,736, por lo que es considerado como

aceptable, además la significancia de Bartlett es la esperada.

Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,736

Prueba de esfericidad de

Bartlett

Chi-cuadrado aproximado 203,339

gl 36

Sig. ,000

Tabla 19. Muestra dos estadísticos usados para valorar que el análisis factorial sea apropiado.

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 22/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Ahora analizaremos la matriz de correlación anti-imagen para así observar si la medida de adecuación

muestral de cada variable (MSA) se encuentra dentro los rangos esperados.

La matriz de correlación anti-imagen es el negativo de la matriz de correlaciones parciales entre dos

variables. Recordemos que las correlaciones parciales son estimaciones de las correlaciones entre los

factores únicos, además de que las correlaciones deben ser próximas a cero, es por esto que se desea que

la matriz de correlaciones anti-imagen contenga coeficientes bajos, logrando así, clasificar como adecuado

nuestro análisis.

Es importante mencionar que la diagonal de ésta matriz, representa los coeficientes MSA, los cuales son

considerados como una medida de adecuación muestral para cada variable (similar a KMO).

Nuestro análisis presenta en su mayoría valores de MSA cercanos a 1 (deseable) a excepción de la variable

X9, la cual podría ser excluida del análisis.

X1 X3 X4 X5 X6 X7 X8 X9 X12

Correlación

anti-imagen

X1 ,694a  -,033 7,833E-005 ,046 ,103 ,480 ,193 -,268 ,084

X3 -,033 ,758a

  -,102 -,153 -,106 -,070 ,026 ,139 -,233

X4 7,833E-005 -,102 ,634a  -,048 ,115 -,074 -,166 ,097 ,035

X5 ,046 -,153 -,048 ,762a  -,306 ,010 -,371 -,113 -,113

X6 ,103 -,106 ,115 -,306 ,823a  -,104 -,090 -,069 -,143

X7 ,480 -,070 -,074 ,010 -,104 ,742a  -,091 -,119 -,118

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 23/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

X8 ,193 ,026 -,166 -,371 -,090 -,091 ,741a  -,155 ,138

X9 -,268 ,139 ,097 -,113 -,069 -,119 -,155 ,411a  -,027

X12 ,084 -,233 ,035 -,113 -,143 -,118 ,138 -,027 ,768a 

Tabla 20. Muestra matriz de correlación anti-imagen

En nuestra Tabla 21, correspondiente a la tabla de porcentajes de varianza explicada, se ofrece un listado

de los autovalores de la matriz de correlación y del porcentaje de varianza y varianza acumulada que

representa cada uno de ellos. Recordemos que los autovalores expresan la cantidad de varianza total que

está explicada por cada factor. Utilizamos el criterio de la raíz latente para seleccionar el número de

componentes que se va a mantener para un análisis posterior, el método consiste en seleccionar tantos

componentes como autovalores mayores a 1 existan en la matriz analizada, por lo que el procedimiento

extrae tres componentes que explican un %59,49 de la varianza de los datos originales.

Componente Autovalores iniciales 

Total % de la varianza % acumulado

1 2,974 33,045 33,045

2 1,256 13,952 46,997

3 1,125 12,499 59,496

4 ,973 10,806 70,302

5 ,757 8,408 78,710

6 ,609 6,768 85,478

7 ,534 5,929 91,407

8 ,404 4,486 95,894

9 ,370 4,106 100,000

A continuación se muestra la matriz de correlaciones reproducidas y la matriz residual.

La matriz de correlaciones reproducidas contiene las correlaciones que es posible reproducir utilizando

tan sólo la información contenida en la solución factorial.

La matriz residual posee los residuos del análisis factorial, cabe mencionar que cada residuo representa

la diferencia entre la correlación observada ente dos variables y la correlación reproducida por la

estructura factorial para esas dos variables.

Para que el análisis sea clasificado como adecuado, el número de residuos con valores altos debe ser

mínimo y la mayoría de las correlaciones reproducidas se deben parecer a las correlaciones observadas.

Tabla 21. Muestra los nueve posibles factores, sus respectivos autovalores y porcentajes de varianza que representa

cada uno de ellos.

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 24/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

Para nuestro análisis, se obtuvieron 27 residuos no redundantes (75.0%), lo que resulta

negativo a la hora de clasificar fructífero a nuestro análisis.

X1 X3 X4 X5 X6 X7 X8 X9 X12

Correlación

reproducida

X1 ,595a  -,363 -,371 -,405 -,368 -,548 -,428 ,201 -,298

X3 -,363 ,471a  -,017 ,260 ,363 ,348 ,072 -,196 ,516

X4 -,371 -,017 ,524a  ,099 -,033 ,291 ,332 -,242 -,177

X5 -,405 ,260 ,099 ,623a  ,570 ,466 ,574 ,322 ,313

X6 -,368 ,363 -,033 ,570 ,586a  ,429 ,422 ,252 ,453

X7 -,548 ,348 ,291 ,466 ,429 ,530a  ,462 -,066 ,317

X8 -,428 ,072 ,332 ,574 ,422 ,462 ,698a  ,301 ,039

X9 ,201 -,196 -,242 ,322 ,252 -,066 ,301 ,706a  -,074

X12 -,298 ,516 -,177 ,313 ,453 ,317 ,039 -,074 ,620a 

Residualb 

X1 ,181 ,246 ,098 ,031 -,035 ,060 -,060 ,049

X3 ,181 ,151 ,031 -,092 -,129 ,065 ,106 -,184

X4 ,246 ,151 ,031 ,037 -,151 -,121 ,165 ,190

X5 ,098 ,031 ,031 -,068 -,160 -,053 -,153 -,043

X6 ,031 -,092 ,037 -,068 -,077 -,068 -,131 -,139

X7 -,035 -,129 -,151 -,160 -,077 -,116 ,113 -,035

X8 ,060 ,065 -,121 -,053 -,068 -,116 -,127 ,042X9 -,060 ,106 ,165 -,153 -,131 ,113 -,127 ,088

X12 ,049 -,184 ,190 -,043 -,139 -,035 ,042 ,088

Tabla 22. Muestra la matriz de correlaciones reproducidas. 

Luego procedemos a analizar la matriz de coeficientes para el cálculo de las cargas factoriales, la cual

ofrece las ponderaciones que recibe cada variable en el cálculo de dichas cargas.

Las puntuaciones factoriales deben ser cercanas a 0 o 1, las variables con puntuaciones próximas a 1 se

explican en gran parte por el factor, mientras que las que tengas puntuaciones próximas a 0 no se explican

por el factor. Cabe mencionar que cada variable debe tener puntuaciones factoriales altas con un único

factor y que no deben existir factores con similares puntuaciones factoriales.

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 25/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

En nuestro análisis notamos poca claridad al momento de explicar la relación de las variables con los

factores ya que las puntuaciones no muestran una preferencia notoria ante algún factor. Se realiza una

rotación ortogonal (VARIMAX) para mejorar esta situación. 

Componente

1 2 3

X1 Edad -,124 -,345 ,095

X3 Ingreso ,410 -,053 -,151

X4 Integrantes -,239 ,539 -,130

X5 Años Internet ,079 ,054 ,327

X6 Confianza ,242 -,084 ,247

X7 Equipos ,126 ,259 ,013

X8 Horas Internet -,184 ,307 ,337

X9 Horas Libres -,170 -,262 ,589

X12 Percepción ,503 -,225 -,066

Tabla23. Muestra la matriz de coeficientes para el cálculo de

las puntuaciones en los componentes 

Luego de realizar la rotación VARIMAX se muestra la matriz de componentes rotados. La idea de aplicar

una rotación es redistribuir las varianzas de los factores y así mejorar la saturación de las variables en su

respectivo factor y disminuirla en los componentes a los que no pertenece.

En nuestro análisis se puede observar que a pesar de haber aplicado una rotación, continúa existiendo

poca claridad en las saturaciones de las variables con sus factores representativos. Por lo tanto

excluiremos la variable X9 la cual presentaba el menor MSA entre las variables en cuestión (Tabla 20).

Componente

1 2 3

X12percepción ,782

X3ingreso ,674

X6confianza ,550 ,512

X4integrantes ,700

X1edad -,429 -,637

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 26/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

X7equipos ,434 ,542

X9horaslibres ,769

X5añosinternet ,622

X8horasinternet ,565 ,613Tabla 24. Muestra la matriz de componentes rotados

Tras la exclusión de la variable X9 (Horas Libres) se observa un aumento en el índice KMO. Al analizar la

matriz de correlación Anti-Imagen se muestra una mejora en los valores de los MSA de las variables (se

omitió esta tabla), además se puede observar que los factores extraídos han disminuido de tres a dos.

Recordemos que un análisis factorial satisfactorio se caracteriza por tener puntuaciones factoriales altas

con un único factor y que no deben existir factores con similares puntuaciones factoriales.

La matriz de componentes principales muestra poco claridad en las saturaciones de las variables con sus

factores representativos, por lo que se realizó una rotación oblicua (OBLIMIN) y esta situación ha sido

mejorada; cada variable presenta una saturación relativamente alta con un único factor (no se usó una

rotación VARIMAX ya que ésta tampoco logró mejorar la situación de poca claridad entre factores y

variables).

Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,763

Prueba de esfericidad de

Bartlett

Chi-cuadrado aproximado 187,969

gl 28

Sig. ,000

Componente1 2

X5añosinternet ,726

X7equipos ,702

X6confianza ,696

X1edad -,689

X8horasinternet ,652 -,458

Tabla 25. Muestra KMO y prueba de Bartlett luego de la exclusión de la variable X9.

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 27/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

X3ingreso ,493 ,408

X12percepción ,510 ,598

X4integrantes -,565

Tabla 26. Muestra la matriz de componentes

luego de la exclusión de la variable X9.

Luego de la exclusión de la variable en cuestión, se puede observar una mejora al momento de explicar la

relación de las variables con los componentes ya que las puntuaciones reflejan una preferencia notoria

ante los factores representativos.

Conclusiones

El objetivo inicial era detectar aquellas características que definan el comportamiento de quienes

compran o no a través de internet y a su vez detectar aquellas que mejor expliquen el nivel de compra de

los encuestados, las conclusiones de las técnicas empleadas en el análisis son:

X8horasinternet ,742

X5añosinternet ,717

X1edad -,704

X7equipos ,704

X6confianza ,627

X12percepción ,703

X3ingreso ,514

X4integrantes -,489

Tabla 27. Muestra la matriz de componentes

rotados luego de la exclusión de la variable X9.

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 28/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

i)  La función discriminante quedó conformada por las siguientes variables: ingresos, confianza

hacia internet, horas de navegación y percepción de las ofertas, obteniendo una precisión

clasificatoria de un 92,6% en la muestra de análisis y un 90,7 % en la muestra de validación,

el análisis cumplió todos los supuestos requeridos, por ende se concluye que serán estas

variables las encargadas de distinguir y por ende clasificar cualquier caso entre sí “compra a

través de internet”  o “no compra a través de internet” .

ii)  Terminado el análisis de regresión se puede decir que el modelo obtenido es significativo y

que el nivel de compra de quienes son adherentes al servicio es explicado por las variables,

sexo, confianza y referencia de compra en un 40.5%, si bien nuestro   no es un valor

satisfactorio, concluimos que las variables elegidas en la encuesta no fueron las adecuadas

para explicar nuestra variable dependiente para la regresión.

iii)  Del análisis factorial se concluye que este es adecuado debido a los resultados obtenidos y

exclusión de una variable que no lograba ser clasificada correctamente en un único factor.

Además se han obtenido dos factores; el primero ha sido denominado como “logros del

servicio”, el cual contiene a las variables; horas de internet, años de internet, edad, equipos y

confianza. Para el segundo factor se le ha dado la etiqueta de “entorno”, el cual contiene a

las variables; percepción, ingreso e integrantes.

Respecto a los errores que se presentaron en el desarrollo del análisis, los justificamos en el proceso

de recolección de datos, ya que limitarse a la disponibilidad de la gente a responder una encuesta vía

teléfono no fue una tarea sencilla, y abarcar el tamaño de la muestra mínimo fue algo que superó

nuestro alance.

La importancia que se asocia al estudio es más bien en el ámbito sociológico ya que apunta a

comprender conductas de las personas respecto a esta tendencia que se están presentando en la

sociedad.

Referencias

-  DAMODAR N.GUJARTI, Econometría, traducido de la quinta edición de Basic econometrics, by

Damodar N. Gujarati, and Dawn C. Porter, México. Parte uno “Modelos de regresión

uniecuacionales”

8/15/2019 ANÁLISIS DISCRIMINANTE, FACTORIAL Y REGRESIÓN LINEAL

http://slidepdf.com/reader/full/analisis-discriminante-factorial-y-regresion-lineal 29/29

UNIVERSIDAD DE CONCEPCIÓN

CAMPUS CONCEPCIÓN

ANÁLISIS ESTADÍSTICO MULTIVARIADO

PRIMER SEMESTRE 2015

-  HAIR, ANDERSON, TATHAM & BLACK,  Análisis Multivariante, traducción Esme Prentice y Diego

Cano, Universidad autónoma de Madrid, Madrid, Capítulo 1: Introducción, Capítulo 2: Análisis

previo de los datos, Capítulo 3: Análisis factorial.