analisis de varianza y correlacion

17
UNIVERSIDAD DE LAS AMERICAS TRABAJO DE INVESTIGACION DE MERCADO INTERNACIONAL DANILO ESPINOZA ZEAS SECCION:A 18 TURNO SABATINO PROF: SANTOS REYES FECHA: 17 -01-14

description

varianza estadsitica

Transcript of analisis de varianza y correlacion

Page 1: analisis de varianza y correlacion

UNIVERSIDAD DE LAS AMERICAS

TRABAJO DE INVESTIGACION DE MERCADO INTERNACIONAL

DANILO ESPINOZA ZEAS

SECCION:A 18 TURNO SABATINO

PROF: SANTOS REYES

FECHA: 17 -01-14

Page 2: analisis de varianza y correlacion

Introducción

El análisis de datos de la encuesta tiene como objetivo la detección de grupos variables altamente relacionados, para ello se utilizan los siguientes análisis :

En estadística, la correlación lineal se refiere a una medida de asociación entre dos variables intervalo-relación. Las variables intervalo-relación son aquellas que se pueden poner en orden y son numéricas. La medida también refleja el grado de fuerza de la relación entre las variables. Hay unos cuantos tipos diferentes de medida de correlación.

Coeficiente de correlación de Pearson (r)

La R de Pearson mide la fuerza o el grado de asociación entre dos variables de intervalo-relación que van desde 0,0 hasta 1, ya sea positiva o negativa. Es la raíz cuadrada de la determinación de la correlación. Cuanto más cerca está la medida de 1 o -1, más fuerte es la relación. Por lo tanto, 80 o 90 en cualquier dirección indica que existe una fuerte relación. El cero significa que no hay correlación. La R de Pearson es la medida de correlación más utilizada. Se utiliza la siguiente fórmula: R = covarianza/(desviación estándar x)(desviación estándar y).

Determinación de correlación

La determinación de la correlación mide el error de reducción proporcional resultante de la regresión lineal. De acuerdo con el texto "Social Statistics for a Diverse Society", la determinación de correlación también demuestra "la proporción de la variación total en la variable dependiente y, que se explica por la variable independiente x". Si r = 0,60, entonces el 60 por ciento de la variación de y se explica por x. También se conoce como el coeficiente de determinación. La fórmula utilizada para calcular la determinación de la correlación es la siguiente: R al cuadrado = covarianza al cuadrado/(varianza x)(varianza y). Un signo negativo se añade a la respuesta si la covarianza original también fue negativa.

Page 3: analisis de varianza y correlacion

Análisis de correlación

El análisis de correlación emplea métodos para medir la significación del grado o intensidad de asociación entre dos o más variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión. El concepto de correlación está estrechamente vinculado al concepto de regresión, pues, para que una ecuación de regresión sea razonable los puntos muéstrales deben estar ceñidos a la ecuación de regresión; además el coeficiente de correlación debe ser:

Grande cuando el grado de asociación es alto (cerca de +1 o -1, y pequeño cuando

Es bajo, cerca de cero.

Independiente de las unidades en que se miden las variables.

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad

Análisis de Correlación : Con los datos mas simples de respuestas a varias preguntas se pueden fabricar medidas combinatorias de los mismos en forma de índices o escalas.

Estas medidas constituyen la operacionalización de los conceptos, es la referencia empírica reducida a valores empíricamente manejables.

Los conceptos son elaboraciones teóricas con las que definimos un determinado aspecto de la realidad y de la que nos servimos para expresar teorías e hipótesis.

Las variables : son dimensiones de la realidad que deseamos estudiar.

Los indicadores : son expresiones numerables de las distintas dimensiones de un concepto.

Page 4: analisis de varianza y correlacion

Con los datos indexados podemos hacer análisis de correlación de diferentes tipo.

La correlación entre dos o mas variables expresa la extensión en que una incide en la otra intersección, la intersección de ambas, su grado de asociación... . Pero no indica si a partir de los valores de una de ellas podemos predecir los valores de la otra , esto se consigue mediante el coeficiente de regresión que indica si la correlación entre variables es tal que a partir de una podemos calcular los valores de otra. Todo esto lo podemos realizar con medidas de la estadística no paramétrica no pueden ser calculadas.

A partir del Análisis de Correlación se puede trabajar con distintos modelos de análisis multivariable :

Un conjunto de modelos de análisis podría denominarse como el del análisis causal : aquí se incluirían los análisis de cadena (< path análisis>) , el de regresión múltiple y el de segmentación por arborescencia (<tree análisis>) el cual es una técnica multivariable que produce una serie de agrupamientos dicotomizados en un modelo que se asemeja a las ramas de un arbol. La división de las cosas en grupos dicotomizados la realiza el análisis de segmentación de modo que en ellos quede explicada de la mejor forma posible la variación de una cierta variable que llamamos dependiente , respecto a otras que llamamos independientes. La división en grupos dicotomizados e deberalizar en cada paso de tal manera que la variación en ellos sea mínima, que sean lo mas homogéneos posibles al mismo tiempo que la variación entre si sea la mayor posible, que los dos grupos resultantes sean lo mas heterogéneos posibles entre si.

TIPOS DE CORRELACIÓN

La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas y por el tipo de relación lineal, en el primer caso estamos haciendo referencia a:

Correlación simple: se estudia la dependencia únicamente entre dos variables

Correlación múltiple: se estudia la dependencia entre mas de 2 variables

Correlación parcial: cuando se incluye la influencia de variables exógenas no consideradas en el cálculo de los coeficientes.

Dependiendo del tipo de relación lineal el coeficiente relaciona:

Page 5: analisis de varianza y correlacion

Relación directa entre las variables: un aumento en la variable independiente implica un aumento en la variable dependiente.

Relación inversa entre las variables: un aumento en la variable independiente implica una disminución en la variable dependiente.

A partir de ello la ecuación puede mejorar su correlación si se hace pruebas para determinar si se ajusta mas a una recta, una curva exponencial o parabólica.

ANÁLISIS DE LA VARIANZA

1. Introducción:

El análisis de varianza para muestras independientes es el modelo de análisis de

varianza más frecuente: un factor o criterio de clasificación, dividido en dos o más niveles;;

también se denomina análisis de varianza unifactorial1.

Repetimos brevemente lo ya dicho en la introducción. El análisis de varianza se utiliza

cuando tenemos en el mismo planteamiento más de dos muestras independientes (de sujetos

físicamente distintos en cada muestra). También se puede utilizar cuando solamente tenemos

dos muestras como alternativa a la t de Student (de hecho en este caso t2

= F), aunque la

práctica habitual en este caso es utilizar directamente el contraste de medias (t de Student).

Más adelante (apartado 7) presentamos un ejemplo metodológico del análisis de varianza

aplicado a dos muestras como método alternativo al contraste de medias.

Ya hemos indicado la razón principal para utilizar el análisis de varianza en vez de la t

de Student cuando tenemos más de dos grupos en el mismo planteamiento general: aumentan

Page 6: analisis de varianza y correlacion

mucho las probabilidades de no aceptar (rechazar) la Hipótesis Nula de no diferencia cuando

es verdadera (lo que denominamos error tipo I; explicado con más detalle en el anexo I).

Dicho de otra manera: cuando tenemos más de dos muestras y las contrastamos entre sí con

la t de Student, tenemos el riesgo de aceptar la diferencia (no aceptamos la Hipótesis Nula)

cuando realmente se trata de una diferencia normal o, lo que es lo mismo, la probabilidad de

encontrar esa diferencia es mayor de lo que especifi

V. Abraira

Análisis de la varianza

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos motivos:

En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad a. Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - a)m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - a)m, que para valores de a próximos a 0 es aproximadamente igual a a m. Una primera solución, denominada método de Bonferroni, consiste en bajar el valor de a, usando en su lugar a/m, aunque resulta un método muy conservador.

Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la

Page 7: analisis de varianza y correlacion

misma población y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.

El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante.

Bases del análisis de la varianza

Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una única población normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la población s2

1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de s2 y la media de k estimadores centrados es también un estimador centrado y más eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los términos independientes de la suma de cuadrados.

2) Otra llamada varianza entre grupos (sólo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es también un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad.

MSA y MSE, estiman la varianza poblacional en la hipótesis de que las k muestras provengan de la misma población. La distribución muestral del cociente de dos estimaciones independientes de la varianza de una población normal es una F con los grados de libertad correspondientes al numerador y denominador

Page 8: analisis de varianza y correlacion

respectivamente, por lo tanto se puede contrastar dicha hipótesis usando esa distribución.

Si en base a este contraste se rechaza la hipótesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hipótesis de que las k medias provengan de una misma población.

Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un único contraste se contrasta la igualdad de k medias.

Existe una tercera manera de estimar la varianza de la población, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una única muestra, su varianza muestral también es un estimador centrado de s2:

Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es también un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad.

3. Análisis de varianza:

3.1. Fases del proceso

Al explicar el procedimiento seguiremos el proceso que es útil tener claro desde el comienzo y que, más o menos, seguiremos en la presentación de otros modelos de análisis de varianza, porque responde a los pasos lógicos que debemos seguir:

1º Explicación del procedimiento con un ejemplo resuelto paso a paso. Añadiremos una serie de aclaraciones metodológicas que nos pueden ayudar a entender mejor lo que realmente estamos haciendo.

2º Con el análisis de varianza propiamente dicho (razón F) no termina nuestro análisis. Dos tipos de cálculos posteriores completan el proceso:

a) Contrastes posteriores, para poder comparar las medias de dos en dos en el caso de que la razón F sea estadísticamente significativa. b) Diversos coeficientes de asociación que nos ayudan a aclarar la importancia de los resultados, y el tamaño del efecto (semejante al que ya conocemos y aplicamos en el contraste de dos medias).

Page 9: analisis de varianza y correlacion

3º Otras variantes metodológicas para hacer este mismo análisis de varianza (que o simplifican el proceso, o son útiles en determinadas circunstancias).

4º Sugerencias sobre cómo presentar los resultados.

Vamos a presentar dos procedimientos muy semejantes; uno que se basa en el cálculo de desviaciones típicas (o varianzas) de la muestra (dividiendo por N) y otro utilizando las desviaciones típicas o varianzas de la población (dividiendo por N-1).

3.2. Procedimiento utilizando desviaciones típicas; justificación Los procedimientos que vamos a exponer en primer lugar suponen el uso de calculadoras con programación estadística, sobre todo para calcular medias y desviaciones típicas; con esos datos ya hemos visto que los procedimientos son fáciles y rápidos, sobre todo si se trata de muestras pequeñas.

Aunque disponemos de programas informáticos y de Internet (comentados en otros apartados) el proceso explicado en primer lugar calculando medias y desviaciones típicas con una simple calculadora, son útiles por estas razones.

a) Para llegar a una comprensión más cabal de lo que estamos haciendo, sobre todo en procesos de aprendizaje. Hay interpretaciones que no se pueden hacer correctamente sin entender bien el proceso que se capta mejor siguiéndolo paso a paso que explicando los resultados que encontramos ya hechos en cualquier programa disponible. Hay que insistir que este método puede ser muy apropiado (al menos es una buena alternativa didáctica) cuando se trata de entender y aprender; en otro momento lo normal será utilizar programas informáticos.

b) Cuando de diversas muestras ya disponemos del tamaño de cada muestra y de las medias y las desviaciones típicas (o es información que vemos publicada); para estos casos tenemos también los programas de Internet que veremos en otro apartado, pero vamos a ver que si llega el caso se pueden hacer con toda facilidad con una simple calculadora.

c) Cuando en cualquier caso se trata de muestras pequeñas y no resulta especialmente laborioso el cálculo de medias y desviaciones con una simple calculadora.

3.2.1. Procedimiento utilizando desviaciones típicas de las muestras (σn)

En todos los modelos de análisis de varianza hay que calcular varianzas parciales (porque descomponemos la varianza total). En el cálculo de estas varianzas, el denominador no tiene ninguna dificultad (los grados de libertad), pero el numerador de las varianzas, la suma de cuadrados, sí resulta mucho más laborioso.

Page 10: analisis de varianza y correlacion

Cuando no se utiliza directamente un programa de ordenador, lo más cómodo es seguir el procedimiento que utilizamos aquí para calcular las sumas de cuadrados y que no es el tradicional que es normal ver en los libros de texto5.

5 Adaptamos y simplificamos aquí el procedimiento propuesto por Gordon (1973).Siguiente

Aunque dispongamos de programas de ordenador y hojas de cálculo (EXCEL, SPSS), este procedimiento, sobre todo en procesos de aprendizaje:

1) Facilita la comprensión del análisis de varianza, se visualiza mejor cómo se descompone la varianza total y se evitan automatismos que no suponen comprender lo que se está haciendo,

2) Es muy útil cuando de hecho no disponemos de los datos de cada sujeto y solamente tenemos las medias, desviaciones típicas y número de sujetos de cada grupo. Esta situación es frecuente; son datos que podemos encontrar publicados o que podemos tener ya anotados. Los programas de ordenador (como el SPSS o EXCEL) no suelen tener previsto cómo llevar a cabo un análisis de varianza a partir solamente de estos datos (N, media y σ de cada grupo), aunque sí es posible hacerlo en programas disponibles en Internet (mencionamos algunos en el apartado 9).

Para entender el procedimiento hay que recordar en primer lugar la fórmula de la

varianza (de la muestra):

σ

2

=

Σ(X - M)2

N [1]

donde podemos despejar la suma de cuadrados: Σ(X- M)2

= Nσ

2

Es decir, la suma de cuadrados es igual a la varianza multiplicada por el número de sujetos. Se trata de la varianza de la muestra (dividiendo por N y no por N-1). En cada planteamiento del análisis de varianza hay qué saber qué varianza hay que calcular y multiplicar luego por el número de sujetos para obtener las sumas de cuadrados. Esto es lo que iremos viendo en los diversos ejemplos al ir proponiendo los distintos modelos de análisis de varianza. Al dividir estas sumas

Page 11: analisis de varianza y correlacion

de cuadrados por los grados de libertad obtendremos los cuadrados medios o varianzas parciales que van resultando al descomponer la varianza total. Si utilizamos este sencillo y rápido procedimiento, habrá que calcular en primer lugar (cálculos previos.

Conclusiones

La realización del presente trabajo supuso muchas horas de navegación en Internet, que como es sabido, es un espacio anárquico. Unas veces fue posible llegar a la información buscada por casualidad, otras, después de una intensa búsqueda, con los llamados buscadores. Esto en cuanto a la localización de la información.

En una segunda fase, cuando ya los datos estuvieron reunidos, el problema fue depurarlos, es decir, no toda la información sería incluida. Sobre todo porque al enviarla, los buscadores incluyen todo lo existente en sus bancos de datos que contengan la palabra requerida. Más de una vez ocurrió que sólo uno o dos items de cada página servía a este propósito, y a veces ninguno. De esta forma, antes de descartar la información había que entrar en cada uno de los enlaces para conocer su contenido y así poder clasificarla.

Otro de los problemas encontrados es la movilidad de las informaciones. No siempre la misma información permanece en el mismo sitio a través del tiempo, lo que equivale a decir que si hoy se localiza una cooperativa o alguna información relacionada, no es garantía de que esta permanezca en el mismo sitio la próxima vez que piquemos allí con el ratón. Esto se da con mayor frecuencia cuando la empresa o cooperativa anunciante no posee su propio servidor y contrata los servicios de otra empresa para alojar sus páginas y expandirse a través del espacio web.

Page 12: analisis de varianza y correlacion

Bibliografía:

Rincón del vago

Monografías .com

V. Abraira, A. Pérez de Vargas

Métodos Multivariantes en Bioestadística.

Ed. Centro de Estudios Ramón Areces. 1996.