Análisis de Datos Pub

71
Universidad del Valle de México “Correlación y Regresión Lineal”, “Regresión Múltiple y Polinomial”, “Análisis de Varianza”, “Estadística no Paramétrica” y “Modelos de Predicción y Series de Tiempo” Universidad del Valle de México Ingeniería Industrial y de Sistemas Análisis de Datos 1

description

Trabajo final materia Análisis de Datos: “Correlación y Regresión Lineal”,“Regresión Múltiple y Polinomial”,“Análisis de Varianza”,“Estadística no Paramétrica” y“Modelos de Predicción y Series de Tiempo”

Transcript of Análisis de Datos Pub

Page 1: Análisis de Datos Pub

Universidad del Valle de México

“Correlación y Regresión Lineal”,

“Regresión Múltiple y Polinomial”,

“Análisis de Varianza”,

“Estadística no Paramétrica” y

“Modelos de Predicción y Series de Tiempo”

Septiembre 2008

Materia: Análisis de Datos

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

1

Page 2: Análisis de Datos Pub

Contenido

Correlación y Regresión Lineal..........................................................................................................3

Modelos de Regresión................................................................................................................... 3

El coeficiente de correlación lineal.................................................................................................5

Regresión lineal............................................................................................................................. 7

Regresión lineal múltiple.................................................................................................................. 10

Análisis de Regresión Múltiple.....................................................................................................12

Aplicación de la Regresión Múltiple.............................................................................................14

El Error Estándar de Regresión Múltiple......................................................................................15

El coeficiente de determinación múltiple (r2)...............................................................................15

Regresión Polinominal.....................................................................................................................16

Análisis de Varianza......................................................................................................................... 18

Diseño en Bloques Aleatorizados................................................................................................26

Diseños Factoriales...................................................................................................................... 27

Estadística No Paramétrica..............................................................................................................29

Introducción................................................................................................................................. 29

Prueba de homogeneidad............................................................................................................29

Prueba de bondad de ajuste........................................................................................................32

Prueba de independencia............................................................................................................35

Prueba de rachas de Wald Wolfowitz..........................................................................................40

Análisis de Series de Tiempo...........................................................................................................42

Tendencia secular (T)..................................................................................................................43

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

2

Page 3: Análisis de Datos Pub

Correlación y Regresión Lineal

Modelos de Regresión

Los Modelos de Regresión estudian la relación estocástica cuantitativa entre una variable de

interés y un conjunto de variables explicativas. Estos modelos son muy utilizados y su estudio

conforma un área de investigación clásica dentro de la disciplina de la Estadística desde hace

muchos años.

Cuando se estudia la relación entre una variable de interés, variable respuesta o variable

dependiente y un conjunto de variables regresoras (explicativas, independientes)

, puede darse las siguientes situaciones:

Existe una relación funcional entre ellas, en el sentido de que el conocimiento de las

variables regresoras determina completamente el valor que toma la variable respuesta,

esto es:

Ejemplo: la relación que existe entre el tiempo (Y) que tarda un móvil en recorrer una

distancia y dicha distancia (X) a velocidad constante.

No exista ninguna relación entre la variable respuesta y las variables regresoras, en el

sentido de que el conocimiento de éstas no proporciona ninguna información sobre el

comportamiento de la otra.

Ejemplo: la relación que existe entre el dinero (Y) que gana una persona adulta

mensualmente y su altura (X).

El caso intermedio, existe una relación estocástica entre la variable respuesta y las

variables regresoras, en el sentido de que el conocimiento de éstas permiten predecir con

mayor o menor exactitud el valor de la variable respuesta. Por tanto siguen un modelo de

la forma:

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

3

Page 4: Análisis de Datos Pub

Siendo m la función de regresión desconocida y una variable aleatoria de media cero (el error de

observación).

Las relaciones estocásticas son las que ocurren en la mayoría de las situaciones y su estudio se

corresponde con los denominados Modelos de Regresión.

El objetivo básico en el estudio de un modelo de regresión es el de estimar la función de regresión,

m, y el modelo probabilístico que sigue el error aleatorio, esto es, estimar la función de distribución

F de la variable de error. La estimación de ambas funciones se hace a partir del conocimiento de

una muestra de las variables en estudio:

Una vez estimadas estas funciones se tiene conocimiento de:

La relación funcional de la variable respuesta con las variables regresoras, dada por la

función de regresión que se define como sigue:

Esto permite tener una idea general del comportamiento de la variable respuesta en

función de las regresoras.

Se puede estimar y predecir el valor de la variable respuesta de un individuo del que se conocen

los valores de las variables regresoras. Esto es, de un individuo t se sabe que X1 = x1,t,...,Xk =

xk,t, entonces se puede predecir el valor de Y t y calcular un intervalo de predicción del mismo.

En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de

relación entre si.

Ejemplo, si se analiza la estatura y el peso de los alumnos o alumnas de una clase es muy posible

que exista relación entre ambas variables: mientras más alto sea el estudiante, cabe pensar que

mayor será su peso.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

4

Page 5: Análisis de Datos Pub

El coeficiente de correlación lineal

Este coeficiente mide el grado de intensidad de esta posible relación entre las variables. Este

coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si

representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se

aproximaría a una recta).

No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En

estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las

variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado.

Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar

los pares de valores en un gráfico y ver que forma describen.

El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

Es decir:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores

(x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido

de todos los pares de valores y este resultado se divide por el tamaño de la muestra.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

5

Page 6: Análisis de Datos Pub

Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le

calcula la raíz cuadrada.

Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1

Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La

correlación es tanto más fuerte cuanto más se aproxime a 1.

Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.

Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra).

La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.

Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.

Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de

correlación (parabólica, exponencial, etc.)

De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir

obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este

resultado podría haberse debido al puro azar.

Ejemplo: vamos a calcular el coeficiente de correlación de la siguiente serie de datos de

altura y peso de los alumnos de una clase:

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso

Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35

Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

6

Page 7: Análisis de Datos Pub

Aplicando la fórmula:

r =

(1/30) * (0,826)

=0,719-----------------------------------------------------

(((1/30)*(0,02568)) * ((1/30)*(51,366)) ^

(1/2)

Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo.

Regresión lineal

Si representamos en un gráfico los pares de valores de una distribución bidimensional: la variable

"x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos

que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre

las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir

la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente fórmula:

y = a + b · x Universidad del Valle de México

Ingeniería Industrial y de SistemasAnálisis de Datos

7

Page 8: Análisis de Datos Pub

Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra

variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los

parámetros "a" y "b":

El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable

independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.

El parámetro "b" determina la pendiente de la recta, su grado de inclinación.

La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que

mejor se ajusta a esta nube de puntos.

El parámetro "b" viene determinado por la siguiente fórmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".

El parámetro "a" viene determinado por:

a = ym - ( b · x m )

Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parámetro "b"

que hemos calculado.

Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de datos de altura y peso de

los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que

el peso es la variable dependiente "y" (podíamos hacerlo también al contrario):

 

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso

Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

8

Page 9: Análisis de Datos Pub

Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34

 

 El parámetro "b" viene determinado por:

  b =

(1/30) * 1,034  

-------------------------------------- = 40,265

(1/30) * 0,00856  

Y el parámetro "a" por:

a = 33,1 - (40,265 * 1,262) = -17,714

Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:

y = -17,714 +  40,265 · x

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable

independiente (estatura):

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

Estatura Peso

1,20 30,61,21 31,01,22 31,41,23 31,81,24 32,21,25 32,61,26 33,01,27 33,41,28 33,81,29 34,21,30 34,6

9

Page 10: Análisis de Datos Pub

Regresión lineal múltiple.

En la mayor parte de los problemas de investigación donde se aplica el análisis de regresión se

necesita más de una variable independiente en el modelo de regresión. La complejidad de la mayor

parte de los mecanismos científicos es tal que para ser capaces de predecir una respuesta

importante se necesita un modelo de regresión múltiple. Cuando este modelo es lineal en los

coeficientes se denomina modelo de regresión lineal múltiple. Para el caso de k variables

independientes X1, X2,....,Xk, la media de Y| X1, X2,....,XK está dada por el modelo de regresión lineal

múltiple

m Y|x1, x2 ,………, xk = b 0 + b 1 x1 +……..+ b k xk

 

y la respuesta estimada se obtiene de la ecuación de regresión de la muestra

Donde cada coeficiente de regresión b i se estima por bi de los datos de la muestra con el uso del

método de mínimos cuadrados. Como en el caso de una sola variable independiente, el modelo de

regresión lineal múltiple a menudo puede ser una representación adecuada de una estructura más

complicada dentro de ciertos rangos de las variables independientes.

Técnicas de mínimos cuadrados similares también se pueden aplicar al estimar los coeficientes

cuando el modelo lineal involucra, digamos, potencias y productos de las variables independientes.

Por ejemplo, cuando k = 1, el experimentador puede pensar que las medias m Y|x1 no caen en una

línea recta pero que se describen de forma más apropiada con el modelo de regresión polinomial

 

m Y|x = b 0 + b 1 x +b 2 x2+ ……..+ b r xr

 

y la respuesta estimada se obtiene de la ecuación de regresión polinomial

En ocasiones surge confusión cuando hablamos de un modelo polinomial como de un modelo

lineal. Sin embargo, los estadísticos por lo general se refieren a un modelo lineal como uno en el

cual los parámetros ocurren linealmente, sin importar cómo entran las variables independientes al

modelo. Un ejemplo de un modelo no lineal es la relación exponencial

m Y|x = a b x,

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

10

Page 11: Análisis de Datos Pub

que se estima con la ecuación de regresión

Existen muchos fenómenos en la ciencia y en la ingeniería que son inherentemente no lineales por

naturaleza y, cuando se conoce la estructura real, desde luego se debe hacer un intento para

ajustar el modelo presente.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

11

Page 12: Análisis de Datos Pub

Este tipo se presenta cuando dos o más variables independientes influyen sobre una variable

dependiente. Ejemplo: Y = f(x, w, z).

Por ejemplo: Podría ser una regresión de tipo múltiple: Una Empresa de desarrollo de software

establece relacionar sus Ventas en función del numero de pedidos de los tipos de software que

desarrolla (Sistemas, Educativos y Automatizaciones Empresariales), para atender 10 proyectos en

el presente año.

En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W (Nº de

pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de Automatizaciones

empresariales).

Y 440 455 470 510 506 480 460 500 490 450

X 50 40 35 45 51 55 53 48 38 44

W 105 140 110 130 125 115 100 103 118 98

Z 75 68 70 64 67 72 70 73 69 74

Objetivo: Se presentara primero el análisis de regresión múltiple al desarrollar y explicar el uso de

la ecuación de regresión múltiple, así como el error estándar múltiple de estimación. Después se

medirá la fuerza de la relación entre las variables independientes, utilizando los coeficientes

múltiples de determinación.

Análisis de Regresión Múltiple

Dispone de una ecuación con dos variables independientes adicionales:

Se puede ampliar para cualquier número "m" de variables independientes:

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

12

Page 13: Análisis de Datos Pub

Para poder resolver y obtener y en una ecuación de regresión múltiple el cálculo se

presenta muy tediosa porque se tiene atender 3 ecuaciones que se generan por el método de

mínimo de cuadrados:

 Para poder resolver se puede utilizar programas informáticos como AD+, SPSS y Minitab y Excel.

El error estándar de la regresión múltiple Es una medida de dispersión la estimación se

hace más precisa conforme el grado de dispersión alrededor del plano de regresión se hace mas

pequeño. Para medirla se utiliza la formula:

Y : Valores observados en la muestra

: Valores estimados a partir a partir de la ecuación de regresión

n : Número de datos

m : Número de variables independientes

El coeficiente de determinación múltiple Mide la tasa porcentual de los cambios de Y que

pueden ser explicados por , y simultáneamente.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

13

Page 14: Análisis de Datos Pub

Aplicación de la Regresión Múltiple

Mediante el siguiente problema podremos ilustrar la aplicación de Regresión Múltiple: Se quiere

entender los factores de aprendizaje de los alumnos que cursan la asignatura de PHP, para lo cual

se escoge al azar una muestra de 15 alumnos y ellos registran notas promedios en las asignaturas

de Algoritmos, Base de Datos y Programación como se muestran en el siguiente cuadro.

Alumno PHP Algoritmos Base de Datos Programación1 13 15 15 13

2 13 14 13 12

3 13 16 13 14

4 15 20 14 16

5 16 18 18 17

6 15 16 17 15

7 12 13 15 11

8 13 16 14 15

9 13 15 14 13

10 13 14 13 10

11 11 12 12 10

12 14 16 11 14

13 15 17 16 15

14 15 19 14 16

15 15 13 15 10

Lo que buscamos es construir un modelo para determinar la dependencia que exista de

aprendizaje reflejada en las notas de la asignatura de PHP, conociendo las notas de las

asignaturas Algoritmos, Base de Datos y Programación.

Se presentara la siguiente ecuación a resolver:

Utilizando las formulas de las ecuaciones normales a los datos obtendremos los coeficientes de

regresión o utilizando Regresión de Análisis de datos, en la Hoja de Calculo de Excel podemos

calcular también los coeficientes de regresión:

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

14

Page 15: Análisis de Datos Pub

Por lo tanto podemos construir la ecuación de regresión que buscamos:

El Error Estándar de Regresión Múltiple

Mediante esta medida de dispersión se hace más preciso el grado de dispersión alrededor del

plano de regresión, se hace más pequeño.

Para calcularla se utiliza la formula siguiente:

En los resultados de Excel se llama error típico y para explicar la relación del aprendizaje de PHP

que se viene desarrollando es de 0.861

El coeficiente de determinación múltiple (r2)

Utilizaremos para determinar la tasa porcentual de Y para ser explicados las variables múltiples,

utilizando la siguiente formula:

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

15

Page 16: Análisis de Datos Pub

Conclusión El 69.70% del aprendizaje del Curso de PHP puede ser explicado mediante las notas

obtenidas por las asignaturas de Algoritmos, Base de Datos y Programación.

Regresión Polinominal

Los polinomios son muy usados en los cálculos numéricos, por sus propiedades. La ecuación de

un polinomio de grado n es:

 

Apliquémosle el método de mínimos cuadrados.

La curva propuesta es:

S2 esta dada por:

El error estándar cuadrado es este caso:

Podemos escribir el sistema de ecuaciones normales obtenido en la forma:

Donde: Sx: Matriz de sumatorias de potencias de x.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

16

Page 17: Análisis de Datos Pub

a: Vector de coeficientes. Las constantes del polinomio.

Sxy: Vector de sumatorias de potencias de x con y's.

 

Las fórmulas anteriores pueden construirse fácilmente para cada grado n, notando las siguientes

propiedades:

Son n+1 ecuaciones.

La máxima potencia en las sumatorias de x es 2n.

La máxima potencia en las sumatorias de x con y es n.

Para el primer renglón la potencia máxima es n.

Para la primera columna la potencia máxima es n.

Para construir el sistema para un grado los pasos son:

Se construye el primer renglón.

Se construye la primera columna.

Se llenan los renglones tomando en cuenta que cada uno tiene n+1 columnas.

Se escribe el vector de términos independientes tomando en cuenta que la máxima

potencia en x es n.

 

El ajustar un polinomio a una serie de datos se conoce como regresión polinomial.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

17

Page 18: Análisis de Datos Pub

Análisis de Varianza

Las técnicas englobadas bajo la denominación de análisis de la varianza o abreviadamente

ANOVA (del inglés analysis of variance) han jugado un papel crucial en la metodología estadística

moderna, desde que fueran ideadas por R.A. Fisher en 1925, y como sucede en tantas ocasiones,

aunque conocidas por la gran mayoría, quizás no son adecuadamente comprendidas por los no

especialistas.

Casi siempre se introduce el tema del análisis de la varianza como respuesta a la necesidad de

utilizar una técnica de comparación de más de dos grupos, es decir como un método para

comparar más de dos tratamientos: si disponemos de medidas cuantitativas continuas, que se

puede suponer como procedentes de una distribución de probabilidad normal, y queremos

comparar dos grupos -dos tratamientos-, la prueba estadística que se utiliza es un contraste de

medias basado en la t de Student, y cuando se dispone de más de dos grupos, la prueba a

emplear es el análisis de la varianza. Aunque el enfoque es adecuado, refleja sólo una parte del

interés de la técnica, ideada no sólo para analizar los datos sino también para planificar los

experimentos, y más apropiado hablar de que el análisis de la varianza es un procedimiento

estadístico que nos permite dividir la variabilidad observada en componentes independientes que

pueden atribuirse a diferentes causas de interés.

En el planteamiento más simple de análisis de la varianza tenemos una variable numérica

cuantitativa (resultado), y queremos determinar en qué medida se puede atribuir la variabilidad de

ésta a otra variable cualitativa nominal que vamos a denominar factor. Estamos hablando por tanto

de análisis de la varianza para un solo factor, que puede tener 2 o más categorías o niveles.

Este factor, cuyo posible efecto sobre la variable medida queremos analizar, puede tener unos

niveles fijos, por ejemplo el nivel educativo alcanzado por los sujetos que intervienen (sin estudios,

estudios primarios, secundarios, formación universitaria), y hablamos entonces de modelo de

efectos fijos; o bien puede tratarse de una muestra procedente de un conjunto de niveles más

amplio, como puede ser por ejemplo el caso de un estudio en el que se seleccionan varios

hospitales y se analiza las posibles diferencias entre hospitales. Entonces lo denominamos modelo

de efectos aleatorios. En el análisis de la varianza de 1 factor es mucho más frecuente el modelo

de efectos fijos.

Vamos a plantear el problema y comentar los cálculos que se efectúan en un análisis de la

varianza para un factor. Estudiamos K grupos clasificados de acuerdo a los niveles 1,2 .. K del

factor. En cada nivel tenemos n1, n2, ... nk observaciones independientes y obtenidas de forma

aleatoria. Si designamos de forma general cada observación como y ij, el subíndice i indica el grupo

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

18

Page 19: Análisis de Datos Pub

al que pertenece, j es el número de la observación dentro de ese grupo, de tal manera que por

ejemplo y25 corresponderá al valor observado en el quinto sujeto del segundo grupo. Por tanto en el

grupo 2 tenemos las observaciones y21 hasta y2n2.

Si juntamos todas las observaciones N=n1+n2+...+nk, calculamos la media global que vamos a

denominar .

También podemos calcular la media dentro de cada uno de los K grupos. La media para el grupo i

la designamos como .

Es obvio que la diferencia entre cada observación y la media global se puede descomponer

de la siguiente forma:

[1]

Es decir que la diferencia entre el valor observado y la media global es igual a la suma de la

diferencia de la observación con la media de su grupo y la diferencia de la media del grupo con la

media global.

Se puede comprobar que si cada término de esa expresión se eleva al cuadrado y se suma para

todas las observaciones, se mantiene la igualdad, lo que curiosamente no es más que la aplicación

del famoso teorema de Pitágoras a este diseño:

Cada uno de los términos es pues una suma de desviaciones cuadráticas, que denominaremos de

forma abreviada como suma de cuadrados (SC). La primera SC del lado de la derecha

corresponde a las desviaciones de cada observación respecto de la media de su propio grupo, por

lo que se la conoce como "dentro del grupo" o "intra grupo" (en inglés within). El segundo sumando

de la derecha corresponde a las desviaciones de la media de cada grupo respecto de la media

global, por lo que cuantifica las diferencias medias entre los grupos, y se conoce como suma de

cuadrados "entre grupos" (en inglés between):

SCTotal=SCIntra grupo+SCEntre grupos

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

19

Page 20: Análisis de Datos Pub

El cuadrado medio intra-grupo, equivalente a una varianza, lo calculamos dividiendo la suma de

cuadrados entre los grados de libertad

y se puede comprobar que es en realidad una media ponderada de las varianzas muestrales de

cada grupo, con la siguiente expresión:

Queda claro que constituye por tanto una estimación de la varianza común .

De igual manera podemos calcular el cuadrado medio entre grupos:

Si la media de todos los grupos es la misma, MSE también es una estimación de la varianza común

. Esto se puede entender mejor de una forma intuitiva si consideramos el caso particular en el

que todos los grupos tienen el mismo tamaño n. Sabemos que la desviación estándar al cuadrado

(varianza) de la media obtenida en muestras de tamaño n extraídas de una población normal es

/n (es lo que conocemos como error estándar de la media), por lo tanto

será una estimación de /n y por tanto es una estimación de .

Ahora bien, si las medias de los grupos sí son diferentes, MSE no sólo contiene el valor de la

varianza intrínseca , sino que además estará aumentada según las variaciones entre las

medias de los tratamientos, y será tanto mayor cuanto mayor sean estas diferencias. El cociente:

que compara la variabilidad entre grupos y la variabilidad intra grupos, será por tanto próximo a 1 si

las medias de los grupos son similares y tanto mayor que 1 cuanto mayores sean las diferencias

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

20

Page 21: Análisis de Datos Pub

entre los grupos. El valor de F obtenido se contrastará con el valor de la distribución teórica con

grados de libertad K-1,N-K, y si la probabilidad de obtener un valor tan grande como el observado

es baja, rechazaremos la hipótesis de igualdad de medias entre los grupos. La utilización de este

parámetro de contraste, que tiene una rigurosa justificación metodológica estadística, también tiene

pues una interpretación intuitiva: estamos comparando la variabilidad entre los grupos con la

variabilidad intrínseca dentro de los grupos.

Por otro lado hemos visto que la variabilidad total la hemos dividido en dos partes: una variabilidad

debida o explicada por pertenecer a cada uno de los grupos o niveles del factor, y una parte de

variabilidad individual, que no atribuimos a ninguna causa concreta, y que por ello se suele

denominar también variabilidad residual. Esto podemos reflejarlo de una forma clara manipulando

un poco la fórmula [1] en la que se desglosa la variabilidad de cada observación en dos

términos:

[2]

Es decir que el modelo postulado (término de la derecha) para nuestras observaciones

corresponde a tres sumandos: una media global , un efecto diferencial debido a la pertenencia al

grupo o tratamiento y un termino residual no explicado .

Caso Práctico

Consideremos que queremos comparar las medias de k poblaciones, cada una de las cuales se

supone que tiene la misma varianza. Tomemos, para estas poblaciones, muestras aleatorias

independientes de tamaños n1, n2,….,nk, respectivamente.

En general, si tenemos muestras aleatorias independientes de tamaño nk tomadas de k

poblaciones (tratamientos). El j-esimo valor de la i-esima población se denota como xij, es decir:

Población 1: x11, x12, ……., x1n1

Población 2: x21, x22, ……., x2n2

.

.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

21

Page 22: Análisis de Datos Pub

.

Población k: xk1, xk2, ……., xknk

y supondremos que las variables aleatorias correspondientes xij son independientes, tienen

distribución normal con medias respectivas µi y la varianza común 2

El procedimiento para contrastar la hipótesis de igualdad de medias en este contexto se denomina

análisis de la varianza de un factor.

H0: 1=2= …. =k

Ha: cuando menos alguna medias son diferentes

El paso lógico entonces sería construir un estimador de dicha media común a partir de los datos

muéstrales. Una posible elección para tal estimador sería la media global de todas las

observaciones muéstrales. Es decir, la suma de todas las observaciones muéstrales dividida por el

número total de observaciones muéstrales. Si n es el número total de observaciones muéstrales,

entonces,

La media global de todas las observaciones muéstrales se puede expresar como:

j = 1, 2, ….., k

El contraste de igualdad de medias está basado en la comparación de dos tipos de variabilidad de

los miembros de la muestra. La primera es la variabilidad en torno a las medias individuales

muéstrales de los k grupos de observaciones. Será conveniente referirnos a ella como la

variabilidad dentro de los grupos. La segunda es la variabilidad entre las medias de los k grupos.

Esta se denomina variabilidad entre grupos.

La variabilidad dentro de los grupos se calcula de la siguiente forma:

La variabilidad total dentro de los grupos, o tratamientos, que denominaremos

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

22

Page 23: Análisis de Datos Pub

La suma de los cuadrados de las discrepancias de todas las observaciones muéstrales respecto a

la media global. Dicha suma se denomina la suma de cuadrados total y se expresa

La suma total de cuadrados entre grupos,(suma de cuadrados del error), SCE, ponderaremos cada

diferencia al cuadrado por el número de observaciones muéstrales en el grupo correspondiente,

quedando de la siguiente manera:

De estas tres ecuaciones se cumple: STC = SCT+SCE además el grado de libertad de cada una

de ellas es la siguiente: n-1 = (k-1)+(n-k)

La media de los cuadrados de los errores se definirá, y la media de los cuadrados de

los grupos (tratamientos) se definirá:

El estadístico de prueba que se usara será:

Se rechazara H0 si o p(valor) <

Todo esto se puede resumir en la siguiente tabla:

Fuerte de

Variación

Grados de

Libertad

Suma de

Cuadrados

Cuadrados

medios

F

tratamientos k-1 SCT CMT CMT/CME

error n-k SCE=STC-SCT CME

Total n-1 STC

Las formulas reducida de SCT y STC

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

23

Page 24: Análisis de Datos Pub

Ejemplo 1:

Las siguientes cantidades representan las palabras por minuto que mecanografió, en varias

ocasiones, una secretaria en cuatro máquinas de escribir distintas:

Máquina 1 Máquina 2 Máquina 3 Máquina 471 68 75 6275 71 70 5969 74 81 7177 66 73 6861 69 78 6372 67 72 6571 70 7278 62 60

64

ni 8 8 6 9total 574 485 449 388Ti

2 329476 235225 201601 150544

Demostrar si las diferencias entre las cuatro medias de la muestra se pueden atribuir al azar

One-way ANOVA: Máquina 1; Máquina 2; Máquina 3; Máquina 4

Analysis of VarianceSource DF SS MS F PFactor 3 412,6 137,5 6,84 0,001Error 27 543,1 20,1Total 30 955,7 Individual 95% CIs For Mean Based on Pooled StDevLevel N Mean StDev -------+---------+---------+---------Máquina 8 71,750 5,365 (------*-----) Máquina 8 68,375 3,583 (------*-----) Máquina 6 74,833 4,070 (-------*------) Máquina 9 64,889 4,595 (-----*-----) -------+---------+---------+---------Pooled StDev = 4,485 65,0 70,0 75,0

Luego se rechaza la hipótesis nula

Conclusión: Hay diferencias entre las medias.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

24

Page 25: Análisis de Datos Pub

Ejemplo 2:

Se desea comparar la acción de limpieza de tres detergentes sobre la base de los siguientes

registros de blancura tomados en 15 muestras de ropa blanca manchada con tinta de la India y

después lavada con los detergentes respectivos en una lavadora:

Detergente A: 77, 81, 71, 76, 80

Detergente B: 72, 58, 74, 66, 70

Detergente C: 76, 85, 82, 80, 77

Pruebe en el nivel de significación del 1% si las diferencias entre las medias de los registros de

blancura son significativas

Solución.

H0: Las medias entre los tres detergentes son iguales

Ha: Cuando menos una de ellas es diferente.

Fuerte de

Variación

Grados de

Libertad

Suma de

Cuadrados

Cuadrados

medios

F

tratamientos 2 SCT=390 CMT=360/2=195 CMT/CME=195/23= 8,48

error 12 SCE=276 CME=276/12=23

Total 14 STC=666

p(valor)=0,0050617 es menor que = 0,01 Se rechaza H0

Conclusión: Los tres detergentes no son igualmente efectivos.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

25

Page 26: Análisis de Datos Pub

Diseño en Bloques Aleatorizados

En un artículo anterior se habló de la ventaja que presentan las pruebas pareadas para aumentar

la eficiencia, al controlar parte de la variabilidad no atribuible al factor que estamos estudiando.

Cuando se analizan más de dos niveles o grupos el concepto de prueba pareada se puede

generalizar al análisis de la varianza. Aquí se denomina bloque a cada unidad de observación, y

para un factor o tratamiento tenemos el siguiente diseño experimental:

Tratamiento 1 Tratamiento 2 ... Tratamiento K

Bloque 1 Y11 Y12 ... Y1K

Bloque 2 Y21 Y22 ... Y1K

... ... ... ... ...

Bloque n Yn1 Yn2 ... YnK

En este diseño, de manera análoga a la expresada en la fórmula [2] podemos descomponer la

variabilidad individual según el siguiente modelo:

donde aparece un nuevo término que corresponde a la variabilidad atribuida al bloque, con lo

que el término correspondiente a la variabilidad no explicada disminuye, obteniéndose por tanto

una prueba más eficiente.

Los bloques o unidades de observación pueden ser cada paciente, un hospital, un grupo de

pacientes con unas características específicas, etc. A veces también se habla de análisis

estratificado, donde los conceptos bloque y estrato son equivalentes.

Aunque uno de los motivos fundamentales de la asignación aleatoria de los pacientes a cada grupo

de tratamiento es precisamente evitar la presencia de sesgos en las características de los

pacientes que puedan afectar a las diferencias de eficacia que se observen, sin embargo cuando

se sabe que factores como la edad del paciente, la presencia de diabetes, antecedentes de

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

26

Page 27: Análisis de Datos Pub

tabaquismo, etc influyen en el resultado, puede ocurrir que finalmente por azar las proporciones de

los diferentes niveles de estos factores no se repartan "equitativamente" entre los grupos de

tratamiento, lo que conlleva a que los resultados queden bajo sospecha, incluso aunque después

en el análisis se acuda a técnicas multivariantes para "ajustar" los resultados en función de los

valores basales en los grupos, atribuyendo parte de la variación observada a esas diferencias, y

corrigiendo o disminuyendo la diferencia encontrada atribuible al efecto del tratamiento. La

utilización de técnicas de diseños aleatorizados en bloques y diseños factoriales nos permite

anticiparnos a esa situación, por lo que han sido ampliamente empleadas no sólo en

experimentación agrícola donde se originaron, sino también en farmacología y en la industria, y en

mucha menor medida, por lo que se comentará más adelante, en la investigación médica clínica.

En este diseño aletorizado por bloques disponemos de dos valores de F para contrastar: uno

relativo a la influencia del tratamiento y otro para la influencia del bloque; aunque el contraste en el

que seguramente estamos interesados es solo el primero, ya que de entrada se supone que el

bloque sí que influye en la variable medida y precisamente por eso se ha acudido a este tipo de

diseño.

Diseños Factoriales

Los denominados diseños factoriales permiten al investigador planificar un trabajo para evaluar el

efecto combinado de dos o más variables de forma simultánea en el resultado medido,

obteniéndose también información en cuanto a la posible interacción entre los diversos factores.

Así podemos extender el modelo presentado en la fórmula [2] para considerar en cada observación

la influencia de dos factores que vamos a denominar A y B. Expresamos la observación número k

en el nivel i del factor A, nivel j del factor B, como:

donde se ha separado en un término correspondiente a la media global, otro debido al efecto

diferencial por pertenecer a un nivel determinado del factor A, un efecto debido al factor B, un

efecto de la interacción entre los factores A y B, y una variabilidad residual no atribuible.

Este modelo es la base del análisis de la varianza para dos factores.

El problema de los diseños factoriales clásicos cuando se aplica a la investigación clínica, en la que

predominan los diseños observacionales y donde casi siempre es por tanto difícil fijar el número de Universidad del Valle de México

Ingeniería Industrial y de SistemasAnálisis de Datos

27

Page 28: Análisis de Datos Pub

sujetos en cada uno de los niveles de los diferentes factores, radica en que para que sea aplicable

un análisis de la varianza clásico para más de un factor, es necesario que se cumpla también la

igualdad de la suma de cuadrados, y esto sólo ocurre cuando el número de sujetos por celda

(llamamos celda a cada combinación de niveles de los distintos factores) es el mismo para todas

las celdas. Es decir que la igualdad:

SCTotal=SCA+SCB+SCAB+SCResidual

sólo es cierta cuando todas las celdas tienen el mismo número de sujetos. Si ese número no es

igual no podemos aplicar el análisis de la varianza.

Afortunadamente existe una relación directa entre el modelo de efectos postulado y la regresión

lineal múltiple, en la que intervendrán los factores como variables independientes. Es lo que se

conoce como modelos lineales.

Obviamente en ese modelo de regresión los factores entrarán adecuadamente codificados como

variables diseño o dummy, procedimiento que ya fue comentado en el artículo relativo a la

regresión logística.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

28

Page 29: Análisis de Datos Pub

Estadística No Paramétrica

Introducción

Las técnicas no paramétricas se utilizan ampliamente en las aplicaciones de las ciencias

sociales, para las suposiciones que requieren los problemas de índole paramétrica, no

son sencillas de verificar, como el supuesto de normalidad. Por ejemplo, cuando se desea

probar si varias muestras independientes proceden de la misma población, la prueba

indicada es el análisis de varianza de una vía, la prueba F.

El cálculo de estas pruebas, es sencillo, desde el punto de vista manual y matemático, sin

embargo, si se utiliza una computadora, ya cargados los archivos de toda una encuesta,

se puede solicitar que el paquete, que puede ser, el Statgraphics, el SPSS, el BMDP o el

SAS, entre otros, que obtenga rutinas y elabore los cálculos. Con estas pruebas, no sólo

manejan variables cuantitativas, sino también cualitativas.

Prueba de homogeneidad

Esta técnica, pertenece a la clasificación de la prueba de bondad de ajuste, con ella se

puede probar si hay una diferencia significativa entre los datos esperados o teóricos y los

datos observados. Los datos esperados o teóricos deben ir en igual proporción para cada

categoría, de esta situación es que toma el nombre de prueba de homogeneidad.

Procedimiento general para la prueba de homogeneidad

1. Definir claramente los datos observados, colocados en categorías. Cada

observación debe pertenecer a una y solamente a una categoría.

2. Definir los supuestos, en ellos se definen los requisitos del objetivo y el tipo de

prueba que se va a realizar.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

29

Page 30: Análisis de Datos Pub

3. Hipótesis: Se plantean un solo tipo de hipótesis.

a. Ho: todas las categorías tienen iguales frecuencias

b. H1: no todas las categorías tienen iguales frecuencias

4. Valor crítico: Se considera únicamente el área de cola derecha de la distribución X 2 . En las tablas del apéndice R, se consultan los valores de (gl = n – 1) y el nivel

por el que se desea.

Para llevar una prueba de homogeneidad se procede de la manera siguiente:

 

1. Escogemos una muestra de las poblaciones de interés.

2. Cada muestra la clasificamos de acuerdo con los criterios que hayamos escogido

para el estudio.

3. Realizamos una prueba ji- cuadrada similar al caso de independencia con

g.l = (r –1) (c - 1).

 

La hipótesis nula se planteara de la siguiente manera. ¿ las muestras extraídas son de

poblaciones homogéneas respecto de algún criterio de clasificación.

 

Suponga que 200 maestros, 300 ingenieros y 400 médicos, participan en un estudio para

calcular la magnitud del consumo de alcohol en las tres profesiones. Los conteos de

frecuencia se anotan en una tabla

de contingencia similar a la

siguiente:

 

Suponga que al estudiar a 200

maestros, 300 ingenieros y 400

médicos, los resultados obtenidos son los siguientes:

 

 

Se calcula las frecuencias esperadas en la tabla de contingencia suponiendo

homogeneidad

 

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

Consumo Maestros Ingenieros Médicos Total

Ocasional        

Moderado        

Alto        

Total 200 300 400 900

30

Page 31: Análisis de Datos Pub

muestraladetamaño

jcolumnaladetotalirenglóndelTotaleij

)()(

 

El procedimiento de prueba para comparar frecuencias observadas con las frecuencias

esperadas, se parece a los cálculos de la prueba de independencia. Específicamente, el

valor de 2 basados en las frecuencias observadas y esperadas se calcula como sigue:

 

 

Oi = Valor observado en la i-ésimo celda.

Ei = Valor esperado en la i-ésimo celda.

K = Categorías o celdas.

Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene

una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las

frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia

proseguimos con el cálculo de la estadística de prueba ji cuadrada.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

Consumo Maestros Ingenieros Médicos Total

Ocasional 100 50 100 250

Moderado 50 150 200 400

Alto 50 100 100 250

Total 200 300 400 900

31

k

i e

eo

i

ii

f

ff

1

2

2

Page 32: Análisis de Datos Pub

Prueba de bondad de ajuste

La prueba de bondad de ajuste desea determinar qué tanto se ajusta una distribución

observada a otra esperada o teórica (en el caso de homogeneidad, la distribución teórica

debe tener valores iguales para todas las categorías y en el caso de la bondad de ajuste

esto no es requisito). En general se trabaja con grados de libertad y el procedimiento de

prueba es igual al de homogeneidad. La prueba de homogeneidad es un importante

subconjunto de estas pruebas.

Se dan casos especiales para el tratamiento de los grados de libertad, como es el caso de

la prueba de bondad de ajuste para distribución normal, en que los grados de libertad son

n – 3, ya que existen 3 restricciones, la primera por igualar lo esperado a lo observado, y

las otras dos para estimar μ y σ . Si estos dos valores se especifican de antemano por ser

ya conocidos, los grados de libertad serán n = 1.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

Número de unidades con defecto Número de muestras

0 138

1 53

2 ó más 9

32

Page 33: Análisis de Datos Pub

Problema Resuelto de Prueba de Bondad de Ajuste

 

Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de

una línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los

números de llantas con defectos observadas en 200 días, si es cierto que el 5% de todos

los neumáticos tienen defecto; es decir, si el muestrea una población binomial con n = 10

y = .05

 

1. Establecer la hipótesis

 

Ho: La población es binomial

Ha: La población no es binomial

2. Establecer la estadística de prueba

 

Oi = Valor observado en la i-ésimo celda.

Ei = Valor esperado en la i-ésimo celda.

K = Categorías o celdas.

m = Parámetros

 

3. Definir el nivel de significancia y la zona de rechazo

g,l = k- m – 1 = (3 – 0- 1) =

5.99

 

Nivel de significancia = 0.05

Zona de rechazo = { 22 / 5.99)

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

33

k

i e

eo

i

ii

f

ff

1

2

2

Page 34: Análisis de Datos Pub

m = 0 porque no se necesito estimar ningún parámetro

4. Calculo de la estadística de prueba

 

Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades

utilizaremos la formula de la binomial

xnxnxxf )1()(

 

donde n = 10 = 0.05

 

0100100 )05.01(05.0)0( f = .599

 

1101101 )05.01(05.0)1( f = .315

 

y la probabilidad de 2 ó más = 1.0 - .599 - .315 = .086

 

ahora ya podemos encontrar las frecuencias esperadas:

200 ( .599) = 119.8 200(.315) = 63 200 (.086) = 17.2

 

Al aplicar la formula se tiene:

 

2.17

)2.179(

63

)0.6353(

8.119

)8.119138( 2222

= 8.26

 

5. Como 8.26 es mayor que 5.99, se rechaza la hipótesis nula con un nivel de

significancia de 0.05.

 

6. Conclusión

Se concluye que el porcentaje verdadero de neumáticos con defecto no es el 5%.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

34

k

i e

eo

i

ii

f

ff

1

2

2

Page 35: Análisis de Datos Pub

Prueba de independencia

Otra aplicación importante es la prueba de independencia. Cualquier variable puede

producir múltiples categorías, una clasificación se dice que es exhaustiva, cuando sus

categorías satisfacen las demandas de los elementos y no quedan algunos sin

colocación. También se dice que son mutuamente excluyentes cuando ellos están

definidos de tal manera que cada elemento de la población pertenece a una y solamente

a una de sus categorías.

Las variables podrán ser cualitativas o cuantitativas, en el caso de cuantitativas

generalmente se les baja su escala de medición a ordinal o hasta nominal.

Al tomarse una muestra, se genera la tabla de contingencia cuando sus elementos son

calcificados de acuerdo a dos o más variables de tipo cualitativo. La forma más simple de

ella es la tabla de 2 X 2, en ella se localizan dos variables que tienen cada una solamente

dos categorías.

Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual fabrica y

distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis de segmentación de

mercado para las tres cervezas, el grupo de investigación encargado ha planteado la

duda de si la preferencia para las tres cervezas es diferente entre los consumidores

hombres y mujeres. Si la preferencia de las cervezas fuera independiente del género del

consumidor, se iniciaría una campaña de publicidad para todas las cervezas Modelo. Sin

embargo, si la preferencia depende del género del consumidor, se ajustarían las

promociones para tener en cuenta los distintos mercados meta.

Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera,

clara y oscura) es independiente del género del consumidor (hombre, mujer). Las

hipótesis para esta prueba de independencia son:

 

Ho: La preferencia de la cerveza es independiente del género del consumidor

Ha: La preferencia de la cerveza no es independiente del género del consumidor

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

35

Page 36: Análisis de Datos Pub

 

Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de

identificar a la población, consumidores hombres y mujeres, se puede tomar una muestra

y preguntar a cada persona que diga su preferencia entre las cervezas modelo.

Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por

ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer

que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura

[celda (2,3)] y así sucesivamente. Como en la lista aparecen todas las combinaciones

posibles de predilección de cerveza y género, en otras palabras aparecen todas las

contingencias posibles, a la tabla se le llama tabla de contingencia.

  

 

Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de

cerveza. Después de saborear cada una, se les pide expresar su preferencia o primera

alternativa. La tabulación cruzada de la siguiente tabla 2 resume las respuestas

obtenidas. Observamos que, los datos para la prueba de independencia se agrupan en

términos de cantidades o frecuencias para cada celda o categoría. De las 150 personas

de la muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que

prefirieron la cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y así

sucesivamente.

Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o

categorías.

 

     Cerveza preferida  

 

Género

  Ligera Clara Oscura Total

Hombre 20 40 20 80

Mujer 30 30 10 70

Total 50 70 30 150

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

  Cerveza preferida

Ligera Clara Oscura

Género Hombre Celda (1,1) Celda (1,2) Celda (1,3)

Mujer Celda (2,1) Celda (2,2) Celda (2,3)

36

Page 37: Análisis de Datos Pub

 

Si podemos determinar las frecuencias esperadas bajo la hipótesis de independencia

entre la preferencia de cerveza y el género del consumidor, podemos usar la distribución ji

cuadrada para determinar si existe una diferencia significativa entre la frecuencia

observada y la esperada.

Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el

siguiente razonamiento. Primero suponemos que es verdadera la hipótesis nula, de

independencia entre la cerveza preferida y el género del consumidor. A continuación

observamos que en toda la muestra de 150 consumidores, hay 50 que prefieren la

cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, la

conclusión es que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera;

70/150 = 7/15 la clara y 30/150 = 1/5 la oscura. Si es válida la hipótesis de independencia,

decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres y

mujeres. Así bajo la hipótesis de independencia, esperaríamos que la muestra de 80

consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 =

37.33 la clara y (1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70

consumidoras mujeres produce

las frecuencias esperadas que

aparecen en la tabla.

 

 

 

Sea ije la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de

contingencia. Con esta notación reconsideremos el cálculo de la frecuencia esperada para

los hombres (renglón i = 1) que prefieren la cerveza clara (columna j = 2) esto es, la

frecuencia esperada 2,1e . Apegándonos al esquema anterior para el cálculo de las

frecuencias esperadas, podemos demostrar que

2,1e = (7/15) 80 = 37.33

Esta ecuación se puede escribir como sigue: 2,1e = (7/15) 80 = (70/150) 80 = 37.33

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

    Cerveza preferida  

 Género

  Ligera Clara Oscura Total

Hombre 26.67 37.33 16.00 80Mujer 23.33 32.67 14.00 70Total 50.00 70.00 30.00 150

37

Page 38: Análisis de Datos Pub

Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad

total de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna

2) y 150 es el tamaño de la muestra total. En consecuencia vemos

 

muestraladetamaño

columnaladetotalrenglóndeltotale

)2()1(2,1

 

Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuencias

esperadas de una tabla de contingencias para la prueba de independencia.

Frecuencias esperadas en la tabla de contingencia suponiendo independencia

 

muestraladetamaño

jcolumnaladetotalirenglóndelTotaleij

)()(

 

El procedimiento de prueba para comparar frecuencias observadas con las frecuencias

esperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de

2 basados en las frecuencias observadas y esperadas se calcula como sigue:

  Oi = Valor observado en la i-ésimo celda.

Ei = Valor esperado en la i-ésimo celda.

K = Categorías o celdas.

 

Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene

una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las

frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia

proseguimos con el cálculo de la estadística de prueba ji cuadrada.

 

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

38

k

i e

eo

i

ii

f

ff

1

2

2

Page 39: Análisis de Datos Pub

Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferencia

de cerveza es independiente del género de quien la bebe se ven en la tabla.

La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determina

multiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1.

Como tenemos dos renglones y tres columnas, entonces (2 – 1) (3 – 1) = (1) (2) = 2

grados de libertad para la prueba de independencia entre cerveza y género del

consumidor. Con = .05 como nivel de significancia de la prueba, buscamos en la tabla

de ji cuadrada y nos da un valor 205. = 5.99. Observe que estamos usando el valor de la

cola superior, porque rechazaremos la hipótesis nula sólo si las diferencias entre

frecuencias observadas y esperadas producen un valor grande de 2 . En el ejemplo

2

=6.13 es mayor que 2 = 5.99. Por consiguiente, rechazaremos la hipótesis nula de

independencia y concluimos que la cerveza preferida no es independiente del género del

consumidor, es decir, la preferencia para las tres cervezas es diferente entre los

consumidores hombres y mujeres y por lo tanto la Cervecería Modelo deberá estratificar a

los consumidores para ajustar las promociones y la publicidad, teniendo en cuenta estas

diferencias.

Género Cerveza of ef )( eo ff 2)( eo ff ijeo eff /)( 2

Hombre ligera 20 26.67 -6.67 44.4889 1.66812523

Hombre clara 40 37.33 2.67 7.1289 0.19096973

Hombre Oscura 20 16 4 16 1

Mujer ligera 30 23.33 6.67 44.4889 1.90693956

Mujer clara 30 32.67 -2.67 7.1289 0.21820937

Mujer Oscura 10 14 -4 16 1.14285714

         2 6.12710104

 

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

39

Page 40: Análisis de Datos Pub

Prueba de rachas de Wald Wolfowitz

Las prueba de rachas es una prueba no paramétrica, capaz de manejar variables

cuantitativas y cualitativas de tipo dicotómico.

La utilidad de esta prueba, abarca diferentes campos de la actividad humana y puede

servir desde para probar la aleatoriedad: de las encuestas aplicadas por los

entrevistadores, de las fallas de la maquinaria en la producción, de las cantidades

compradas o vendidas, de las faltas de los empleados, hasta para controlar la calidad de

la producción.

Una racha es una subsucesión de una secuencia ordenada de elementos iguales

observados.

Puede ser llevada a cabo con muestras menores de 40 elementos y sus valores de

prueba deben ser comparados con los valores de unta tabla estadística. La prueba que se

presenta es preferible ya que se trabaja con muestras de 40 o más elementos y esto hace

que las rachas se presenten con una forma de distribución acumulativa tendiente a la

normalidad.

Ésta es una prueba no paramétrica que se relacionan con parámetros relativos a la

tendencia central. Esta prueba es una buena opción para integrarse en lugar de la prueba

t, cuando no se puedan cumplir los supuestos necesarios para utilizarse, aunque debe

recordarse que esta prueba es menos potente. Los supuestos necesarios para la prueba

de rango con signo, son los siguientes:

Supuestos:

1. Extracción de los datos en forma aleatoria e independiente.

2. Variable de tipo continua

3. Escala de medición de razón o de intervalo

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

40

Page 41: Análisis de Datos Pub

4. Distribución de las diferencias entre los datos observados y la mediana hipotética

tendiente a la simetría.

5. Muestra mayor de 40 elementos para una muestra. Cuando se prueban dos

muestras, éstas pueden ser menores a los 40 elementos.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

41

Page 42: Análisis de Datos Pub

Análisis de Series de Tiempo

Una serie de tiempo muestra el comportamiento de una variable en el tiempo. Las entidades

económicas, usualmente toman decisiones administrativas basándose en los registros de la vida

activa de la empresa, o bien, del ramo en que se desenvuelve. El gobierno también toma

decisiones y desarrolla nuevas políticas públicas y programas de gobierno, después de estudiar el

comportamiento de diferentes variables a lo largo del tiempo.

Tanto la toma de decisiones como la planeación, siempre requieren del pronóstico estadístico que

se basa en el estudio del comportamiento de una variable y en la suposición de que ese

comportamiento puede prolongarse a un futuro.

El comportamiento de la variable estudiada, puede ser causado por diversos factores, algunos de

naturaleza económica, otros referentes al clima, unos más por razones de modas, otros más por

razones financieras; y así podrían enunciarse infinidad de factores que pueden producir

fluctuaciones de tipo cíclico, estacional, aleatorias, etc.

Una serie de tiempo es una secuencia de los valores que asume una determinada variable o

conjunto de variables, dispuestas en un orden cronológico. Estas variables pueden ser relativas a

unidades monetarias, el número de artículos vendidos o comprados, etc. En general, cualquier

variable cuantitativa puede ser estudiada de esta manera, siempre y cuando se conozcan los

valores que asumió en intervalos regulares de tiempo.

Cuando una serie muestra un determinado patrón de comportamiento, por un período largo; es

posible esperar que ese mismo patrón continúe en el futuro, y así, esta posibilidad puede darnos

una base razonable para establecer pronósticos a un plazo corto.

Cuando una variable fluctúa en función del tiempo, generalmente está respondiendo a cuatro

componentes: la tendencia (T), el ciclo (C), la variación estacional (S) y la variación aleatoria o

irregular (I). Estos componentes actúan según dos modelos, el aditivo y el multiplicativo.

El modelo aditivo asume que el valor de la serie original (Y) proviene de la suma de los cuatro

componentes:

Y = T + S + C + I

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

42

Page 43: Análisis de Datos Pub

El modelo multiplicativo asume que el valor de la serie original es el producto de los cuatro

componentes:

Y = T x S x C x I

El modelo aditivo supone que los cuatro componentes son independientes entre sí. Esto supone

que, por ejemplo, cuando la tendencia tenga un valor alto, esto no afecte al comportamiento cíclico

o estacional. El modelo multiplicativo asume que los componentes sí tienen relación entre sí. El

modelo mutiplicativo es que ha sido considerado como modelo clásico.

Tendencia secular (T)

De manera convencional, se utiliza este componente con fines predictivos; es decir para la

elaboración de proyecciones o pronósticos.

Las tendencias seculares reflejan el continuo crecimiento o decrecimiento a largo plazo de las

series de tiempo. El concepto largo plazo ha sido estudiado como de al menos dos periodos

anuales en adelante, para que sea posible la caracterización del comportamiento de una variable,

que generalmente se describe por medio de una recta o de alguna curva que se ajuste al

comportamiento de los datos.

Curva de primer grado

y = β0 + β1X

Curva de segundo grado

y = β0 + β1X + β2X2

Curva de tercer grado

y = β0 + β1X1 + β2X2 + β3X3

Curva exponencial

y = β0 + β1x

Curva recíproca

1 / y = β0 + β1X

Curva exponencial logística

y = 1 / β0 + β1β2x

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

43

Page 44: Análisis de Datos Pub

Es posible ajustar la tendencia de los datos de las series de tiempo, por varios métodos, como el

de los mínimos cuadrados, el de la doble suavización y el de la triple suavización. Sin embargo, en

este curso utilizaremos el de los mínimos cuadrados para curvas de primer grado.

Forma general de la ecuación de la regresión

lineal:Y ’ = a + bX

Donde:

Y ‘ = Se lee Y prima, es el valor predictorio de la variable Y para un valor seleccionado de X.

a = Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0.

b = Es la pendiente de la línea, o el cambio promedio en Y’ por cada cambio en una unidad de

la variable independiente X.

X = Es el valor que se escoge para la variable independiente.

Esta relación lineal es utilizada para representar una tendencia secular que cambia a una tasa

constante. Si las series se incrementan con el tiempo, pueden ser representadas con una línea con

pendiente positiva; si por el contrario, decrecen con el tiempo, pueden representarse por una línea

con pendiente negativa.

Como ya se dijo en el tema anterior, para conocer los valores de a y b, es necesario resolver las

ecuaciones siguientes:

Pendiente de la línea de regresión b =

n ( Σ XY ) – ( Σ X ) ( Σ Y )

n ( Σ X2 ) – ( Σ X ) 2

Intersección con el eje y a =

Σ Y

– b

Σ X

n N

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

44

Page 45: Análisis de Datos Pub

Donde:

X = es un valor de la variable independiente

Y = es un valor de la variable dependiente

n = es el número de elementos en la muestra

Cuando se conocen los valores de x e y, se sabe que los de x se refieren al tiempo, dado en

intervalos regulares, en el que se desarrolla el comportamiento de y; por esta razón, en el tiempo

es posible definir si estamos en presencia de periodos y así codificarlos.

Cuando se trata de un número par de periodos, se codifican asignando el valor cero al primer

periodo, al segundo el uno y así sucesivamente. Cuando se trata de un número impar de periodos

se fija el origen en la mitad de la sucesión, a los años anteriores se les asignan valores negativos y

a los posteriores positivos.

Serie de número de periodos par (n = 6 )

Serie de número de períodos impar ( n = 7 )

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

AñoCódigo

2001 0

2002 1

2003 2

2004 3

2005 4

2006 5

AñoCódigo

2001 -3

2002 -2

2003 -1

2004 0

2005 1

2006 2

2007 3

45

Page 46: Análisis de Datos Pub

Ejercicio (para una serie de número de periodos par)

En la siguiente tabla aparecen los valores correspondientes al INPC del periodo comprendido entre

1962 y 1971. Supón que se quiere realizar un pronóstico del INPC para 1972.

Año Período de codificación (X)

1962 0

1963 1

1964 2

1965 3

1966 4

1967 5

1968 6

1969 7

1970 8

1971 9

45.0

Lo primero que se tiene que hacer es sustituir las fórmulas mencionadas anteriormente para ajustar

una línea de tendencia, de este modo:

AñoPeríodod de codificación

(X)

INPC

(Y)XY X2

1962 0 26.5440 0.0000 0

1963 1 26.6376 26.6376 1

1964 2 28.1153 56.2306 4

1965 3 28.1714 84.5142 9

1966 4 28.9758 115.9032 16

1967 5 29.4809 147.4045 25

1968 6 30.0794 180.4764 36

1969 7 31.5411 220.7877 49

1970 8 33.0211 264.1688 64

1971 9 34.6596 311.9364 81

45 297.2262 1408.0594 285

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

46

Page 47: Análisis de Datos Pub

Pendiente de la línea de regresión b =

n ( Σ XY ) – ( Σ X ) ( Σ Y )

n ( Σ X2 ) – ( Σ X ) 2

Pendiente de la línea de regresión b =

10 ( 1408.0594 ) – ( 45 ) ( 297.2262 )

10 ( 285 ) – ( 45 ) 2

b = 0.855048485

Intersección con el eje y a =

Σ Y

– b

Σ X

N N

Intersección con el eje y a =

297.2262

– (0.85504)

45

10 10

a = 25.87490182

Forma general de la ecuación de la regresión

linealY ’ = a + bX

Forma general de la ecuación de la regresión

linealY ’ = 25.8749 + 0.8550X

Forma general de la ecuación de la regresión

linealY ’ = 25.8749 + 0.8550 (10)

Y ’ = 34.4254

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

47

Page 48: Análisis de Datos Pub

Entonces, se podría esperar que para 1972 el INPC fuera de 34.4254

Cabe mencionar que el INPC real a diciembre de 1972 fue de 36.5858, valor superior en más de 2

puntos del estimado. Gráficamente se podría esperar una figura como la siguiente.

20

25

30

35

1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972

INPC (Y) INPC (Y')

Ejercicio (para una serie de número de periodos impar)

Cuando los datos se presentan con un número impar de períodos, al codificar, como ya mencionó,

el valor cero en el centro de la serie, la sumatoria de los valores de X serían siempre cero, por lo

tanto las fórmulas cambian.

Pendiente de la línea de regresión b =

Σ XY

Σ X 2

Intersección con el eje Y a =

Σ Y

n

En el siguiente cuadro aparecen los valores del INPC correspondientes a los años comprendidos

entre 1984 y 1992. Supón que deseas saber cuál sería el INPC en 1983.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

48

Page 49: Análisis de Datos Pub

Año Período de codificación (X)INPC

(Y)XY X2

1984 -4 1219.3764 -4877.5056 16

1985 -3 1996.7229 -5990.1687 9

1986 -2 4108.2000 -8216.4000 4

1987 -1 10647.2000 -10647.2000 1

1988 0 16147.3000 0.0000 0

1989 1 19327.9000 19327.9000 1

1990 2 25112.7000 50225.4000 4

1991 3 29832.5000 89497.5000 9

1992 4 33393.9000 133575.6000 16

0 141785.7993 262895.1257 60

Entonces:

b = 4381.585428

a = 15753.9777

Y ’ = 15753.9777 + 4381.5854 X

Y ’ = 15753.9777 + 4381.5854 (5)

Y ’ = 37661.90484

Se podría esperar si la tendencia estudiada continuara, que para 1993 el INPC hubiera sido

37661.9048. El valor real del INPC para este año fue de 36068.5000.

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

49

Page 50: Análisis de Datos Pub

Bibliografía:

Mendenhall, William, Probabilidad y Estadística para Ingeniería y Ciencias QA273 M4618

http://www.monografias.com/trabajos16/metodos-lineales/metodos-lineales.shtml#f

http://www.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal_multi2.pdf

http://www.bioestadistica.uma.es/baron/apuntes/ficheros/cap06.pdf

http://www.monografias.com/trabajos7/anva/anva.shtml

http://www.seh-lelha.org/anova.htm

http://uk.geocities.com/andres_sandoval_hernandez/Estadistica/Tema_12/Tema_12.doc

Universidad del Valle de MéxicoIngeniería Industrial y de Sistemas

Análisis de Datos

50