Estadistica.pptx...exposicion

66
Universidad NorOriental Gran Mariscal de Ayacucho Decanato de Postgrado Maestría en Ingeniería de Mantenimiento Mención: Gerencia de Seguridad y Confiabilidad Industrial Cátedra: Estadística Aplicada Integrantes: Gineth Velásquez C.I:19.786.574 Yaneth Figuera C.I:19.786.673 Angelica Carreño C.I:19.630.007 Erika Páez C.I:84.248.131 El Tigre, Mayo 2016 Inferencias Referentes a Proporciones y Análisis de Varianza Facilitador: Lcda. Esp. MSc. Carlena Astudillo

Transcript of Estadistica.pptx...exposicion

Universidad NorOriental Gran Mariscal de Ayacucho

Decanato de Postgrado Maestría en Ingeniería de Mantenimiento

Mención: Gerencia de Seguridad y Confiabilidad Industrial Cátedra: Estadística Aplicada

Integrantes: Gineth Velásquez C.I:19.786.574 Yaneth Figuera C.I:19.786.673 Angelica Carreño C.I:19.630.007 Erika Páez C.I:84.248.131

El Tigre, Mayo 2016

Inferencias Referentes a Proporciones y

Análisis de Varianza

Facilitador: Lcda. Esp. MSc. Carlena Astudillo

Estadística Inferencial

Estimación de Parámetros

Estimación Bayesiana

Hipótesis Referente a una proporción

Hipótesis Referentes a varias proporciones

Análisis de tablas r x c

Bondad de Ajuste

Diseño completamente aleatorizados

Diseño con bloques aleatorizados

Comparaciones múltiples

Análisis de Covarianza

CONTENIDO

ESTADISTICA INFERENCIAL

Es una parte de la estadística que comprende los métodos y procedimientos mediante el

cual una muestra es analizada y con base en su información, se infiere, se deduce o se

concluye sobre lo que está sucediendo en una población.

Toma de muestras

Estimación de Proporciones

Pruebas de Hipótesis

Diseño Experimental

Estimación Bayesiana

Métodos no Paramétricos

Ing. Gineth Velásquez

ESTIMACIÓN DE PROPORCIONES

La estimación de una proporción permite identificar, a partir de una muestra, aquellos

elementos que posean alguna característica similar a la de una población.

La estimación de las proporciones poblacionales constituye una parte esencial en

muchos estudios donde se busca calcular la probabilidad de éxito o de fracaso con que

puede ocurrir un evento.

Características

Es un conjunto de técnicas que permiten dar un valor aproximado acerca de la medida de

una población a partir de los datos que nos proporciona previamente una muestra.

Ing. Gineth Velásquez

Aplicaciones

La estimación de proporciones se utiliza en muchos campos relacionados con los

negocios y las ciencias sociales. Un ejemplo donde frecuentemente tiene aplicación: El

departamento de producción de una empresa que fabrica calculadoras desea conocer la

proporción de artículos que saldrán defectuosos en cada proceso de producción.

ESTIMACIÓN PUNTUAL DE UNA PROPORCIÓN

En la estimación puntual de una proporción se busca, con base en los datos muestrales, un

único valor estimado para el parámetro. Viene dada por la siguiente formula:

proporción de los éxitos observados en la muestra.

: representa el número de éxitos que se puede obtener en una muestra.

: es el tamaño de la muestra.

Donde:

Si se conoce el valor de 𝑝 ,es decir, la proporción de éxitos en una muestra, automáticamente

se sabe el porcentaje de fracasos de la muestra. La fórmula para obtener una proporción de

los fracasos que se observa en una muestra es la siguiente:

Ing. Gineth Velásquez

𝑞

La proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P.

Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede establecer un

intervalo de confianza para P al considerar la distribución muestral de proporciones.

Al despejar P de esta ecuación nos queda:

Este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que

queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el

tamaño de muestra no sea pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del

intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. Para estar

seguro, se debe requerir que no ó nq sea mayor o igual a 5.

El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que

esta diferencia no excederá .

Ing. Gineth Velásquez

ESTIMACIÓN POR INTERVALO DE UNA PROPORCIÓN

Solución:

n=500

p = 15/500 = 0.03

z(0.90) = 1.645

Ejemplo

Se sabe con un nivel de confianza del 90% que la proporción de bombillos defectuosos que

no pasan la prueba en esa población esta entre 0.0237 y 0.0376.

El intervalo buscado es 0.0237<P<0.0376

Ing. Gineth Velásquez

Un fabricante de bombillos utiliza un conjunto de pruebas amplias para evaluar la función

eléctrica de su producto. Todos los bombillos deben pasar todas las pruebas antes de

venderse. Una muestra aleatoria de 500 bombillos tiene como resultado 15 que fallan en

una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los

bombillos de la población que no pasan todas las pruebas.

ESTIMACIÓN BAYESIANA

Características

Ing. Gineth Velásquez

La estimación bayesiana se basa en la interpretación subjetiva de la probabilidad, el

cual considera a ésta como un grado de creencia con respecto a la incertidumbre.

La estimación bayesiana utiliza aspectos del método científico, que implica

recolectar evidencia que se considera consistente o inconsistente con una hipótesis.

dada.

Es un tipo de inferencia estadística en la que las evidencias u observaciones se emplean

para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta.

Aplicaciones

La estimación bayesiana es de progresivo interés y aceptación en distintas áreas,

son numerosas las aplicaciones de la estadística bayesiana que se están realizando,

por ejemplo, en el área financiera, el área de la salud, en el campo de ingeniería.

Dada una nueva evidencia, el teorema de Bayes ajusta las probabilidades de la misma de la

siguiente manera:

Definición Formal

Donde:

: representa una hipótesis, llamada hipótesis nula, que ha sido inferida antes de que la nueva

evidencia, E, resultara disponible.

Ing. Gineth Velásquez

ESTIMACIÓN BAYESIANA

: se llama la probabilidad a priori de

: se llama la probabilidad condicional de que se cumpla la evidencia E si la hipótesis es

verdadera. Se llama también la función de verosimilitud cuando se expresa como una

función de E dado

: se llama la probabilidad marginal de E: la probabilidad de observar la nueva evidencia

E bajo todas las hipótesis mutuamente excluyentes. Se la puede calcular como la suma del

producto de todas las hipótesis mutuamente excluyentes por las correspondientes

probabilidades condicionales: .

: se llama la probabilidad a posteriori de dado E.

HIPÓTESIS REFERENTE A UNA PROPORCIÓN

Ing. Gineth Velásquez

Las pruebas de hipótesis son necesarias en muchas áreas del conocimiento y en

especial en la administración e ingeniería.

Aplicaciones

Características

La hipótesis referente a una prueba depende de si el número de observaciones de la

muestra es grande o pequeño.

El objetivo de la hipótesis es evaluar las afirmaciones con respecto a una proporción (o

Porcentaje) de población.

Es un proceso que permite tomar una decisión entre dos hipótesis opuestas.

Ing. Gineth Velásquez

Se probara que la hipótesis nula es:

HIPÓTESIS REFERENTE A UNA PROPORCIÓN

La hipótesis estadística nula, simbolizada como 𝐻0 , es la hipótesis que se somete a prueba.

Donde:

La información que frecuentemente se utilizará para la estimación de una proporción real

o verdadera (porcentaje o probabilidad) es una proporción muestral.

Que se calcula de la siguiente manera:

De la misma forma muchas compañías podrían estimar las proporciones de muchas

transacciones. La hipótesis alterna puede ser una de las alternativas usuales: unilateral o

bilateral. Tales como:

: es el valor poblacional.

p

Ing. Gineth Velásquez

Ejemplo

Un fabricante de semiconductores produce controladores que se emplean en el sistema

eléctrico de vehículos. El cliente requiere que la proporción de controladores defectuosos no

sea mayor de 0.05, y que el fabricante demuestre estas características del proceso de

fabricación con este nivel de calidad, con un nivel de significancia del 5%. El fabricante de

semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que 4 de ellos

son defectuosos. ¿El fabricante puede demostrar al cliente la calidad exigida? Obtener sus

conclusiones.

Solución:

• Calcular la proporción muestral

• Para resolver el problema hay que plantear una hipótesis alternativa unilateral de una cola por la

izquierda.

• Es decir p< 0.05

• Para calcular el error estándar de la proporción.

p=0.05

q=0.95

Paso 1. Formulación de hipótesis

: p= 0.05 : La proporción de controladores defectuosos es 0.05

: p<0.05 : La proporción de controladores defectuosos es

menor a 0.05

Ing. Gineth Velásquez

Paso2. Calcular del Z critico

Paso 3. Calcular el Z de los datos, aplicando

la formula se tiene:

Ing. Gineth Velásquez

4. Conclusiones

El objetivo es comparar la proporción de “éxito” en dos poblaciones independientes

Comparando dos proporciones

Para efectuar esta comparación se requiere * Una Muestra aleatoria de tamaño n1 extraída de la población 1 con parámetro p1

* Una muestra aleatoria de tamaño n2 extraída de la población 2 con parámetro p2

Comparamos las dos proporciones haciendo inferencia sobre p1 – p2 , las diferencias entre las dos proporciones poblacionales. * Si las dos proporciones poblacionales son iguales , entonces p1 – p2 = 0 * El mejor estimador de p1 – p2 es la diferencia entre las dos proporciones muestrales Ing. Yaneth Figuera

Nula (Ho): Es aquella en la que se asegura que los dos parámetros analizados son independientes uno del otro. Alternativa (H1): Es aquella en donde se asegura que los dos parámetros analizados si son dependientes

Muestras grandes Aleatorias independientes

Existen 3 tipos de muestras

0 por Ho

Ho : P1 = P2

H1 : P1 = P2

Ejemplo

La administración de una gran tienda cree, sobre la base de una investigación que el porcentaje de hombres que visitan sus tiendas 9 o mas veces al mes (clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo.

Ing. Yaneth Figuera

Para probar esta información se toma una muestra de clientes hombres y se identifica a 45 que visitan 9 o mas veces al mes la tienda y representan 58% del total, luego se toma una muestra de mujeres y se encuentra que 71 son las clientes mas frecuentes y representan el 42% del total . *Utilice un nivel de significación de 0.05 Con los datos proporcionados probar esta hipótesis . La información proporcionada es nH= 45 nM=71 Especifica el nivel de especificación pH = 0.58 pM= 0.42 pH – pM = 0.58 – 0.42 0.16 1.) Se formula la hipótesis Ho: Ph- Pm = 0 la proporción de hombres que reportan 9 o mas visitas por mes es la misma que la proporción de mujeres que hacen lo mismo. H1 : Ph- Pm > 0 la proporción de hombres que reportan 9 o mas visitas por mes es mayor a la proporción de mujeres que hacen lo mismo.

Ing. Yaneth Figuera

2.) Especifica el nivel de significación de a= 0.05

el valor critico para la prueba de una sola cola es de 1.64

Z a= -1,645

3.) Calculo estadístico de la prueba: a.- Calculamos P (proporción ponderada)

pH= proporción muestral de hombres pM= proporción muestral mujeres nH=tamaño de muestra hombres nM=tamaño muestra mujeres

Ing. Yaneth Figuera

b.- se estima el error estándar de la diferencia de las dos proporciones

P= proporción ponderada nH=tamaño de muestral hombres nM=tamaño muestral mujeres

P= 0.48

4.) Calculo el Z de la muestra Z= (diferencia entre proporciones observadas) – (diferencia entre proporciones Ho) Sph-m

Dif. Entre hipótesis observadas = pH – pM H= 0.58 M= 0.42 Sph-m=o.01

Ing. Yaneth Figuera

5.) La hipótesis nula no se rechaza, porque el valor de la Z calculada (1.60) es menor que el valor critico Z (1.64)

Conclusión: La administración no puede concluir con un nivel de significancia del nivel de 0.05, que la proporción de hombres que visita 9 o mas veces a la gran tienda es mayor que la proporción de mujeres que hacen lo mismo.

Ing. Yaneth Figuera

Tablas de Contingencia: En estadística, se emplean para registrar y analizar la asociación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales)

Pueden ser usadas para estudios psicológicos, y en nuestro caso para una mejor comprensión de la estadística.

Ejemplo

Supóngase que se tienen dos variables, la primera el género (hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables:

Ing. Yaneth Figuera

Hay situaciones en las que tenemos probabilidades de éxito cercanas al cero o del uno en donde las proporciones pueden ser poco representativas sobre el comportamiento dentro de los grupos.

Diestro Zurdo Total

Hombre 43 9 53

Mujer 44 4 48

Total 87 13 100

Frecuencias marginales

Gran Total

La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras

El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por

X : Se deriva del test de Pearson

N : total de observaciones (cero a infinito)

μ== Estudio de diferencia de proporciones

2

Ing. Yaneth Figuera

Describe lo bien que se ajusta un conjunto de observaciones. Las medidas de bondad en general resumen la discrepancia entre los valores observados y los valores esperados en el modelo de estudio. Tales medidas se pueden emplear en el contraste de hipótesis Estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.

Permiten determinar si los datos disponibles se ajustan a una determinada distribución Es posible predecir el comportamiento de la variable en estudio

Ing. Yaneth Figuera

Se basa en la comparación entre la frecuencia observada en un intervalo de clase y la frecuencia esperada en dicho intervalo, calculada de acuerdo con la distribución teórica considerada. Es decir, se trata de determinar si las frecuencias observadas en la muestra están lo suficientemente cerca de las frecuencias esperadas bajo la hipótesis nula formulada. Para aplicar esta prueba se debe agrupar las observaciones de la muestra en intervalos de clase, preferiblemente del mismo tamaño.

Chi Cuadrado

Kolmogorov Smirnov (K-V)

Es un test no paramétrico que permite establecer si dos muestras se ajustan al mismo modelo probabilístico, sirve para muestras grandes y muestras pequeñas; es necesario determinar la frecuencia observada acumulada y la frecuencia teórica acumulada; una vez determinadas ambas frecuencias, se obtiene el máximo de las diferencias entre ambas.

Anderson - Darling

Esta Prueba no paramétrica es una modificación del test de Kolmogorov Smirnov, donde se le da mas peso a las colas de la distribución que la prueba de K-S

Ing. Yaneth Figuera

Chi Cuadrado

Pasos

Tabla de contingencia

Genero SI NO

Femenino 50 25

Masculino 40 45

Ejemplo Uso del cinturón de Seguridad

Realizar una Hipótesis

Escribir la hipótesis nula y la alternativa

Calcular el valor de

Determinar el valor de P y el grado de libertad

Obtener el valor critico

Realizar una comparación entre el Chi Cuadrado calculado y el valor critico

Interpretar la comparación

X 2

Ing. Yaneth Figuera

Ho: El uso del cinturón de seguridad es independiente del genero H1: El uso del cinturón de seguridad no es independiente del genero

Tabla de Frecuencias Esperadas

Para calcular todos y cada uno de los valores de la tabla de frecuencia esperadas se realiza

Realizar una Hipótesis

Escribir la hipótesis nula y la alternativa

Martha supone que el uso del cinturón de seguridad, en los conductores esta relacionado con el genero.

Ing. Yaneth Figuera

Realizar las sumas por filas por columnas y la suma total

Usar la formula para obtener las frecuencias esperadas

Ing. Yaneth Figuera

Calcular el valor de 2 X

Para obtener el valor de Chi Cuadrado calculado se tiene la formula

50 25

40 45

Tabla de valores Observados Tabla de valores Esperados

42.1875 32.8125

47.8125 37.1875

Ing. Yaneth Figuera

Para calcular el grado de libertad (V) se realiza

V= (cantidad de filas – 1) (cantidad de columnas – 1)

Determinar el valor de P y el grado de libertad

50 25

40 45

Tabla de valores Observados

V= (2 – 1) (2 – 1) V= 1 (1) = 1

Nivel de Significancia * Es el error que se puede cometer al rechazar la hipótesis nula siendo verdadera * Por lo general se trabaja con un nivel de significancia de 0.05 que indica que hay una probabilidad del 0.95 de que la hipótesis nula sea verdadera

Martha supone que el uso del cinturón de seguridad, en los conductores, esta relacionado con el genero. Los datos se muestran en la tabla siguiente. Martha realiza la prueba con su conjetura o su suposición usando Chi Cuadrado con un nivel de significancia del 1% Ing. Yaneth Figuera

Genero SI NO

Femenino 50 25

Masculino 40 45

Uso del cinturón de Seguridad

Entonces tiene un nivel de significancia del 0.01

Valor del Parámetro p

* Para calcular el valor de p se realiza: p = 1 – Nivel de significancia p = 1 – 0.01 = 0.99

Tablas para valores de Chi

Cuadrado Critico

Obtener el valor critico

Ing. Yaneth Figuera

Ejemplo

Ing. Yaneth Figuera

Realizar una comparación entre el Chi Cuadrado calculado y el valor critico

• Si el valor de Chi Cuadrado Calculado es menor o igual que Chi Cuadrado critico entonces se acepta la hipótesis nula, caso contrario no se la acepta .

Ejemplo

Entonces se acepta la hipótesis nula, la cual es “el uso del cinturón de seguridad es independiente del genero”

Interpretar la comparación

Ing. Yaneth Figuera

Definición

Es el diseño en cual los tratamientos se asignan al azar entre las unidades experimentales (UE) o viceversa, este diseño tienen amplia aplicación cuando las unidades experimentales son muy homogéneas, es decir, la mayoría de los factores actúan por igual entre las unidades experimentales. Su nombre deriva del hecho que existe completamente una aleatorizacion, la cual valida como la prueba de F de Fisher-Snedecor. También se le conoce como Diseño de una vía o solo un criterio de clasificación en virtud de que las respuestas se hallan clasificadas únicamente por los tratamientos.

Diseño Completamente Aleatorizado

Ing. Angelica Carreño

Aplicación

En experimentos de laboratorio donde casi todos los factores están controlados.

También en ensayos clínicos y en experimentos industriales.

Ensayos de invernaderos.

Experimentos agrícolas.

Características

Este diseño no impone ninguna restricción en cuanto a las unidades experimentales, deben ser en todo caso homogéneas .

El diseño en su estructura no se ve afectado por el numero igual o desigual de observaciones por tratamiento.

Ing. Angelica Carreño

Modelo Aditivo Lineal

Es una expresión algebraica que condensa todos los factores presentes en la investigación. Resulta útil para sintetizar que factores son dependientes o independientes, cuales son fijos o aleatorios, cuales son cruzados o anidados.

Para este diseño el modelo aditivo lineal es:

Ing. Angelica Carreño

Modelo I o Modelo de Efectos Fijos

Cuando los factores son fijos el investigador ha escogido los factores en forma no aleatoria y solo esta interesado en ellos. En este caso el investigador asume que lo cual refleja la decisión del investigador que únicamente esta interesado en los t tratamientos presente en el experimento.

Modelo II o Modelo de Efectos Aleatorios o Modelo de Varianza

En este caso el investigador asume que los Ti tratamientos están

distribuidos normal e independientemente con media cero y varianza sigma cuadrado, lo cual se abrevia así , lo que refleja la decisión del investigador que solo esta interesado en una población de tratamientos, de los cuales únicamente una muestra al azar (los t tratamientos) están presentes en el experimento.

Ing. Angelica Carreño

Modelo Mixto

Hace referencia a aquellos casos en los cuales el investigador considera tanto factores fijos como aleatorios en el experimento.

Representación Simbólica del Modelo Completamente Aleatorizado

Ing. Angelica Carreño

Ejemplo

El proceso de distribución de los tratamientos azar en las unidades experimentales se puede realizar una tabla de números aleatorios o mediante un algoritmo computarizado de SAS.

Supongamos un experimento donde deseamos probar 4 tipos de diferentes mezclas, A,B,C y D cada una en una proporción única para determinar su efecto sobre la capacidad de aumento de peso en las plataformas. Se desean realizar 5 repeticiones.

Se procede de la siguiente manera:

Se forman grupos homogéneos en cuanto a una variable (digamos en este caso peso).

Cada grupo va a contener 4 plataformas .

Realizando el sorteo, mediante la tabla de números aleatorios puede resultar así: Ing. Angelica Carreño

De esta forma quedan distribuidos los tratamientos entre las unidades experimentales que en total son 5x4= 20 Plataformas.

El Balance existe en este caso cuando permitimos que cada repetición (replicación), contenga todos los tratamientos.

Ing. Angelica Carreño

Diseño con Bloques Aleatorizado

Un diseño de bloques aleatorizados es un diseño que suele utilizarse para minimizar el efecto de la variabilidad cuando está asociada con unidades discretas (por ejemplo, ubicación, operador, planta, lote, tiempo). El caso habitual consiste en aleatorizar una réplica de cada combinación de tratamientos dentro de cada bloque. Por lo general, no hay un interés intrínseco en los bloques y se considera que son factores aleatorios. El supuesto habitual es que la interacción de bloque y tratamiento es cero, y esta interacción pasa a ser el término de error para probar los efectos del tratamiento. Si identifica a la variable de bloque como Bloque, los términos presentes en el modelo serían Bloque, A, B y A*B. También especificaría Bloque como un factor aleatorio.

Definición

Ing. Angelica Carreño

Características

Debe existir una variación máxima entre los bloques.

Debe existir una variación mínima entre las unidades experimentales dentro del bloque.

Todos los tratamiento, se le aplican en todos los bloques.

Ejemplo

Se realizo un experimento para estudiar el funcionamiento de cuatro diferentes detergentes quita mancha. Las lectura de blancura (valor mayor= mas limpio) se obtuvieron usando un equipo especial en tres diferentes tipos de manchas comunes. Hay diferencia significativa entre los detergentes?

Ing. Angelica Carreño

Utilizar bloques es una forma de reducir y controlar la varianza del error experimental para tener mayor precisión.

Diseño en cuadro latino

El diseño de cuadro latina se usa para eliminar dos fuentes de variabilidad que no interesa estudiar por si mismas. Se hace un bloque en dos direcciones. Los renglones y las columnas representan dos restricciones en aleatorizacion.

Ing. Angelica Carreño

Un ingeniero industrial esta investigando el efecto de cuatro métodos de ensamblado (A,B,C,D) en el tiempo de ensamblado de una componente de televisión a color. Selecciono a cuatro operadores para el estudio. Además, el ingeniero sabe que cada método de ensamblado produce cierta fatiga, de tal manera que el tiempo requerido para l ultimo ensamblado puede ser mayor que le tiempo requerido para el primero, independientemente del método. Para tomar en cuenta estas dos fuentes de variabilidad (operador, orden de ensamblado) el ingeniero decide usar un Diseño de cuadro latino cuyos resultados se presentan a continuación:

Ing. Angelica Carreño

Definiciones

Ing. Erika Páez

Variable Y

Variable Xp Regresión

La Relación:

Si P = 1

Si P > 1 Regresión Lineal

Si las Variables explicativas (Y) son Categóricas en vez de continuas

Entonces nos encontramos ante un caso típico de :

Análisis de Varianza

Es posible que en el mismo análisis aparezcan tanto variables explicativas continuas como

categóricas

y en este caso el análisis pasara a denominarse:

Análisis de la covarianza

ijiji (x )XYij

Análisis de Covarianza Lograr dos Objetivos Específicos:

a) Eliminar cualquier error sistemático fuera del control del investigador que pueda sesgar los

resultados

b) Tener en cuenta las diferencias en las respuestas debidas a las características propias de

los encuestados.

Un sesgo sistemático puede ser eliminado por medio de la asignación aleatoria de los encuestados a varios tratamientos

El Objetivo de la Covarianza: Eliminar cualquiera de los efectos que:

a) Influyan solamente a una parte de los encuestados

b) Varia entre los encuestados

El investigador utiliza una covarianza para

extraer cualquiera de las diferencias debidas

a estos factores antes de que los efectos del

experimento sean calculados. Este es el

segundo papel del analisis de la covarianza. Ing. Erika Páez

Ejemplo: (Montgomery) Considere un estudio realizado para determinar si

existe diferencia en la resistencia de una fibra de

monofilamento producida por tres maquinas diferentes. Se sospecha que, la resistencia de la fibra

también se afecta por su grosor; por consiguiente, una fibra más gruesa será por lo general más

resistente que una delgada. Los datos de este experimento se muestran en la tabla (9.2). Es evidente

que para resolver el problema debemos realizar un análisis de covarianza con el objeto

Ing. Erika Páez

Ejemplo: (Montgomery)

que para resolver el problema debemos realizar un análisis

de covarianza con el objeto de eliminar el efecto del grosor (x) sobre

la resistencia (y). Suponiendo que la relación lineal entre la resistencia a la ruptura y el diámetro es

apropiada, el modelo es

El modelo de análisis de covarianza es una combinación de los modelos lineales empleados en el

análisis de regresión y análisis de varianza. Es decir, se tienen efectos de los tratamientos {αi},

como en el análisis de varianza de un solo factor, y un coeficiente de regresión β, como en una

ecuación de regresión.

Ing. Erika Páez

Análisis de Covarianza

Para describir el análisis se introduce la siguiente notación

En General S, T y E son las Sumas de cuadrados y los dobles

productos para el total. Los tratamientos y error

Ing. Erika Páez

Ejemplo: (Montgomery) Sustituyendo las ecuaciones se tiene que:

Ing. Erika Páez

Análisis de Covarianza A continuación se indica la forma en que el análisis de

covarianza ajusta la variable respuesta para el efecto

de la covariable.

Estimadores de mínimos cuadrados

Ing. Erika Páez

Por la ecuación anterior se encuentra que:

Ejemplo: (Montgomery)

suma de cuadrada

La suma de cuadrados del error

Parámetro de regresión

Si la hipótesis es nula Ósea Ho= O la convariable puede omitirse del estudio. Por lo tanto se rechaza

Ing. Erika Páez

Ejemplo: (Montgomery) Resumiendo que:

Para probar la hipótesis de que las maquinas difieren en la

resistencia a la ruptura de la fibra producida, es decir, H0 : αi = 0, por la ecuación (9.19) el

estadístico de prueba se calcula como

La estimación del coeficiente de regresión se calcula con

La hipótesis H0 : β = 0 puede probarse usando la ecuación. El estadístico de prueba es

Ing. Erika Páez

Análisis:

Un supuesto básico en el análisis de covarianza es que los tratamientos no influyen en la covariable

x, ya que la técnica elimina el efecto de las variaciones en las ¯xi.. Sin embargo, si la variabilidad

en la ¯xi. se debe en parte a los tratamientos, entonces el análisis de covarianza elimina parte del

efecto de los tratamientos. Por lo tanto, deberá tenerse una seguridad razonable de que los

tratamientos no afectan los valores de xij .

Ejemplo (Scheffé)

Ing. Erika Páez

Comparaciones Múltiples ¿Qué son comparaciones múltiples?

Las comparaciones múltiples le permiten evaluar la significancia

estadística:

Como siempre, se rechaza la hipótesis nula de que no existe diferencia alguna entre las

medias si y solo si el intervalo de confianza no contiene cero.

Diferencias entre las medias utilizando:

Prueba de hipótesis:

Las comparaciones múltiples permiten establecer una información más exacta sobre la importancia de cada uno de los niveles de la variable independiente. Ing. Erika Páez

Comparaciones Múltiples Situaciones Básicas

se refiere a la situación más común en la que el investigador, una vez realizado el Análisis de Varianza y rechazada la H0 desea conocer entre qué medias hay diferencias no debidas al azar. Se trata de las comparaciones no planificadas, a posteriori o post hoc

se refiere a cuando el investigador no está interesado en realizar un Análisis de Varianza para probar todas las medias sino sólo en algunas comparaciones entre los niveles del factor, no en todas las posibles y sabe de antemano qué comparaciones le interesan. Se trata de comparaciones planificadas o a priori

Objetivo

Es, como parte del Análisis de Varianza, reducir la cantidad de error Tipo I que cometeríamos si comparásemos dos a dos todas las muestras, por lo tanto, aunque comparemos las muestras dos a dos, no recurrimos a la prueba t estudiada en temas precedentes, sino que aplicaremos pruebas específicas que aprovechan los resultados del Análisis de Varianza y que nos aseguran que no se incrementa el error de tipo I (α).

Ing. Erika Páez

Comparaciones Múltiples ¿Cuál método de comparaciones múltiples debería utilizar?

La selección del método de comparación múltiple apropiado depende de la inferencia que desee

Ing. Erika Páez

Comparaciones Múltiples ¿Cuáles medias debería comparar? Es importante considerar cuáles medias se compararán

cuando se utilizan comparaciones múltiples; una elección incorrecta puede tener como resultado

intervalos de confianza que no son lo que usted espera.

COMPARACIONES NO PLANIFICADAS, A POSTERIORI O POST HOC

son aquellas, como hemos dicho, que se deciden después de que el investigador haya obtenido los

resultados del Análisis de Varianza, rechazando la hipótesis nula. Aunque existen distintas técnicas

para realizar estas comparaciones, aquí vamos a estudiar sólo una de ellas: la prueba de comparaciones

múltiples de Scheffé, que es una de las más utilizadas.

Prueba de comparaciones múltiples de Scheffé.

Esta prueba fija la tasa de error de tipo I en el α al que estemos trabajando, sin aumentarlo en todas

las posibles comparaciones que realicemos, y obtiene un valor al que llama diferencia mínima o rango

crítico (Critical Range de Scheffé) por encima de la cual diremos que hay diferencias entre las

medias o entre los grupos de medias que estemos comparando. Esta diferencia mínima se calcula

según la fórmula: Ing. Erika Páez

F.V. S.C. g.l M.C. F Estadístico de contraste

13.28 1-1 27.99/2= 13.95

2.91

Ejemplo (Scheffé) Retomando el ejemplo anterior tenemos que:

Medidas a comparar

Al comparar las medias ajustadas con las medias no ajustadas de los tratamientos (las ¯yi.), se

observa que las medias ajustadas se encuentran mucho más próximas entre si, una indicación más de

que el análisis de covarianza fue necesario. Ing. Erika Páez

Análisis:

Ejemplo (Scheffé)

F.V. S.C. g.l M.C. F Estadístico de pruebas

13.28 1-1 2.54 70.08

Si acudimos a las tablas de la distribución F, el valor crítico para 2.91 y 70.08 grados de

libertad, trabajando con un nivel de confianza del 95%, es 3.13 Ahora bien, ¿entre qué pares de medias está la diferencia que hace que rechacemos la hipótesis

nula?

Si aplicamos la prueba de comparaciones múltiples de Scheffé

a):

b): Calculamos CRScheffé =

Ing. Erika Páez

Análisis:

Ejemplo (Scheffé)

Comparando nuestro resultado

con el de las tablas vemos que el

estadístico de contraste es

menor al nivel crítico (295 <

3,13) por lo que rechazaremos la

H0 de igualdad de medias

Ing. Erika Páez

Ejemplo (Scheffé) Esta es la diferencia mínima o rango crítico

(Critical Range de Scheffé), por encima de la cual diremos

que hay diferencias entre las medias o entre los grupos de medias que estemos comparando. Por lo

tanto, realizamos las comparaciones:

Como vemos, la única diferencia significativa (responsable de que hayamos rechazado la hipótesis

nula del análisis de varianza) se da entre los grupos 2 y 3 ya que la diferencia de medias entre estos

dos grupos supera el valor del CR de Scheffé.

Ing. Erika Páez

La estimación de proporciones permiten determinar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra .

La estimación bayesiana se basa en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta.

Las prueba de hipótesis se utilizan para determinar si existe suficiente evidencia en una muestra de datos para inferir que cierta condición es válida para toda la población.

El análisis de las tablas de contingencia se emplean para registrar y analizar la asociación entre dos o más variables, habitualmente de naturaleza cualitativa.

Las pruebas de bondad de ajuste permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.

El diseño completamente aleatorizados se utiliza en la asignación de los tratamientos en forma completamente aleatoria a las unidades experimentales .

El diseño de bloques aleatorizados sirve para minimizar el efecto de la variabilidad cuando está asociada con unidades discretas.

Las comparaciones múltiples permiten evaluar la significancia estadística de las

diferencias entre las medias utilizando un conjunto de intervalos de confianza, un conjunto de pruebas de hipótesis o ambos.

El análisis de covarianza se emplea cuando no se puede controlar una mas variables extrañas.

1)http://es.slideshare.net/williamleon20/prueba-de-hipotesis-para-proporciones-est-ind-clase02?qid=3268290f-37ec-44ec-a0f4-42cba559c59d&v=&b=&from_search=6 2) https://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial 3)http://gc.initelabs.com/recursos/files/r157r/w13122w/Estad%20para%20Neg_1aEd_07.pdf 4)https://es.wikipedia.org/wiki/Inferencia_bayesiana 5)http://www.monografias.com/trabajos91/prueba-hipotesis-proporciones-z-y-ji-cuadrado-empleando-excel-y-winstats/prueba-hipotesis-proporciones-z-y-ji-cuadrado-empleando-excel-y-winstats.shtml#ixzz49iVhIKv4 6)http://www.urosario.edu.co/Administracion/documentos/investigacion/laboratorio/miller_2_2.pdf 7)http://www.iuma.ulpgc.es/~nunez/mastertecnologiastelecomunicacion/Tema3DisenodeExperimentos/doe-4-bloques_al_azar.pdf

8)http://www.uru.edu/fondoeditorial/libros/pdf/manualdestatistix/cap2.pdf 9)http://es.slideshare.net/williamleon20/prueba-de-hipotesis-para-proporciones-est-ind-clase02?qid=4362a8d2-eb8c-462f-af15-4447d390f248&v=&b=&from_search=1 https://es.wikipedia.org/wiki/Tabla_de_contingencia 10)http://www.ugr.es/~batanero/pages/ARTICULOS/Gustavo2.pdf 11)http://es.slideshare.net/search/slideshow?searchfrom=header&q=hipotesis+de+varias+proporciones 12)https://www.google.co.ve/search?q=calculo+estadistico+de+la+prueba+formula+de+z+

diferencia+entre+porpociones+onservadas+diferencia+enre+poporciones&espv=2&biw=1366&bih=667&tbm=isch&source=lnms&sa=X&ved=0ahUKEwiX8K2hsvjMAhXqxYMKHTD3C4cQ_AUIBygC#tbm=isch&q=conclusion&imgrc=y98-eCMnKFr_2M%3A

13) www.psicocode.com/resumenes/tema5disenos.pdf 14) www.ugr.es/~bioestad/_private/cpfund6.pdf 15) www.uru.edu/fondoeditorial/libros/pdf/manualdestatistix/cap6.pdf

Gracias por su atención!