Diagrama de Tallo y Hojas

17
 DIAGRAMA DE TALLO Y HOJAS http://www.esta disticaparatodos.es/softwar e/software_otro s.html El diagrama "tallo y hojas" ( Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separ ar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo). Esta representación de los datos es semejante a la de un histograma pero ademá s de ser fáciles de elaborar, presentan más información que estos. Ejemplos  Horarios de trenes  Edad de 20 personas   Comparar dos distribuciones Horarios de trenes Basándome en un articulo de Juan C. Dürsteler en InfoVis.net, tomamos como ejemplo un horario de trenes confeccionado a partir de un díptico de la línea Castelldefels- Barcelona/Sants recogido en la estación de Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas más una columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato hh.mm cada uno, 455 caracteres. Díptico original Trayecto Castelldefels -> Barcelona-Sants 5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38 6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20 6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32 6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37 6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50 6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02 7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07 7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20 7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32 7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37 En el diagrama Stem & Leaf  se representa la hora a la izquierda de la barra de separación | y los minutos de la salida de cada tr en a la derecha. La frecuencia de los trenes se deduce fácilmente de la longitud de las filas y es, además, muy fácil ver en que minutos de cada hora pasan típicamente los mismos. Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf 05 | 03 06 | 02 18 37 48 55

description

teoria y ejemplos

Transcript of Diagrama de Tallo y Hojas

DIAGRAMA DE TALLO Y HOJAS

http://www.estadisticaparatodos.es/software/software_otros.htmlEl diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultneamente una distribucin de frecuencias de la variable y su representacin grfica. Para construirlo basta separar en cada dato el ltimo dgito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formar el tallo). Esta representacin de los datos es semejante a la de un histograma pero adems de ser fciles de elaborar, presentan ms informacin que estos. Ejemplos Horarios de trenes Edad de 20 personas Comparar dos distribucionesHorarios de trenesBasndome en un articulo de Juan C. Drsteler en InfoVis.net, tomamos como ejemplo un horario de trenes confeccionado a partir de un dptico de la lnea Castelldefels-Barcelona/Sants recogido en la estacin de Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas ms una columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato hh.mm cada uno, 455 caracteres. Dptico original Trayecto Castelldefels -> Barcelona-Sants 5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38 6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20 6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32 6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37 6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50 6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02 7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07 7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20 7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32 7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separacin | y los minutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fcilmente de la longitud de las filas y es, adems, muy fcil ver en que minutos de cada hora pasan tpicamente los mismos.Castelldefels -> Barcelona-SantsDiagrama Stem & Leaf 05 | 0306 | 02 18 37 48 5507 | 02 07 20 25 32 37 5008 | 02 05 20 24 32 37 5109 | 02 07 24 32 3710 | 02 07 32 3711 | 02 07 32 3712 | 02 07 32 3713 | 02 07 20 32 37 50 14 | 02 07 20 32 37 50 15 | 02 07 20 32 37 5016 | 02 07 20 32 37 5017 | 02 07 20 32 37 5018 | 02 07 20 32 37 5019 | 02 07 20 32 37 5020 | 02 07 20 32 37 5021 | 02 07 20 32 3722 | 38Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede reducir an ms el tamao del grfico, sin perder informacin y ganando en claridad.Castelldefels -> Barcelona-SantsDiagrama Stem & Leaf reducido 05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 37 50 08 | 02 05 20 24 32 37 51 09 | 02 07 24 32 37 10 11 12 | 02 07 32 37 13 14 15 16 17 18 19 20 | 02 07 20 32 37 50 21 | 02 07 20 32 37 22 | 38Al final tenemos 59 campos de 2 dgitos, 118 caracteres ms los separadores, es decir 4 veces menos dgitos que con el horario original, menos espacio y ms claridad.Esto nos da idea de que una disposicin apropiada de los datos puede ser doblemente informativa y que la representacin grfica puede contribuir enormemente a la percepcin de patrones y a la comprensin de la naturaleza de los fenmenos.Edad de 20 personasSupongamos la siguiente distribucin de frecuencias 36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuacin efectuamos un recuento y vamos aadiendo cada hoja a su tallo

Por ltimo reordenamos las hojas y hemos terminado el diagrama

Comparar dos distribucionesPodemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribucin 35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.

DIAGRAMA DE CAJALos diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentacin visual que describe varias caractersticas importantes, al mismo tiempo, tales como la dispersin y simetra.Para su realizacin se representan los tres cuartiles y los valores mnimo y mximo de los datos, sobre un rectngulo, alineado horizontal o verticalmente. Construccin: Comparar distribuciones Diagrama de Caja a travs de ExcelConstruccin:Una grfica de este tipo consiste en una caja rectangular, donde los lados ms largos muestran el recorrido intercuartlico. Este rectngulo est dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relacin con los cuartiles primero y tercero(recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mnimo y mximo de la variable. Las lineas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen tienen un lmite de prolongacin, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente Ejemplo distribucin de edadesUtilizamos la ya usada distribucin de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

Ordenar los datosPara calcular los parmetros estadstico, lo primero es ordenar la distribucin20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45Calculo de CuartilesQ1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribucin. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmtica de dicho valor y el siguiente:Q1=(24 + 25) / 2 = 24,5Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribucin, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmtica de dicho valor y el siguiente:me= Q2 = (33 + 34)/ 2 =33,5 Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribucin. En nuestro caso, como 3N / 4 = 15, resulta Q2=(39 + 39) / 2 = 39 Dibujar la Caja y los Bigotes

El bigote de la izquierda representa al colectivo de edades ( Xmn, Q1)La primera parte de la caja a (Q1, Q2),La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmx).

Informacin del diagramaPodemos obtener abundante informacin de una distribucin a partir de estas representaciones. Veamos alguna: La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la poblacin est ms dispersa que entre el 50% y el 75%. El bigote de la izquierda (Xmm, Q1) es ms corto que el de la derecha; por ello el 25% de los ms jvenes estn ms concentrados que el 25% de los mayores. El rango intercuartlico = Q3 - Q1 = 14,5; es decir, el 50% de la poblacin est comprendido en 14,5 aos.Seguro que t podrs obtener ms informacin (Utiliza la mediana!)Comparar distribucionesLa mayor utilidad de los diagramas caja-bigotes es para comparar dos o ms conjuntos de datos. Comparacin distribucin de edades Comparacin entrenamientos de un corredor Comparacin clasificacin ligaComparacin distribucin de edadesAnlogamente a lo realizado con los diagramas de tallo y hojas, comparamos, mediante estos diagramas, esta distribucin con la del otro ejemplo de distribucin de edades. 35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22

A partir de dicha comparacin puede obtenerse bastante informacin de ambas distribuciones. Comparacin entrenamientos de un corredorUn corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 100m, durante 10 das consecutivos (cada da se toman varios tiempos y se calculan mediana, cuartiles, valores mnimo y mximo)

Observamos que el desplazamiento de las grficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el mximo y el mnimo menor, como as tambin la diferencia intercuartlica.

Comparacin clasificacin ligaLas puntuacin de los equipos de la liga de la temporada 01/02 y 02/03 en primera divisin se pueden comparar con un diagrama caja y bigotes, como aparece aqu,

Comentarios: No hay datos muy atpicos, es decir que no hay equipo que se haya destacado por arriba o por abajo del resto de los equipos. Hay ms diferencia de puntos entre el primer y el ltimo clasificado para la liga 02/03 que en la liga anterior. Los quipos del tercer cuarto de la clasificacin estn ms apelotonados en la liga 02/03. Diagrama de Caja a travs de ExcelDiagrama de Caja realizado con la hoja de calculo EXCEL para una, dos o tres variables

Captulo II : CARACTERSTICAS DE UNA DISTRIBUCIN DE FRECUENCIAS 2.5. Medidas de forma Asimetra Curtosis o apuntamiento Hasta ahora, hemos estado analizando y estudiando la dispersin de una distribucin, pero parece evidente que necesitamos conocer ms sobre el comportamiento de una distribucin. En esta parte, analizaremos las medidas de forma, en el sentido de histograma o representacin de datos, es decir, que informacin nos aporta segn la forma que tengan la disposicin de datos Las medidas de forma de una distribucin se pueden clasificar en dos grandes grupos o bloques: medidas de asimetra y medidas de curtosis. 2.5.1. Medidas de asimetra o sesgo : Coeficiente de asimetra de Fisher Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, segn sea esta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de simetra, decimos que la distribucin es simtrica. En caso contrario, dicha distribucin ser asimtrica o diremos que presenta asimetra.El coeficiente de asimetra ms preciso es el de Fisher, que se define por: Segn sea el valor de g1, diremos que la distribucin es asimtrica a derechas o positiva, a izquierdas o negativa, o simtrica, o sea: 2.5.2. Medidas de apuntamiento o curtosis: coeficiente de curtosis de Fisher Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una distribucin; para determinarlo, emplearemos el coeficiente de curtosis de Fisher.- Si existe simetra, entonces g1 = 0, y Me X = ; si adems la distribucin es unimodal, tambin podemos afirmar que: 2.6. Medidas de concentracin Las medidas de concentracin tratan de poner de relieve el mayor o menor grado de igualdad en el reparto del total de los valores de la variable, son por tanto indicadores del grado de distribucin de la variable Para este fin, estn concebidos los estudios sobre concentracin Denominamos concentracin a la mayor o menor equidad en el reparto de la suma total de los valores de la variable considerada (renta, salarios, etc.) Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos extremos: 1.- Concentracin mxima, cuando uno solo percibe el total y los dems nada, en este caso, nos encontraremos ante un reparto no equitativo: x1 = x2 = x3 = = xn-1 = 0 y xn. 2.- Concentracin mnima, cuando el conjunto total de valores de la variable esta repartido por igual, en este caso diremos que estamos ante un reparto equitativo x1 = x2 = x3 = = xn-1 = xn . De las diferentes medidas de concentracin que existen nos vamos a centrar en dos: Indice de Gini, Coeficiente, por tanto ser un valor numrico. Curva de Lorenz, grfico, por tanto ser una representacin en ejes coordenados. Sea una distribucin de rentas (xi, ni) de la que formaremos una tabla con las siguientes columnas: 1.- Los productos xi ni, que nos indicarn la renta total percibida por los ni rentistas de renta individual xi 2.- Las frecuencias absolutas acumuladas Ni . 3.- Los totales acumulados ui que se calculan de la siguiente forma: u1= x1 n1 u2 = x1 n1 + x2 n2 u3 = x1 n1 + x2 n2 + x3 n3 u4 = x1 n1 + x2 n2 + x3 n3 + x4 n4 un = x1 n1 + x2 n2 + x3 n3 + x4 n4 + . + xn nn .4.- La columna total de frecuencias acumuladas relativas, que expresaremos en tanto por ciento y que representaremos como pi y que vendr dada por la siguiente notacin. 5.- La renta total de todos los rentistas que ser un y que dada en tanto por ciento, la cual representaremos como qi y que responder a la siguiente notacin: Por tanto ya podemos confeccionar la tabla que ser la siguiente: Como podemos ver la ltima columna es la diferencia entre las dos penltimas, esta diferencia seria 0 para la concentracin mnima ya que pi = qi y por tanto su diferencia seria cero. Si esto lo representamos grficamente obtendremos la curva de concentracin o curva de Lorenz .La manera de representarlo ser, en el eje de las X, los valores pi en % y en el de las Y los valores de qi en %. Al ser un %, el grfico siempre ser un cuadrado, y la grfica ser una curva que se unir al cuadrado, por los valores (0,0), y (100,100), y quedar siempre por debajo de la diagonal. La manera de interpretarla ser: cuanto ms cerca se site esta curva de la diagonal, menor concentracin habr, o ms homogeneidad en la distribucin. Cuanto ms se acerque a los ejes, por la parte inferior del cuadrado, mayor concentracin.Los extremos son Analticamente calcularemos el ndice de Gini el cual responde a la siguiente ecuacin Observamos que hay poca concentracin por encontrarse cerca del 0. Curva de Lorenz La curva la obtenemos cerca de la diagonal, que indica que hay poca concentracin

Captulo III: DISTRIBUCIONES BIDIMENSIONALES 3.1. Introduccin Estudiaremos dos caractersticas de un mismo elemento de la poblacin (altura y peso, dos asignaturas, longitud y latitud). De forma general, si se estudian sobre una misma poblacin y se miden por las mismas unidades estadsticas una variable X y una variable Y, se obtienen series estadsticas de las variables X e Y. Considerando simultneamente las dos series, se suele decir que estamos ante una variable estadstica bidimensional. 3.2. Tabulacin de variables estadsticas bidimensionales Vamos a considerar 2 tipos de tabulaciones: 1) Para variables cuantitativas, que reciben el nombre de tabla de correlacin. 2) Para variables cualitativas, que reciben el nombre de tabla de contingencia. 3.2.1.Tablas de correlacin Sea una poblacin estudiada simultaneamente segn dos caracteres X e Y; que representaremos genricamente como (xi; yj ; nij), donde xi; yj, son dos valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-simo de X con el j-simo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de correlacin, la cual podemos representar como sigue: Tipos de distribuciones Cuando se estudian conjuntamente dos variables, surgen tres tipo de distribuciones: Distribuciones conjuntas, distribuciones marginales y distribuciones condicionadas. a) Distribucin conjunta - La frecuencia absoluta conjunta, viene determinada por el nmero de veces que aparece el par ordenado ( xi , yj ), y se representa por nij . - La frecuencia relativa conjunta, del par ( xi , yj ) es el cociente entre la frecuencia absoluta conjunta y el nmero total de observaciones. Se trata de fij . Se cumplen las siguientes relaciones entre las frecuencias de distribucin conjunta: 1) La suma de las frecuencias absolutas conjuntas, extendida a todos los pares es igual.2) La suma de todas las frecuencias relativas conjuntas extendida a todos los pares es igual a la unidad. b) Distribuciones marginales Cuando trabajamos con ms de una variable y queremos calcular las distribuciones de frecuencias de cada una de manera independiente, nos encontramos con las distribuciones marginales. - Frecuencia absoluta marginal: el valor ni. Representa el nmero de veces que aparece el valor xi de X, sin tener en cuenta cual es el valor de la variable Y. A ni. se le denomina frecuencia absoluta marginal del valor xi de X, de forma que: Frecuencia relativa marginal La frecuencia relativa marginal de xi de X, viene dada por: La frecuencia relativa marginal de yj de Y, viene dada por: - Se cumplen las siguientes relaciones entre las frecuencias de distribucin marginales: 1) La suma de frecuencias absolutas marginales de la variable X, es igual al nmero de observaciones que componen la muestra 2) La suma de las frecuencias relativas marginales de la variable X, es igual a 1 3) Las dos propiedades anteriores se cumplen tambin para la variable Y c) Distribuciones condicionadas Consideremos a los n.j individuos de la poblacin que representan la modalidad yj de la variable Y, y obsrvese la columna j-esima de la tabla. Sus n.j elementos constituyen una poblacin, que es un subconjunto de la poblacin total.El razonamiento es anlogo cuando condicionamos la variable Y a un determinado valor de X, es decir Y /xi Cul es la distribucin de la retribucin, pero nicamente de los empleados con una antigedad de 5 aos?, es decir cual es la distribucin condicionada de la variable X condicionada a que Y sea igual a 5? Covarianza La covarianza mide la forma en que vara conjuntamente dos variables X e Y En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algn tipo de relacin entre ellas. Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relacin: Si Sxy >0 hay dependencia directa (positiva), es decir las variaciones de las variables tienen el mismo sentido Si Sxy = 0 las variables estn incorreladas, es decir no hay relacin lineal, pero podra existir otro tipo de relacin. Si Sxy < 0 hay dependencia inversa o negativa, es decir las variaciones de las variables tienen sentido opuesto. Grficamente, indicara la Covarianza, que los datos, se ajustan a una recta, en los siguientes casos:- La covarianza no es un parmetro acotado, y puede tomar cualquier valor real, por lo que su magnitud no es importante; lo significativo es el signo que adopte la misma. Al tener la covarianza entre ambas variables signo positivo, podemos deducir que existe una relacin directa o positiva entre ambas variables, es decir, cuando aumenta la edad del insecto tambin aumenta su tamao 3.2.2.Tablas de contingencia Cuando tenemos la informacin de 2 variables de tipo cualitativo o de una variable cualitativa y otra cuantitativa, se dispone de una tabla de contingencia. Nos limitaremos al caso de 2 variables. Es una tabla de doble entrada en la que en las filas se ubican las modalidades de una de las variables ( atributos ) y en las columnas las del otro; en las celdas resultantes del cruce de las filas y las columnas se incluye el nmero de elementos de la distribucin que presentan ambas modalidades Si se tiene informacin de N elementos acerca de las variables A y B de tal forma que presentan r y s modalidades respectivamente, la tabla de contingencia sera de la forma: tabla de contingencia r x s nij= nmero de elementos de la distribucin que presentan la modalidad i sima del atributo A y la modalidad j esima del atributo B ni.= ni1+ ni2+ + nis --.. nmero de elementos de la distribucin con la i sima modalidad del atributo A Como a las variables cualitativas no se les puede someter a operaciones de sumas, restas y divisiones, al venir expresadas en escalas nominales u ordinales no tiene sentido hablar de medias marginales, condicionadas, varianzas, etc; si podramos calcular la moda en el caso de que se empleara una escala nominal y de la mediana si utilizamos escalas ordinales.

Captulo III: DISTRIBUCIONES BIDIMENSIONALES 3.3. Dependencia e independencia 3.3.1.Independencia Cuando no se da ningn tipo de relacin entre 2 variables o atributos, diremos que son independientes Dos variables X e Y, son independientes entre si, cuando una de ellas no influye en la distribucin de la otra condicionada por el valor que adopte la primera. Por el contrario existir dependencia cuando los valores de una distribucin condicionan a los de la otra Dada dos variables estadsticas X e Y, la condicin necesaria y suficiente para que sean independientes es: Propiedades:1) Si X es independiente de Y, las distribuciones condicionadas de X/Yj son idnticas a la distribucin marginal de X 2) Si X es independiente de Y, Y es independiente de X 3) Si X e Y son 2 variables estadsticamente independientes, su covarianza es cero. La recproca de esta propiedad no es cierta, es decir, la covarianza de 2 variables puede tomar valor cero, y no ser independientes 3.3.2.Dependencia funcional ( existe una relacin matemtica exacta entre ambas variables ) El carcter X depende del carcter Y, si a cada modalidad yj de Y corresponde una nica modalidad posible de X. Por lo tanto cualquiera que sea j, la frecuencia absoluta nij vale cero salvo para un valor de i correspondiente a una columna j tal que nij = n.j Cada columna de la tabla de frecuencias tendr, por consiguiente, un nico trmino distinto de cero. Si a cada modalidad xi de X corresponde una nica modalidad posible de Y, ser Y dependiente de X. La dependencia de X respecto de Y no implica que Y dependa de X Para que la dependencia sea recproca, los caracteres X e Y deben presentar el mismo nmero de modalidades ( debe ser n=m) y en cada fila como en cada columna de la tabla debe haber uno y solo un trmino diferente de cero Sea X el salario de un empleado e Y la antigedad del mismo en la empresa Dependencia funcional recproca: X depende de Y e Y depende de X Y depende de X pero X no depende de Y 3.3.3.Dependencia estadstica ( existe una relacin aproximada ) Existen caracteres que ni son independientes, ni se da entre ellos una relacin de dependencia funcional, pero si se percibe una cierta relacin de dependencia entre ambos; se trata de una dependencia estadstica Cuando los caracteres son de tipo cuantitativo, el estudio de la dependencia estadstica se conoce como el problema de regresin , y el anlisis del grado de dependencia que existe entre las variables se conoce como el problema de correlacin 3.4.Regresin y correlacin lineal simple 3.4.1.Introduccin a la regresin lineal simple Cuando se estudian dos caractersticas simultneamente sobre una muestra, se puede considerar que una de ellas influye sobre la otra de alguna manera. El objetivo principal de la regresin es descubrir el modo en que se relacionan Por ejemplo, en una tabla de pesos y alturas de 10 personas se puede suponer que la variable Altura influye sobre la variable Peso en el sentido de que pesos grandes vienen explicados por valores grandes de altura (en general). De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos VARIABLE DEPENDIENTE o EXPLICADA. En la mayora de los casos la relacin entre las variables es mutua, y es difcil saber qu variable influye sobre la otra. En el ejemplo anterior, a una persona que mide menos le supondremos menor altura y a una persona de poca altura le supondremos un peso ms bajo. Es decir, se puede admitir que cada variable influye sobre la otra de forma natural y por igual. Un ejemplo ms claro donde distinguir entre variable explicativa y explicada es aquel donde se anota, de cada alumno de una clase, su tiempo de estudio (en horas) y su nota de examen. En este caso un pequeo tiempo de estudio tender a obtener una nota ms baja, y una nota buena nos indicar que tal vez el alumno ha estudiado mucho. Sin embargo, a la hora de determinar qu variable explica a la otra, est claro que el tiempo de estudio explica la nota de examen y no al contrario, pues el alumno primero estudia un tiempo que puede decidir libremente, y luego obtiene una nota que ya no decide arbitrariamente. Por tanto, X = Tiempo de estudio (variable explicativa o independiente) Y = Nota de examen (variable explicada o dependiente) El problema de encontrar una relacin funcional entre dos variables es muy complejo, ya que existen infinidad de funciones de formas distintas. El caso ms sencillo de relacin entre dos variables es la relacin LINEAL, es decir que Y = a + b X(es la ecuacin de una recta) donde a y b son nmeros, que es el caso al que nos vamos a limitar. Cualquier ejemplo de distribucin bidimensional nos muestra que la relacin entre variables NO es EXACTA (basta con que un dato de las X tenga dos datos distintos de Y asociados, como en el ejemplo de las Alturas y Pesos, que a 180 cm. de altura le corresponda un individuo de 82 kg. y otro de 78 kg.). Diagrama de dispersin o nube de puntos En un problema de este tipo, se observan los valores ( xi,yj ) y se representan en un sistema de ejes coordenados, obteniendo un conjunto de puntos sobre el plano, llamado diagrama de dispersin o nube de puntos . En los diagramas de arriba se puede observar cmo en el de la izquierda, una lnea recta inclinada puede aproximarse a casi todos los puntos, mientras que en el otro, cualquier recta deja a muchos puntos alejados de ella. As pues, el hacer un anlisis de regresin lineal slo estara justificado en el ejemplo de la izquierda. Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos los puntos, y seguir siendo recta. De todas las rectas posibles, la RECTA DE REGRESIN DE Y SOBRE X es aquella que minimiza un cierto error, considerando a X como variable explicativa o independiente y a Y como la explicada o dependiente. Recta de mnimos cuadrados o recta de regresin de Y sobre X (y* = a + b x) Sea y = a + b x una recta arbitraria. Para cada dato de X, es decir, para cada xi de la tabla tenemos emparejado un dato de Y llamada yi, pero tambin tenemos el valor de sustituir la xi en la ecuacin de la recta, al que llamaremos y* i. Cuando se toma el dato xi, el error que vamos a considerar es el que se comete al elegir y*.Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta que minimice la suma de los cuadrados de todos esos errores, que es la misma que la que minimiza la varianza de los errores. Usando tcnicas de derivacin se llega a que, de todas las rectas y = a + b x, con a y b nmeros arbitrarios, aquella que minimiza el error elegido es aquella que cumple .As pues, sustituyendo en y = a + b x, la ecuacin de la recta de regresin de Y sobre X es .y recolocando los trminos se puede escribir de la forma . Recta de regresin de X sobre Y Si se hubiese tomado Y como variable independiente o explicativa, y X como dependiente o explicada, la recta de regresin que se necesita es la que minimiza errores de la X. Se llama RECTA DE REGRESIN DE X SOBRE Y y se calcula fcilmente permutando los puestos de x e y, obtenindose.Sabiendo que :PROPIEDADES:- Ambas rectas de regresin pasan por el punto ( y x, ) - La pendiente de la recta de regresin de Y sobre X es b y la de X sobre Y es b . Dado que las varianzas son positivas por definicin, el signo de las pendientes ser el mismo que el de la covarianza, y as, las rectas sern ambas crecientes o decrecientes, dependiendo de si la covarianza es positiva o negativa, respectivamente, es decir b y b tendrn el mismo signo. - Los trminos de las rectas a y a constituyen los orgenes de las rectas, es decir, son los valores que adoptan respectivamente y* x* cuando x o y toman el valor cero en sus correspondientes rectas de regresin. - Las rectas de regresin las emplearemos para realizar predicciones acerca de los valores que adoptaran las variables. - Puede darse el caso, de no existencia de correlacin lineal entre las variables, lo cual no implica que no existan otro tipo de relaciones entre las variables estudiadas: relacin exponecial, relacin parablica, etc. 3.4.2.Correlacin lineal simple ( r R ) Para ver si existe relacin lineal entre dos variables X e Y, emplearemos un parmetro que nos mida la fuerza de asociacin lineal entre ambas variables. La medida de asociacin lineal mas frecuentemente utilizada entre dos variables es r o coeficiente de correlacin lineal de Pearson; este parmetro se mide en trminos de covarianza de X e Y. Si R = 1, existe una correlacin positiva perfecta entre X e Y Si R = -1, existe una correlacin negativa perfecta entre X e Y Si R = 0, no existe correlacin lineal, pudiendo existir otro tipo de relacin Si 0 1 p p R - , existe correlacin negativa y dependencia inversa, mayor cuanto ms se aproxime a - 1 Si 1 0 p p R , existe correlacin positiva, y dependencia directa, mayor cuanto ms se aproxime a 1 - Varianza residual y varianza explicada por la regresin. Coeficiente de determinacin lineal (R2 ) Si tenemos dos variables X e Y relacionadas linealmente, parte de la variabilidad de la variable Y, vendr explicada por variaciones de X ( variabilidad explicada por el modelo) , mientras que el resto responder a variaciones de fenmenos relacionados con la variable Y o con el azar ( variabilidad no explicada por el modelo). Por tanto nos conviene disponer de una medida que indique el porcentaje de la variabilidad de la variable explicada que se debe a la variabilidad de la variable explicativa. Esta medida es el coeficiente de determinacin lineal (R2 ) , y si su valor es alto nos indicar que el ajuste lineal efectuado es bueno. En la regresin lineal de Y sobre X, la varianza de la variable Y, puede descomponerse en la suma de 2 varianzas: Es una medida de la bondad del ajuste lineal efectuado. Si lo expresamos en porcentaje, dicho coeficiente nos indica el % de la varianza de la variable explicada ( Y) que se ha conseguido explicar mediante la regresin lineal. Si R2 = 1, existe dependencia funcional; la totalidad de la variabilidad de Y es explicada por la regresin. Si R2 = 0, dependencia nula; la variable explicativa no aporta informacin vlida para la estimacin de la variable explicada. Si R2 75 . 0 = , se acepta el modelo ajustado Relacin existente entre los coeficientes de determinacin y correlacin lineal: 2 R R = El signo del coeficiente de correlacin lineal ser el mismo que el de la covarianza.