Correlación - [Download PPT Powerpoint]

CorrelaciónCorrelaciónDecimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente e Y la dependiente (Y “depende” de X).

• Altura y peso de niños. Peso = f(Altura)

• Velocidad máxima que alcanza un coche y potencia de su motor. Velocidad = f(Potencia)

• Presupuesto para adquisiciones y número de libros que puede adquirir una biblioteca. Libros = f(Presupuesto)

• Si se hace una lista ordenando las palabras según su frecuencia de aparición en un texto extenso, se encuentra que hay una correlación entre frecuencia y posición o rango en esa lista. Frecuencia = f(Rango) =>(Ley de Zipf)La relación puede ser claramente causal o no. • La potencia del motor de un coche es la causa de que alcance una mayor velocidad, así como un mayor presupuesto el que se puedan comprar más libros. (X es la “causa” de Y)

• En cambio, el rango de una distribución tipo Zipf no es la causa de la frecuencia; en todo caso, la frecuencia es la causa del rango. (Y es la “causa” de X)

• La relación altura – peso tiene parte de causalidad, pero también existen otros factores. (X y otros factores son la causa de Y)Cuando se hacen correlaciones hay que analizar bien el

fenómeno para no caer en errores (c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Correlaciones espúreasCorrelaciones espúreasHay que evitar las denominadas correlaciones espúreas o espurias, es decir, que llevan a conclusiones erróneas. Ocurren cuando dos variables, X e Y, son realmente independientes entre sí, pero dependientes ambas de una misma causa común, Z.

Ejemplo de correlación espúrea: Cierto biólogo inglés publicó un estudio en el que se comprueba que en los pueblos y ciudades con más cigüeñas en los campanarios, X, nacen más niños, Y. Llegó a la conclusión de que “los niños los trae la cigüeña”.

Lo cierto es que tanto el número de cigüeñas, X, como el de niños, Y, dependen de la causa común, Z, que es el tamaño del pueblo o ciudad. En las poblaciones grandes hay siempre más cigüeñas y más niños. Tanto cigüeñas como niños están correlacionados con el tamaño de la población, pero no entre ellos mismos.

X Y

Z

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Nubes de PuntosNubes de Puntos

Sea un conjunto de pares de valores de las variables X e Y. Si los representamos en un diagrama de dispersión obtendremos una “nube de puntos” que nos dará una idea gráfica de la posible correlación entre ambas variables.

No hay correlación Correlación positiva Correlación negativa

X X X

Y Y Y

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Algunos tipos de correlacionesAlgunos tipos de correlaciones

Correlación lineal positiva

Correlación lineal negativa• Potencial

• Logarítmica

• Otros tipos

• Potencial

• Exponencial positiva

• Otros tipos

• Potencial inversa

• Exponencial negativa

• Otros tipos

Modelo Lineal

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Modelos LinealesModelos Lineales

a .- Ordenada en el orígen. Punto de corte con el eje de ordenadas o “eje y”. En este punto x está en el “origen” es decir x=0

b .- Pendiente. Grado de inclinación de la recta. Si es positiva, la recta es creciente. Si es negativa es decreciente. Es el cociente entre el incremento que se produce en la variable dependiente, Y, cuando se incrementa la variable independiente, X.

Los valores de “y” se calculan multiplicando “x” por la pendiente, b,

y sumándole la ordenada en el origen, a

y

x

a

b

y = a + bx

Ecuación Explícita de la Recta

Y

XX

Y

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Ejemplos de RectasEjemplos de Rectas

-4-3-2-10123456789

10

-3 -2 -1 0 1 2 3 4 5

x

y

-3-2-10123456789

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7

x

y

• Recta creciente, ya que la pendiente es positiva

• La recta crece dos unidades de y por cada unidad de x, es decir b=2

• Cuando x=0, y=1. La ordenada en el origen, a, vale 1

• Recta decreciente, ya que la pendiente es negativa

• La recta decrece una unidad de y por cada unidad de x, es decir b=-1

• Cuando x=0, y=4. La ordenada en el origen, a, vale 4

xy 21 xy 4

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Recta de Regresión Mínimo-Recta de Regresión Mínimo-CuadráticaCuadrática

• La recta de regresión es la que se obtiene a partir de la nube de puntos y es la que representa mejor la distribución de esos puntos como modelo lineal.

• Se suele emplear el método de los Mínimos Cuadrados, que consiste en encontrar aquella recta tal que la suma de los cuadrados de las distancias, di, de los puntos a la recta sea la mínima posible.

d1

d2

d3

d4

d5 d6

d8 d9

d10

Mínimoddddd nii 2222

21

2 ......

• Bajo esta condición se puede demostrar que la pendiente, b, y la ordenada en el origen, a, se determinan mediante:

x

y

22

ii

iiii

xxn

yxyxnb

n

xbya ii

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Ejemplo 1. Regresión Lineal

y = x + 2

-2

-1

0

1

2

3

4

5

6

7

8

-4 -3 -2 -1 0 1 2 3 4 5 6

X

Y

x y0 21 32 43 5

22

ii

iiii

xxn

yxyxnb

n

xbya ii

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

CovarianzaCovarianza

Media aritmética: Suma de los valores que toma una variable dividida entre el número total, n, de valores sumados.

n

xx i

Varianza: Es una medida de lo que se dispersan los valores de una muestra respecto de su media. Se determina con cualquiera de las formulas equivalentes siguientes:

22

2xx

2

2 SV mediantebien o xn

x

n

xxSV iixx

La varianza, V, es también el cuadrado de la desviación típica, S.

Recordemos que...Recordemos que...

Cuando se trata de una distribución bidimensional...Cuando se trata de una distribución bidimensional...

Covarianza:Covarianza: Es una medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio de la x como del valor medio de la y. Se determina mediante la expresión:

yx

n

yxS

n

yyxxSV ii

xyii

xyxy

xyV mediantebien o (c) Rosario Ruiz Baños. Departamento

de Biblioteconomía y Documentación. Universidad de Granada (España)

Coeficiente de Correlación de Pearson, rCoeficiente de Correlación de Pearson, rBondad de los ajustes

• El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio.

• Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raiz cuadrada de las varianzas)

yx

xy

yx

xy

yx

xy

SS

S

SS

S

VV

Vr

22

• Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:

22

yn

yx

n

x

yxn

yx

rii

ii

2222

iiii

yynxxn

yxyxnr

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Grado de CorrelaciónGrado de Correlación• El coeficiente de correlación, r, presenta valores entre –1 y +1.

• Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.

• Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.

• Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.

No hay correlación

0r

Correlación lineal positiva

1r

Correlación lineal negativa

1r

Hay correlación no lineal0r

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Coeficiente de Determinación, RCoeficiente de Determinación, R22

• Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el Coeficiente de Determinación, R2, que es el Coeficiente de Correlación elevado al cuadrado.

• Se determina mediante cualquiera de las dos expresiones siguientes:

22

2

yn

yx

n

x

yxn

yx

Rii

ii

2222

2

iiii

yynxxn

yxyxnR

• Su valor oscila entre 0 y +1.

• Cuando hay una buena correlación lineal, R2 es muy cercano a +1. Normalmente se acepta para valores de R2 >= 0’99.

• Cuando no hay correlación o bien ésta no es lineal, R2 es bajo e incluso cercano a cero

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Ejemplo 2: Regresión lineal

y = 1,13x - 2,2R2 = 0,9902

-4

-3

-2

-1

0

1

2

3

4

5

-2 -1 0 1 2 3 4 5 6 7

X

Y

x y1 -1,12 0,23 14 2,1

22

ii

iiii

xxn

yxyxnb

n

xbya ii

2222

2

iiii

yynxxn

yxyxnR

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

• Potencia y velocidad son dos variables correlacionadas según un modelo lineal, cuya ecuación es:

• El ajuste es excelente.

• La correlación es positiva, ya que la pendiente también lo es.

• Por cada CV de potencia, la velocidad máxima se incrementa en 0’75 Km/h

• Es posible predecir qué velocidad se podría alcanzar a partir de una potencia determinada o bien a la inversa, determinar qué potencia se necesita para alcanzar una velocidad.

• Estas predicciones se pueden realizar sin restricciones dentro del rango analizado (Interpolación). En cambio, fuera del rango sólo son posibles si no nos alejamos excesivamente de él (Extrapolación)

y = 0,7468x + 116,91

R2 = 0,9915

0

50

100

150

200

250

0 50 100 150

Potencia, P (CV)

Ve

loci

da

d m

áx

ima

, V

(K

m/h

)

Correlación Potencia - Velocidad

1.5D SX Furio1.1i SX

1,4i SX1.6i VTS

1.6i 16V VTS

Conclusiones:

V = 0’75 P + 117 R2 = 0’9915

Ejemplo 3: Citroën SaxoEjemplo 3: Citroën Saxo

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Interpolación y Extrapolación

Modelo Citroën Saxo P (CV)

V (Km/h)

V (Km/h) calculada

% Error

1.5D SX Furio 58 158 58x0’75+117 = 160

(160-158)/158*100 = 1’3%

1.1i SX 60 162 162 0%

1.4i SX 75 175 173 -1’1%

1.6i VTS 100 193 192 -0.5%

1.6i 16V VTS 120 205 207 1%

“Nuevo Modelo Intermedio” 90 ------ 184 Este caso es una interpolación y como el ajuste es muy bueno, el

resultado es correcto.

“Nuevo Modelo muy Potente” 150 ------ 229 Resultado razonable. La extrapolación es también

razonable.

“Nuevo Modelo poco Potente” 10 ------ 124 ¿? Demasiada velocidad para tan poca potencia.

Se ha hecho una extrapolación excesiva

Ecuación: 991'0 11775'0 2 RPV (c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Ejemplo 4: Relación Profesores/Alumnosen las Universidades Españolas

Universidades Alumnos ProfesoresAragón 36154 2043Asturias 34441 1442Baleares 9519 385Cantabria 11962 737Castilla la Mancha 15123 787Castilla León 74272 4030Extremadura 17678 865Madrid 214402 10971Murcia 26407 1248

1. Trazar la gráfica de la distribución

2. Calcular parámetros de la distribución

3. ¿ Cuál es la Universidad con mejor proporción profesor/alumno?

4. ¿Qué Universidad tiene la peor ratio y cuántos profesores necesitaría para equilibrarla?

5. Calcular los valores teóricos de profesores de la Universidad de Granada si ésta tenía 55123 alumnos en el curso 1994-95.

6. Calcular los valores de la FBD si ésta tenía 1100 alumnos

R2=0.998 b=0.0515 a=-17 (c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Ejemplo 4: Gráfica de distribuciónRelación Profesores/Alumnos en

Universidades

0

2000

4000

6000

8000

10000

12000

14000

0 100000 200000 300000

Alumnos

Pro

fes

ore

s

0

500

1000

1500

2000

2500

3000

0 10000 20000 30000 40000 50000

Alumnos

Pro

fes

ore

s

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Modelos No Lineales

Modelo Potencial Exponencial Logarítmico

Ecuación

Ecuación Linealizada

----------

Gráfica

Y Log y Ln y y

X Log x x Log x

A Log a Ln a a

B b b b

a A

b B B B

baxy

xbay logloglog

bxaey xbay log

bxay lnln

Log y

Log x

Ln y

x

y

Log x

A10 Ae

Antes de proceder a la regresión, hay que transformar la ecuación no lineal, y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x, a y b respectivamente.

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

Ejemplo 5: El Péndulo de Galileo

L(m) T(s)0,1 0,60,3 1,11,0 2,13,0 3,46,0 5,09,0 6,0

El Péndulo de Galileo

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,0 2,0 4,0 6,0 8,0 10,0

Longitud del péndulo, L(m)

Tie

mp

o d

e o

scil

aci

ón

, T

(s)

Una de las principales aportaciones de Galileo Galilei (1564-1642), fue encontrar la relación entre el tiempo o periodo de oscilación de un péndulo y su longitud. Esto permitió construir por primera vez en la historia relojes de gran precisión basados en péndulos. Dicen que la idea de correlacionar estas variables se le ocurrió en la iglesia de su ciudad natal, Pisa, mientras, absorto, observaba cómo oscilaban las lámparas del techo...

Estos datos podrían corresponder a un hipotético experimento realizado por Galileo...

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

Las deducciones de GalileoPara encontrar el modelo que relaciona periodo de oscilación, T, con la longitud del péndulo, L, Galileo bien pudo hacer las siguientes deducciones...

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,0 2,0 4,0 6,0 8,0 10,0

L

T

0,1

1,0

10,0

0,0 2,0 4,0 6,0 8,0 10,0

Llo

g T

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,1 1,0 10,0

log L

T

0,1

1,0

10,0

0,1 1,0 10,0

log L

log

T

No es lineal No es exponencial

Tampoco es logarítmica

Es potencial

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

http://images.google.com/imgres?imgurl=www.infostrategy.com/images/lite-idea.GIF&imgrefurl=http://www.infostrategy.com/solutions.htm&h=444&w=490&prev=/images%3Fq%3Didea%26start%3D60%26svnum%3D10%26hl%3Des%26sa%3DN

Cálculos de la Regresión Potencial para el Péndulo de Galileo

L(m) T(s) X = log x Y = log y

x y X Y XY X^2 Y^20,1 0,6 -1 -0,22185 0,221849 1 0,0492170,3 1,1 -0,52288 0,041393 -0,02164 0,273402182 0,0017131,0 2,1 0 0,322219 0 0 0,1038253,0 3,4 0,477121 0,531479 0,25358 0,227644692 0,282476,0 5,0 0,778151 0,69897 0,543904 0,605519368 0,4885599,0 6,0 0,954243 0,778151 0,742545 0,910578767 0,605519

Sumas 0,686636 2,150363 1,740235 3,017145009 1,531304

n= 6

Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y. Por lo demás se procede exactamente igual a una regresión lineal, ajustando a una expresión del tipo Y = A + BX. Por último, de B y A calculados se despejan b y a respectivamente.

5085,0)686636,0(01745009.36

150363,2686636,0740235,16222

ii

iiii

xxn

yxyxnB

3002,06

686636,05085,0150363,2

n

xbyA ii

9988.02222

2

iiii

yynxxn

yxyxnR

5085,0Bb

9962,11010 3002,0 Aa

baLT baxy

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Ley del Péndulo

y = 1,9962x0,5085

R2 = 0,9988

0,1

1,0

10,0

0,1 1,0 10,0

log L

log

T

y = 1,9962x0,5085

R2 = 0,9988

0,0

1,0

2,0

3,0

4,0

5,0

6,0

7,0

0,0 2,0 4,0 6,0 8,0 10,0

LT

LLLT 222 2

15'0

Generalizando...

LkT El periodo de oscilación de un péndulo es

proporcional a la raíz cuadrada de su longitud

Se deduce que...

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Ejemplo 6: Regresión Exponencial. Método del C14 para datación

arqueológicaA partir de los datos adjuntos en los que se

dan valores de carbono 14 residual respecto del tiempo transcurrido,

determina:

a) Parámetros de la distribución de %C14-Tiempo, sabiendo que es exponencial negativa

b) Cuánto C14 quedará en el hueso que llevo en la mano si ambos tenemos 12.000 años.

0

20

40

60

80

100

120

0 5000 10000 15000 20000 25000

Edad, t (años)

%C

14

re

sid

ua

l

Edad, t (años) %C14 residual0 100

1000 925000 53

10000 3020000 9,3

1

10

100

1000

0 5000 10000 15000 20000 25000

Edad, t (años)

%C

14

re

sid

ua

lE

sc

ala

lo

ga

rítm

ica

Se observa que la nube de puntos se alinea cuando se toman logaritmos en la “y”. Por tanto, el modelo es exponencial, y como decrece, es exponencial negativo.

bt

bx

aeC

aey

14%

Solución:

residual C de %24%

9992,0

10194,1

100

1414

2

4

C

R

b

a

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

Cálculo de la Regresión Exponencial para el C14

Como se está ajustando un MODELO EXPONENCIAL hacemos el cambio de variable Y =LN(y), quedando x igual (X = x). En este caso A = Ln(a) y B = b.

4

248

4

2210194,1

)106,3(1026,55

72846,18106,35,1029855

ii

iiii

xxn

yxyxnB

58933,45

)106,310194,1(72846,18 44

n

xbyA ii

410194,1 Bb

1004,9858933,4 eea A

Edad, t (años) %C14 residual X=x Y=Ln(y)x y X Y XY X^2 Y^2

0 100 0 4,60517 0 0 21,20759

1000 92 1,0E+03 4,521789 4521,789 1,0E+06 20,44657

5000 53 5,0E+03 3,970292 19851,46 2,5E+07 15,76322

10000 30 1,0E+04 3,401197 34011,97 1,0E+08 11,56814

20000 9,3 2,0E+04 2,230014 44600,29 4,0E+08 4,972964

Sumas: 3,6E+04 18,72846 102985,5 5,260E+08 73,95849n= 5,0

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

LOS MODELOS EN BIBLIOMETRÍALa Bibliometría está fundamentada en un conjunto de “leyes empíricas”. Estas leyes se han establecido gracias a estudios cuantitativos en los que interviene el recuento de nº de artículos, nº de revistas, nº de autores, etcétera. Las distribuciones que correlacionan estas variables se ajustan mediante regresión lineal por el método de los mínimos cuadrados.

Las principales leyes y el tipo de modelo al que corresponden son las siguientes:

Ley Bibliométrica

Ecuación Modelo Gráfico

Ley de Price del crecimiento exponencial de la Ciencia

Exponencial positivo

Ley de Lotka de la productividad de los autores

Potencial inverso

Ley de Bradford de las revistas y su dispersión

Logarítmico (En la zona periférica al núcleo)

Ley de Zipf de la distribución de palabras en los textos

Potencial inverso

Ley de Brookes del envejecimiento de la información