Algoritmo de Retropropagación

38
Algoritmo de Retropropagación

description

Algoritmo de Retropropagación. Conclusiones de Retropropagación. 1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal de error . Ambas están asociadas a la neurona j. Conclusiones de Retropropagación. - PowerPoint PPT Presentation

Transcript of Algoritmo de Retropropagación

Page 1: Algoritmo de Retropropagación

Algoritmo de Retropropagación

Page 2: Algoritmo de Retropropagación

Conclusiones de Retropropagación

1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal de error . Ambas están asociadas a la neurona j.

)(ne j

))((' nv jj)(nj

Page 3: Algoritmo de Retropropagación

Conclusiones de Retropropagación

2. Si la neurona j es un nodo escondido, es igual al producto de la derivada asociada y la suma pesada de las calculada para las neuronas de la siguiente

capa escondida o de salida que se conectan a la neurona j.

)(nj

s))((' nv jj

Page 4: Algoritmo de Retropropagación

Conclusiones de Retropropagación

La corrección aplicada a está definida por la regla delta:

y:)(

)()(

nw

nnw

jiji

)(nw ji )(nw ji

)1()()()( nynnw ijji

Page 5: Algoritmo de Retropropagación

Conclusiones

Cuando el nodo j es de salida:

Cuando el nodo j es escondido:

))((')()( nvnen jjjj

))(('))()(()( nvnyndn jjjjj

k

kjkjj nwnnvn )()())((')(

Page 6: Algoritmo de Retropropagación

Conclusiones

Page 7: Algoritmo de Retropropagación

Logística

Ya que

10)(0

1

1))((

)(

j

j

navjj

ynv

ae

nvj

2)(

)(

1))(('

))(()(

nav

nav

jj

jjj

j

j

e

eanv

nvny

Page 8: Algoritmo de Retropropagación

Logística

Entonces

y

para una neurona de salida

))(1)(()]()([))((')()(

nOnOnOndanvnen

jjjj

jjjj

)())(1)(()]()([)( nynOnOnOndanw ijjjjji

Page 9: Algoritmo de Retropropagación

Logística

Análogamente

y, para una neurona escondida:

)()())(1)((

)()())((')(

nwnnynay

nwnnvn

Kkjkjj

Kkjkjjj

)()]()())(1)(([)( nynwnnynaynw iK

kjkjjji

Page 10: Algoritmo de Retropropagación

Logística

Nótese que es máxima en 0.5 y mínima en o (de (1)).

Para una logística, entonces, los pesos sinápticos se cambian más para aquellas neuronas en donde las señales de la función están en los rangos medios.

))((' nv jj0)( ny j 1)( ny j

Page 11: Algoritmo de Retropropagación

Tangente Hiperbólica

))())(((

))]((1[

))(())(('0),())(())((

2

nyanyaa

bnbvtanhab

nbvsechabnvba

nbvtanhanv

jj

j

j2

jj

jjj

Page 12: Algoritmo de Retropropagación

Tangente Hiperbólica

Para la capa de salida

)]()][()][()([

))((')(

nOanOanOnda

bnvn

jjjj

jjj

)()]()][()][()([)( nynOanOanOnda

bnw ijjjjji

Page 13: Algoritmo de Retropropagación

Tangente Hiperbólica

Para una capa escondida:

)()()]()][(([

)()())((')(

nwnnyanyab

a

nwnnvn

Kkjkjj

Kkjkjjj

)()]()()]()][(([)( nynwnnyanyab

anw i

Kkjkjjji

Page 14: Algoritmo de Retropropagación

Momento

El algoritmo de RP “aproxima” la trayectoria en el espacio de los pesos por el método de gradiente máximo.

A una pequeña corresponden pequeños cambios en la trayectoria del descenso y éstos son más suaves. Si es grande los cambios pueden ser inestables (oscilatorios).

Page 15: Algoritmo de Retropropagación

Momento

Una forma de incrementar y evitar inestabilidad consiste en modificar la regla delta, de esta manera:

En donde es la constante de momento. Controla el lazo de retroalimentación que se ilustra en la siguiente figura. En ésta es el operador de retardo unitario.

)2()()()1()( nynnwnw ijjiji

1z

Page 16: Algoritmo de Retropropagación

Momento

Page 17: Algoritmo de Retropropagación

Momento

Si re-escribimos (2) como una serie de tiempo con un índice t, en donde t va desde el instante 0 hasta el tiempo actual n, tenemos:

n

tij

tnji tyttw

0

)()()(

Page 18: Algoritmo de Retropropagación

Momento

Ya que

y

vemos que

)())((')()(

)(nynvne

nw

nijjj

ji

))((')()( nvnen jjjj

)(

)()()(

nw

nnyn

jiij

Page 19: Algoritmo de Retropropagación

Momento

y podemos escribir, entonces

n

t ji

tnji tw

ttw

0)(

)()(

Page 20: Algoritmo de Retropropagación

Momento

Comentarios:– El ajuste actual representa la suma

de una serie de tiempo ponderada exponen-cialmente. Para que converja:

– Cuando tiene el mismo signo en iteraciones consecutivas, crece en magnitud y se ajusta en cantidades grandes.

)(nw ji

10 )(/)( twt ji

)(nw ji)(nw ji

Page 21: Algoritmo de Retropropagación

Momento

– Cuando tiene signos diferentes en iteraciones consecutivas, la suma

– disminuye de tamaño y se ajusta en pequeñas cantidades.

El momento acelera el descenso en direcciones de bajada constantes

El momento estabiliza el proceso en direcciones que cambian de sentido

)(/)( twt ji)(nw ji

)(nw ji

Page 22: Algoritmo de Retropropagación

Heurísticos

pequeño es más lento pero permite convergen-cia más profunda

entonces produces una conver-gencia más rápida.

implica que para garantizar convergencia

0 1

1 0

Page 23: Algoritmo de Retropropagación

Heurísticos

Tamaño del conjunto de prueba– N = tamaño de conjunto de entrenamiento– W = número de pesos en la red

– (razón de entrenamiento)

– W>>1

)1(2

1121

W

Wr

Wr

2

11

Page 24: Algoritmo de Retropropagación

Heurísticos

Ejemplo: W=150 ropt=0.07 93% de los datos (140) se usan para

entrenamiento 7% de los datos (10) se usan para prueba

Page 25: Algoritmo de Retropropagación

Heurísticos

Función de Activación– Una red RP puede aprender más rápidamente si

la sigmoide es antisimétrica:

– por ejemplo

)()( vv

)()( bvtanhav

Page 26: Algoritmo de Retropropagación

Heurísticos

Valores adecuados para a y b (determinados experimentalmente) son:– a=1.7159– b=2/3

Por lo tanto:– a)– b)

1)1(1)1( y

1424.16667.07159.1

)0(

ab

Page 27: Algoritmo de Retropropagación

Heurísticos

Es decir, en el origen, la pendiente (la ganancia activa) es cercana a la unidad– c) La segunda derivada de es máxima en

v=1. )(v

Page 28: Algoritmo de Retropropagación

Heurísticos

Page 29: Algoritmo de Retropropagación

Heurísticos

Los valores objetivo deben ser elegidos en el rango de la función de activación

La respuesta deseada en la capa L debe de ser desplazada del valor límite.

Por ejemplo:

17159.0

j

jdsi

ad

Page 30: Algoritmo de Retropropagación

Heurísticos

El valor medio (sobre el conjunto de entrenamiento) debe ser 0 o pequeño comparado con

Los valores no debe estar correlacionados Las variables deben escalarse de manera que sus

covarianzas sean aproximadamente iguales.– Esto garantiza que las ws se aprendan a las

mismas velocidades aproximadamente.

Page 31: Algoritmo de Retropropagación

Heurísticos

Las variables deben ser equi-espaciadas en el intervalo de observación– Si esto no es posible, es conveniente usar un

spline natural para completar los datos faltantes

Page 32: Algoritmo de Retropropagación

Heurísticos (Inicialización)

Consideremos una RPR con tanh como función de activación. Si el umbral es 0 :

Sea

y

m

iijij ywv

1

iyE iy 0

Page 33: Algoritmo de Retropropagación

Heurísticos

Si las entradas no están correlacionadas

Tomemos las de una distribución uniforme con

ik

ikyyE ki 0

1

sw ji '0

),(0][ jipareslostodosparawE jiw

Page 34: Algoritmo de Retropropagación

Heurísticos

Entonces la media y la varianza de son:

y

jv

m

iiji

m

iiji

m

iijijv

yEwEywE

ywEvE

11

1

Page 35: Algoritmo de Retropropagación

Heurísticos

2

1

2

1 1

1 1

222 ][)(

w

m

iji

m

iki

m

kjkji

m

i

m

kkijkji

jjjv

mwE

yyEwwE

yywwE

vEvE

Page 36: Algoritmo de Retropropagación

Heurísticos

en done m es el número de conexiones sinápticas a una neurona.

Es decir, queremos inicializar de manera que esté en la transición de la parte lineal y

saturada de su función de activación tanh. Para tanh, como se especificó antes, esto se logra (a=1.7159; b=0.6667) haciendo que en

y

jiw

v

22wv m

1v 2/1mw

Page 37: Algoritmo de Retropropagación

Heurísticos

Es decir, deseamos una distribución de la cual las se tomen con y igual al

recíproco del número de conexiones sinápticas sw ji ' 0 2

mw12

Page 38: Algoritmo de Retropropagación

Heurísticos