Introduccion redes neuronales artificiales
description
Transcript of Introduccion redes neuronales artificiales
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 11
UnidadUnidad 1 1
Repaso de Redes Repaso de Redes Neuronales ArtificialesNeuronales Artificiales
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 22
Es un arreglo masivo de elementos de Es un arreglo masivo de elementos de procesamiento simple llamados procesamiento simple llamados
neuronas, los cuales poseen un alto neuronas, los cuales poseen un alto grado de interconectividad entre sus grado de interconectividad entre sus elementos, en los que la información elementos, en los que la información
puede fluir en cascada o en retroceso. puede fluir en cascada o en retroceso. Estos arreglos están inspirados en la Estos arreglos están inspirados en la naturaleza biológica de las neuronas.naturaleza biológica de las neuronas.
¿ Que Es Una RNA?¿ Que Es Una RNA?
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 33
Red Neuronal ArtificialRed Neuronal Artificial
Las redes neuronales artificiales son Las redes neuronales artificiales son redes interconectadas masivamente redes interconectadas masivamente en paralelo y con organización en paralelo y con organización jerárquica, las cuales intentan jerárquica, las cuales intentan interactuar con los objetos del mundo interactuar con los objetos del mundo real del mismo modo que lo hace el real del mismo modo que lo hace el sistema nervioso biológico.sistema nervioso biológico.
Teuvo Kohonen.Teuvo Kohonen.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 44
Estructura Típica De Una Estructura Típica De Una Neurona BiológicaNeurona Biológica
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 55
Una Neurona Biológica Consta Una Neurona Biológica Consta De:De:
a). Un Cuerpo Celular,a). Un Cuerpo Celular, (de 5 a 10 µm de diámetro)(de 5 a 10 µm de diámetro)
b). Una rama principal, el Axón,b). Una rama principal, el Axón,
c). Varias ramas más cortas, las c). Varias ramas más cortas, las Dendritas.Dendritas.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 66
Existen 2 tipos de sinapsis:Existen 2 tipos de sinapsis:
a). Las sinapsis excitadoras.-a). Las sinapsis excitadoras.-
Cuyos neurotransmisores provocan Cuyos neurotransmisores provocan disminuciones de potenciales en la disminuciones de potenciales en la membrana de la célula postsináptica, membrana de la célula postsináptica, facilitando la generación de impulsos a facilitando la generación de impulsos a mayor velocidad.mayor velocidad.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 77
b). Las sinapsis inhibidoras.-b). Las sinapsis inhibidoras.-
Cuyos neurotransmisores tienden a Cuyos neurotransmisores tienden a estabilizar el potencial de la estabilizar el potencial de la membrana, dificultando la emisión de membrana, dificultando la emisión de impulsos.impulsos.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 88
La suma de los efectos excitadores e La suma de los efectos excitadores e inhibidores determina si la célula será inhibidores determina si la célula será o no estimulada; Es decir, si emitirá o no estimulada; Es decir, si emitirá o no un tren de pulsos, así como su o no un tren de pulsos, así como su velocidad.velocidad.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 99
Similitud directa entre actividad Similitud directa entre actividad sináptica y la analogía con las RNAsináptica y la analogía con las RNA1. Las señales que llegan a la sinapsis 1. Las señales que llegan a la sinapsis
son las entradas a la neurona.son las entradas a la neurona.
2. Dichas señales son ponderadas 2. Dichas señales son ponderadas (atenuadas o modificadas) a través de (atenuadas o modificadas) a través de un parámetro, denominado un parámetro, denominado PESOPESO, , asociado a la sinapsis correspondiente.asociado a la sinapsis correspondiente.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1010
3. Las señales pueden 3. Las señales pueden excitarexcitar a la neurona a la neurona (sinapsis con peso positivo) o (sinapsis con peso positivo) o inhibirlainhibirla (peso negativo).(peso negativo).
4. El efecto es la suma de las entradas 4. El efecto es la suma de las entradas ponderadas.ponderadas.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1111
5. Si la suma es igual o mayor que el 5. Si la suma es igual o mayor que el umbral de la neurona, entonces la umbral de la neurona, entonces la neurona se activa.neurona se activa.
6. Cada neurona se activa o no se activa.6. Cada neurona se activa o no se activa.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1212
¿Como se relaciona una RNA con un ¿Como se relaciona una RNA con un sistema neuronal Biológico?sistema neuronal Biológico?
Las redes neuronales tratan de imitar a los Las redes neuronales tratan de imitar a los sistemas neuronales. Esto se realiza a sistemas neuronales. Esto se realiza a través del uso de través del uso de capascapas..
Las capas son niveles diferentes dentro Las capas son niveles diferentes dentro de una red neuronal donde la información de una red neuronal donde la información entraentra, se , se procesaprocesa, y , y salesale..
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1313
Capas en una RNA.Capas en una RNA.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1414
Para realizar esto se requieren por lo Para realizar esto se requieren por lo menos tres capas.menos tres capas.
La primera capa se conoce como La primera capa se conoce como capa de capa de entradaentrada. Esta capa es la que recibe la . Esta capa es la que recibe la información en el sistema. información en el sistema.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1515
Dicha información es procesada y Dicha información es procesada y finalmente entregada por la capa de finalmente entregada por la capa de salida.salida.
Entonces la capa de salida se puede Entonces la capa de salida se puede considerar como la respuesta.considerar como la respuesta.
Entre la capa de entrada y la capa de Entre la capa de entrada y la capa de salida se encuentran n capas ocultas.salida se encuentran n capas ocultas.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1616
Niveles o capas de neuronasNiveles o capas de neuronas
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1717
Un modelo matemático simple de la Un modelo matemático simple de la neurona biológica es el propuesto por neurona biológica es el propuesto por McCulloch y Pitts (en 1943).McCulloch y Pitts (en 1943).
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1818
En este modelo, el i-esimo (ith) elemento En este modelo, el i-esimo (ith) elemento de procesamiento calcula una suma de de procesamiento calcula una suma de ponderaciones (pesos) de sus entradas, ponderaciones (pesos) de sus entradas, y y
La salida será La salida será yyii = 1 (se dispara) ó = 1 (se dispara) ó yyi i = = 0 (si no se dispara) siempre y cuando la 0 (si no se dispara) siempre y cuando la suma de las entradas ponderadas suma de las entradas ponderadas (pesos) este por arriba o por debajo de (pesos) este por arriba o por debajo de un cierto umbral un cierto umbral ii . .
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 1919
Donde la función de activación Donde la función de activación a(f) a(f) es es una función escalón unitaria:una función escalón unitaria:
casootroen
fsifa
0
01
m
jijiji txwaty
1
1
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2020
Por lo anterior, el primer trabajo en Por lo anterior, el primer trabajo en tratar al cerebro como un organismo tratar al cerebro como un organismo computacional fue el trabajo de computacional fue el trabajo de McCulloch y Pitts (M-P).McCulloch y Pitts (M-P).
La teoría de M-P se basa en cinco La teoría de M-P se basa en cinco suposiciones:suposiciones:– 1.- La actividad de una neurona es un 1.- La actividad de una neurona es un
proceso TODO-NADAproceso TODO-NADA..
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2121
Lo cual indica que las neuronas son binarias Lo cual indica que las neuronas son binarias (on-off).(on-off).– 2.- Es preciso que un número fijo de 2.- Es preciso que un número fijo de
sinapsis (>1) sea excitado, dentro de un sinapsis (>1) sea excitado, dentro de un cierto período de adición para que se cierto período de adición para que se excite una neurona.excite una neurona.
– 3.- El único retraso significativo dentro 3.- El único retraso significativo dentro del sistema nervioso es el retardo del sistema nervioso es el retardo sináptico.sináptico.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2222
– 4.- La activación de cualquier sinapsis 4.- La activación de cualquier sinapsis inhibitoria impide por completo la inhibitoria impide por completo la excitación de la neurona en ese momento.excitación de la neurona en ese momento.
– 5.- La estructura de la red de 5.- La estructura de la red de interconexiones no cambia con el interconexiones no cambia con el transcurso del tiempo.transcurso del tiempo.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2323
wwijij representa la fuerza de la sinapsis representa la fuerza de la sinapsis ((conocida como la conexión o eslabónconocida como la conexión o eslabón) que ) que conecta a la neurona conecta a la neurona j j ((fuentefuente) a la ) a la neurona neurona ii ( (destinodestino).).– Una ponderación positiva corresponde a Una ponderación positiva corresponde a
una excitación sináptica.una excitación sináptica.– Una ponderación negativa corresponde a Una ponderación negativa corresponde a
una inhibición sináptica.una inhibición sináptica.
Si wSi wijij = 0, no hay conexión entre las = 0, no hay conexión entre las dos neuronas.dos neuronas.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2424
¿Como trabaja una RNA?¿Como trabaja una RNA?
Primeramente, todos los datos son Primeramente, todos los datos son procesados de acuerdo a un PESO procesados de acuerdo a un PESO asociado.asociado.Como resultado, un valor de salida es Como resultado, un valor de salida es calculado.calculado.Los pesos usados son asignados en base Los pesos usados son asignados en base a la importancia y a la contribución en el a la importancia y a la contribución en el proceso.proceso.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2525
La red neuronal es programada con La red neuronal es programada con niveles de umbral para cada uno de los niveles de umbral para cada uno de los cálculos que se realizan en la capa cálculos que se realizan en la capa oculta.oculta.Si el valor de salida está por arriba del Si el valor de salida está por arriba del umbral, entonces la salida es llevada a umbral, entonces la salida es llevada a la próxima capa a través de una la próxima capa a través de una neurona. Este proceso se repite hasta neurona. Este proceso se repite hasta que se alcanza la salida deseada. que se alcanza la salida deseada.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2626
¿Cómo aprende la red ¿Cómo aprende la red neuronal?neuronal?
El sistema aprende al correr conjuntos El sistema aprende al correr conjuntos de datos a través de la red.de datos a través de la red.
Debido a que conjuntos de datos están Debido a que conjuntos de datos están corriendo a través del sistema, el corriendo a través del sistema, el sistema puede ajustar los pesos al sistema puede ajustar los pesos al comparar sus resultados parciales con comparar sus resultados parciales con el resultado final.el resultado final.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2727
Después de que se corrieron un gran Después de que se corrieron un gran número de muestras, un peso número de muestras, un peso aleatoriamente seleccionado se puede aleatoriamente seleccionado se puede ajustar y/o sintonizar para representar ajustar y/o sintonizar para representar el peso exacto.el peso exacto.Al aprender como se repiten patrones y Al aprender como se repiten patrones y secuencias, entonces la red podrá secuencias, entonces la red podrá realizar predicciones exactas cuando realizar predicciones exactas cuando datos con resultados desconocidos datos con resultados desconocidos sean procesados.sean procesados.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2828
Modelado de Redes Modelado de Redes Neuronales ArtificialesNeuronales Artificiales
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 2929
Notación y modelo de una Notación y modelo de una neuronaneurona
La representación de una neurona La representación de una neurona artificial, así como las funciones de artificial, así como las funciones de transferencia que se visualizarán en este transferencia que se visualizarán en este objetivo son tomadas del modelo de objetivo son tomadas del modelo de simulación de RNA presentado en el simulación de RNA presentado en el programa de MATLAB.programa de MATLAB.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3030
Neurona de una entrada y Neurona de una entrada y Funciones de transferenciaFunciones de transferencia
EntradaEntrada neurona con umbralneurona con umbralww n n
aa
p p
b = 1b = 1
bpwFa
F
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3131
Funciones de transferenciaFunciones de transferencia
Esta función se utiliza en el Perceptron para crear neuronas las cuales toman decisiones de clasificación.Cuando este tipo de función (hardlim) toma en cuenta un cierto umbral su salida se incrementará de 0 a 1 cuando p exceda un valor dado por -b/w.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3232
Funciones de transferenciaFunciones de transferencia
Este tipo de funciones se usan como Este tipo de funciones se usan como aproximadores lineales (aproximadores lineales (Neural LinearNeural Linear).).
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3333
Funciones de transferenciaFunciones de transferencia
Comúnmente esta función se utiliza en las redes Comúnmente esta función se utiliza en las redes de retropropagación (backpropagation). El umbral de retropropagación (backpropagation). El umbral puede ser constante o puede cambiar como en el puede ser constante o puede cambiar como en el caso de la ponderación con una regla apropiada de caso de la ponderación con una regla apropiada de aprendizaje. aprendizaje. El umbral se puede ajustar durante el El umbral se puede ajustar durante el entrenamiento.entrenamiento.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3434
Neurona de Múltiples EntradasNeurona de Múltiples Entradas
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3535
Notación usada en diagramas Notación usada en diagramas de múltiples entradasde múltiples entradas
En la figura se presenta un diagrama de una En la figura se presenta un diagrama de una neurona con R entradasneurona con R entradas
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3636
AARQUITECTURAS DE RNARQUITECTURAS DE RNA
Red neuronal con una Capa de Red neuronal con una Capa de neuronasneuronas
Dos o más neuronas pueden ser combinadas en una capa. Una red puede contener una o más capas. A continuación se presenta una red con una capa que contiene R entradas y S neuronas:
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3737
Cada elemento del vector de entrada Cada elemento del vector de entrada pp esta esta conectado a cada neurona a través de la conectado a cada neurona a través de la matriz de ponderaciones matriz de ponderaciones W. (RW. (RS).S).
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3838
Los elementos del vector de entrada Los elementos del vector de entrada entran a la red a través de la matriz de entran a la red a través de la matriz de ponderaciones ponderaciones W W como se expresa a como se expresa a continuación:continuación:
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 3939
pp es un vector de entrada de longitud es un vector de entrada de longitud RR, , WW es una matriz es una matriz SxRSxR y, y, aa y y bb son vectores son vectores de longitud de longitud SS. .
Una capa neuronal incluye la matriz de ponderaciones, las operaciones de multiplicación, el vector de umbral b, el sumador, y la función de transferencia.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4040
Arquitectura De Redes Arquitectura De Redes NeuronalesNeuronales
Los parámetros fundamentales de Los parámetros fundamentales de la red son:la red son:– Número de capasNúmero de capas– Número de neuronas por capaNúmero de neuronas por capa– Grado de conectividadGrado de conectividad– Tipo de conexiones entre Tipo de conexiones entre
neuronasneuronas
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4141
Red neuronal de Múltiples Red neuronal de Múltiples CapasCapas
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4242
Red neuronal con varias capa de neuronas Red neuronal con varias capa de neuronas (forma condensada)(forma condensada)
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4343
Redes Monocapa:Redes Monocapa:
l1 lnl2
Las redes monocapa se utilizan típicamente en Las redes monocapa se utilizan típicamente en en tareas relacionadas en lo que se conoce comoen tareas relacionadas en lo que se conoce comoautoasociación: por ejemplo, para regenerar autoasociación: por ejemplo, para regenerar informaciones de entrada que se presentan a lainformaciones de entrada que se presentan a lared incompletas o distorsionadasred incompletas o distorsionadas ..
P/ejemplo Hopfield, BSB, Learnig Matrix
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4444
Redes Multicapa:Redes Multicapa: Redes con conexiones hacia delante (feedforward)Redes con conexiones hacia delante (feedforward)
Este tipo de redes son Este tipo de redes son especialmente útiles en especialmente útiles en aplicaciones de reconocimiento aplicaciones de reconocimiento o clasificación deo clasificación depatrones.patrones.
En este tipo de redes, todas las señales neuronalesEn este tipo de redes, todas las señales neuronalesse propagan hacia adelante a través de las capas dese propagan hacia adelante a través de las capas dela red. No existen conexiones hacia atrás y normal-la red. No existen conexiones hacia atrás y normal-mente tampoco autorrecurrentes, ni laterales.mente tampoco autorrecurrentes, ni laterales.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4545
Redes con conexiones Redes con conexiones hacia adelante y hacia atráshacia adelante y hacia atrás (feedforward / feedback): (feedforward / feedback):
En este tipo de redes En este tipo de redes circula información tanto circula información tanto hacia adelante como hacia hacia adelante como hacia atrás durante el atrás durante el funcionamiento de la red. funcionamiento de la red. Para que esto sea posible, Para que esto sea posible, existen conexionesexisten conexionesfeedforward feedforward y conexiones y conexiones feedbackfeedback entre las neuronas. entre las neuronas.
P/ ejemplo:
ART, BAM, CABAM.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4646
También existen algunas que tienen conexiones laterales entre neuronas de la misma capa. Estas conexiones se diseñan como excitadores (con peso positivo) o inhibidoras (con peso negativo), estableciendose una competencia entre las neuronas correspondientes.
Redes Con Conexiones Hacia Adelante Y Redes Con Conexiones Hacia Adelante Y Hacia AtrásHacia Atrás
(feedforward / Feedback) (feedforward / Feedback)
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4747
Red neuronal de tipo Red neuronal de tipo feedforwardfeedforward..
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4848
Red neuronal de tipo Red neuronal de tipo feedforwardfeedforward..
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 4949
Conexiones con propagación hacia atrás Conexiones con propagación hacia atrás en RNAen RNA
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5050
Red neuronal de tipo recurrenteRed neuronal de tipo recurrente
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5151
......
La retroalimentación de la salida a la La retroalimentación de la salida a la entrada le permite a la red recurrente entrada le permite a la red recurrente exhibir un comportamiento temporal.exhibir un comportamiento temporal.
Por lo anterior, la salida de la red Por lo anterior, la salida de la red recurrente puede presentar un recurrente puede presentar un comportamiento oscilatorio o converger.comportamiento oscilatorio o converger.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5252
......
Comúnmente, la Comúnmente, la red recurrentered recurrente sé sé alimenta con un vector de entrada inicial. alimenta con un vector de entrada inicial. Y una vez inicializada, en cada ciclo, las Y una vez inicializada, en cada ciclo, las salidas de la red son usadas como salidas de la red son usadas como entradas.entradas.
Ejemplos de este tipo de red son: las Ejemplos de este tipo de red son: las redes Elman y las redes de Hopfield.redes Elman y las redes de Hopfield.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5353
MECANISMOS DE MECANISMOS DE APRENDIZAJEAPRENDIZAJE
(ajuste de pesos de interconexión)(ajuste de pesos de interconexión)
En los modelos de RNA, la creación de En los modelos de RNA, la creación de una nueva conexión implica que el peso una nueva conexión implica que el peso de la misma pasa a tener un valor de la misma pasa a tener un valor distinto de cero.distinto de cero.
De la misma forma, una conexión se De la misma forma, una conexión se destruye cuando su peso pasa a ser destruye cuando su peso pasa a ser cero.cero.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5454
¿Qué son las reglas de ¿Qué son las reglas de aprendizaje en RNA?aprendizaje en RNA?
La regla de aprendizaje de una redLa regla de aprendizaje de una red son son criterios que se siguen para cambiar el criterios que se siguen para cambiar el valor asignado a las conexiones (o sea valor asignado a las conexiones (o sea cómo se modifican los valores de los cómo se modifican los valores de los pesos). Existen dos tipos de reglas de pesos). Existen dos tipos de reglas de aprendizaje:aprendizaje:– 1) El aprendizaje supervisado, y1) El aprendizaje supervisado, y– 2) El aprendizaje no supervisado.2) El aprendizaje no supervisado.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5555
Clasificación de RNA según el Clasificación de RNA según el aprendizaje que observanaprendizaje que observan
Redes neuronales que utilizan OFF LINERedes neuronales que utilizan OFF LINE.- .- (desconexión de la red) Cuando el (desconexión de la red) Cuando el aprendizaje es OFF LINE se distingue aprendizaje es OFF LINE se distingue entre una fase de entre una fase de aprendizajeaprendizaje y una fase y una fase de de operaciónoperación, existiendo un conjunto de , existiendo un conjunto de datos de entrenamiento y un conjunto de datos de entrenamiento y un conjunto de datos de prueba que serán utilizados en la datos de prueba que serán utilizados en la correspondiente fase.correspondiente fase.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5656
......
– En las redes con aprendizaje OFF LINE, los En las redes con aprendizaje OFF LINE, los PESOS de las conexiones permanecen fijos PESOS de las conexiones permanecen fijos después de que termina la etapa de después de que termina la etapa de entrenamiento de la red.entrenamiento de la red.
Debido a que las redes de tipo OFF LINE Debido a que las redes de tipo OFF LINE presentan un carácter estático, estos presentan un carácter estático, estos sistemas no presentan problemas de sistemas no presentan problemas de estabilidad en su funcionamiento.estabilidad en su funcionamiento.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5757
......Redes con aprendizaje ON LINERedes con aprendizaje ON LINE.- en estas .- en estas redes no se distingue entre la fase de redes no se distingue entre la fase de entrenamiento y de operación, de tal forma entrenamiento y de operación, de tal forma que que los PESOS varían dinámicamente los PESOS varían dinámicamente siempre que se presente una nueva siempre que se presente una nueva información al sistemainformación al sistema..
En las redes ON LINE debido al carácter En las redes ON LINE debido al carácter dinámico de la misma, es importante el dinámico de la misma, es importante el estudio de la estabilidad de la red.estudio de la estabilidad de la red.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5858
Redes con aprendizaje Redes con aprendizaje supervisadosupervisado
Tipos de aprendizajesTipos de aprendizajes supervisados:supervisados:
– Aprendizaje por corrección de error.Aprendizaje por corrección de error.– Aprendizaje por refuerzo.Aprendizaje por refuerzo.– Aprendizaje estocástico.Aprendizaje estocástico.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 5959
El Aprendizaje Por Corrección De El Aprendizaje Por Corrección De ErrorError
Este aprendizaje consiste en ajustar los Este aprendizaje consiste en ajustar los pesos de las conexiones de la red en pesos de las conexiones de la red en función de la diferencia entre los valores función de la diferencia entre los valores deseados y los obtenidos en la salida de deseados y los obtenidos en la salida de la red.la red.– Ejemplos: La regla de aprendizaje del Ejemplos: La regla de aprendizaje del
Perceptron; regla delta o regla del mínimo Perceptron; regla delta o regla del mínimo error cuadrado o regla de Widrow-Hoff, error cuadrado o regla de Widrow-Hoff, ADALINE y MADALINE.ADALINE y MADALINE.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6060
Aprendizaje Por ReforzamientoAprendizaje Por Reforzamiento
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6161
Aprendizaje por ReforzamientoAprendizaje por Reforzamiento
Se basa en la idea de no disponer de un ejemplo completo del comportamiento deseado, es decir, la función del supervisor se reduce a indicar mediante una señal de refuerzo si la salida de la red se ajusta a la deseada (éxito=1, fracaso=-1) y en función de ello se ajustan los pesos basándose en un mecanismo de probabilidades.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6262
Algoritmos de Algoritmos de Aprendizaje por RefuerzoAprendizaje por Refuerzo
Algoritmo Lineal con Recompensa y Algoritmo Lineal con Recompensa y penalización (Linear Reward - Penalty), penalización (Linear Reward - Penalty), Narendra /Thathacher.Narendra /Thathacher.
Algoritmo Asociativo con recompensa y Algoritmo Asociativo con recompensa y penalización (Barto / Anandan).penalización (Barto / Anandan).
Adaptive Heuristic Critic (Barto, Sutton, Adaptive Heuristic Critic (Barto, Sutton, Anderson).Anderson).
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6363
El aprendizaje estocásticoEl aprendizaje estocástico
Consiste básicamente en realizar cambios Consiste básicamente en realizar cambios aleatorios en los valores de los pesos de aleatorios en los valores de los pesos de las conexiones de la red y evaluar su las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de efecto a partir del objetivo deseado y de las distribuciones de probabilidad las distribuciones de probabilidad – Ejemplo: la red Maquina de CauchyEjemplo: la red Maquina de Cauchy
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6464
Ejemplos de algoritmos de Ejemplos de algoritmos de Aprendizaje EstocásticoAprendizaje Estocástico
Maquina de Boltzmann (Hinton, Ackley, Maquina de Boltzmann (Hinton, Ackley, Sejnowky).Sejnowky).
Temple Simulado (Simulated Anneling).Temple Simulado (Simulated Anneling).
Maquina de Cauchy (Szu)Maquina de Cauchy (Szu)
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6565
Redes con aprendizaje no Redes con aprendizaje no supervisadosupervisado
Tipos de algoritmos de aprendizaje no Tipos de algoritmos de aprendizaje no supervisado:supervisado:
– Aprendizaje Hebbiano.Aprendizaje Hebbiano.– Aprendizaje competitivo y cooperativo.Aprendizaje competitivo y cooperativo.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6666
El aprendizaje HebbianoEl aprendizaje Hebbiano
Se basa en el siguiente postulado:Se basa en el siguiente postulado: "Cuando un axón de una celda "Cuando un axón de una celda AA está está
suficientemente cerca como para conseguir suficientemente cerca como para conseguir excitar una celda excitar una celda BB y repetida o y repetida o persistentemente toma parte en su persistentemente toma parte en su activación, algún proceso de crecimiento o activación, algún proceso de crecimiento o cambio metabólico tiene lugar en una o cambio metabólico tiene lugar en una o ambas celdas, de tal forma que la eficiencia ambas celdas, de tal forma que la eficiencia de de AA, cuando la celda a activar es , cuando la celda a activar es BB, , aumenta”.aumenta”.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6767
......
Ejemplos:Ejemplos:
Red de Hopfield;Red de Hopfield;
Red Additive Grossberg;Red Additive Grossberg;
Red Shunting Grossberg; Red Shunting Grossberg;
Red feedforward/feedback de 2 capas Red feedforward/feedback de 2 capas = Bidirectional Associative memory, = Bidirectional Associative memory, BAMBAM
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6868
Aprendizaje competitivo y Aprendizaje competitivo y cooperativocooperativo
En este aprendizaje las neuronas En este aprendizaje las neuronas compiten (compiten (y cooperany cooperan) unas con otras con el ) unas con otras con el fin de llevar a cabo una tarea dada.fin de llevar a cabo una tarea dada.
El objetivo de este aprendizaje es El objetivo de este aprendizaje es categorizar (agrupar) los datos que se categorizar (agrupar) los datos que se introducen en la red.introducen en la red.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 6969
......
Ejemplo:Ejemplo:
Cuantización del Vector de Aprendizaje Cuantización del Vector de Aprendizaje o LVQ,o LVQ,
Aplicado a redes feedforward de dos Aplicado a redes feedforward de dos capas.capas.
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 7070
......
Dentro del aprendizaje competitivo existe Dentro del aprendizaje competitivo existe la teoría de la resonancia adaptativa, la teoría de la resonancia adaptativa, utilizada en la red feedforward/feedback utilizada en la red feedforward/feedback de dos capas conocida como ART (1 de dos capas conocida como ART (1 trabaja con información binaria y 2 trabaja con información binaria y 2 trabaja con información analógica).trabaja con información analógica).
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 7171
Ejemplos De Redes Con Aprendizaje Ejemplos De Redes Con Aprendizaje Competitivo Competitivo
Y CooperativoY Cooperativo..
LVQ (Learning vector quantization) LVQ (Learning vector quantization) Kohonen.Kohonen.
Cognitron y Neocognitron (Fukushima).Cognitron y Neocognitron (Fukushima).
SOM (Kohonen).SOM (Kohonen).
ART (Carpenter y Grossberg).ART (Carpenter y Grossberg).
ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 7272
Ejemplos de Redes con Aprendizaje Ejemplos de Redes con Aprendizaje Competitivo y CooperativoCompetitivo y Cooperativo
LVQ ART
ESCOM - IPN ENERO 2006 73
La salida de la red se calcula mediante:
Modelo y Arquitectura de un Perceptron
bWphardlima
ESCOM - IPN ENERO 2006 74
Red Perceptron
ESCOM - IPN ENERO 2006 75
La matriz de pesos de la red es:
RSSS
R
R
www
www
www
.2,1,
.22,21,2
.12,11,1
W
ESCOM - IPN ENERO 2006 76
Se definirá un vector
compuesto de los elementos de la i th fila de W:
Ri
i
i
w
w
w
,
2,
1,
wi
ESCOM - IPN ENERO 2006 77
Ahora se puede particionar la
matriz de pesos:
TS
T
T
w
w
w
2
1
Wi
ESCOM - IPN ENERO 2006 78
Esto permitirá escribir el ith
elemento del vector de salida de la red como:
iT
iii bhardlimnhardlima pw
ESCOM - IPN ENERO 2006 79
Recordando que la función de transferencia hardlim se define como:
contrariolotodo
nsinhardlima
0
01
n=Wp+b n
a
ESCOM - IPN ENERO 2006 80
Unificación de la regla de aprendizaje
If t 1 and a 0, then w1ne w
w1old
p+== =
If t 0 and a 1, then w1n ew w1
old p–== =
If t a, then w1new w1
ol d==
e t a–=
ESCOM - IPN ENERO 2006 81
If e 1, then w1ne w
w1old
p+= =
If e 1,– then w1ne w
w1old
p–==
If e 0, then w1ne w w1
old==
w1new
w1ol d
ep+ w1ol d
t a– p+= =
bne w
bol d
e+=
El umbral es unpeso con
una entrada de 1.
ESCOM - IPN ENERO 2006 82
Perceptron de Múltiples-Neuronas
winew wi
olde ip+= bi
ne wbi
ol dei+=
Wne w Wol d epT+=
bnew
bol d
e+=
Para actualizar la ith fila de la matriz de pesos:
En forma de Matriz:
ESCOM - IPN ENERO 2006 83
Capacidad de la regla de aprendizaje del Perceptron
La regla del Perceptron siempre convergirá a los pesos que cumplan con la clasificación deseada, asumiendo que
tales pesos existan.
NOTA: Recordar que la longitud del vector de pesos no es importante, lo único importante es su dirección.
ESCOM - IPN ENERO 2006 84
Limitaciones del Perceptron
wT1 p b+ 0=
Frontera de decisión lineal
Problemas linealmente No separables
ESCOM - IPN ENERO 2006 85
UNIDAD VIRedes de propagación
hacia delante y aprendizaje supervisado
RED ADALINEAdaline simple.Algoritmo LMS .
ESCOM - IPN ENERO 2006 86
Introducción
A finales de los 50’s bernard widrow empezaba a trabajar en redes neuronales, en el tiempo en el que frank rosenblatt desarrollo la regla de aprendizaje del perceptron.
ESCOM - IPN ENERO 2006 87
En 1960 Widrow y su asesorado Marcian Hoff, presentaron la red ADALINE (adaptive linear neuron), y una regla de aprendizaje la cual denominaron algoritmo LMS (least mean square).
Introducción
ESCOM - IPN ENERO 2006 88
La red ADALINE es muy similar al perceptron, excepto que su función de transferencia es linear, en vez de escalón.
Tanto el ADALINE como el Perceptrón sufren de la misma limitación: solo pueden resolver problemas linealmente separables.
Introducción
ESCOM - IPN ENERO 2006 89
El algoritmo LMS es más poderoso que la regla de aprendizaje del Perceptrón.
La regla del Perceptrón garantiza la convergencia a una solución que categoriza correctamente el patrón de entrenamiento, pero la red resultante puede ser sensible al ruido ya que frecuentemente el modelo cae cerca de la frontera de decisión.
Diferencias Entre La Regla Del Perceptron Y El
Algoritmo LMS
ESCOM - IPN ENERO 2006 90
Diferencias entre . . . El algoritmo LMS minimiza el error
medio cuadrático, y por consiguiente trata de mover la frontera de decisión tan lejos como sea posible del modelo de entrenamiento.
El algoritmo LMS ha encontrado muchos más usos que la regla de aprendizaje del Perceptrón. En esencia en el área del procesamiento digital de señales.
ESCOM - IPN ENERO 2006 91
PERCEPTRON ADALINE
Función deTransferencia ESCALON LINEAL
Resolución de problemas
LinealmenteSeparables
LinealmenteSeparables
Comportamiento conrespecto al
RUIDOSensible al
RuidoMinimiza el
Ruido
Algoritmo deaprendizaje
Regla de aprendizajeDel Perceptron LMS
Diferencias entre . . .
ESCOM - IPN ENERO 2006 92
Red ADALINE
a purel in Wp b+ Wp b+= =
ai pure lin ni purelin wTi p bi+ wT
i p bi+= = =
wi
wi 1
wi 2
wi R
=
ESCOM - IPN ENERO 2006 93
ADALINE de dos entradas
a pure lin n purelin wT1
p b+ wT1
p b+= = =
a wT1 p b+ w1 1 p1 w1 2 p2 b+ += =
ESCOM - IPN ENERO 2006 94
Mínimo Error Cuadrático
p1 t1{ , } p2 t2{ , } pQ tQ{ , }
Conjunto Entrenamiento:
pq
tqEntrada: Objetivo:
x w1b
= z p1
= a wT1 p b+= a xTz=
F x E e2 = E t a– 2 E t xTz– 2 = =
Notación:
Mean Square Error:
Donde: E es un valor esperado
ESCOM - IPN ENERO 2006 95
Ecuaciones Importantes en el Algoritmo LMS
wi k 1+ w
i k 2 ei k p k +=
b i k 1+ b i k 2e i k +=
W k 1+ W k 2e k pTk +=
b k 1+ b k 2e k +=
En forma de Matriz:
Donde: es el parámetro de aprendizaje máximo
ESCOM - IPN ENERO 2006 96
Condiciones para la Estabilidad
eig I 2R– 1 2 i
– 1=
Resumiendo, las condiciones de estabilidad son:
1 2i– 1–
i
0Ya que , 1 2i
– 1 .
1 i
para toda i
0 1 max
(donde i es un eigenvalor de R)
ESCOM - IPN ENERO 2006 97
Modelo de una neurona lineal en MATLAB
p(1)
p(2)
p(3)
p(R)
W(1,1)
W(1,R)
1
b
n aa = purelin(w*p+b)a = w*p+b
0
0
1
-1
a
a
b/w
b/wp
n
a = purelin(n)
ESCOM - IPN ENERO 2006 98
Regla de Aprendizaje en Regla de Aprendizaje en ADALINEADALINE
· ADALINE utiliza un aprendizaje OFF LINE con supervisión.
· Este aprendizaje es la llamada Regla de Widrow-Hoff (Regla Delta o Regla del Mínimo Error Cuadrático Medio LMS Least Mean Square)
ESCOM - IPN ENERO 2006 99
Regla de Widrow-Hoff
Consiste en hallar el vector de pesos W deseado, único, que deberá asociar cada vector de entrada con su correspondiente valor de salida correcto o deseado.
La regla minimiza el error cuadrático medio definido como:
donde: es la función de errorRRR at
p
RRR
p 1
22 1
ESCOM - IPN ENERO 2006 100
Esta función de error está definida en el espacio de pesos multidimensional para un
conjunto de entradas, y la regla de Widrow-Hoff busca el punto de este espacio donde se
encuentra el mínimo global.
Con función de activación lineal Con función de activación sigmoidal
ESCOM - IPN ENERO 2006 101
Se utiliza el método de gradiente decreciente para saber en qué dirección se
encuentra el mínimo global de dicha superficie.
Las modificaciones que se realizan a los pesos son proporcionales al gradiente
decreciente de la función de error, por lo que cada nuevo punto calculado está más
próximo al punto mínimo.
j
Rj
wlrw
2
ESCOM - IPN ENERO 2006 102
a) ADALINE b) PERCEPTRÓN
ESCOM - IPN ENERO 2006 103
La regla de Widrow-Hoff es implementada realizando cambios a los pesos en la dirección opuesta en la que el error está incrementando y absorbiendo la constante -2 en lr.
En forma de matriz:
Transformando a la expresión del bias (considerando que el bias son pesos con entradas de 1):
)()(),( jpjelrjiW TEplrW
Elrb
ESCOM - IPN ENERO 2006 104
Algoritmo de aprendizaje en Algoritmo de aprendizaje en ADALINEADALINE1.1. Se aplica un vector o patrón de entrada PR en las entradas del ADALINE.2.2. Se obtiene la salida lineal aR = WPR y se calcula la diferencia con respecto a la salida deseada: ER =TR-aR
3.3. Se actualizan los pesos: W( t+1 ) = W(t) + lrERPR
4.4. Se repiten los pasos 1 al 3 con todos los vectores de entrada.5.5. Si el error cuadrático medio es un valor reducido aceptable, termina el proceso de aprendizaje, sino, se repite otra vez desde el paso 1 con todos los patrones.
ESCOM - IPN ENERO 2006 105
ENTRENAMIENTO ADALINE
Ya se explicó la regla de aprendizaje usada para las redes neuronales Adaline, conocida como de Widrow-Hoff, que se aplica sobre un patrón de entrada determinado
El entrenamiento de la red consiste en la aplicación consecutiva de la regla de aprendizaje para un patrón completo de entrenamiento
ESCOM - IPN ENERO 2006 106
ENTRENAMIENTO ADALINE
El entrenamiento comprende la aplicación de la regla de Widrow-Hoff (determinación de las diferencias en los pesos), actualización de los pesos y determinación del error.
Este proceso se realiza por medio de la aplicación de la entrada a la red, para un patrón completo de entrenamiento, o un vector de entrada
ESCOM - IPN ENERO 2006 107
ENTRENAMIENTO ADALINE
Sin embargo, si se procede por medio de las funciones anteriores, es necesario realizar un número de repeticiones suficiente para hacer que el error calculado sea igual a cero a través de la aplicación de la regla W-H para un patrón completo de entrenamiento
ESCOM - IPN ENERO 2006 108
Ejercicio:
R E ppT
12---p1p1
T 12---p2p2
T+==
R12---
1–
11–
1– 1 1–12---
1
11–
1 1 1–+1 0 0
0 1 1–0 1– 1
= =
1
1.0 2
0.0 3
2.0===
1
m a x
------------1
2.0------- 0.5==
p1
1–
11–
t1 1–= =
p2
1
11–
t2 1= =
Plátano Manzana
ESCOM - IPN ENERO 2006 109
Iteración: 1
e 0 t 0 a 0 t1 a 0 1– 0 1–=–=–=–=
W 1 W 0 2e 0 pT 0 +=
W 1 0 0 0 2 0.2 1– 1–
11–
T
0.4 0.4– 0.4=+=
a 0 W 0 p 0 W 0 p1 0 0 01–1
1–
0====Plátano
ESCOM - IPN ENERO 2006 110
Iteración: 2
Manzana a 1 W 1 p 1 W 1 p2 0.4 0.4– 0.4
1
11–
0.4–====
e 1 t 1 a 1 t2 a 1 1 0.4– 1.4=–=–=–=
W 2 0.4 0.4– 0.4 2 0.2 1.4 1
1
1–
T
0.96 0.16 0.16–=+=
ESCOM - IPN ENERO 2006 111
Iteración: 3
a 2 W 2 p 2 W 2 p1 0.96 0.16 0.16–
1–
1
1–
0.64–====
e 2 t 2 a 2 t1 a 2 1– 0.64– 0.36–=–=–=–=
W 3 W 2 2 e 2 pT 2 + 1.1040 0.0160 0.0160–= =
W 1 0 0=