Introduccion redes neuronales artificiales

ESCOM - IPNESCOM - IPN ENERO 2006ENERO 2006 11

UnidadUnidad 1 1

Repaso de Redes Repaso de Redes Neuronales ArtificialesNeuronales Artificiales


Es un arreglo masivo de elementos de Es un arreglo masivo de elementos de procesamiento simple llamados procesamiento simple llamados

neuronas, los cuales poseen un alto neuronas, los cuales poseen un alto grado de interconectividad entre sus grado de interconectividad entre sus elementos, en los que la información elementos, en los que la información

puede fluir en cascada o en retroceso. puede fluir en cascada o en retroceso. Estos arreglos están inspirados en la Estos arreglos están inspirados en la naturaleza biológica de las neuronas.naturaleza biológica de las neuronas.

¿ Que Es Una RNA?¿ Que Es Una RNA?


Red Neuronal ArtificialRed Neuronal Artificial

Las redes neuronales artificiales son Las redes neuronales artificiales son redes interconectadas masivamente redes interconectadas masivamente en paralelo y con organización en paralelo y con organización jerárquica, las cuales intentan jerárquica, las cuales intentan interactuar con los objetos del mundo interactuar con los objetos del mundo real del mismo modo que lo hace el real del mismo modo que lo hace el sistema nervioso biológico.sistema nervioso biológico.

Teuvo Kohonen.Teuvo Kohonen.


Estructura Típica De Una Estructura Típica De Una Neurona BiológicaNeurona Biológica


Una Neurona Biológica Consta Una Neurona Biológica Consta De:De:

a). Un Cuerpo Celular,a). Un Cuerpo Celular, (de 5 a 10 µm de diámetro)(de 5 a 10 µm de diámetro)

b). Una rama principal, el Axón,b). Una rama principal, el Axón,

c). Varias ramas más cortas, las c). Varias ramas más cortas, las Dendritas.Dendritas.


Existen 2 tipos de sinapsis:Existen 2 tipos de sinapsis:

a). Las sinapsis excitadoras.-a). Las sinapsis excitadoras.-

Cuyos neurotransmisores provocan Cuyos neurotransmisores provocan disminuciones de potenciales en la disminuciones de potenciales en la membrana de la célula postsináptica, membrana de la célula postsináptica, facilitando la generación de impulsos a facilitando la generación de impulsos a mayor velocidad.mayor velocidad.


b). Las sinapsis inhibidoras.-b). Las sinapsis inhibidoras.-

Cuyos neurotransmisores tienden a Cuyos neurotransmisores tienden a estabilizar el potencial de la estabilizar el potencial de la membrana, dificultando la emisión de membrana, dificultando la emisión de impulsos.impulsos.


La suma de los efectos excitadores e La suma de los efectos excitadores e inhibidores determina si la célula será inhibidores determina si la célula será o no estimulada; Es decir, si emitirá o no estimulada; Es decir, si emitirá o no un tren de pulsos, así como su o no un tren de pulsos, así como su velocidad.velocidad.


Similitud directa entre actividad Similitud directa entre actividad sináptica y la analogía con las RNAsináptica y la analogía con las RNA1. Las señales que llegan a la sinapsis 1. Las señales que llegan a la sinapsis

son las entradas a la neurona.son las entradas a la neurona.

2. Dichas señales son ponderadas 2. Dichas señales son ponderadas (atenuadas o modificadas) a través de (atenuadas o modificadas) a través de un parámetro, denominado un parámetro, denominado PESOPESO, , asociado a la sinapsis correspondiente.asociado a la sinapsis correspondiente.


3. Las señales pueden 3. Las señales pueden excitarexcitar a la neurona a la neurona (sinapsis con peso positivo) o (sinapsis con peso positivo) o inhibirlainhibirla (peso negativo).(peso negativo).

4. El efecto es la suma de las entradas 4. El efecto es la suma de las entradas ponderadas.ponderadas.


5. Si la suma es igual o mayor que el 5. Si la suma es igual o mayor que el umbral de la neurona, entonces la umbral de la neurona, entonces la neurona se activa.neurona se activa.

6. Cada neurona se activa o no se activa.6. Cada neurona se activa o no se activa.


¿Como se relaciona una RNA con un ¿Como se relaciona una RNA con un sistema neuronal Biológico?sistema neuronal Biológico?

Las redes neuronales tratan de imitar a los Las redes neuronales tratan de imitar a los sistemas neuronales. Esto se realiza a sistemas neuronales. Esto se realiza a través del uso de través del uso de capascapas..

Las capas son niveles diferentes dentro Las capas son niveles diferentes dentro de una red neuronal donde la información de una red neuronal donde la información entraentra, se , se procesaprocesa, y , y salesale..


Capas en una RNA.Capas en una RNA.


Para realizar esto se requieren por lo Para realizar esto se requieren por lo menos tres capas.menos tres capas.

La primera capa se conoce como La primera capa se conoce como capa de capa de entradaentrada. Esta capa es la que recibe la . Esta capa es la que recibe la información en el sistema. información en el sistema.


Dicha información es procesada y Dicha información es procesada y finalmente entregada por la capa de finalmente entregada por la capa de salida.salida.

Entonces la capa de salida se puede Entonces la capa de salida se puede considerar como la respuesta.considerar como la respuesta.

Entre la capa de entrada y la capa de Entre la capa de entrada y la capa de salida se encuentran n capas ocultas.salida se encuentran n capas ocultas.


Niveles o capas de neuronasNiveles o capas de neuronas


Un modelo matemático simple de la Un modelo matemático simple de la neurona biológica es el propuesto por neurona biológica es el propuesto por McCulloch y Pitts (en 1943).McCulloch y Pitts (en 1943).


En este modelo, el i-esimo (ith) elemento En este modelo, el i-esimo (ith) elemento de procesamiento calcula una suma de de procesamiento calcula una suma de ponderaciones (pesos) de sus entradas, ponderaciones (pesos) de sus entradas, y y

La salida será La salida será yyii = 1 (se dispara) ó = 1 (se dispara) ó yyi i = = 0 (si no se dispara) siempre y cuando la 0 (si no se dispara) siempre y cuando la suma de las entradas ponderadas suma de las entradas ponderadas (pesos) este por arriba o por debajo de (pesos) este por arriba o por debajo de un cierto umbral un cierto umbral ii . .


Donde la función de activación Donde la función de activación a(f) a(f) es es una función escalón unitaria:una función escalón unitaria:

casootroen

fsifa

0

01

m

jijiji txwaty

1

1


Por lo anterior, el primer trabajo en Por lo anterior, el primer trabajo en tratar al cerebro como un organismo tratar al cerebro como un organismo computacional fue el trabajo de computacional fue el trabajo de McCulloch y Pitts (M-P).McCulloch y Pitts (M-P).

La teoría de M-P se basa en cinco La teoría de M-P se basa en cinco suposiciones:suposiciones:– 1.- La actividad de una neurona es un 1.- La actividad de una neurona es un

proceso TODO-NADAproceso TODO-NADA..


Lo cual indica que las neuronas son binarias Lo cual indica que las neuronas son binarias (on-off).(on-off).– 2.- Es preciso que un número fijo de 2.- Es preciso que un número fijo de

sinapsis (>1) sea excitado, dentro de un sinapsis (>1) sea excitado, dentro de un cierto período de adición para que se cierto período de adición para que se excite una neurona.excite una neurona.

– 3.- El único retraso significativo dentro 3.- El único retraso significativo dentro del sistema nervioso es el retardo del sistema nervioso es el retardo sináptico.sináptico.


– 4.- La activación de cualquier sinapsis 4.- La activación de cualquier sinapsis inhibitoria impide por completo la inhibitoria impide por completo la excitación de la neurona en ese momento.excitación de la neurona en ese momento.

– 5.- La estructura de la red de 5.- La estructura de la red de interconexiones no cambia con el interconexiones no cambia con el transcurso del tiempo.transcurso del tiempo.


wwijij representa la fuerza de la sinapsis representa la fuerza de la sinapsis ((conocida como la conexión o eslabónconocida como la conexión o eslabón) que ) que conecta a la neurona conecta a la neurona j j ((fuentefuente) a la ) a la neurona neurona ii ( (destinodestino).).– Una ponderación positiva corresponde a Una ponderación positiva corresponde a

una excitación sináptica.una excitación sináptica.– Una ponderación negativa corresponde a Una ponderación negativa corresponde a

una inhibición sináptica.una inhibición sináptica.

Si wSi wijij = 0, no hay conexión entre las = 0, no hay conexión entre las dos neuronas.dos neuronas.


¿Como trabaja una RNA?¿Como trabaja una RNA?

Primeramente, todos los datos son Primeramente, todos los datos son procesados de acuerdo a un PESO procesados de acuerdo a un PESO asociado.asociado.Como resultado, un valor de salida es Como resultado, un valor de salida es calculado.calculado.Los pesos usados son asignados en base Los pesos usados son asignados en base a la importancia y a la contribución en el a la importancia y a la contribución en el proceso.proceso.


La red neuronal es programada con La red neuronal es programada con niveles de umbral para cada uno de los niveles de umbral para cada uno de los cálculos que se realizan en la capa cálculos que se realizan en la capa oculta.oculta.Si el valor de salida está por arriba del Si el valor de salida está por arriba del umbral, entonces la salida es llevada a umbral, entonces la salida es llevada a la próxima capa a través de una la próxima capa a través de una neurona. Este proceso se repite hasta neurona. Este proceso se repite hasta que se alcanza la salida deseada. que se alcanza la salida deseada.


¿Cómo aprende la red ¿Cómo aprende la red neuronal?neuronal?

El sistema aprende al correr conjuntos El sistema aprende al correr conjuntos de datos a través de la red.de datos a través de la red.

Debido a que conjuntos de datos están Debido a que conjuntos de datos están corriendo a través del sistema, el corriendo a través del sistema, el sistema puede ajustar los pesos al sistema puede ajustar los pesos al comparar sus resultados parciales con comparar sus resultados parciales con el resultado final.el resultado final.


Después de que se corrieron un gran Después de que se corrieron un gran número de muestras, un peso número de muestras, un peso aleatoriamente seleccionado se puede aleatoriamente seleccionado se puede ajustar y/o sintonizar para representar ajustar y/o sintonizar para representar el peso exacto.el peso exacto.Al aprender como se repiten patrones y Al aprender como se repiten patrones y secuencias, entonces la red podrá secuencias, entonces la red podrá realizar predicciones exactas cuando realizar predicciones exactas cuando datos con resultados desconocidos datos con resultados desconocidos sean procesados.sean procesados.


Modelado de Redes Modelado de Redes Neuronales ArtificialesNeuronales Artificiales


Notación y modelo de una Notación y modelo de una neuronaneurona

La representación de una neurona La representación de una neurona artificial, así como las funciones de artificial, así como las funciones de transferencia que se visualizarán en este transferencia que se visualizarán en este objetivo son tomadas del modelo de objetivo son tomadas del modelo de simulación de RNA presentado en el simulación de RNA presentado en el programa de MATLAB.programa de MATLAB.


Neurona de una entrada y Neurona de una entrada y Funciones de transferenciaFunciones de transferencia

EntradaEntrada neurona con umbralneurona con umbralww n n

aa

p p

b = 1b = 1

bpwFa

F


Funciones de transferenciaFunciones de transferencia

Esta función se utiliza en el Perceptron para crear neuronas las cuales toman decisiones de clasificación.Cuando este tipo de función (hardlim) toma en cuenta un cierto umbral su salida se incrementará de 0 a 1 cuando p exceda un valor dado por -b/w.



Este tipo de funciones se usan como Este tipo de funciones se usan como aproximadores lineales (aproximadores lineales (Neural LinearNeural Linear).).



Comúnmente esta función se utiliza en las redes Comúnmente esta función se utiliza en las redes de retropropagación (backpropagation). El umbral de retropropagación (backpropagation). El umbral puede ser constante o puede cambiar como en el puede ser constante o puede cambiar como en el caso de la ponderación con una regla apropiada de caso de la ponderación con una regla apropiada de aprendizaje. aprendizaje. El umbral se puede ajustar durante el El umbral se puede ajustar durante el entrenamiento.entrenamiento.


Neurona de Múltiples EntradasNeurona de Múltiples Entradas


Notación usada en diagramas Notación usada en diagramas de múltiples entradasde múltiples entradas

En la figura se presenta un diagrama de una En la figura se presenta un diagrama de una neurona con R entradasneurona con R entradas


AARQUITECTURAS DE RNARQUITECTURAS DE RNA

Red neuronal con una Capa de Red neuronal con una Capa de neuronasneuronas

Dos o más neuronas pueden ser combinadas en una capa. Una red puede contener una o más capas. A continuación se presenta una red con una capa que contiene R entradas y S neuronas:


Cada elemento del vector de entrada Cada elemento del vector de entrada pp esta esta conectado a cada neurona a través de la conectado a cada neurona a través de la matriz de ponderaciones matriz de ponderaciones W. (RW. (RS).S).


Los elementos del vector de entrada Los elementos del vector de entrada entran a la red a través de la matriz de entran a la red a través de la matriz de ponderaciones ponderaciones W W como se expresa a como se expresa a continuación:continuación:


pp es un vector de entrada de longitud es un vector de entrada de longitud RR, , WW es una matriz es una matriz SxRSxR y, y, aa y y bb son vectores son vectores de longitud de longitud SS. .

Una capa neuronal incluye la matriz de ponderaciones, las operaciones de multiplicación, el vector de umbral b, el sumador, y la función de transferencia.


Arquitectura De Redes Arquitectura De Redes NeuronalesNeuronales

Los parámetros fundamentales de Los parámetros fundamentales de la red son:la red son:– Número de capasNúmero de capas– Número de neuronas por capaNúmero de neuronas por capa– Grado de conectividadGrado de conectividad– Tipo de conexiones entre Tipo de conexiones entre

neuronasneuronas


Red neuronal de Múltiples Red neuronal de Múltiples CapasCapas


Red neuronal con varias capa de neuronas Red neuronal con varias capa de neuronas (forma condensada)(forma condensada)


Redes Monocapa:Redes Monocapa:

l1 lnl2

Las redes monocapa se utilizan típicamente en Las redes monocapa se utilizan típicamente en en tareas relacionadas en lo que se conoce comoen tareas relacionadas en lo que se conoce comoautoasociación: por ejemplo, para regenerar autoasociación: por ejemplo, para regenerar informaciones de entrada que se presentan a lainformaciones de entrada que se presentan a lared incompletas o distorsionadasred incompletas o distorsionadas ..

P/ejemplo Hopfield, BSB, Learnig Matrix


Redes Multicapa:Redes Multicapa: Redes con conexiones hacia delante (feedforward)Redes con conexiones hacia delante (feedforward)

Este tipo de redes son Este tipo de redes son especialmente útiles en especialmente útiles en aplicaciones de reconocimiento aplicaciones de reconocimiento o clasificación deo clasificación depatrones.patrones.

En este tipo de redes, todas las señales neuronalesEn este tipo de redes, todas las señales neuronalesse propagan hacia adelante a través de las capas dese propagan hacia adelante a través de las capas dela red. No existen conexiones hacia atrás y normal-la red. No existen conexiones hacia atrás y normal-mente tampoco autorrecurrentes, ni laterales.mente tampoco autorrecurrentes, ni laterales.


Redes con conexiones Redes con conexiones hacia adelante y hacia atráshacia adelante y hacia atrás (feedforward / feedback): (feedforward / feedback):

En este tipo de redes En este tipo de redes circula información tanto circula información tanto hacia adelante como hacia hacia adelante como hacia atrás durante el atrás durante el funcionamiento de la red. funcionamiento de la red. Para que esto sea posible, Para que esto sea posible, existen conexionesexisten conexionesfeedforward feedforward y conexiones y conexiones feedbackfeedback entre las neuronas. entre las neuronas.

P/ ejemplo:

ART, BAM, CABAM.


También existen algunas que tienen conexiones laterales entre neuronas de la misma capa. Estas conexiones se diseñan como excitadores (con peso positivo) o inhibidoras (con peso negativo), estableciendose una competencia entre las neuronas correspondientes.

Redes Con Conexiones Hacia Adelante Y Redes Con Conexiones Hacia Adelante Y Hacia AtrásHacia Atrás

(feedforward / Feedback) (feedforward / Feedback)


Red neuronal de tipo Red neuronal de tipo feedforwardfeedforward..


Conexiones con propagación hacia atrás Conexiones con propagación hacia atrás en RNAen RNA


Red neuronal de tipo recurrenteRed neuronal de tipo recurrente


......

La retroalimentación de la salida a la La retroalimentación de la salida a la entrada le permite a la red recurrente entrada le permite a la red recurrente exhibir un comportamiento temporal.exhibir un comportamiento temporal.

Por lo anterior, la salida de la red Por lo anterior, la salida de la red recurrente puede presentar un recurrente puede presentar un comportamiento oscilatorio o converger.comportamiento oscilatorio o converger.


......

Comúnmente, la Comúnmente, la red recurrentered recurrente sé sé alimenta con un vector de entrada inicial. alimenta con un vector de entrada inicial. Y una vez inicializada, en cada ciclo, las Y una vez inicializada, en cada ciclo, las salidas de la red son usadas como salidas de la red son usadas como entradas.entradas.

Ejemplos de este tipo de red son: las Ejemplos de este tipo de red son: las redes Elman y las redes de Hopfield.redes Elman y las redes de Hopfield.


MECANISMOS DE MECANISMOS DE APRENDIZAJEAPRENDIZAJE

(ajuste de pesos de interconexión)(ajuste de pesos de interconexión)

En los modelos de RNA, la creación de En los modelos de RNA, la creación de una nueva conexión implica que el peso una nueva conexión implica que el peso de la misma pasa a tener un valor de la misma pasa a tener un valor distinto de cero.distinto de cero.

De la misma forma, una conexión se De la misma forma, una conexión se destruye cuando su peso pasa a ser destruye cuando su peso pasa a ser cero.cero.


¿Qué son las reglas de ¿Qué son las reglas de aprendizaje en RNA?aprendizaje en RNA?

La regla de aprendizaje de una redLa regla de aprendizaje de una red son son criterios que se siguen para cambiar el criterios que se siguen para cambiar el valor asignado a las conexiones (o sea valor asignado a las conexiones (o sea cómo se modifican los valores de los cómo se modifican los valores de los pesos). Existen dos tipos de reglas de pesos). Existen dos tipos de reglas de aprendizaje:aprendizaje:– 1) El aprendizaje supervisado, y1) El aprendizaje supervisado, y– 2) El aprendizaje no supervisado.2) El aprendizaje no supervisado.


Clasificación de RNA según el Clasificación de RNA según el aprendizaje que observanaprendizaje que observan

Redes neuronales que utilizan OFF LINERedes neuronales que utilizan OFF LINE.- .- (desconexión de la red) Cuando el (desconexión de la red) Cuando el aprendizaje es OFF LINE se distingue aprendizaje es OFF LINE se distingue entre una fase de entre una fase de aprendizajeaprendizaje y una fase y una fase de de operaciónoperación, existiendo un conjunto de , existiendo un conjunto de datos de entrenamiento y un conjunto de datos de entrenamiento y un conjunto de datos de prueba que serán utilizados en la datos de prueba que serán utilizados en la correspondiente fase.correspondiente fase.


......

– En las redes con aprendizaje OFF LINE, los En las redes con aprendizaje OFF LINE, los PESOS de las conexiones permanecen fijos PESOS de las conexiones permanecen fijos después de que termina la etapa de después de que termina la etapa de entrenamiento de la red.entrenamiento de la red.

Debido a que las redes de tipo OFF LINE Debido a que las redes de tipo OFF LINE presentan un carácter estático, estos presentan un carácter estático, estos sistemas no presentan problemas de sistemas no presentan problemas de estabilidad en su funcionamiento.estabilidad en su funcionamiento.


......Redes con aprendizaje ON LINERedes con aprendizaje ON LINE.- en estas .- en estas redes no se distingue entre la fase de redes no se distingue entre la fase de entrenamiento y de operación, de tal forma entrenamiento y de operación, de tal forma que que los PESOS varían dinámicamente los PESOS varían dinámicamente siempre que se presente una nueva siempre que se presente una nueva información al sistemainformación al sistema..

En las redes ON LINE debido al carácter En las redes ON LINE debido al carácter dinámico de la misma, es importante el dinámico de la misma, es importante el estudio de la estabilidad de la red.estudio de la estabilidad de la red.


Redes con aprendizaje Redes con aprendizaje supervisadosupervisado

Tipos de aprendizajesTipos de aprendizajes supervisados:supervisados:

– Aprendizaje por corrección de error.Aprendizaje por corrección de error.– Aprendizaje por refuerzo.Aprendizaje por refuerzo.– Aprendizaje estocástico.Aprendizaje estocástico.


El Aprendizaje Por Corrección De El Aprendizaje Por Corrección De ErrorError

Este aprendizaje consiste en ajustar los Este aprendizaje consiste en ajustar los pesos de las conexiones de la red en pesos de las conexiones de la red en función de la diferencia entre los valores función de la diferencia entre los valores deseados y los obtenidos en la salida de deseados y los obtenidos en la salida de la red.la red.– Ejemplos: La regla de aprendizaje del Ejemplos: La regla de aprendizaje del

Perceptron; regla delta o regla del mínimo Perceptron; regla delta o regla del mínimo error cuadrado o regla de Widrow-Hoff, error cuadrado o regla de Widrow-Hoff, ADALINE y MADALINE.ADALINE y MADALINE.


Aprendizaje Por ReforzamientoAprendizaje Por Reforzamiento


Aprendizaje por ReforzamientoAprendizaje por Reforzamiento

Se basa en la idea de no disponer de un ejemplo completo del comportamiento deseado, es decir, la función del supervisor se reduce a indicar mediante una señal de refuerzo si la salida de la red se ajusta a la deseada (éxito=1, fracaso=-1) y en función de ello se ajustan los pesos basándose en un mecanismo de probabilidades.


Algoritmos de Algoritmos de Aprendizaje por RefuerzoAprendizaje por Refuerzo

Algoritmo Lineal con Recompensa y Algoritmo Lineal con Recompensa y penalización (Linear Reward - Penalty), penalización (Linear Reward - Penalty), Narendra /Thathacher.Narendra /Thathacher.

Algoritmo Asociativo con recompensa y Algoritmo Asociativo con recompensa y penalización (Barto / Anandan).penalización (Barto / Anandan).

Adaptive Heuristic Critic (Barto, Sutton, Adaptive Heuristic Critic (Barto, Sutton, Anderson).Anderson).


El aprendizaje estocásticoEl aprendizaje estocástico

Consiste básicamente en realizar cambios Consiste básicamente en realizar cambios aleatorios en los valores de los pesos de aleatorios en los valores de los pesos de las conexiones de la red y evaluar su las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de efecto a partir del objetivo deseado y de las distribuciones de probabilidad las distribuciones de probabilidad – Ejemplo: la red Maquina de CauchyEjemplo: la red Maquina de Cauchy


Ejemplos de algoritmos de Ejemplos de algoritmos de Aprendizaje EstocásticoAprendizaje Estocástico

Maquina de Boltzmann (Hinton, Ackley, Maquina de Boltzmann (Hinton, Ackley, Sejnowky).Sejnowky).

Temple Simulado (Simulated Anneling).Temple Simulado (Simulated Anneling).

Maquina de Cauchy (Szu)Maquina de Cauchy (Szu)


Redes con aprendizaje no Redes con aprendizaje no supervisadosupervisado

Tipos de algoritmos de aprendizaje no Tipos de algoritmos de aprendizaje no supervisado:supervisado:

– Aprendizaje Hebbiano.Aprendizaje Hebbiano.– Aprendizaje competitivo y cooperativo.Aprendizaje competitivo y cooperativo.


El aprendizaje HebbianoEl aprendizaje Hebbiano

Se basa en el siguiente postulado:Se basa en el siguiente postulado: "Cuando un axón de una celda "Cuando un axón de una celda AA está está

suficientemente cerca como para conseguir suficientemente cerca como para conseguir excitar una celda excitar una celda BB y repetida o y repetida o persistentemente toma parte en su persistentemente toma parte en su activación, algún proceso de crecimiento o activación, algún proceso de crecimiento o cambio metabólico tiene lugar en una o cambio metabólico tiene lugar en una o ambas celdas, de tal forma que la eficiencia ambas celdas, de tal forma que la eficiencia de de AA, cuando la celda a activar es , cuando la celda a activar es BB, , aumenta”.aumenta”.


......

Ejemplos:Ejemplos:

Red de Hopfield;Red de Hopfield;

Red Additive Grossberg;Red Additive Grossberg;

Red Shunting Grossberg; Red Shunting Grossberg;

Red feedforward/feedback de 2 capas Red feedforward/feedback de 2 capas = Bidirectional Associative memory, = Bidirectional Associative memory, BAMBAM


Aprendizaje competitivo y Aprendizaje competitivo y cooperativocooperativo

En este aprendizaje las neuronas En este aprendizaje las neuronas compiten (compiten (y cooperany cooperan) unas con otras con el ) unas con otras con el fin de llevar a cabo una tarea dada.fin de llevar a cabo una tarea dada.

El objetivo de este aprendizaje es El objetivo de este aprendizaje es categorizar (agrupar) los datos que se categorizar (agrupar) los datos que se introducen en la red.introducen en la red.


......

Ejemplo:Ejemplo:

Cuantización del Vector de Aprendizaje Cuantización del Vector de Aprendizaje o LVQ,o LVQ,

Aplicado a redes feedforward de dos Aplicado a redes feedforward de dos capas.capas.


......

Dentro del aprendizaje competitivo existe Dentro del aprendizaje competitivo existe la teoría de la resonancia adaptativa, la teoría de la resonancia adaptativa, utilizada en la red feedforward/feedback utilizada en la red feedforward/feedback de dos capas conocida como ART (1 de dos capas conocida como ART (1 trabaja con información binaria y 2 trabaja con información binaria y 2 trabaja con información analógica).trabaja con información analógica).


Ejemplos De Redes Con Aprendizaje Ejemplos De Redes Con Aprendizaje Competitivo Competitivo

Y CooperativoY Cooperativo..

LVQ (Learning vector quantization) LVQ (Learning vector quantization) Kohonen.Kohonen.

Cognitron y Neocognitron (Fukushima).Cognitron y Neocognitron (Fukushima).

SOM (Kohonen).SOM (Kohonen).

ART (Carpenter y Grossberg).ART (Carpenter y Grossberg).


Ejemplos de Redes con Aprendizaje Ejemplos de Redes con Aprendizaje Competitivo y CooperativoCompetitivo y Cooperativo

LVQ ART

ESCOM - IPN ENERO 2006 73

La salida de la red se calcula mediante:

Modelo y Arquitectura de un Perceptron

bWphardlima


Red Perceptron


La matriz de pesos de la red es:

RSSS

R

R

www

www

www

.2,1,

.22,21,2

.12,11,1

W


Se definirá un vector

compuesto de los elementos de la i th fila de W:

Ri

i

i

w

w

w

,

2,

1,

wi


Ahora se puede particionar la

matriz de pesos:

TS

T

T

w

w

w

2

1

Wi


Esto permitirá escribir el ith

elemento del vector de salida de la red como:

iT

iii bhardlimnhardlima pw


Recordando que la función de transferencia hardlim se define como:

contrariolotodo

nsinhardlima

0

01

n=Wp+b n

a


Unificación de la regla de aprendizaje

If t 1 and a 0, then w1ne w

w1old

p+== =

If t 0 and a 1, then w1n ew w1

old p–== =

If t a, then w1new w1

ol d==

e t a–=


If e 1, then w1ne w

w1old

p+= =

If e 1,– then w1ne w

w1old

p–==

If e 0, then w1ne w w1

old==

w1new

w1ol d

ep+ w1ol d

t a– p+= =

bne w

bol d

e+=

El umbral es unpeso con

una entrada de 1.


Perceptron de Múltiples-Neuronas

winew wi

olde ip+= bi

ne wbi

ol dei+=

Wne w Wol d epT+=

bnew

bol d

e+=

Para actualizar la ith fila de la matriz de pesos:

En forma de Matriz:


Capacidad de la regla de aprendizaje del Perceptron

La regla del Perceptron siempre convergirá a los pesos que cumplan con la clasificación deseada, asumiendo que

tales pesos existan.

NOTA: Recordar que la longitud del vector de pesos no es importante, lo único importante es su dirección.


Limitaciones del Perceptron

wT1 p b+ 0=

Frontera de decisión lineal

Problemas linealmente No separables


UNIDAD VIRedes de propagación

hacia delante y aprendizaje supervisado

RED ADALINEAdaline simple.Algoritmo LMS .


Introducción

A finales de los 50’s bernard widrow empezaba a trabajar en redes neuronales, en el tiempo en el que frank rosenblatt desarrollo la regla de aprendizaje del perceptron.


En 1960 Widrow y su asesorado Marcian Hoff, presentaron la red ADALINE (adaptive linear neuron), y una regla de aprendizaje la cual denominaron algoritmo LMS (least mean square).

Introducción


La red ADALINE es muy similar al perceptron, excepto que su función de transferencia es linear, en vez de escalón.

Tanto el ADALINE como el Perceptrón sufren de la misma limitación: solo pueden resolver problemas linealmente separables.

Introducción


El algoritmo LMS es más poderoso que la regla de aprendizaje del Perceptrón.

La regla del Perceptrón garantiza la convergencia a una solución que categoriza correctamente el patrón de entrenamiento, pero la red resultante puede ser sensible al ruido ya que frecuentemente el modelo cae cerca de la frontera de decisión.

Diferencias Entre La Regla Del Perceptron Y El

Algoritmo LMS


Diferencias entre . . . El algoritmo LMS minimiza el error

medio cuadrático, y por consiguiente trata de mover la frontera de decisión tan lejos como sea posible del modelo de entrenamiento.

El algoritmo LMS ha encontrado muchos más usos que la regla de aprendizaje del Perceptrón. En esencia en el área del procesamiento digital de señales.


PERCEPTRON ADALINE

Función deTransferencia ESCALON LINEAL

Resolución de problemas

LinealmenteSeparables

LinealmenteSeparables

Comportamiento conrespecto al

RUIDOSensible al

RuidoMinimiza el

Ruido

Algoritmo deaprendizaje

Regla de aprendizajeDel Perceptron LMS

Diferencias entre . . .


Red ADALINE

a purel in Wp b+ Wp b+= =

ai pure lin ni purelin wTi p bi+ wT

i p bi+= = =

wi

wi 1

wi 2

wi R

=


ADALINE de dos entradas

a pure lin n purelin wT1

p b+ wT1

p b+= = =

a wT1 p b+ w1 1 p1 w1 2 p2 b+ += =


Mínimo Error Cuadrático

p1 t1{ , } p2 t2{ , } pQ tQ{ , }

Conjunto Entrenamiento:

pq

tqEntrada: Objetivo:

x w1b

= z p1

= a wT1 p b+= a xTz=

F x E e2 = E t a– 2 E t xTz– 2 = =

Notación:

Mean Square Error:

Donde: E es un valor esperado


Ecuaciones Importantes en el Algoritmo LMS

wi k 1+ w

i k 2 ei k p k +=

b i k 1+ b i k 2e i k +=

W k 1+ W k 2e k pTk +=

b k 1+ b k 2e k +=

En forma de Matriz:

Donde: es el parámetro de aprendizaje máximo


Condiciones para la Estabilidad

eig I 2R– 1 2 i

– 1=

Resumiendo, las condiciones de estabilidad son:

1 2i– 1–

i

0Ya que , 1 2i

– 1 .

1 i

para toda i

0 1 max

(donde i es un eigenvalor de R)


Modelo de una neurona lineal en MATLAB

p(1)

p(2)

p(3)

p(R)

W(1,1)

W(1,R)

1

b

n aa = purelin(w*p+b)a = w*p+b

0

0

1

-1

a

a

b/w

b/wp

n

a = purelin(n)


Regla de Aprendizaje en Regla de Aprendizaje en ADALINEADALINE

· ADALINE utiliza un aprendizaje OFF LINE con supervisión.

· Este aprendizaje es la llamada Regla de Widrow-Hoff (Regla Delta o Regla del Mínimo Error Cuadrático Medio LMS Least Mean Square)


Regla de Widrow-Hoff

Consiste en hallar el vector de pesos W deseado, único, que deberá asociar cada vector de entrada con su correspondiente valor de salida correcto o deseado.

La regla minimiza el error cuadrático medio definido como:

donde: es la función de errorRRR at

p

RRR

p 1

22 1


Esta función de error está definida en el espacio de pesos multidimensional para un

conjunto de entradas, y la regla de Widrow-Hoff busca el punto de este espacio donde se

encuentra el mínimo global.

Con función de activación lineal Con función de activación sigmoidal


Se utiliza el método de gradiente decreciente para saber en qué dirección se

encuentra el mínimo global de dicha superficie.

Las modificaciones que se realizan a los pesos son proporcionales al gradiente

decreciente de la función de error, por lo que cada nuevo punto calculado está más

próximo al punto mínimo.

j

Rj

wlrw

2


a) ADALINE b) PERCEPTRÓN


La regla de Widrow-Hoff es implementada realizando cambios a los pesos en la dirección opuesta en la que el error está incrementando y absorbiendo la constante -2 en lr.

En forma de matriz:

Transformando a la expresión del bias (considerando que el bias son pesos con entradas de 1):

)()(),( jpjelrjiW TEplrW

Elrb


Algoritmo de aprendizaje en Algoritmo de aprendizaje en ADALINEADALINE1.1. Se aplica un vector o patrón de entrada PR en las entradas del ADALINE.2.2. Se obtiene la salida lineal aR = WPR y se calcula la diferencia con respecto a la salida deseada: ER =TR-aR

3.3. Se actualizan los pesos: W( t+1 ) = W(t) + lrERPR

4.4. Se repiten los pasos 1 al 3 con todos los vectores de entrada.5.5. Si el error cuadrático medio es un valor reducido aceptable, termina el proceso de aprendizaje, sino, se repite otra vez desde el paso 1 con todos los patrones.


ENTRENAMIENTO ADALINE

Ya se explicó la regla de aprendizaje usada para las redes neuronales Adaline, conocida como de Widrow-Hoff, que se aplica sobre un patrón de entrada determinado

El entrenamiento de la red consiste en la aplicación consecutiva de la regla de aprendizaje para un patrón completo de entrenamiento



El entrenamiento comprende la aplicación de la regla de Widrow-Hoff (determinación de las diferencias en los pesos), actualización de los pesos y determinación del error.

Este proceso se realiza por medio de la aplicación de la entrada a la red, para un patrón completo de entrenamiento, o un vector de entrada



Sin embargo, si se procede por medio de las funciones anteriores, es necesario realizar un número de repeticiones suficiente para hacer que el error calculado sea igual a cero a través de la aplicación de la regla W-H para un patrón completo de entrenamiento


Ejercicio:

R E ppT

12---p1p1

T 12---p2p2

T+==

R12---

1–

11–

1– 1 1–12---

1

11–

1 1 1–+1 0 0

0 1 1–0 1– 1

= =

1

1.0 2

0.0 3

2.0===

1

m a x

------------1

2.0------- 0.5==

p1

1–

11–

t1 1–= =

p2

1

11–

t2 1= =

Plátano Manzana


Iteración: 1

e 0 t 0 a 0 t1 a 0 1– 0 1–=–=–=–=

W 1 W 0 2e 0 pT 0 +=

W 1 0 0 0 2 0.2 1– 1–

11–

T

0.4 0.4– 0.4=+=

a 0 W 0 p 0 W 0 p1 0 0 01–1

1–

0====Plátano


Iteración: 2

Manzana a 1 W 1 p 1 W 1 p2 0.4 0.4– 0.4

1

11–

0.4–====

e 1 t 1 a 1 t2 a 1 1 0.4– 1.4=–=–=–=

W 2 0.4 0.4– 0.4 2 0.2 1.4 1

1

1–

T

0.96 0.16 0.16–=+=


Iteración: 3

a 2 W 2 p 2 W 2 p1 0.96 0.16 0.16–

1–

1

1–

0.64–====

e 2 t 2 a 2 t1 a 2 1– 0.64– 0.36–=–=–=–=

W 3 W 2 2 e 2 pT 2 + 1.1040 0.0160 0.0160–= =

W 1 0 0=

Introduccion redes neuronales artificiales

Education

Transcript of Introduccion redes neuronales artificiales