Representación de funciones multidimensionales mediante...

20
Representación de funciones multidimensionales mediante Redes Neurales Gabriel Gil Pérez EMNO 2013, 23 de enero. Instituto de Cibernética, Matemática y Física (ICIMAF) Aplicaciones en problemas de Dinámica Molecular

Transcript of Representación de funciones multidimensionales mediante...

Page 1: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

Representación de funciones multidimensionales mediante

Redes Neurales

Gabriel Gil Pérez

EMNO 2013, 23 de enero.

Instituto de Cibernética, Matemática y Física (ICIMAF)

Aplicaciones en problemas de Dinámica Molecular

Page 2: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

SUMARIO

•  Motivación física. Construcción de Superficies de Energía Potencial de sistemas atómicos.

•  Redes Neurales

§  Descripción general de Redes Neurales.

§  Estructura feed-forward.

§  Entrenamiento. Algoritmo back-propagation.

§  Overfitting. Validación y prueba.

§  Generación del conjunto de datos de entrenamiento.

•  Hacia una aplicación en la dinámica del sistema NO-H2(n=24)

Behler, J., Chem. Modell. 7, 1-41 (2010)

Page 3: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

MOTIVACIÓN

•  Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.

{ }2

2 ( )II I n Id RM Rdt

ε= −∇

SEP

Page 4: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

MOTIVACIÓN

•  Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.

1d

2d

E•  Función multidimensional que depende de las posiciones de los átomos.

•  Evaluar cada punto es muy costoso computacionalmente.

Se requiere obtener una forma analítica fácil de evaluar. §  Solución 1: Ajustes de formas funcionales semiempíricas.

Si la forma funcional asumida no es la apropiada…

Page 5: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

MOTIVACIÓN

•  Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.

1d

2d

E•  Función multidimensional que depende de las posiciones de los átomos.

•  Evaluar cada punto es muy costoso computacionalmente.

Se requiere obtener una forma analítica fácil de evaluar. §  Solución 1: Ajustes de formas funcionales semiempíricas. §  Solución 2: Splines

…solo para funciones de pocas variables.

Page 6: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

MOTIVACIÓN

•  Las simulaciones de Dinámica Molecular y de Monte Carlo dependen de la Superficie de Energía Potencial.

1d

2d

E•  Función multidimensional que depende de las posiciones de los átomos.

•  Evaluar cada punto es muy costoso computacionalmente.

Se requiere obtener una forma analítica fácil de evaluar. §  Solución 1: Ajustes de formas funcionales semiempíricas. §  Solución 2: Splines

§  Solución 3: Redes Neurales

Behler, J., Parrinello, M., Phys. Rev. Lett. 98, 146401 (2007)

Page 7: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

•  Las redes neurales artificiales son un modelo matemático inspirado en la estructura y funcionamiento de de las redes neurales biológicas.

REDES NEURALES

Σ f y2x

1x

3x

Page 8: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

•  Las redes neurales artificiales son un modelo matemático inspirado en la estructura y funcionamiento de de las redes neurales biológicas.

•  Consisten en un grupo interconectado de neuronas artificiales.

REDES NEURALES

Σ f y2x

1x

3x

i ii

y f xω⎛ ⎞= ⎜ ⎟

⎝ ⎠∑

( )xΘ

…unidad de procesamiento o nodo…

•  El propósito más general de una Red Neural es construir una relación entrada-salida para analizar o clasificar datos.

•  Las redes neurales artificiales son un modelo matemático inspirado en la estructura y funcionamiento de de las redes neurales biológicas.

•  Consisten en un grupo interconectado de neuronas artificiales.

Page 9: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

REDES NEURALES

Σ f y2x

1x

3x

•  Se ha demostrado que las redes neurales artificiales son aproximantes universales.

•  En problemas de regresión o aproximación de funciones se sustituye la función paso-unitario por una función continua.

( )xΘ tanh( )xa

i ii

y f xω⎛ ⎞= ⎜ ⎟

⎝ ⎠∑

Page 10: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

RED NEURAL FEED-FORWARD

3 3 2 2 1 101 1 0 0( ( ( )))i i ji j kj k

i j kE f f f Gω ω ω ω ω ω= + + +∑ ∑ ∑

Bias

1G

2G

3G

21y22y

11y12y13y13y

E23y

Capa de entrada Capa oculta No. 1 y No. 2

Capa de salida

Estructura feed-forward:

El flujo de información va de la entrada a la salida, unidireccionalmente.

No hay conexiones entre nodos de la misma capa.

Page 11: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

RED NEURAL FEED-FORWARD

•  Normalmente, las funciones de activación se eligen entre:

1( )1 xf xe−

=−

( ) tanh( )f x x= 2

( ) xf x e−=

( ) xf x e−= ( )f x x=

preferidas para la estabilidad numérica del optimización de la red…

•  Las funciones de forma sigmoidal o la gaussiana tienen un estrecho rango de valores que puede no coincidir con el rango de valores de los datos.

§  Solución 1: Emplear una función lineal como función de activación en la capa de salida.

§  Solución 2: Escalar los datos para que su rango coincida con el de las funciones.

Page 12: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

RED NEURAL FEED-FORWARD

•  Una Red Neural es una función anidada con elementos funcionales simples, cuya aplicación depende del conjunto de parámetros que pesan las conexiones entre neuronas.

Estos aportan la flexibilidad necesaria para aproximar un amplio rango de funciones.

{ }(_; ) : nE ω →° °

Hallar la función que aproxima a los datos de referencia.

⇔Encontrar los pesos que minimizan la diferencia entre el output y la referencia.

Esquema de regresión

•  Los pesos son inicializados aleatoriamente y luego se procede a la optimización de manera iterativa. Esto se conoce como entrenamiento.

Page 13: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

ENTRENAMIENTO

( )2, ,1

12

N

j NN j refjE E

N =

Γ = −∑Error

Número de puntos en el ‘set de entrenamiento’

Salida de la Red

Referencia

•  El objetivo es minimizar la función de costo para un conjunto de N puntos.

Page 14: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

ENTRENAMIENTO

( )2, ,1

12

N

j NN j refjE E

N =

Γ = −∑

1 1i i ii

ω ω η µ ωω+ −

∂Γ= − + Δ

Peso general en la época i-ésima Ritmo de aprendizaje

Parámetro auxiliar para evitar oscilaciones y divergencias

•  El objetivo es minimizar la función de costo para un conjunto de N puntos.

§  Algoritmo back-propagation:

La evaluación de los gradientes se realiza eficientemente de forma contraria a la propagación de los datos de entrada.

Converge lentamente y puede quedar atrapado en mínimos locales.

Page 15: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

( )2 2, ,

1 1

12

N M

j NN j ref kj kE E

Nα ω

= =

Γ = − +∑ ∑

ENTRENAMIENTO

•  Para mejorar el proceso de optimización se pueden tomar las siguientes medidas:

penalización

Examinar varias condiciones iniciales aleatorias para los pesos.

Escoger un orden aleatorio para los datos de entrada para evitar dependencias de la secuencia.

Escalar los datos de entrada para que su rango coincida con el rango de la función de activación.

En rigor, se debería optimizar la arquitectura de la red. (Número de nodos por capa, número de capas.)

Page 16: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

VALIDACIÓN Y PRUEBA

Γ

iter

Conjunto de entrenamiento Conjunto de validación

Red Neural optimizada

Para evaluar el error de la red se emplea el Conjunto de Prueba.

{ }ijkω E

•  El Error del conjunto de entrenamiento no es necesariamente representativo de la exactitud de la Red para predecir valores que toma la función en puntos nuevos.

( )50 90%−

•  Primero, se aprenden las características generales de la función, luego se produce un overfitting...

Page 17: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

DATOS DE ENTRENAMIENTO

•  Una ventaja de las RN es que los datos de referencia no tienen que ser tomados en una malla regular.

ε

Rregión de interés para la dinámica

•  Pueden emplearse métodos de muestreo más eficientes, que generen puntos en la región relevante del espacio de configuraciones.

1)  Trayectorias de Dinámica Molecular con una SEP más simple.

2)  Método autoconsistente.

Page 18: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

HACIA UNA APLICACIÓN...

excitación relajación

estructura hcp

gran amplitud de movimiento de punto cero

3.78a = Αo

•  El sistema: NO en para-H2 sólido

•  El fenómeno: dinámica de fotoexcitación

Bonacina, L., et al., J. Chem. Phys. 125, 054507 (2006)

Page 19: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

§  Entrenamiento con porque es una función muy fluctuante y las zonas de mayor no son de interés para la dinámica.

1/ ε εε

HACIA UNA APLICACIÓN...

§  Detalles computacionales:

-  Dos capas de neuronas.

-  Tantas variable como neuronas por capa.

-  Función de activación: tanh(x)

¡Se requieren más pruebas!

ü  Distancias H2 –NO

ü  Ángulos entre los ejes de NO y H2.

ü  Ángulos H2–NO –H2

o  Distancia H-H

o  Distancia N-O

Considerar simetrías §  Variables de entrada:

Page 20: Representación de funciones multidimensionales mediante ...lya.fciencias.unam.mx/gfgf/cubamex2013/miercoles/gabrielgil.pdf• Una ventaja de las RN es que los datos de referencia

¡Muchas Gracias!

Seminario de Física Teórica, ICIMAF, 16 de Noviembre de 2012.