etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento....

258
Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice de Figuras .................................................... vii Indice de Tablas ..................................................... xi Nomenclator ....................................................... xiii Introducción General y Resumen ....................................... xv 1. Conceptos y Técnicas en Estereovisión .................................. 1 1.1. Aspectos Psicológicos de la Estereovisión ......................... 1 1.1.1. Psicología de la Visión ................................. 1 1.1.2. Psicología de la Estereovisión ........................... 3 1.2. Fisiología de la Estereovisión ................................... 4 1.2.1. Entrada de Imágenes ................................... 6 1.2.1.1. Análisis de Imágenes ........................... 6 1.2.1.2. Respuesta ante Imágenes Estáticas ................ 7 1.2.2. Movimiento y Estereovisión ............................. 7 1.2.2.1. Análisis Biológico del Movimiento ................ 9 1.2.3. Separación de Hemicampos Visuales ..................... 12 1.2.4. Integración Binocular ................................. 12 1.2.5. Análisis de Disparidades .............................. 13 1.2.5.1. Análisis Clásico .............................. 14 1.2.5.2. Análisis Mediante Integración Visiomotora ........ 15 1.2.5.3. Acople del Análisis Basado en Integración Visiomotora con el Análisis Clásico ......................... 17 1.2.6. Procesamientos de Nivel Superior ....................... 17 1.2.6.1. Atención Visual Selectiva ...................... 17 1.2.6.2. Aprendizaje y Memoria ........................ 19 1.3. Conceptos Básicos de Estereovisión ............................. 20 1.3.1. Estructura de un Sistema Estereoscópico .................. 20 1.3.2. Captación de las Imágenes ............................. 21 1.3.3. Imagen Digital: Representación y Procesamiento ........... 21 1.3.3.1. Representación de la Imagen Digital .............. 22 1.3.3.2. La Imagen Digital en el Dominio de la Frecuencia . . . 23

Transcript of etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento....

Page 1: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

i

Indice

Indice de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii

Indice de Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi

Nomenclator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii

Introducción General y Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv

1. Conceptos y Técnicas en Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. Aspectos Psicológicos de la Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1. Psicología de la Visión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.2. Psicología de la Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Fisiología de la Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1. Entrada de Imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.1.1. Análisis de Imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.1.2. Respuesta ante Imágenes Estáticas . . . . . . . . . . . . . . . . 7

1.2.2. Movimiento y Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.2.1. Análisis Biológico del Movimiento . . . . . . . . . . . . . . . . 9

1.2.3. Separación de Hemicampos Visuales . . . . . . . . . . . . . . . . . . . . . 121.2.4. Integración Binocular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2.5. Análisis de Disparidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2.5.1. Análisis Clásico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.2.5.2. Análisis Mediante Integración Visiomotora . . . . . . . . 151.2.5.3. Acople del Análisis Basado en Integración Visiomotora

con el Análisis Clásico . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.6. Procesamientos de Nivel Superior . . . . . . . . . . . . . . . . . . . . . . . 17

1.2.6.1. Atención Visual Selectiva . . . . . . . . . . . . . . . . . . . . . . 171.2.6.2. Aprendizaje y Memoria . . . . . . . . . . . . . . . . . . . . . . . . 19

1.3. Conceptos Básicos de Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.3.1. Estructura de un Sistema Estereoscópico . . . . . . . . . . . . . . . . . . 201.3.2. Captación de las Imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.3.3. Imagen Digital: Representación y Procesamiento . . . . . . . . . . . 21

1.3.3.1. Representación de la Imagen Digital . . . . . . . . . . . . . . 221.3.3.2. La Imagen Digital en el Dominio de la Frecuencia . . . 23

Page 2: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Indice

ii

1.3.3.3. Procesamiento de Imágenes Digitales . . . . . . . . . . . . . 241.3.4. Análisis Geométrico y Calibración . . . . . . . . . . . . . . . . . . . . . . 25

1.3.4.1. Plano y Líneas Epipolares . . . . . . . . . . . . . . . . . . . . . . 261.3.4.2. Geometría de Cámaras Paralelas . . . . . . . . . . . . . . . . . 281.3.4.3. Geometría de Cámaras Convergentes y Rectificado . . 301.3.4.4. Calibración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.3.5. Primitivas de Correspondencia . . . . . . . . . . . . . . . . . . . . . . . . . 321.3.6. Restricciones a las Correspondencias . . . . . . . . . . . . . . . . . . . . 35

1.3.6.1. Restricción Epipolar . . . . . . . . . . . . . . . . . . . . . . . . . . 361.3.6.2. Restricción de Unicidad . . . . . . . . . . . . . . . . . . . . . . . 361.3.6.3. Restricción de Ordenamiento . . . . . . . . . . . . . . . . . . . 361.3.6.4. Restricción de disparidad . . . . . . . . . . . . . . . . . . . . . . 381.3.6.5. Restricción del Gradiente de Disparidad . . . . . . . . . . 381.3.6.6. Otras Restricciones Geométricas . . . . . . . . . . . . . . . . 40

1.4. Técnicas de Correspondencia Utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . 431.4.1. Técnicas Basadas en la Correlación . . . . . . . . . . . . . . . . . . . . . . 44

1.4.1.1. El Principio General de las Técnicas de Correlación . 451.4.1.2. Algoritmo de Nishihara . . . . . . . . . . . . . . . . . . . . . . . . 461.4.1.3. Función de Similitud Basada en la Suma de Diferencias

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471.4.2. Funciones basadas en Rango y Censo . . . . . . . . . . . . . . . . . . . . 471.4.3. Técnicas de Relajación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

1.4.3.1. El algoritmo de Marr-Poggio. . . . . . . . . . . . . . . . . . . . 501.4.3.2. El Algoritmo de Pollard, Mayhew, Frisby . . . . . . . . . 511.4.3.3. Técnicas de Grueso a Fino . . . . . . . . . . . . . . . . . . . . . 52

1.4.4. Métodos Basados en el Gradiente . . . . . . . . . . . . . . . . . . . . . . . 521.4.5. Correspondencias entre Características . . . . . . . . . . . . . . . . . . . 531.4.6. Técnicas de Programación Dinámica . . . . . . . . . . . . . . . . . . . . . 531.4.7. Técnica de las Curvas Íntimas . . . . . . . . . . . . . . . . . . . . . . . . . . 551.4.8. Métodos de Predicción y Verificación . . . . . . . . . . . . . . . . . . . . 56

1.4.8.1. Construcción de Descripciones Simbólicas . . . . . . . . 571.4.8.2. Definición de Correspondencias . . . . . . . . . . . . . . . . . 57

1.4.9. Métodos Basados en Diferencias de Fase . . . . . . . . . . . . . . . . . 581.5. Tratamiento de las Oclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

1.5.1. Métodos de Detección de Oclusiones . . . . . . . . . . . . . . . . . . . . 601.5.2. Métodos para Reducir la Sensibilidad a las Oclusiones . . . . . . 611.5.3. Métodos para Modelar la Geometría de las Oclusiones . . . . . . 61

Page 3: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

iii

1.6. Técnicas que Relacionan Estereopsis con Movimiento . . . . . . . . . . . . . . 621.6.1. Técnicas de “Estructura desde el Movimiento” . . . . . . . . . . . . . 651.6.2. Estéreo Convencional a Partir del Movimiento . . . . . . . . . . . . . 651.6.3. Restricción de Disparidad Dinámica . . . . . . . . . . . . . . . . . . . . . 66

1.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2. El Efecto de Permanencia como Método de Solución de Problemas en VisiónEstereoscópica Dinámica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 692.1. Modelado del Conocimiento al Nivel de Conocimiento [Mir04] . . . . . . . 692.2. La Visión Estereoscópica Dinámica como Sistema Basado en Conocimiento

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 712.3. El Efecto de Permanencia en el Nivel Físico [Mir03b] . . . . . . . . . . . . . . . 732.4. El Efecto de Permanencia al Nivel de los Símbolos (Reglas) . . . . . . . . . . 772.5. El Efecto de Permanencia como Método a Nivel de Conocimiento en la Tarea

de Visión Estereoscópica Dinámica . . . . . . . . . . . . . . . . . . . . . . . . . . . 802.5.1. Esquema Inferencial del Efecto de Permanencia . . . . . . . . . . . . 802.5.2. Aplicación a la Tarea de Visión Estereoscópica Dinámica . . . . 82

2.5.2.1. Aspectos Generales del Método . . . . . . . . . . . . . . . . . 832.5.2.2. Aspectos Específicos del Método . . . . . . . . . . . . . . . . 86

2.6. Conclusiones al Modelado de la Tarea de Visión Estereoscópica Dinámica alNivel de Conocimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

3. El Modelo de Disparidad de Carga como Método de Solución de Problemas parael Análisis Estéreo del Movimiento 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.1. Descripción General del Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.2. Descripción Detallada de las Subtareas . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

3.2.1. Digitalización del Par Estéreo de Secuencias . . . . . . . . . . . . . . . 953.2.2. Obtención del Mapa de Carga 2D . . . . . . . . . . . . . . . . . . . . . . 100

3.2.2.1. Segmentación en Bandas de Niveles de Gris . . . . . . 1033.2.2.2. Detección de Movimiento (Permanencia) . . . . . . . . . 1073.2.2.3. Separación de Hemicampos Visuales . . . . . . . . . . . . 114

3.2.3. Análisis de la Disparidad de Carga . . . . . . . . . . . . . . . . . . . . . . 1163.2.3.1. Análisis de Correspondencias de Carga . . . . . . . . . . 1193.2.3.2. Obtención del Mapa de Profundidad 3D. . . . . . . . . . 130

3.2.4. Obtención del Mapa de Carga 3D . . . . . . . . . . . . . . . . . . 1323.2.5. Obtención del Movimiento 3D . . . . . . . . . . . . . . . . . . . . . . . . . 137

Page 4: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Indice

iv

4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1434.1. Entorno de Trabajo y Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1444.2. Modos de Representación de los Resultados . . . . . . . . . . . . . . . . . . . . . 1444.3. Estimación de Profundidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

4.3.1. Secuencia 1: Elemento Próximo . . . . . . . . . . . . . . . . . . . . . . . 1464.3.2. Secuencia 2: Elemento Lejano . . . . . . . . . . . . . . . . . . . . . . . . . 148

4.4. Detección de Movimiento en la Profundidad . . . . . . . . . . . . . . . . . . . . . 1504.4.1. Secuencia 3: Movimiento de Vaivén . . . . . . . . . . . . . . . . . . . . 1514.4.2. Secuencia 4: Objetos Acercándose . . . . . . . . . . . . . . . . . . . . . 1544.4.3. Secuencia 5: Objetos Acercándose y Alejándose . . . . . . . . . . 159

4.5. Filtrado de Objetos Estáticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1634.5.1. Secuencia 6: Objetos Estáticos y Acercándose . . . . . . . . . . . . 163

4.6. Profundidad en Secuencias Reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1654.6.1. Secuencia 7: IndoorZoom . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1654.6.2. Secuencia 8: OutdoorZoom . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

4.7. Navegación Autónoma Basada en la Profundidad . . . . . . . . . . . . . . . . . 1754.7.1. Secuencia 9: Análisis del Entorno 3D Mediante Giros . . . . . . 1764.7.2. Secuencia 10: Deambulación Autónoma . . . . . . . . . . . . . . . . . 179

4.8. Análisis de Velocidad en la Profundidad . . . . . . . . . . . . . . . . . . . . . . . . 1824.8.1. Secuencias Sintéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

4.8.1.1. Detección de Objetos que se Acercan y se Alejan . . 1824.8.2. Secuencias Reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

4.8.2.1. Secuencia IndoorZoom . . . . . . . . . . . . . . . . . . . . . . . 1864.8.2.2. Secuencia OutdoorZoom . . . . . . . . . . . . . . . . . . . . . . 189

4.9. Conclusiones de los Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

5. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1935.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1935.2. Comparación con Otros Métodos Utilizados . . . . . . . . . . . . . . . . . . . . . 195

5.2.1. Primitivas de Correspondencia . . . . . . . . . . . . . . . . . . . . . . . . 1955.2.2. Restricciones a las Correspondencias . . . . . . . . . . . . . . . . . . . 1995.2.3. Técnicas de Correspondencia . . . . . . . . . . . . . . . . . . . . . . . . . . 1995.2.4. Tratamiento de las Oclusiones . . . . . . . . . . . . . . . . . . . . . . . . . 2005.2.5. Técnicas Relacionadas con el Movimiento . . . . . . . . . . . . . . . 201

5.3. Aspectos Biológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

Page 5: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

v

6. Conclusiones y Aportaciones Realizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

7. Bibliografía y Enlaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2077.2. Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2077.3. Enlaces Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

Page 6: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Indice

vi

Page 7: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

vii

Indice de Figuras

Figura 1. Esquema general del modelo propuesto. . . . . . . . . . . . . . . . . . . . . . . . . . . . xixFigura 2. Estereovisión basada en la forma o en el movimiento . . . . . . . . . . . . . . . . . xx

Figura 1.1. Estructura de un sistema de estereovisión por ordenador . . . . . . . . . . . . . 20Figura 1.2. Representación en unidades logarítmicas de una imagen en el dominio de lafrecuencia entre las frecuencias 0 y 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23Figura 1.3. En los operadores puntuales cada píxel de la imagen de salida depende de unsólo píxel de la entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24Figura 1.4. Geometría estereo: Marco de referencia y sistemas de referencia de las cámaras.

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26Figura 1.5. Restricción epipolar. Se representan el plano epipolar correspondiente al puntoM de la escena y las lineas epipolares correspondientes. . . . . . . . . . . . . . . . . . . . . . . . 27Figura 1.6. Geometría en el plano epipolar para cámaras paralelas. . . . . . . . . . . . . . . 29Figura 1.7. Rectificación de planos retinales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31Figura 1.8. Restricción de ordenamiento. Zona prohibida. . . . . . . . . . . . . . . . . . . . . . 37Figura 1.9. Disparidad en geometría de cámaras paralelas. . . . . . . . . . . . . . . . . . . . . . 38Figura 1.10. Definición del gradiente de disparidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Figura 1.11. Forma general de la función de correlación. . . . . . . . . . . . . . . . . . . . . . . 46Figura 1.12. Cubo de correlaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49Figura 1.13. Regiones excitatoria e inhibitoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50Figura 1.14. Técnicas de programación dinámica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Figura 2.1. Tarea de Visión Estereoscópica Dinámica . . . . . . . . . . . . . . . . . . . . . . . . . 72Figura 2.2. Arquitectura de un modelo computacional de efecto de permanencia . . . . 75Figura 2.3. Ilustración del modelo usado para el caso sencillo de una umbralización binariade una imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79Figura 2.4. Instanciación del efecto de permanencia para el uso de detección demovimiento en la modalidad de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81Figura 2.5. Representación gráfica de los roles implicados en el estudio de la profundidada partir del efecto de permanencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82Figura 2.6. Disparidad de estelas de permanencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85Figura 2.7. Procesamiento de líneas epipolares. Separación de hemicampos visualesderecho e izquierdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Page 8: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Indices

viii

Figura 3.1. Esquema funcional del modelo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . 92Figura 3.2. Descomposición en subtareas de la tarea “Análisis Estéreo del Movimiento”.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95Figura 3.3. Esquema de procesos de “Digitalización del Par Estéreo de Secuencias”. 96Figura 3.4. Roles de la subtarea “Digitalización del Par Estéreo de Secuencias”. . . . 98Figura 3.5. Cuatro fotogramas consecutivos de la secuencia “IndoorZoom” . . . . . . 100Figura 3.6. Descomposición en subtareas de “Obtención del Mapa de Carga 2D”. . 101Figura 3.7. Esquema de procesos de la “Obtención del Mapa de Carga 2D”. . . . . . . 102Figura 3.8. Roles de la subtarea “Segmentación en Bandas de Niveles de Gris” . . . 103Figura 3.9. Solape entre bandas de niveles de gris . . . . . . . . . . . . . . . . . . . . . . . . . . 104Figura 3.10. Esquema inferencial de “Clasificación en Bandas de Niveles de Gris” 106Figura 3.11. Segmentación en bandas de niveles de gris: clasificación e integración 108Figura 3.12. Roles asociados a la subtarea “Detección de movimiento”. . . . . . . . . . 109Figura 3.13. Esquema inferencial de la detección de movimiento . . . . . . . . . . . . . . 110Figura 3.14. Detección de movimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111Figura 3.15. Esquema inferencial de la “Obtención del Mapa de Carga 2D” . . . . . . 112Figura 3.16. Efecto de permanencia aplicado a la detección de movimiento 2D . . . 114Figura 3.17. Roles de la subtarea “Separaciónde Hemicampos Visuales” . . . . . . . . 115Figura 3.18. Esquema inferencial de la “Separación de Hemicampos Visuales” . . . 116Figura 3.19. Separación de hemicampos visuales . . . . . . . . . . . . . . . . . . . . . . . . . . . 117Figura 3.20. Descomposición en subtareas de “Análisis de Disparidad de Carga . . . 118Figura 3.21. Esquema de procesos del “Análisis de Disparidad de Carga” . . . . . . . . 119Figura 3.22. Roles asociados a la subtarea “Análisis de Correspondencias de Carga”. 120Figura 3.23. Esquema inferencial del “Análisis de Correspondencias Puntuales . . . 122Figura 3.24. Análisis de correspondencias a partir de los Mapas de Carga . . . . . . . . 123Figura 3.25. Esquema inferencial del “Conteo Horizontal de Carga en Horizontal“ 124Figura 3.26. Esquema inferencial de la “Homogeneización de Carga Horizontal” . . 126Figura 3.27. Esquema inferencial de la “Acumulación de Carga Vertical” . . . . . . . . 127Figura 3.28. Esquema inferencial de la “Homogeneización de Carga Vertical” . . . . 129Figura 3.29. Roles asociados a la subtarea “Obtención del Mapa de Profundidad 3D”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130Figura 3.30. Obtención del Mapa de Profundidad a partir de las correspondencias . 131Figura 3.31. Esquema de procesos de la “Obtención del Mapa de Carga 3D” . . . . . 132Figura 3.32. Roles estáticos y dinámicos de la subtarea “Obtención del Mapa de Carga 3D”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133Figura 3.33. Esquema inferencial de la Detección de Movimiento 3D . . . . . . . . . . . 134Figura 3.34. Representación Gráfica de la Detección de Movimiento 3D . . . . . . . . 135Figura 3.35. Esquema inferencial del Efecto de Permanencia 3D . . . . . . . . . . . . . . . 133

Page 9: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

ix

Figura 3.36. Esquema de procesos de “Obtención del Movimiento 3D” . . . . . . . . . . 138

Figura 4.1. Representación en falso color del Mapa de Profundidad . . . . . . . . . . . . . 145Figura 4.2. Representación del movimiento en el dirección z . . . . . . . . . . . . . . . . . . 145Figura 4.3. Comparación de los Fotogramas 90 de las secuencias “Elemento Cercano” y“Elemento Lejano” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150Figura 4.4. Escenario del ejemplo “Cubos” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152Figura 4.5. Representación tridimensional del Mapa de Profundidad 3D obtenido de lasecuencia “Cubos” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154Figura 4.6. Escena de “Objetos Acercándose” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155Figura 4.7. Representación tridimensional del Mapa de Profundidad obtenido de lasecuencia “Objetos Acercándose” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158Figura 4.8. Representación tridimensional del Mapa de Profundidad obtenido de lasecuencia “Objetos Acercándose y Alejándose” . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162Figura 4.9. Representación tridimensional del Mapa de Profundidad obtenido de lasecuencia “Objetos Estáticos y Acercándose” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165Figura 4.10. Escena “IndoorZoom”: fotograma 53 . . . . . . . . . . . . . . . . . . . . . . . . . . 166Figura 4.11. Histograma de brillo del fotograma 53 de la escena “IndoorZoom” . . . 167Figura 4.12. Representación tridimensional del Mapa de Profundidad obtenido de lasecuencia “IndoorZoom” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169Figura 4.13. Fotograma 211 de la secuencia “OutdoorZoom” . . . . . . . . . . . . . . . . . . 171Figura 4.14. Histograma de brillo del fotograma 211 de la escena “OutdoorZoom” . 171Figura 4.15. Representación tridimensional del Mapa de Profundidad obtenido de lasecuencia “OutdoorZoom” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174Figura 4.16. Escenario del pasillo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175Figura 4.17. Representación tridimensional del Mapa de Profundidad obtenido de lasecuencia del pasillo en tramo de giro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178Figura 4.18. Representación tridimensional del Mapa de Profundidad obtenido de lasecuencia del pasillo en tramo recto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181Figura 4.19. Representación tridimensional de la velocidad en la dirección z obtenidos dela secuencia “Objetos Acercándose y Alejándose” . . . . . . . . . . . . . . . . . . . . . . . . . . 185Figura 4.20. Representación tridimensional de la velocidad en la dirección z obtenidos dela secuencia “IndoorZoom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

Figura 5.1. Dependencia del tamaño de la “región de disparidad constante” según laposición del elemento que inicia el análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

Page 10: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Indices

x

Page 11: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

xi

Indice de Tablas

Tabla 1.1. Referencias básicas relacionadas con la percepción visual biológica. . . . . 19Tabla 1.2. Referencias de disciplinas transversales al modelo propuesto . . . . . . . . . . 25Tabla 1.3. Resumen de primitivas de correspondencia. . . . . . . . . . . . . . . . . . . . . . . . . 35Tabla 1.4. Resumen de restricciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42Tabla 1.5. Referencias apropiadas para conceptos generales de estereovisión. . . . . . . 43Tabla 1.6. Métodos de resolución de la estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . 59Tabla 1.7. Tratamiento de las oclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Tabla 1.8. Resumen de técnicas orientadas al análisis estéreo estático. . . . . . . . . . . . . 64Tabla 1.9. Métodos de estereovisión basados en el movimiento . . . . . . . . . . . . . . . . . 67Tabla 1.10. Referencias de estereo basada en el movimiento. . . . . . . . . . . . . . . . . . . . 68

Tabla 4.1. Resultados de la secuencia “Elemento Próximo” . . . . . . . . . . . . . . . . . . . 147Tabla 4.2. Resultados de la secuencia “Elemento Lejano” . . . . . . . . . . . . . . . . . . . . 149Tabla 4.3. Resultados de la escena de los “Cubos” . . . . . . . . . . . . . . . . . . . . . . . . . . 153Tabla 4.4. Resultados de la escena de los “Objetos Acercándose . . . . . . . . . . . . . . . 157Tabla 4.5. Resultados de la escena de los “Objetos Acercándose y Alejandose . . . . 161Tabla 4.6. Resultados de la escena de los “Objetos Estáticos y Acercándose . . . . . . 164Tabla 4.7. Resultados de la escena “IndoorZoom” . . . . . . . . . . . . . . . . . . . . . . . . . . . 168Tabla 4.8. Resultados de la escena “OutdoorZoom” . . . . . . . . . . . . . . . . . . . . . . . . . 173Tabla 4.9. Resultados de la escena del pasillo: tramo esquina . . . . . . . . . . . . . . . . . . 177Tabla 4.10. Resultados de la escena del pasillo: tramo recto . . . . . . . . . . . . . . . . . . . 179Tabla 4.11. Resultados de la escena de los “Objetos Acercándose y Alejándose” . . 184Tabla 4.12. Resultados de la escena “IndoorZoom” . . . . . . . . . . . . . . . . . . . . . . . . . . 187Tabla 4.13. Resultados de la escena “OutdoorZoom” . . . . . . . . . . . . . . . . . . . . . . . . 190

Page 12: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Indices

xii

Page 13: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

xiii

Nomenclator

x, y, z Coordenadas del marco de referencia de la escenau, v Coordenadas de un píxel en una imagen genéricaui, vi Coordenadas de un píxel en el sist. de ref. de la imagen izquierdaud, vd Coordenadas de un píxel en el sist. de ref. de la imagen derechaB Línea base: distancia entre las cámarasα Ángulo entre las cámaras (habitualmente α=0 - paralelas)d(u, v) Disparidadδd Disparidad mínima detectable: tamaño del píxelν Frecuencia de captación de los fotogramasF Distancia focal de las cámarasδz(d, δd) Resolución en profundidad NB Número de bandas de niveles de gris utilizadas para segmentarNGmin Nivel de gris mínimo: habitualmente NGmin=0NGmax Nivel de gris máximo: habitualmente NGmax=255SB Solape entre bandasHmax Tamaño horizontal de los fotogramasVmax Tamaño vertical de los fotogramasDmax Disparidad máxima: restricción de disparidadE(x, y, z, t) Escena de entradaNG(u,v) Nivel de gris de un píxel genéricoNGi(ui,vi) Nivel de gris de un píxel de la imagen izquierdaNGd(ud,vd) Nivel de gris de un píxel de la imagen derechaBNG(u, v, t) Banda de niveles de gris a la que pertenece un píxel genéricoBNGi(ui, vi, t) Banda de niveles de gris de un píxel de un fotograma izquierdoBNGd(ud, vd, t) Banda de niveles de gris de un píxel de un fotograma derechoMOV2(u, v, t) Mapa de movimiento 2DMOV2i(ui, vi, t) Mapa de movimiento 2D del hemicampo izquierdoMOV2d(ud, vd, t) Mapa de movimiento 2D del hemicampo derechoC2(u, v, t) Mapa de carga 2D resultado del efecto de permanencia 2DC2i(ui, vi, t) Mapa de carga 2D de la secuencia izquierdaC2d(ud, vd, t) Mapa de carga 2D de la secuencia derechaC2min Valor mínimo de carga de los elementos de permanencia 2DC2max Valor máximo de carga de los elementos de permanencia 2DC2des Valor de descarga de los elementos de permanencia 2DH2(u, v, t) Hemicampo visual genérico 2D

Page 14: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Indices

xiv

H2i(ui, vi, t) Hemicampo visual izquierdo 2D de un fotograma genéricoH2d(ud, vd, t) Hemicampo visual derecho 2D de un fotograma genéricoH2ii(ui, vi, t) Hemicampo visual izquierdo 2D de un fotograma izquierdoH2id(ud, vd, t) Hemicampo visual izquierdo 2D de un fotograma derechoH2di(ui, vi, t) Hemicampo visual derecho 2D de un fotograma izquierdoH2dd(ud, vd, t) Hemicampo visual derecho 2D de un fotograma derechoS3(u, v, d, t) Mapa de correspondencias de carga 3DS3i(ui, vi, d, t) Mapa de correspondencias de carga 3D del hemicampo izquierdoS3d(ud, vd, d, t) Mapa de correspondencias de carga 3D del hemicampo derechoD3(u, v, t) Mapa de profundidad 3DD3i(ui, vi, t) Mapa de profundidad 3D del hemicampo izquierdoD3d(ud, vd, t) Mapa de profundidad 3D del hemicampo derechoMOV3(u, v, d, t) Mapa de movimiento 3DMOV3i(ui, vi, d, t) Mapa de movimiento 3D del hemicampo izquierdoMOV3d(ud, vd, d, t) Mapa de movimiento 3D del hemicampo derechoC3(u, v, d, t) Mapa de carga 3DC3i(ui, vi, d, t) Mapa de carga 3D del hemicampo izquierdoC3d(ud, vd, d, t) Mapa de carga 3D del hemicampo derechoC3min Valor mínimo de carga de los elementos de permanencia 3DC3max Valor máximo de carga de los elementos de permanencia 3DC3des Decremento de descarga de los elementos de permanencia 3Dvx(x, y, z, t) Velocidad en x de un elemento de la escenavy(x, y, z, t) Velocidad en y de un elemento de la escenavz(x, y, z, t) Velocidad en z de un elemento de la escena

Page 15: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

xv

Introducción General y Resumen

En esta tesis se propone una nueva alternativa que permite obtener, de formacontinua, información tridimensional del movimiento en la escena, tomando como entradaal sistema una pareja de secuencias de imágenes estéreo, prolongadas en el tiempo deforma indefinida.

La forma es importante en visión; pero también, el mundo en el que nos movemoses un mundo dinámico, además de tridimensional. A esta dinámica contribuyen, tantonuestro propio movimiento, como el de los elementos que nos rodean. Quizá por ello, elmovimiento juega un papel tan significativo en los procesos de visión. En la estereovisiónbiológica, sabemos que existe una vía en el sistema nervioso que asocia el movimiento yla estereovisión; sabemos también que en la periferia del foco de atención, el movimientojuega un papel incluso más importante que la forma en multitud de sistemas biológicos.Este hecho llega hasta tal punto que la mayoría de los animales excepto los homínidossuperiores no son capaces de detectar mediante la visión objetos que permanecen estáticos;sólo son capaces de percibir objetos en movimiento; y sin embargo, se desenvuelvenperfectamente en su entorno. Esta característica permanece todavía en la periferia delcampo de visión de los humanos. En dicha periferia no somos capaces de percibir losobjetos a menos que se muevan. No obstante, este problema se resuelve mediante un actoreflejo que orienta los ojos, e incluso el cuello, hacia el objeto de la visión periférica quese ha movido, y centrarlo en la retina.

La parte central de la retina, la fóvea, además de ser la parte que posee una mayorresolución espacial, también es capaz de reconocer objetos estáticos. Sólo hay un pequeñomatiz. Según Hubel [Hub95], para la visión en todo el ojo necesitamos que los objetos seestén moviendo constantemente respecto de la retina. En realidad, los ojos en ningún casopermanecen absolutamente quietos, sino que se mueven de un modo inconsciente unospocos minutos de arco varias veces por segundo. A estos movimientos se les llamómovimientos microsacádicos. Si fijamos artificialmente la imagen en la retina,curiosamente la visión desaparece. Esto nos lleva a la conclusión que únicamente vemosmovimiento, y cuando los objetos están estables, necesitamos mover los ojos para que laimagen recibida varíe en el tiempo.

En el ámbito de los sistemas artificiales, para interactuar de un modo adecuado enun medio dinámico, los robots deben contar con la capacidad de analizar su entorno y, porsupuesto, una de las capacidades más potentes es la visión; por lo menos así se consideraen los humanos y en los animales. Pero, en la actualidad, el mundo de la estereovisiónartificial recoge pobremente los efectos derivados del movimiento en la escena. Hasta lafecha, las técnicas usuales de estereovisión se basan en la forma; analizando la disparidad

Page 16: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Introducción General y Resumen

xvi

y, por tanto, obteniendo la profundidad, atendiendo a dicha característica. Por otra parte,además, son fundamentalmente estáticas.

La visión en nuestro entorno tridimensional se produce proyectando la escena sobreun elemento superficial. En el caso de los animales y el hombre, este elemento es la retinadel ojo con forma de corteza esférica y en el caso de las cámaras tiene forma plana. Laproyección sobre una superficie provoca la conversión de la información tridimensionalde la escena en información bidimensional, perdiéndose por completo un grado de libertad:la profundidad de la escena.

El proceso de proyección es, por su naturaleza, irreversible; por lo tanto, siqueremos recuperar la profundidad de una escena hemos de recurrir a otro mecanismo.Existen diversos mecanismos para estimar la profundidad de una escena. Algunos ejemplospueden ser el “tiempo de vuelo” en la propagación de una onda sonora o electromagnética,o el enfoque automático de una lente buscando el máximo contraste en la imagen tomada.De entre todos ellos, nos ha interesado uno en concreto por ser el que utilizan muchos seresvivos en general, y particularmente los humanos. Este método es la estereovisión que sebasa en el análisis de dos perspectivas diferentes de la escena.

Estéreo en Visión Natural

Aunque ciertamente la bibliografía no es concluyente en cuanto a losprocesamientos internos que realiza el sistema nervioso para estimar la profundidad através de la estereopsis, en ella sí se encuentra un conjunto de evidencias que nos sugierenideas al respecto. Así, en primer lugar, los experimentos realizados con objetosisoluminantes asocian la percepción de la profundidad a la vía magnocelular dedicadabásicamente al movimiento. Esta vía se segrega de las dos parvocelulares en la retina, aldepender la información transportada de las células de tipo M, que son sensibles avariaciones bruscas del contraste en su campo receptivo.

La información procedente de los dos ojos, ordenada topográficamente, llega alquiasma óptico donde se separa en los hemicampos visuales izquierdo y derecho;probablemente con el fin de integrar separadamente, en las áreas de asociacióncorticales, los estímulos de las diferentes modalidades sensoriales que llegan de cada ladodel espacio extracorporal. La información de cada hemicampo visual llega al córtex V1contralateral atravesando el núcleo geniculado lateral. Esta separación genera unadiscontinuidad en el centro del campo visual que se resuelve en el córtex mediante elcuerpo calloso, en el que se encuentran células sensibles a estímulos localizados en dichazona.

En el córtex V1, las células simples y complejas están agrupadas en columnas deorientación y de dominancia ocular; estas últimas se consideran la primera etapa en la que

Page 17: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

xvii

convergen realmente las informaciones de los dos ojos en una única percepción binocular.Por otra parte, las células de “cerca” y “lejos” que se han registrado, no se sabe hasta quépunto colaboran en el procesamiento de la estereovisión, ni su relación con las columnasde dominancia ocular. De hecho, el propio Hubel en su libro refleja sus dudas de que éstassean las células responsables de la percepción tridimensional que conocemos.

En esta tesis, a través de experimentos psicofísicos, como el estrecho margenalrededor del punto de fijación en el que se fusionan las dos imágenes, derecha eizquierda, sin producir una imagen doble, o los relacionados con los movimientossacádicos de los ojos, también reflexionaremos sobre las palabras escritas por Hubel:“Cambiando la dirección relativa de los ojos, ajustándolos hacia adentro o hacia afuera,se unirán las dos imágenes del objeto en un estrecho margen de convergencia ydivergencia. Así en principio, o el ajuste de las lentes o la posición de los ojos podríadecirnos la distancia de un objeto.”

Visión Artificial

Una de las posibilidades surgidas de la aplicación de la informática a los procesosindustriales es la inserción de la capacidad de ver, que se ha ido integrando en las máquinasintentando conseguir en ellas una mayor autonomía. Todavía, los sistemas de visión de lasmáquinas son muy primitivos y simplistas; estando orientados a una tarea muy concreta ycerrada, con unos análisis a su vez concretos y cerrados. Prácticamente, todo lo que soncapaces de hacer las máquinas es tomar una imagen o una secuencia de imágenes y realizarsobre ella un análisis basado en la extracción de características perfectamente definidasdependiendo del objetivo que se persiga. Posibles ejemplos de esto son la detección defallos mediante características, como píxeles con niveles de brillo anormales; la medidade longitudes transversales; o la detección de formas de los productos a la salida en unacadena de fabricación, con el fin de controlar el posicionamiento del brazo de un robot.

La aparente simplicidad desde el punto de vista humano de estas tareas choca conla complejidad de los procesos involucrados desde el punto de vista artificial. Estacomplejidad ha llevado a la distinción entre procesos de alto y bajo nivel en función delgrado de semántica y del conocimiento del dominio necesarios, así como a laespecificación de distintas etapas: digitalización, preproceso, segmentación, etiquetado deregiones y objetos, reconocimiento y comprensión. A su vez, atendiendo a las técnicasusadas, la distinción básica está entre la computación convencional sobre basesestadísticas, analíticas o borrosas, las técnicas basadas en el conocimiento propias de laInteligencia Artificial (IA), los sistemas expertos y las técnicas neuronales; si bien escierto que en la actualidad es usual la utilización de técnicas híbridas.

Page 18: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Introducción General y Resumen

xviii

Dentro de este entorno, ya hace tiempo se pensó en desarrollar sistemasbioinspirados, tratando de obtener sistemas robustos y eficientes en base a característicasde los sistemas neurales biológicos. El problema que se plantea aquí es que elconocimiento del sistema nervioso biológico sigue siendo muy limitado; y además, lainterrelación entre diferentes sistemas, como el visual, la memoria, el aprendizaje, etc.hacen de ésta una tarea muy compleja. Por estas razones, la pretensión de una simulacióndel sistema visual humano, de forma artificial, queda bastante lejos de lo posible en laactualidad. El interés de estos desarrollos radica en extraer y aplicar aquellascaracterísticas interesantes que aportan ideas para conseguir el propósito buscado.

Planteamiento del Problema y Objetivos

Como se ha visto en el principio de esta introducción, esta tesis propone definir unanueva alternativa que permita obtener, de forma continua, información tridimensional delmovimiento en la escena, a partir de un par estéreo de secuencias de imágenes de duraciónindefinida.

El hecho de incluir la capacidad de trabajar con secuencias indefinidas procedentesde una escena real, donde pueden existir diversos objetos que se mueven a lo largo deltiempo, implica que las teorías de visión estéreo basadas en imágenes estáticas no sepueden aplicar íntegramente, de manera que necesitan adecuarse a entornos dinámicos.

Nuestro grupo lleva varios años desarrollando sus investigaciones en el estudio delmovimiento en secuencias de imágenes. Todas estas investigaciones nos han permitidoafrontar aplicaciones como el reconocimiento de siluetas de objetos móviles en entornosruidosos [Fer03a], la clasificación de móviles según sus características del movimiento,como su velocidad o su aceleración [Fer01a] y [Fer01b], y en aplicaciones relacionadas conla atención selectiva visual [Lop03a], [Lop04]. En todos estos trabajos se ha abordado lasolución a estos problemas usando una serie de métodos de inspiración biológica basadosen dos mecanismos fundamentales: (1) la computación acumulativa, [Fer92], [Fer95a],[Fer97] y [Mir03b]; y (2) una versión generalizada del cálculo realizado por las redes deinhibición lateral algorítmica (ALI) [Mir01], [Fer01a], [Fer01b], [Del02], [Fer03b] y[Fer03c].

Todos estos trabajos han producido una base de conocimiento importante en estecampo, que en su día se pensó aplicar también a la estereovisión. Fruto de esta decisión secomenzó a trabajar en esta tesis que ahora se presenta. En ella, todos estos conocimientosfundamentales que se aplican, están centrados en un método de segmentación basada enel movimiento de los objetos respecto de las cámaras que los están percibiendo. Estasegmentación se realiza mediante el denominado efecto de permanencia, cuyo análisispormenorizado se puede encontrar en [Fer97].

Page 19: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

xix

Figura 1. Esquema general del modelo propuesto.

Para visualizar de forma gráfica la estructura del sistema que definimos, hemosutilizado el esquema de la figura 1. Puede verse cómo la entrada se obtiene desde doscámaras pareadas, que adquieren sendas secuencias indefinidas de imágenes compuestaspor series de fotogramas captados de una escena tridimensional con movimiento; y lasalida es una secuencia de mapas tridimensionales donde conocemos, para cada puntomóvil de la escena, las componentes de las coordenadas de sus vectores de velocidad yaceleración.

Si conocemos la disparidad que los elementos de la escena generan entre las dosimágenes derecha e izquierda, la obtención del plano tridimensional, es simplemente unacuestión de geometría perfectamente resuelta. Pero el problema fundamental en visiónestereo no es la geometría, sino el estudio de correspondencias o matching; esto es,emparejar los puntos de cada imagen izquierda con los de la derecha, o viceversa, quecorrespondan a un mismo punto del marco de referencia de la escena para poder medir sudisparidad y así obtener su profundidad.

Los trabajos de estereovisión tradicionales, utilizan como base para realizar elmatching, un par de imágenes estereoscópicas, bien de color, bien de niveles de gris, eintentan realizar el matching basándose en las características de forma, o en general deluminosidad. Esta tesis, en cambio, propone fundamentar la estereopsis no en lascaracterísticas de forma, sino en las de movimiento. Esto es, manteniendo la mismaestructura para resolver el problema geométrico, nosotros sustituimos el par de imágenesen niveles de gris, por otro par de imágenes que contienen las características demovimiento. En nuestro caso, fundamentamos el matching en las imágenes de carga quegenera el efecto de permanencia en cada una de las secuencias procedentes de cada sensor(Derecho-Izquierdo). Puede verse un ejemplo gráfico sencillo en la figura 2. En la parte“A” de esta figura podemos ver la escena, el par de imágenes estéreo en luminosidad, y ladisparidad que cada elemento genera. En la parte “B” vemos sin embargo que las imágenes

Page 20: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Introducción General y Resumen

xx

Figura 2. Estereovisión basada en la forma o en el movimiento

que utilizamos para realizar el matching son los mapas de carga resultado de aplicar elefecto de permanencia a la secuencia de imágenes en cada sensor.

Puesto que la estereopsis se calcula de forma continua sobre un par de secuenciasde imagen estereoscópicas, se obtiene también una secuencia continua de mapastridimensionales de movimiento. La secuencia de mapas tridimensionales en el tiempo nosgenera, por permanencia, un mapa de carga tridimensional que nos permite calcular lascoordenadas y magnitudes de los vectores velocidad y aceleración para cada punto conmovimiento. Así pues, la clave de nuestra propuesta consiste en sustituir la forma por elmovimiento, esto es, la luminosidad por la carga.

En este trabajo se ha seguido el camino metodológico usual en Ingeniería delConocimiento (IC). Se parte de un estudio de las especificaciones funcionales a nivel delconocimiento, donde se propone también el modelo conceptual dentro de la perspectivafuncional o representacional de la IA, es decir, en términos de tareas, subtareas, métodos,inferencias, roles estáticos y dinámicos, y conocimiento específico del dominio. Despuésse operacionalizan las inferencias y se implementan los operadores. Finalmente, se evalúala implementación de la estereovisión dinámica para secuencias virtuales y reales, y secompara el enfoque propuesto con el de otros autores.

Una vez planteado el objetivo global y la metodología usada, a continuación seindican los objetivos específicos de la misma.

Page 21: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

xxi

S En primer lugar, el problema de estereovisión, generalmente, obtiene un mapatridimensional estático de la escena a partir de un par de imágenes estéreo, que nopertenecen a secuencia alguna. Esta tesis no intenta obtener un mapa tridimensionalestático, si no un mapa tridimensional de movimiento donde exista informaciónde las componentes de las coordenadas de los vectores de velocidad y aceleraciónde los puntos móviles en la escena.

S Para ello, no utiliza simplemente un par de imágenes (izquierda-derecha) estáticasaisladas, sino que utiliza dos secuencias de imágenes indefinidas (izquierda-derecha). En estas secuencias, las imágenes están emparejadas cuadro a cuadro.

S La salida, por tanto, no es un mapa tridimensional estático de la escena, sino unasecuencia de mapas tridimensionales de movimiento, uno por cuadro, quereflejan el movimiento en la escena a cada cuadro y de forma indefinida.

S No son de nuestro interés los elementos estáticos de la escena, por lo que el sistemadebe filtrarlos. No aparecerá, por tanto, información tridimensional de loselementos estáticos de la escena. No son invisibles, ya que se produce oclusióncuando los elementos móviles se ocultan tras ellos, pero no son visibles para elsistema.

S En definitiva, no realizamos estereovisión basada en la forma, sino estereovisiónbasada en el movimiento.

S Los sistemas biológicos de estereovisión tienen generalmente la capacidad de variarla profundidad y localización del punto de fijación. Generalmente, este se focalizapara atender elementos de la escena que son de interés para el observador. Ennuestro caso, el sistema propuesto se optimiza para obtener información demovimiento en la periferia del campo visual, con el fin de que sirva como soportea cualquier otro sistema de visión artificial convencional. Algo así como una ayudapara detectar un balón que viene hacia nosotros mientras estamos mirando un niñosentado en la arena.

Asimismo deseamos que el acercamiento que se realiza produzca frutos en dossentidos. Por un lado que la biología nos enseñe lo que hace, para poder entender cómo lohace; y por otro pretendemos humildemente, plantear mecanismos que, al resolver partede la funcionalidad que encontramos en los sistemas biológicos, puedan servir de fuentede inspiración tanto a investigadores del campo de la biología como de la inteligenciaartificial, para abrir líneas de trabajo que hasta la fecha no existen en el estado del arteactual.

Page 22: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Introducción General y Resumen

xxii

Resumen

A continuación se muestra la distribución de los contenidos de los distintoscapítulos en los que se estructura esta memoria de tesis doctoral.S En el primer capítulo se muestran diversos conocimientos fisiológicos y

psicológicos sobre la visión natural, centrando la atención en aquellos que son másimportantes para nuestro modelo de visión estereoscópica dinámica. Por otro lado,se incluyen distintos modelos computacionales realizados que intentan explicar losresultados obtenidos en los experimentos psicofísicos. El capítulo termina con unarevisión de algunos de los dominios de aplicación más usuales.

S En el capítulo segundo se relaciona de una manera conceptual la tarea de la visiónestereoscópica dinámica con las memorias de permanencia. Se analizan lasmemorias de permanencia en el nivel físico y en el nivel simbólico y, finalmente,se analiza su aplicación al problema de la Visión Estereoscópica Dinámica.

S El capítulo tercero constituye el corazón del modelo propuesto. Aquí presentamosla descomposición de la tarea de “Análisis Estéreo del Movimiento 3D”, laobtención del esquema inferencial asociado a cada una de las subtareas y laoperacionalización de las inferencias, especificando los distintos roles en términosdel conocimiento del dominio. Aunque todos los resultados se agrupan en elcapítulo cuarto, aquí introducimos algunos ejemplos con imágenes reales paraponer de manifiesto el efecto producido por el cálculo asociado a cada una de lassubtareas.

S El capítulo cuarto está dedicado a mostrar los resultados obtenidos con el modelopropuesto en una serie de aplicaciones; en ellas se han variado los resultados aconseguir en cada caso, de manera que puedan mostrar las posibilidades que ofrecenuestro sistema. Esta variación de resultados está estructurada en términos delobjetivo final: (1) Estimación de la profundidad y detección del movimiento enprofundidad, (2) eliminación de objetos estáticos, (3) navegación autónoma de unvehículo inteligente y finalmente (4) análisis de la velocidad en la profundidad. Enestos procesos se han utilizado tanto secuencias sintéticas como reales.

S En el capítulo quinto se ofrece una discusión de los resultados y su comparacióncon los resultados obtenidos por otros autores. Se utiliza como marco decomparación la naturaleza de las suposiciones tomadas como puntos de partida delas distintas alternativas para un mismo problema.

S Finalmente en el capítulo sexto se presenta un resumen de las conclusiones y lasprincipales aportaciones de este trabajo.

Page 23: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

xxiii

Junto con estas conclusiones incluimos también algunas reflexiones sobre losaspectos a mejorar en nuestro sistema de visión estereoscópica dinámica: en particular elaprendizaje autónomo, y sobre los distintos dominios de aplicación. El objetivo a medioplazo es dotar a nuestro sistema de la capacidad de reconfiguración y aprendizaje, paraadaptarse a distintos escenarios.

Al final de la memoria se ha incluido un apéndice donde se muestra el códigodesarrollado que nos ha permitido valorar la solución propuesta.

Page 24: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

xxiv

Page 25: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

1

1. Conceptos y Técnicas en Estereovisión

Este capítulo está orientado a realizar un recorrido por diversos dominios deconocimiento relacionados con la estereovisión. En el ámbito de lo biológico se abordan,en primer lugar, detalles relacionados con la psicología de la percepción. Posteriormentese presentan algunas teorías neurológicas centradas en los conceptos que nos han servidode inspiración para desarrollar nuestro modelo. Seguidamente, se hace un repaso de losconceptos implicados en la visión estereoscópica artificial, para finalizar con un recorridopor los modelos computacionales realizados y sus aplicaciones.

1.1. Aspectos Psicológicos de la Estereovisión

La percepción visual, y en consecuencia la estereovisión, no dependen sólo de lainformación luminosa que llega a los fotorreceptores de nuestra retina, sino también deotros factores psicológicos. Por ello hemos querido comenzar este capítulo realizando unrepaso de los más importantes. Comenzaremos con aquellos que afectan a la visión engeneral para posteriormente orientarnos hacia la estereovisión.

1.1.1. Psicología de la Visión

Hasta hace relativamente poco, la percepción visual se comparaba frecuentementecon la operación de una cámara fotográfica en la que el cristalino enfoca e invierte laimagen sobre la retina. Esta analogía ha decaído rápidamente, ya que pasa por alto lo querealmente hace la vista, que es crear una percepción tridimensional del mundo distinta delas imágenes bidimensionales proyectadas sobre la retina. Dicha analogía tampoco puededar cuenta de una característica importante de nuestro sistema visual: el que podamosreconocer un objeto aunque su imagen sobre la retina varíe considerablemente bajodistintas condiciones de iluminación. Además de ésto, se consideran otras característicasbásicas respecto de nuestra percepción:

S La aparente continuidad de percepciones nos hace pensar que cada proceso mentalconcreto (ver, pensar, aprender, etc.) es algo continuo e indivisible. En cambio, estaapariencia de continuidad en las diferentes percepciones del mundo, es una ilusión.

Page 26: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

2

En realidad, dichos procesos se componen de varios elementos independientes deinformación-procesamiento; de manera que, incluso la tarea cognitiva más sencillarequiere la coordinación de varias áreas distintas del encéfalo para su ejecución[Kan00]. Una vez que cada una de las vías sensoriales ha sido analizada porseparado, y extraída toda la información relevante de cada estímulo, todas elstasvías vuelven a converger en los centros superiores y en las áreas de asociación delsistema nervioso para conseguir percepciones más elaboradas. Como ejemplo, lasáreas somatosensoriales primarias y secundarias del córtex parietal anteriorproyectan a la otra principal subdivisión del lóbulo parietal, el córtex parietalposterior. Estas áreas parietales posteriores también reciben entradas de lossistemas visual y auditivo, y se ocupan de integrarlas todas, así como de dar lugara las percepciones espaciales, de focalizar la atención en el espacio extrapersonaly de la integración visiomotora.

S La segunda de ellas es que la percepción es un proceso activo y creativo, más quepasivo. El cerebro construye una representación interna de los acontecimientosfísicos externos, después de haber analizado sus componentes con anterioridad. Apartir de los distintos detalles de un estímulo, el encéfalo los organiza de tal modoque crea un conjunto perceptual, que es más que la suma de sus partes. Un ejemplode esto es cómo la sensación del tacto y la propiocepción de la mano soncombinadas para producir la sensación de forma tridimensional cuandoagarramos un objeto.

S Por otra parte, la percepción, no sólo depende de la información intrínseca delestímulo, sino que también depende de la estructura mental de quién la percibe.Por tanto podemos decir que la percepción es un proceso constructivo. El cerebroconstruye activamente preceptos completos a partir de los detalles de la imagenvisual. Cuando miramos a nuestro alrededor, no vemos puntos de colores, sino queidentificamos los objetos que nos rodean. El cerebro realiza esto estableciendociertos supuestos sobre lo que se verá en el mundo, supuestos que parecen derivaren parte de la experiencia y en parte de la organización de las conexiones neuralespara la visión. Así un cubo dibujado en el papel nos parecerá un cubotridimensional porque hemos tenido una amplia experiencia con cajas reales.

S Finalmente, a los psicólogos de la Gestalt les gustaba comparar la percepción dela forma visual con la percepción de una melodía. Lo que reconocemos en unamelodía no es la secuencia de notas concretas sino su interrelación. Una melodíatocada en distintas claves seguirá siendo reconocida como la misma porque larelación entre las notas permanece constante. Del mismo modo, podemos reconocerdistintas imágenes bajo distintas condiciones visuales. Incluyendo diferencias deiluminación, porque la relación entre los componentes de la imagen se mantienen.

Page 27: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

3

Además de estas características básicas, el mecanismo de la atención juega unpapel muy significativo en lo que percibimos en cada momento. Maurits Escher escribe:“Nuestros ojos están acostumbrados a fijarse en objetos específicos. En el momento en elque esto ocurre todo lo que los rodea queda reducido a un fondo. El ojo y la mentehumana no pueden estar ocupados con dos cosas a la vez por lo que debe haber un pasorápido y continuo de un lado al otro.” La dicotomía figura-fondo ilustra así uno de losprincipios de la percepción visual: sólo se selecciona como foco de atención una parte dela imagen mientras que el resto queda sumergido en el fondo.

Se cree que, para separar la figura del fondo, organizamos el campo visual encomponentes coherentes, representando cada uno de ellos por un conjunto de valores deprofundidad, brillo y textura. Además, cuando un objeto se mueve, un conjunto de estoselementos tendrá una dirección específica y una velocidad de movimiento, de modo queun conjunto en movimiento puede ser una clave para distinguir los objetos. La profundidad,el brillo y la textura pueden analizarse eficientemente con una resolución baja. Así lascapacidades para discriminar la figura del fondo, para unir partes de la escena y parapercibir las relaciones espaciales pueden estar mediadas, todas ellas, por un sistema de bajaresolución que organiza toda la imagen definiendo sus componentes. Sin embargo, elanálisis de la forma requiere una resolución alta.

1.1.2. Psicología de la Estereovisión

Nuestra capacidad de estimar la profundidad depende de cinco principios: en primerlugar, podemos considerar muchas pistas sobre la profundidad. Por ejemplo, cuando unobjeto oculta parcialmente a otro, consideramos que éste está mas cerca que aquel. Cuandomovemos la cabeza de un lado a otro o de arriba hacia abajo, el movimiento relativo de losobjetos a diferentes distancias varía. Esto es lo que se llama el paralaje. Si reconocemosun objeto del campo visual, su tamaño relativo en la retina nos puede dar una estimaciónde su profundidad; y si no lo conocemos, podemos establecer puntos de referencia en suentorno para hacer estimaciones tanto de su tamaño como de su distancia. Asimismo, laobservación de las sombras y la perspectiva también nos permite hacer conjeturas.

Por su parte, Hubel en su libro [Hub95] escribe sobre las variaciones en el enfoquea través del cristalino y la convergencia y divergencia de los ojos, que nos permitefusionar las dos imágenes percibidas en un sólo constructo perceptual, como otros dosmecanismos que nos pueden permitir estimar la distancia a la que está un objeto. Algunosdetectores de profundidad están basados en estos principios. Excepto esta convergencia-divergencia, todas las demás opciones afectan sólo a un ojo; pero la estereopsis, que es la

Page 28: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

4

forma más importante y más precisa de analizar la profundidad en una escena, depende dela utilización de los dos ojos conjuntamente.

Si fijamos nuestra mirada en un punto del espacio, cualquier punto a la mismaprofundidad que el punto de convergencia de los dos ojos caerá en puntos homólogos delas dos retinas. Si ahora consideramos un punto de luz que está a una profundidaddiferente, en las dos retinas se generan dos puntos de luz de manera que no coincidirán ensus posiciones relativas; no serán homólogos. Esta distancia relativa entre las dos imágenesdefine la disparidad. Cuando las imágenes en las retinas está más hacia afuera (teniendoen cuenta la inversión de la imagen que se produce en el ojo) el objeto estará más cerca,y cuando el desplazamiento es hacia adentro, el objeto está mas alejado. Se ha observadoque si la disparidad en la dirección horizontal es menor que 2 grados y no tienecomponente vertical o es menor que unos pocos minutos de arco, lo que percibimos es unsolo punto en el espacio. Asimismo, si el desplazamiento está fuera de este margentendremos una doble visión del punto de luz, y puede o no parecer que está más lejos omás cerca.

1.2. Fisiología de la Estereovisión

Un hecho tan cotidiano como es el ver lleva consigo todo un conjunto de pequeñastareas que nosotros no apreciamos, debido a que las realizamos de forma automática yfuera de todo control consciente. El sistema nervioso del que forma parte el sistema visualpodemos considerarlo como un enorme sistema de control. En él, las diferentespercepciones están orientadas en muchas ocasiones a la ejecución y el control de acciones,y algunas de nuestras acciones nos permiten percepciones más complejas. Un ejemplode ello lo tenemos en el seguimiento de objetos; y a nuestro entender, como veremos enel apartado 1.2.5.2, también nos proporciona la percepción visual estereoscópica completa.

Los principios de polarización dinámica y de especificidad de las conexiones nospermiten deducir que la información percibida fluye a través de las vías neurales en un sólosentido, y que la convergencia y divergencia de la información que se produce en cadaneurona sugiere la existencia de un procesamiento en etapas basado en efectos deintegración y transmisión.

A partir de estos objetos, en las primeras etapas del sistema visual, las célulasganglionares retinianas y las geniculadas responden fundamentalmente a los contrastes deluz en pequeños campos receptivos circulares. En el nivel siguiente, el córtex visualprimario, las células simples responden a estímulos lineales orientados con relativaprecisión y a límites dentro de los campos receptivos rectilíneos que abarcan los camposreceptivos de varias neuronas de orden inferior. En las células complejas, cuyos campos

Page 29: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

5

receptivos son mayores, el eje de orientación sigue siendo importante, pero no así laposición exacta del estímulo sino, en algunos casos, su dirección de movimiento. Así, encada nivel del sistema aferente, las características del estímulo necesarias para activar unacélula son muy distintas aumentando, en cada etapa, el nivel de abstracción.

Según esto, los expertos suelen diferenciar dos etapas en el proceso de la visión:

S Una primera etapa de procesamiento a bajo nivel, que abarca un procesamiento deimágenes automático, sin utilizar la información pasada almacenada en la memoriani el razonamiento;

S y una segunda etapa que conlleva un procesamiento de más alto nivel, para el quesí se utilizan recursos atencionales, experiencias pasadas y tienen lugar inferencias,añadiéndose a la información extraída del estímulo un plus de información queenriquece la percepción.

En esta segunda etapa del proceso de visión se encuentran bastantes áreas deestudio, como la detección y el reconocimiento de objetos, la detección del movimiento yla percepción tridimensional que nos ocupa en esta tesis, entre otras.

De los principios de funcionamiento del sistema nervioso que se pueden observaren [Kan00] destacamos estos cuatro:

S El procesamiento en paralelo y la separación en vías de cada uno de los procesosmentales, visto en el apartado 1.1.1 desde el punto de vista psicológico, tambiéntiene su perspectiva fisiológica.

S Cada sistema se organiza topográficamente; pero no todas las áreas del camposensorial se representan equitativamente en cada vía; por ejemplo, la región centralde la retina, que es el área de mayor agudeza visual, posee una representacióncortical desproporcionadamente grande, ya que se requiere también un númeromayor de neuronas y conexiones sinápticas para procesar la información detalladaprocedente de este área.

S Muchas de las vías nerviosas se cruzan al lado opuesto del encéfalo o de lamédula espinal. A consecuencia de este hecho, los eventos sensoriales queacontecen a un lado del cuerpo se controlan por el hemisferio del lado opuesto.Como se vio en la introducción general, probablemente con el fin de integrarseparadamente los estímulos de los distintos sistemas sensoriales procedentes decada lado del cuerpo.

S Cada sistema neuronal traduce el estímulo a una señal neural electroquímica. Losatributos de este estímulo deben quedar representados en las señales de la neuronasensorial primaria. Dicha información sensorial debe ser afinada para conseguir una

Page 30: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

6

máxima capacidad de discriminación entre los diferentes estímulos; de esta labores responsable el mecanismo de inhibición lateral, que amplifica el contraste delos rasgos de los estímulos.

Una vez vistos los principios generales del sistema nervioso y del sistema visual,a continuación desarrollamos aquellas partes que más nos han interesado para laconfiguración de nuestro modelo.

1.2.1. Entrada de Imágenes

Respecto de la entrada de imágenes y los primeros procesamientos realizados, nosfijamos en dos características fundamentales: el análisis de las imágenes, y la respuesta delsistema ante imágenes estáticas.

1.2.1.1. Análisis de Imágenes

La convergencia de las señales neurales de los fotorreceptores hacia las célulasganglionares a través de las interneuronas bipolares, horizontales y amacrinas, y suproyección hacia el córtex visual primario a través del núcleo geniculado lateral provocaque, en las células simples y complejas, los campos receptivos sean más elaboradosaumentando el nivel de abstracción a cada paso [Mar98]. Su resultado son las columnasde orientación y de dominancia ocular, de las cuales en este punto sólo nos interesan lasprimeras; las columnas de dominancia ocular las retomaremos en el apartado 1.2.4. relativoa la integración binocular.

En las columnas de orientación, a través de las vías de centro-on y centro-off, lascélulas tienen respuestas eléctricas que dependen por completo de los patrones espacialesy temporales de la luz que estimula la retina haciendo las veces de un filtro paso alto. Eneste caso, la información se centra en un realce del contraste de los contornos de loselementos de la imagen capaces de excitar el centro del campo receptivo de cada célula,e inhibir la periferia de forma transitoria.

En el caso de nuestro modelo, aunque la segmentación en bandas de niveles de grisobtiene resultados conceptualmente diferentes (regiones en vez de contornos), tambiénrepresentan un nivel de abstracción superior al de los píxeles. No obstante, si además dela segmentación en bandas tenemos en cuenta el efecto de permanencia posterior, se veráque su resultado también serán aquellos contornos de los objetos que se están moviendo;de la misma manera que las células simples disparan cuando un contorno llega o se va desu campo receptivo en el campo visual.

Page 31: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

7

1.2.1.2. Respuesta ante Imágenes Estáticas

En el procesamiento intermedio producido por el córtex V1 las células simples decentro-on y centro-off se limitan a disparar cuando un estímulo orientado llega a suposición concreta, o desaparece de ella. Además estos disparos cesan a lo largo del tiempoen el caso de que el movimiento desaparezca. Este aspecto queda nítidamente expuesto enlos estudios psicofísicos relacionados con los movimientos microsacádicos.

Cuando miramos hacia una escena estacionaria, nosotros fijamos los ojos en unpunto de interés, pero esta fijación no es absoluta. A pesar de los esfuerzos que hagamos,los ojos no permanecen inmóviles, sino que continúan realizando movimientos constantesmuy pequeños, llamados microsacádicos. Esto ocurre varias veces por segundo y son máso menos aleatorios en dirección y con una amplitud de 1 o 2 minutos de arco.Curiosamente, si intentamos fijar artificialmente una imagen en la retina eliminandocualquier movimiento relativo, la visión desaparece en aproximadamente un segundo y laimagen se vuelve vacía. Esto nos da la evidencia de que los movimientos microsacádicosson necesarios para continuar observando los objetos estacionarios.

Como puede verse, algo así es lo que realizan los elementos de carga de lasmemorias de permanencia de nuestro sistema. En el caso biológico, al producirse unmovimiento, las células que lo detectan comienzan a disparar, y posteriormentedisminuyen su tasa de disparo lentamente. En el modelo presentado, cuando un elementode carga detecta movimiento se satura, y posteriormente, se descarga paulatinamente.

1.2.2. Movimiento y Estereovisión

Las tres vías neurales paralelas que posibilitan el análisis de la percepción visualrealizan un procesamiento especializado en el color, la forma y el movimiento de losobjetos. La existencia de estas tres vías paralelas plantea el problema de la integración delas tres informaciones en áreas de asociación. En el caso de esta tesis sólo se hacereferencia a la vía del movimiento; las otras dos se presentan aquí de forma muy breve.

La vía implicada en la percepción del color surge de las células P de la retina queson sensibles al color y llega a los blobs de V1 que tienen campos receptivos circulares.Esta vía termina en el córtex inferotemporal; un área de asociación implicada también enla en la percepción del color.

La vía implicada en la percepción de la forma también surge de las células P de laretina que presentan además una resolución muy alta, lo que probablemente es importantepara ver los objetos con detalle. La forma se analiza en base exclusivamente a ladisposición de contornos rectilíneos orientados detectados por las células simples y

Page 32: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

8

complejas del córtex V1, no aportando ninguna información las áreas monótonas. Losmecanismos de invarianza posicional formados por las células complejas se encargan deabsorber el movimiento que se produce en las imágenes, entre ellos los movimientosmicrosacádicos.

La tercera vía, la vía magnocelular está especializada en la detección delmovimiento y en las relaciones espaciales, y contribuye de manera importante junto conla vía de la forma a la percepción de la profundidad. La vía del movimiento comienza enlas células tipo M de la retina que tienen una resolución baja y son sensibles, no almovimiento en sí, sino más bien a variaciones bruscas del contraste dentro de su camporeceptor. Esta vía termina en el córtex TM, un área implicada en la profundidad y en elmovimiento proyectando posteriormente a otras áreas en el córtex parietal implicadas enla función visuoespacial. Las neuronas de este sistema son relativamente insensibles alcolor y realizan análisis pobres de los objetos fijos.

Las tres vías especializadas interactúan a varios niveles. La contribución delsistema parvocelular puede examinarse en aislamiento parcial, reduciendo la entrada delsistema magnocelular. Esto puede conseguirse utilizando estímulos isoluminantes,imágenes que varían en el color pero no en el grado de brillo. El sistema magnocelular esprácticamente ciego al color; sólo se basa por tanto en claves de brillo, y no podríadistinguir bordes entre un rojo y un verde isoluminantes. Por lo tanto, los estímulosisoluminantes reducen la contribución del sistema magnocelular a la percepción. Estudiosde las respuestas humanas a estímulos isoluminantes sugieren que la percepción delmovimiento se ve comprometida sustancialmente por la isoluminancia. En consecuencia,se piensa que la información sobre el movimiento puede ser procesada, en gran medida,independientemente de la información sobre el color, presumiblemente por el sistemamagnocelular, y ampliamente independiente del sistema parvocelular. La perspectiva, eltamaño relativo de los objetos, la percepción de la profundidad, la relación figura-fondoy las ilusiones visuales también desaparecen con la isoluminancia y por lo tanto parecenestar mediadas fundamentalmente por el sistema magnocelular.

A pesar de que existe un consenso acerca de que el sistema visual realiza unprocesamiento en paralelo, los investigadores no están de acuerdo sobre hasta qué puntolas distintas funciones están divididas entre las tres vías. Una de las discusiones seestablece en torno a la cuestión de si los estímulos isoluminantes sólo afectan a la víamagnocelular. Otra se centra sobre la extensión de la interacción entre las vías. Un ciertonúmero de investigadores defiende que a pesar de lo especializada que esté una vía en elprocesamiento de un componente concreto de la imagen visual, las otras vías tambiéncontribuyen al procesamiento de esos componentes, debido a la extensa comunicaciónentre las vías.

Page 33: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

9

Al igual que en el caso biológico, el análisis de profundidad del modelo presentadoen esta tesis también se centra sobre todo en el movimiento. Nuestra entrada de imágenesal sistema de análisis de disparidades son las memorias de permanencia, queexclusivamente poseen información sobre el movimiento, eliminando toda informaciónestática del sistema. Por otra parte, el análisis de las imágenes que se realiza, basado en lasegmentación en bandas de niveles de gris, también elimina la información de color;eliminación que parece se produce en la vía magnocelular biológica.

1.2.2.1. Análisis Biológico del Movimiento

Dado que los análisis iniciales del modelo presentado se centran en extraer lainformación del movimiento, en este apartado se presenta su correspondencia en eldominio biológico.

Debido a que nos movemos constantemente, necesitamos información precisa sobreel movimiento de los objetos en relación a nosotros. Incluso cuando ni nosotros ni losobjetos que interesan se mueven, las imágenes que caen sobre la retina se mueven, porquenuestros ojos y nuestra cabeza nunca están completamente quietos. El sistema visualtiene dos modos de detectar el movimiento: uno basado en el movimiento de la imagen yotro basado en el movimiento de la cabeza y los ojos. En este capítulo consideramos elmovimiento de la imagen en el campo visual.

La detección del movimiento es tan importante para la adaptación de la mayoría delos animales que sólo los humanos y otros primates evolucionados pueden responder aobjetos que no se mueven. Muchos vertebrados tales como las ranas y los ciervos nopueden ver los objetos a menos que se muevan. En humanos esta limitación persiste en laparte periférica de la retina. No podemos detectar objetos estáticos en los extremosperiféricos del campo visual; en vez de ello, un objeto en movimiento en la periferiadesencadena un reflejo inconsciente que provoca la rotación de los ojos, colocando así elobjeto móvil en el campo visual central.

El movimiento en el campo visual podría detectarse comparando la posición de lasimágenes percibidas en distintos momentos. La mayoría de las células del sistema visualresponden sólo ante estímulos que inciden sobre un lugar determinado de la retina y puedenproporcionar información sobre acontecimientos con una separación temporal de decenasde milisegundos. Por lo tanto, en principio, el sistema visual debería ser capaz de extraerinformación sobre el movimiento comparando la localización actual de un objeto sobre laretina y su localización previa.

La evidencia de la existencia de una vía aferente distinta para la detección delmovimiento ha llegado de las observaciones psicofísicas sobre movimiento aparente, una

Page 34: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

10

ilusión de movimiento que aparece cuando luces separadas se encienden y apagan con losintervalos adecuados proporcionando la ilusión de movimiento a pesar de que las luces nohan cambiado de posición. Las películas son otro claro ejemplo de la ilusión delmovimiento aparente. La impresión de movimiento es producida por la sucesión rápida defotogramas estáticos sobre la pantalla. Esta ilusión muestra cómo la imagen de un objetono tiene que barrer la retina continuamente para que el movimiento sea percibido y sugiereque la información acerca de la posición y el movimiento se transporta por vías distintas.

La información sobre el movimiento nace en las grandes células de tipo M. Estascélulas no tienen una sensibilidad especial al movimiento por sí mismas, pero respondenmejor a dianas circulares en el campo visual cuyo contraste varía en el tiempo. Las señalesgeneradas por las células de tipo M se transmiten a través de las capas magnocelulares delnúcleo geniculado lateral a varias capas del córtex visual V1. En V1 las señales sonprocesadas por neuronas simples y complejas selectivas a la dirección del movimientoperpendicular a su eje de orientación. Estas señales de tipo M se elaboran posteriormenteen el área temporal medial (TM o V5) y el área temporal superior medial (TSM o V5a) ydespués se remiten al área visiomotora del lóbulo parietal donde los patrones de neuronasreflejan la velocidad y la dirección del movimiento de los objetos en el campo visual.

Cuando uno o más objetos se mueven simultáneamente en una región limitada delcampo visual, necesitamos distinguir entre el movimiento de partes distintas de un mismoobjeto y el movimiento de distintos objetos. ¿Cómo se realiza esta distinción en elencéfalo?, esta cuestión se ha planteado mediante experimentos de psicofísica en humanosen los que se utilizan patrones de líneas paralelas y en movimiento o enrejados. Dosenrejados distintos se mueven inicialmente de modo independiente (en ángulo recto consus ejes de orientación) y después se mueven conjuntamente, uno sobre otro, pero cada unomoviéndose en ángulo recto con su eje de orientación. Al sujeto se le pregunta si percibelos patrones superpuestos como dos enrejados independientes desplazándose uno sobre elotro o como un montaje único de cuadros moviéndose en una dirección. Cuando losenrejados están aproximadamente superpuestos, el observador, de hecho, ve un únicopatrón moviéndose en una sola dirección.

Estos hallazgos psicofísicos han llevado a la idea de que la información sobre elmovimiento se analiza en dos etapas. En la primera están implicadas las células simplesy complejas que detectan movimientos perpendiculares a los ejes de orientación, es decir,la información sobre un componente del movimiento de un objeto de múltiples caras. Lasegunda etapa está implicada con el establecimiento de patrones complejos demovimiento; las neuronas activas en esta segunda etapa integrarían las diferentesdirecciones de movimiento detectadas por las neuronas activas en la primera etapa delprocesamiento.

Page 35: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

11

La hipótesis de las dos etapas fue sometida a prueba en experimentosneurofisiológicos en monos, en los que se registraba la actividad de neuronas corticalesmientras que se le presentaba al mono la secuencia de estímulos anterior. Las neuronas deV1, así como la mayoría de las neuronas del córtex TM, sólo responden bien almovimiento de un componente del patrón o conjunto de cuadros, por ejemplo, a uno de losenrejados que se mueven en una dirección perpendicular al eje de orientación del camporeceptor de la célula. No responden a la dirección del movimiento del conjunto de cuadros.Estas neuronas se denominan neuronas selectivas a la dirección de los componentes. Unasegunda población de neuronas en el TM es pequeña (alrededor de un 20%), y respondea la dirección del movimiento de un conjunto de cuadros, debido presumiblemente a queintegran entradas de células selectivas a la dirección de los componentes. Estas neuronasse denominan neuronas selectivas a la dirección del patrón.

Así, como sugiere la hipótesis de las dos etapas, las células selectivas a la direccióndel patrón del córtex TM, procesan el movimiento global de un objeto en base a lasentradas de las neuronas del V1 y V2 selectivas a la dirección de los componentes. Todoello es consistente con nuestra percepción del movimiento.

Al igual que en otras áreas corticales, las neuronas del TM están organizadasfuncionalmente en columnas. Las neuronas de una única columna se excitan por elmovimiento en una dirección pero no por el movimiento en otras direcciones. La direcciónpreferente del movimiento varía sistemáticamente de una columna a otra, de modo que elTM contiene una representación completa del movimiento en todas las direcciones en cadapunto del campo visual.

La mayor parte de las células del córtex V1 que participan en la vía del movimientoson células simples. Realmente, el córtex V1, junto con el V2 son zonas de procesamientointermedio y en él no se analiza el movimiento en sí. Las células del córtex que se handetectado sensibles al movimiento en una dirección concreta están situadas en el córtexTM (temporal medial).

El análisis del movimiento que realiza nuestro modelo es cercano al realizado porlas células simples de las etapas intermedias de la vía magnocelular. Las células simplesdisparan al detectar un contorno que se mueve en su campo receptivo y nuestros elementosde carga se saturan al detectar movimiento y se descargan en ausencia de éste.Procesamientos posteriores nos permiten sin embargo estimar las velocidades de losobjetos y sus direcciones, en base a las estelas de movimiento formadas en los mapas decarga.

Page 36: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

12

1.2.3. Separación de Hemicampos Visuales

Una de las características generales de organización funcional del encéfalo es elanálisis por separado de los estímulos que provienen de cada lado del cuerpo,probablemente con la finalidad de integrar separadamente los diversos estímulossensoriales procedentes de cada lado del entorno extracorporal. Un ejemplo de esto,podemos encontrarlo en el sistema somatosensorial dedicado a la sensación del tacto. Eneste caso, la percepción táctil producida en la mano izquierda se procesa en el hemisferioderecho del cerebro y la sensación táctil producida en la mano derecha se procesa en elhemisferio izquierdo.

En el sistema visual no se atiende de forma independiente a cada ojo, sino que, loque se procesan por separado son los dos hemicampos visuales derecho e izquierdo; portanto, esta separación es algo más compleja. Los dos nervios ópticos que forman los axonesde las células ganglionares de la retina de cada ojo llegan al quiasma óptico y allí seentrecruzan y distribuyen de manera que en el hemisferio izquierdo se procesa toda lainformación de los dos ojos procedente del hemicampo visual derecho, y en el hemisferioderecho se procesa la información del hemicampo visual izquierdo. La separación de lasdos mitades en la retina se produce a partir del centro de la fóvea, con lo que loshemicampos visuales se dividen a partir de la vertical del punto de fijación, o punto dondese cruzan los dos ejes ópticos de los ojos.

Una vez separados los dos hemicampos visuales, puede entenderse que apareceríauna discontinuidad en el análisis del centro del campo visual. Esta discontinuidad seresuelve a través del cuerpo calloso; una comisura que interconecta las células cuyoscampos receptores están en el centro del campo visual para unificar las imágenesprocedentes de los dos ojos en la percepción de un único mundo visual.

Nosotros, en nuestro algoritmo, también realizamos esta división de los doshemicampos visuales y los analizamos por separado; pero no simplemente por imitar a labiología, sino para permitir la utilización de la información de los eventos que suceden aun lado y al otro del punto de fijación de forma separada.

1.2.4. Integración Binocular

En las columnas de dominancia ocular es donde se interrelacionan por primera vezlas informaciones de los dos ojos entre sí. En dichas columnas de dominancia ocularexisten células simples, que son sensibles a la posición y la orientación de los estímulos;y células complejas que también son sensibles a la orientación, pero que permiten unpequeño margen de desplazamiento del estímulo dentro del campo receptor. A primera

Page 37: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

13

vista, puede parecer sensato que tanto las células simples como las complejas participenen el procesamiento encaminado a la percepción del movimiento; máxime las célulascomplejas, debido a su comportamiento de seguir disparando, a pesar de que el estímulose mueva dentro del campo receptivo; en cambio, esto no es así. No todas las célulascomplejas participan en la percepción del movimiento; sino que más bien participan en lainvarianza a la posición en el proceso de análisis de la forma.

En cuanto a la percepción de la profundidad, cuando observamos cuidadosamentelas respuestas de las células corticales, muchas de las células binoculares del córtex visualno parecen estar influenciadas en exceso con las posiciones relativas de los estímulos enlos dos ojos. Si consideramos una célula compleja típica que dispara continuamente si labarra excitatoria se desplaza a lo largo del campo receptivo en cada ojo, cuando los dosojos se estimulan conjuntamente, la célula dispara a un ritmo mucho mayor que lo hacecuando se excita a los dos ojos por separado; pero no importa si el estímulo está en unmomento dado colocado exactamente en la misma posición en las dos retinas. La mayorrespuesta aparece si la barra entra y sale al mismo tiempo del campo receptivo, pero sientra un poco antes o un poco después, no importa demasiado; en cambio, lo importantepara la estereopsis es detectar que las barras estén en las posiciones correspondientes dela retina en un mismo instante. Las columnas de dominancia ocular referentes a célulassimples, en cambio, responden a campos receptivos coincidentes, aquellos que están a lamisma distancia donde convergen los ojos; por tanto, éstas serán de gran utilidad para laestimación de la profundidad.

En el caso de nuestro modelo el análisis de correspondencias de cada mapa de cargase centra también en comparar la información homóloga de los elementos de carga deambas imágenes, considerando como correspondencias aquellas en las que los doselementos de carga tienen valores semejantes, de la misma manera que las células dedominancia atienden a células con las mismas características de posición y orientación delos estímulos.

1.2.5. Análisis de Disparidades

Al afrontar el análisis de disparidades en las memorias de permanencia tambiénhemos tratado de aplicar algunas características extraídas del sistema visual humano.

Page 38: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

14

1.2.5.1. Análisis Clásico

Ciertamente la bibliografía no es concluyente en cuanto a los procesamientosinternos que realiza el sistema nervioso para estimar la profundidad a través de laestereopsis. No obstante, sí nos parecen relevantes algunas de las ideas que se plantean alrespecto.

Se han encontrado células de córtex que disparan si el objeto está muy lejos, y otrasque responden si los estímulos están cercanos conforme variamos la disparidad. Estascélulas se denominan células de lejos y células de cerca. Otras células, en cambiomuestran cambios rápidos en su respuesta cerca de la disparidad nula. Estos tres tipos decélulas se llaman células de disparidad y han sido vistas en el área V1 de los monos.Todavía no esta claro lo comunes que son estas células de disparidad, si están dispuestasen una capa especial, o si tienen alguna relación especial con las columnas de dominanciaocular. Estas células tienen muy en cuenta la distancia a la que está el objeto, estimada através de la posición relativa de los estímulos respecto de la retina. Otra característica deestas células es que responden muy poco o casi nada cuando hay estímulos en un solo ojo.Todas estas células tienen la característica común de la especificidad a la orientación. Dehecho, hasta donde se conoce, éstas son semejantes a las células complejas ordinarias decapas superiores excepto por su sensibilidad a la profundidad, y también responden muybien a estímulos móviles que algunas veces son sensibles a término.

Gian Poggio ha registrado células sensibles a la disparidad nula en monosentrenados para mantener sus ojos fijos a un objetivo. En monos anestesiados, estascélulas, aunque ciertamente presentes, no se suelen encontrar en el V1 sino en el V2.También encontró células de cerca y de lejos, pero sólo con disparidades muy cercanas acero. También Hubel [Hub95] dice que le sorprendería que un animal o un humano pudieraestimar la profundidad estereoscópicamente utilizando exclusivamente las células de cercay de lejos descritas. Él pensaba que se debería encontrar un núcleo de células para todaslas posibles profundidades, pero lo cierto es que este extremo todavía no se ha podidoconstatar; todavía no se conoce cómo el sistema nervioso reconstruye la escena completade objetos a diferentes distancias. Nosotros por nuestra parte nos planteamos unaposibilidad, que es la que describimos en el apartado siguiente del análisis medianteintegración visiomotora. Esta posibilidad es consistente con nuestra percepción y con loshallazgos encontrados de las columnas de dominancia ocular y las células de cerca y lejos,pero ciertamente debe cotejarse con otras investigaciones para validarla o descartarla.

Page 39: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

15

1.2.5.2. Análisis Mediante Integración Visiomotora

La característica que a nuestro parecer es la más interesante en cuanto a laestimación de la profundidad fue planteada por Hubel en su libro [Hub95]. Esta expresiónfue expuesta en la introducción y la repetimos aquí por su trascendencia en nuestro modelo.Hubel escribe que: “Cambiando la dirección relativa de los ojos, ajustándolos haciaadentro o hacia afuera, se unirán las dos imágenes del objeto en un estrecho margen deconvergencia y divergencia. Así en principio, o el ajuste de las lentes o la posición de losojos podría decirnos la distancia de un objeto.” Esta frase nosotros la estimamos decrucial importancia. Nuestra idea es que para la percepción de la profundidad a la que estánlos objetos de nuestro entorno, la información más importante de la que dispone el cerebroes la propiocepción de la convergencia de los ojos, de la misma manera que mediante lapropiocepción de la mano somos capaces de estimar la forma tridimensional de un objeto.A continuación enunciamos las razones que nos llevan a esta conclusión.

S En primer lugar, nos parece muy significativo, como hemos reflejado en el apartado1.1.2, que experimentos psicofísicos llevados a cabo en el campo de laneurociencia concluyan que la percepción tridimensional, entendida como lafusión de las imágenes derecha e izquierda en una sola percepción visual nítida,sólo se produce en el centro de la fóvea, en el punto de fijación de los dos ojos,con un margen de unos pocos minutos de arco en horizontal y prácticamente nuloen vertical. Todo lo que se sale de estos márgenes produce una visión doble; asípues, no válida para la percepción estéreo. Es probable que esa capacidad depercepción tridimensional tan reducida nos sirva para analizar la textura de unobjeto, o para estimar su grosor, pero no parece probable que sea suficiente paraanalizar la profundidad de toda una escena. Para corroborar este experimento sepuede hacer un ejercicio muy sencillo y es, el intentar tocar con la yema de undedo, y mediante un movimiento vertical de la mano, un bolígrafo concreto delcubilete de nuestro escritorio al mismo tiempo que estamos prestando atención aun objeto en la misma dirección pero a diferente profundidad, como puede ser lapared si está suficientemente alejada, o si hay una ventana mirando a través de ella.Observaremos que no es sencillo, aunque algunos condicionantes psicológicoscomo el conocimiento del tamaño de los objetos, etc (ver apartado 1.1.1)ciertamente ayudan. En cambio, si hacemos este mismo ejercicio mirando al puntodonde queremos tocar, el movimiento que realizamos resulta muy eficiente.

S La información propioceptiva es necesaria para controlar los reflejos y losmovimientos voluntarios. Esta información propioceptiva está monitorizada por

Page 40: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

16

dos tipos de receptores: los husos musculares que informan de la longitud de losmúsculos se utilizan para determinar la posición relativa de los segmentos de losmiembros; y los órganos tendinosos de Golgi que informan de su tensión muscularson útiles para una variedad de actos motores como mantener agarrado un objeto.Las áreas premotora y motora suplementaria, importantes para la coordinación yla planificación de secuencias de movimiento complejas, reciben información delas áreas corticales de asociación parietal posterior y prefrontal, y proyectan alcórtex motor primario. La abundancia de entradas desde el córtex parietal posteriorhasta las áreas premotoras sugiere que las áreas premotoras participan en el controldel movimiento mediante claves visuales y somatosensoriales. Así pues, lossistemas motores disponen de un flujo continuo de información sensorial sobre losacontecimientos del entorno.

S También nos parece relevante el analizar nuestro comportamiento cuando estamosobservando con atención un objeto. Si nos fijamos, nuestros ojos en ningúnmomento están estáticos, sino que continuamente se están moviendo. Estosmovimientos, que son involuntarios e inconscientes, son los movimientossacádicos citados por los neurocientíficos. Este proceso de realizar movimientossacádicos hacia los objetos de interés para poner sus imágenes en la fóvea esllevado a cabo también por el colículo superior, como Peter Schiller del MITmostró en su serie de artículos en los años 1970s. Si estamos observando unapersona, nuestra visión se desplaza habitualmente entre los dos ojos y si la personaestá hablando también los desplazamos hacia la boca, y de vez en cuando miramoshacia sus rasgos más significativos y a sus contornos. En el caso de otros objetos,depende de su naturaleza, pero en general realizamos un barrido inconscientealrededor de sus contornos pasando también por otros rasgos interiores que nosllamen la atención. Todo esto se produce de la misma manera cuando estamosmirando a una escena. Nuestros ojos van viajando a lo largo de ésta, einconscientemente van convergiendo y divergiendo para adaptarse a la profundidada la que están los objetos. La propiocepción de esta convergencia y divergencia delos ojos es la que nosotros entendemos como la información fundamental paraobservar las profundidades relativas de los objetos.

Posteriormente al análisis puntual de de todos los puntos de la escena, un área dela región prefrontal del córtex dedicada a la planificación es probable que retenga unossegundos un mapa visual de nuestro entorno, provocando nuestra sensación ilusoria devisión tridimensional completa. Este mapa puede ser utilizado para los fines de la memoriafuncional; es decir para retener en la memoria durante unos instantes la localización de losobjetos dentro del campo visual. De hecho se ha constatado que pequeñas lesiones en esta

Page 41: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

17

parte del córtex interfieren en la capacidad para recordar la posición de los objetos enregiones específicas del campo visual contralateral al lado de la lesión.

El método del calculo de disparidades propuesto puede considerarse similar alefecto de convergencia-divergencia de los ojos. Cuando estamos haciendo converger losojos, las imágenes de la retina resultan desplazadas entre sí, y el análisis de convergenciase realiza analizando localmente la posibilidad de fusión de las dos imágenes derecha eizquierda.

1.2.5.3. Acople del Análisis Basado en Integración Visiomotoracon el Análisis Clásico

Según esta teoría de la integración visiomotora, la función de las células de cercay de lejos halladas entre el córtex V1 y V2 del cerebro y que se analizaron en el apartado1.2.5.1, podría tener que ver con la identificación de posibles objetivos de futura atencióny para tener preparados los mecanismos necesarios con el fin de orientar nuestros ojoshacia un objetivo diferente, que esté a una profundidad distinta de nuestro punto de fijaciónactual. Por su parte, las columnas de dominancia ocular vistas en el mismo apartadopueden tener que ver con el control fino de la orientación de los dos ojos cuando estamostratando de fusionar las dos imágenes de la retina referidas a un objeto nuevo, además de,con la propagación hacia otras áreas corticales superiores de la imagen conjunta percibidaa través de ellas.

1.2.6. Procesamientos de Nivel Superior

Además de los conceptos expuestos hasta aquí, existen otros mecanismosintrínsecamente relacionados con la estereovisión, y que serían compatibles con el modelopropuesto. Con este subapartado se pretende abrir, aunque mínimamente, la puerta afuturas ampliaciones del modelo y a nuevas prestaciones tomando en consideración loselementos que a continuación se exponen.

1.2.6.1. Atención Visual Selectiva

El hecho de que la visión estereoscópica instantánea se produzca en el centro de lamirada con un margen de unos pocos minutos de arco en horizontal sugiere que laestereovisión requiere atención. Mediante la atención, la visión se centra en un objeto ylo demás aparece como fondo.

Page 42: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

18

La percepción visual, como se ha visto, no es un proceso pasivo, ya que nuestrosojos no se limitan a recibir la información visual, sino que, por el contrario, el sistemanervioso a través de la atención, realza la parte de información más interesante quecontiene el estímulo, y desecha el resto, para luego interpretar esa información en elcontexto de su experiencia previa. En este proceso, la posición de los ojos juega un papelmuy importante, ya que se controla con exactitud para explorar el entorno, y nos permiteatender selectivamente y orientarnos a estímulos visuales específicos.

La búsqueda de los estímulos se realiza en serie; es decir, a veces se atiende auno y a veces se atiende al otro. La única excepción aquí es si los estímulos se perciben yprocesan por vías distintas; entonces la búsqueda se puede realizar en paralelo (porejemplo, la forma y el color). Según Rybak, “durante la percepción o reconocimientovisual, los ojos se mueven y se fijan en las partes más informativas de la imagen,realizando la selección orientada al problema y procesando la información del mundovisual bajo el control de la atención. La atención incluye, bien un realce de las descargasde las células que responden al objeto de interés, bien una atenuación de las descargasde las células que responden a los objetos que están siendo ignorados”.

En la variación del foco de atención juega un papel importante un comportamientoreflejo que es el relacionado con el movimiento en la periferia del campo visual. Comohemos visto, en la periferia del campo visual, todos los objetos que permanecen inmóvilesnormalmente no se perciben; en cambio, cualquier objeto móvil detectado, genera uncomportamiento reflejo a través del colículo superior, que produce la orientación de losojos, e incluso si es necesario el giro del cuello, para que la imagen de dicho objeto se sitúeen la fóvea, donde se tiene mayor resolución espacial y se es capaz de percibir objetosestáticos. Este movimiento, además de por la sensación de movimiento en la retina,también se produce al escuchar un ruido imprevisto o al producirse una sensación táctiltambién inesperada. En el caso de la estereovisión, nuestra intención ha sido desarrollar unsistema que atendiese a las percepciones visuales del movimiento en la periferia, a partirde la separación de hemicampos propuesta en el apartado 1.2.3.

Pero no sólo la atención es importante para la estereovisión; quizá la relacióncontraria también requiera consideración. Un mecanismo de atención selectiva visual comoel propuesto en [Lop04] sería interesante integrarlo con un mecanismo estéreo con el finde atender a objetos que estén a una determinada distancia, o bien estimar la distancia a laque están los elementos a los que se está atendiendo.

Page 43: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

19

1.2.6.2. Aprendizaje y Memoria

El funcionamiento del sistema nervioso se basa en que las células nerviosas estánconectadas de forma precisa, pero sus conexiones pueden ser modificadas mediantemecanismos de aprendizaje. Mediante el aprendizaje, nosotros y otros animalesadquirimos conocimientos o experiencia sobre el mundo que nos rodea. Los estudios depacientes con lesiones del lóbulo temporal han revelado que existen dos modos deaprendizaje esencialmente diferentes: un aprendizaje explícito y un aprendizaje implícito.En la memoria explícita, aprendemos acerca de qué es el mundo, adquiriendoconocimientos sobre personas, lugares y acontecimientos que están disponibles en laconsciencia. Para la memoria explícita el hipocampo sirve de almacén o de vía de acceso,estando también implicado el sistema del lóbulo temporal medial. Con la memoriaimplícita, aprendemos cómo hacer las cosas adquiriendo habilidades motoras o perceptivasque no están disponibles a la consciencia. La memoria implícita no requiere un recuerdodeliberado e implica a varias vías perceptivas y reflejas. La memoria implícita se almacenaen cada reflejo de forma distribuida por todo el sistema nervioso central; así pues no hayun núcleo compacto dedicado al aprendizaje implícito, sino que cada núcleo sensorial omotor tiene su propio núcleo de “procesamiento avanzado”.

En el modelo propuesto no se ha incluido ninguna característica de tipo evolutivoo mecanismo de aprendizaje, aunque probablemente sería positivo hacerlo. Ciertamentelos resultados obtenidos con el sistema actual son buenos, pero como es lógico siempre sonmejorables, y un mecanismo de aprendizaje implícito podría tratar de establecer las bandasde niveles de gris, los parámetros de descarga de las memorias de permanencia o losvalores de disparidad máximos permitidos en valores óptimos. Asimismo un mecanismoexplícito podría ir almacenando los valores óptimos más habituales con el fin de conseguiruna mayor autonomía de este sistema.

Referencia Concepto

[Kan00] Conocimientos básicos de los sistemas neuronales biológicos

[Mar98] Anatomía del sistema nervioso humano

[Hub95] Estudio profundo del sistema visual humano Tabla 1.1. Referencias básicas relacionadas con la percepción visual biológica.

Page 44: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

20

Figura 1.1. Estructura de un sistema de estereovisión porordenador

1.3. Conceptos Básicos de Estereovisión

1.3.1. Estructura de un Sistema Estereoscópico

Habitualmente, la toma de imágenes en todas las aplicaciones de visión artificialse realiza con una sola cámara; con ello, el análisis del entorno se restringe a planosperpendiculares al eje de visión. La posibilidad de utilizar dos cámaras conposicionamientos y orientaciones conocidas amplía las posibilidades de análisis a escenasvolumétricas; siendo posible, a partir de las dos perspectivas obtenidas, la extracción demedidas de profundidad en la escena por métodos puramente geométricos, como puede serla triangulación.

Un sistema estereoscópico consta de un mínimo de dos cámaras situadas conperspectivas de la escena semejantes aunque no iguales y de un elemento procesador dedichas imágenes. Las cámaras pueden ser fotográficas o de vídeo dependiendo de laaplicación. En el caso de esta tesis, como el objetivo es la extracción de información apartir del movimiento de una escena, se va a trabajar con dos cámaras de video. En laspruebas que hemos realizado, se ha comprobado que el color en aplicaciones orientadasal movimiento y la profundidad no es relevante, por lo que proponemos que los análisis serealicen sobre imágenes en niveles de gris y no en color. Curiosamente, como puede verseen [Kan00] y se plantea en el apartado 1.2.2, la vía del sistema visual humano dedicada almovimiento y a la profundidad es casi insensible al color; es más, el color no aportaninguna información a esta vía. Quizá esto nos sirva de confirmación de los resultadosobtenidos en las pruebas.

Una vez obtenidas las dos secuencias estéreo mediante la digitalización de lainformación obtenida por las cámaras, éstas se podrán procesar para obtener la informacióntridimensional de la escena.

Page 45: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

21

11 1

1

1

1

2

1 1

1

1

2Fn

R R F S S= − −

⇒ = +( ) •

1.3.2. Captación de las Imágenes

Con el fin de aplicar la geometría del sistema estéreo a las imágenes obtenidas porlas cámaras se hace necesario en primer lugar, caracterizar la transformación geométricaque se produce entre la escena real tridimensional y las imágenes bidimensionalescaptadas. A esta caracterización van orientados estos párrafos.

Los efectos más importantes que sufre la luz en su propagación son la reflexión yla refracción, y los elementos que los producen son las lentes y los espejos. Lo habitual esconfigurar los objetivos de las cámaras a base de lentes, por lo tanto esta explicación secentrará en ellas. Finalmente, otro efecto a considerar es la dispersión cromática. Esteefecto suele estar corregido en los sistemas ópticos habituales de manera que no se leprestará más atención.

El parámetro más importante de una lente o de un conjunto de lentes para la tareaque nos ocupa es su distancia focal. Llamamos distancia focal imagen f a la distancia queexiste entre el centro de la lente y el punto del espacio imagen en el que convergen losrayos que provienen, teóricamente del infinito del espacio objeto. Según la teoría de laslentes esféricas la distancia focal se puede calcular como

Aspectos más profundos de todo este análisis pueden encontrarse en [Hec99].El concepto de distancia focal es tan importante para nosotros porque se va a

suponer que el plano fotosensible estará a esa distancia de la lente equivalente formada porel objetivo. Esto se basa en que se supone que los objetos de la escena están a una distanciamucho mayor que la distancia focal, por lo tanto sus rayos se puede considerar queprovienen del infinito; y cuando la distancia S1 tiende a infinito y S2 tiende a F. Sólo en elcaso en que los objetos estén anormalmente cerca de la cámara habrá que retomar esta idearecalculando con una mayor precisión la distancia existente entre la lente y la superficiefotosensible.

1.3.3. Imagen Digital: Representación y Procesamiento

En el sistema de análisis de imágenes estereoscópicas presentado en este trabajo,las imágenes y los procesamiento que se utilizan son digitales. Por ello, en este apartadose hace una introducción muy breve de las implicaciones que tiene el trabajo con imágenesdigitales y a las posibilidades de procesamiento que existen. La representación será muy

Page 46: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

22

importante a la hora de estudiar la geometría del sistema estéreo, y las posibilidades deprocesamiento nos aportarán ideas sobre los algoritmos presentados.

1.3.3.1. Representación de la Imagen Digital

Las imágenes se pueden considerar como una función en la que el nivel deintensidad de la luz o del color depende de dos variables independientes “X” e “Y”. Estasvariables independientes son la posición horizontal y la posición vertical de cada punto.En el caso de las imágenes ópticas estas variables son continuas; en cambio, si queremosprocesar imágenes a través del ordenador, como es nuestro caso para la estereovisión,necesitamos representar dichas imágenes en formato digital. Este formato digital implicauna discretización espacial, en la que la imagen quedará representada por una matriznumérica rectangular de N x M elementos discretos mínimos de imagen denominadospíxeles. Cada píxel integra mediante proyección toda la energía luminosa contenida en elángulo sólido subtendido por su tamaño en el dispositivo fotosensible, y el centro ópticode la lente objetivo. Esta integración implica una pérdida de resolución en la imagen quees directamente proporcional a la distancia; cuanto más lejos de la cámara esté un objeto,menor cantidad de píxeles ocupará, y por tanto menor información tendremos sobre losdetalles de dicho objeto. La matriz numérica que representa a la imagen, donde cada píxeltiene asociado un número de orden entero en la dirección horizontal y otro número deorden en la dirección vertical, será susceptible de ser procesada matemáticamente

El formato digital también implica una cuantificación de la intensidad luminosa decada píxel, ya que cada uno será representado por un código. En el caso de imágenes enblanco y negro se suelen utilizar códigos de 8 bits para cada píxel, resultando una escalade 256 posibles niveles de gris. En cambio para imágenes en color se suelen utilizar 8 bitspara cada una de las intensidades de los colores primarios, rojo, verde y azul, utilizándoseuna mezcla aditiva de estos tres para conseguir toda la gama de colores disponible queasciende a más de 16 millones de colores.

A las imágenes digitales se puede llegar por diversas vías, como por ejemplo,cámaras digitales, captura de señal de vídeo analógica, escaner, librerías de imágenes einternet. En todas estas, para el posterior cálculo geométrico de la estereovisión seráimportante tener en cuenta, además de la posición y orientación de las cámaras, laresolución con que cuenta el dispositivo fotosensible y su transformación con la distanciaen el espacio objeto.

Page 47: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

23

Figura 1.2. Representación en unidades logarítmicas de unaimagen en el dominio de la frecuencia entre las frecuenciasdigitales 0 y 1.

1.3.3.2. La Imagen Digital en el Dominio de la Frecuencia

Las imágenes al igual que cualquier otro tipo de señales pueden estudiarse en sudominio natural, que en este caso es el espacio; o en el dominio de la frecuencia aplicandola Transformada de Fourier. En el dominio de la frecuencia la consideración másimportante es la existencia de pocas componentes de alta frecuencia. Estas escasas altasfrecuencias se dan en los contornos de los objetos. Esto puede comprobarse al visualizarel módulo de la transformada de Fourier de una imagen como el que aparece en la figura1.2. Esto nos indica que las componentes de frecuencias altas (los contornos), al sermenos frecuentes, aportan más información que las bajas frecuencias en la extracción decaracterísticas de las imágenes. Esto en cambio sólo tiene un problema, y es que loscontornos son muy sensibles al ruido impulsivo, ya que un píxel de ruido puede serconsiderado como un contorno, y a su vez un contorno puede ser falseado por la existenciade ruido a su alrededor. Este problema sugiere que, en presencia de ruido, lo más robustopara analizar la correspondencia entre pares de imágenes estereo parecen ser las regiones.

Si se quiere aplicar este método presentado al análisis a través de los contornos, esconveniente tomar éstos, no como puntos de alta frecuencia sin más, sino como interfazde alta frecuencia entre dos regiones planas (de frecuencia cero). Además, así es como da

Page 48: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

24

Figura 1.3. En los operadores puntuales cada píxel de laimagen de salida depende de un sólo píxel de la entrada.

la impresión que actúa el sistema nervioso animal y humano a la hora de analizar la formade los objetos. Un mayor detalle de esto puede encontrarse en [Hub95].

1.3.3.3. Procesamiento de Imágenes Digitales

Una vez convertida la imagen en una matriz de datos numéricos mediante ladigitalización, a esta matriz se le pueden aplicar numerosos algoritmos de los cuales sepuede encontrar un amplio repertorio en [Gon01]. Todos estos algoritmos podemosclasificarlos en cuatro tipos, atendiendo al nivel de procesamiento que se practica para cadauno de los píxeles de salida. Así tenemos: operadores puntuales, operadores locales,operadores globales y operadores por bloques. Estos últimos tienen su aplicación en lossistemas de codificación de imágenes, que como no son objetivo de este trabajo, noentraremos a desarrollarlos.

Los operadores puntuales son los más sencillos de todos. Éstos consideran lasimágenes digitales como lo que son en realidad; matrices numéricas en las que a cadapíxel se le asigna una posición dentro de la matriz y un código numérico. Estos operadoresse llaman así porque cada píxel de la imagen de salida es función única y exclusivamentede un píxel de la imagen de entrada. Con estos operadores se pueden realizar operacionesrelacionadas con el nivel de intensidad de los píxeles o con la geometría de la imagen.Entre los algoritmos dedicados a realizar cambios en la intensidad nos podemos encontrarcon aquellos que aumentan o disminuyen el contraste de la imagen; los que alteran elbrillo, el tono, la saturación o la transparencia; los que calculan el negativo de la imagen,o los que modifican la resolución de los colores de cada píxel, ya sea de forma individualcomo de forma conjunta. Dentro de los algoritmos orientados a modificar la geometría delas imágenes. Con ellos podemos conseguir desplazamientos horizontales y verticales,rotaciones, así como otros efectos especiales de transición entre secuencias de vídeo enentornos de edición no-lineal.

Page 49: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

25

En el caso del método presentado en este trabajo se van a utilizar algunos de estosoperadores en tareas como la segmentación en bandas de nivel de gris, la detección demovimiento mediante memorias de permanencia, y la búsqueda de regionescorrespondientes a partir del análisis de semejanza de los píxeles procedentes del análisisdel movimiento.

La aplicación básica de los operadores locales y globales es el filtrado, pero comoen nuestro caso no se ha pensado utilizarlos no se profundiza más en ellos. Para unconocimiento más exhaustivo del filtrado digital de imágenes una referencia adecuada es[Gon01].

Se pueden definir filtro específicos para secuencias estéreo y reconstruccionestridimensionales como los planteados en [Lop04] relacionados con la atención selectivavisual, o algunos filtrados del movimiento como los que se proponen en el capítulo 4 deresultados.

Referencia Contenido

[Kan00] Mecanismos neuronales biológicos

[Hec99] Óptica

[Hub95] Sistema visual biológico

[Gon01] Tratamiento digital de imágenesTabla 1.2. Referencias de disciplinas transversales al modelo propuesto

1.3.4. Análisis Geométrico y Calibración

Tradicionalmente el análisis de la estereovisión se ha dividido en dos problemasdiferentes. Partiendo de las dos imágenes (I) izquierda y (D) derecha de la figura 1.4, elproblema de la correspondencia trata de buscar qué dos puntos mi de la imagen izquierday md de la imagen derecha corresponden a un mismo punto M del espacio. Una vezencontrados estos, el problema de la reconstrucción trata de encontrar las coordenadas dedicho punto M

La tarea más difícil es sin duda responder al problema de la correspondencia. Comoen general, hay varias posibilidades para escoger el elemento correspondiente en la imagenD de un elemento de la imagen I, el problema de la correspondencia estéreo se dice que esambiguo. Debido a esta ambigüedad se hace necesario averiguar qué elementos, quécaracterísticas, qué restricciones y qué consideraciones se pueden aplicar para reducirla almáximo. A esto se dedicará una parte importante del resto del apartado; pero en primer

Page 50: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

26

Figura 1.4. Geometría estereo: Marco de referencia y sistemas de referencia de lascámaras.

lugar se analiza el problema de la reconstrucción que es un problema cerrado ydeterminista. Todos estos conceptos pueden contemplarse en [Bro03] y en [Sch02] o mása fondo en [Fau93].

El problema de la reconstrucción parte de la geometría del sistema y puedeplantearse como un problema determinista que puede estar basada en la triangulación. Enla figura 1.4 se representa un sistema de referencia (u,v) para cada cámara, y el marco dereferencia (x,y,z) del sistema estereo. Para este estudio consideraremos que la imagen seforma a la distancia focal por detrás de la lente objetivo, y que los rayos que pasan por elcentro de dicha lente conservan su dirección.

1.3.4.1. Plano y Líneas Epipolares

Antes de entrar a analizar las dos geometrías básicas en estereovisión, la geometríade cámaras paralelas y la geometría de cámaras convergentes, es necesario describir unaserie de elementos generales a ambas geometrías. Estos elementos son el plano epipolar,las líneas epipolares y los epipolos. En la figura 1.5, consideramos plano epipolar aquelque forman los dos centros ópticos Ci y Cd de los objetivos de las cámaras con cualquierpunto M del espacio objeto. Por otra parte, el plano epipolar corta a las dos superficiesimagen I y D en sendas líneas rectas “ep”, que se denominan líneas epipolares. Finalmente,

Page 51: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

27

Figura 1.5. Restricción epipolar. Se representan el plano epipolar correspondiente alpunto M de la escena y las lineas epipolares correspondientes.

la proyección del centro óptico de una cámara sobre la otra cámara, nos va a definir elllamado epipolo “e”. Los epipolos de cada una de las cámaras van a ser los puntos por losque van a pasar todas las líneas epipolares.

Utilizando cualquier plano epipolar como base, cualquier punto de la escena quepertenece a éste tendrá su imagen en una de las dos líneas epipolares de las dos imágenes.Esto implica que cualquiera de los píxeles de una línea epipolar tendrá su correspondientedentro de la línea epipolar correspondiente en la otra imagen.

En general, las líneas epipolares son oblicuas respecto del plano retinal; pero existeuna excepción muy interesante que simplifica de gran manera el análisis. Si consideramosque los planos retinales son coincidentes entre sí, y paralelos a la linea base (Ci, Cd),observaremos que los epipolos de ambas cámaras se situarán en el infinito, y por lo tanto,las líneas epipolares serán todas paralelas entre sí, y paralelas a su vez a la línea base. Estaconfiguración especial se denomina configuración de cámaras paralelas. Con estaconfiguración, y un adecuado posicionamiento de los planos retinales se puede conseguirque las líneas epipolares coincidan con las filas de las imágenes digitales tomadas.

Page 52: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

28

ui

F

xz

; xui

F·z

vi

F

yz

; yvi

F·z

xud

F·z B ; y

vd

F·z

xui·B

dy

vi·Bd

zF·Bd

1.3.4.2. Geometría de Cámaras Paralelas

La configuración de cámaras paralelas es la más sencilla de tratar en cuanto ageometría; por ello es la primera que se analiza en este trabajo. Para realizar este sencilloanálisis se parte de la figura 1.4 anterior, en la que se considera que el marco de referencia,o el sistema de referencia de la escena tiene su origen en el centro óptico de la cámaraizquierda, su eje x coincide con la línea base que une los dos centro ópticos, y su eje zcoincide con el eje óptico de dicha cámara. En la figura 1.6 se representa esta configuraciónconsiderando exclusivamente un plano epipolar.

El objetivo es hallar las coordenadas del punto M(x, y, z) partiendo de lascoordenadas de las proyecciones de dicho punto sobre los planos de imagen (ui,vi) y (ud,vd).Para ello se necesita la distancia focal F de las cámaras y la distancia entre sus dos centrosópticos o línea base B.

La reconstrucción tridimensional puede resolverse, bien mediante geometríaproyectiva, o bien mediante geometría Euclídea. En el caso de la geometría Euclídea quees la forma más sencilla y ofrece unos resultados suficientemente aproximados, tenemoslo siguiente:

Para la imagen I, por semejanza de triángulos se tiene:

y de la misma manera para la dirección y

Para la imagen D se tiene:

Desarrollando estas ecuaciones podemos llegar a las expresiones siguientes:

Page 53: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

29

Figura 1.6. Geometría en el plano epipolar para cámaras paralelas.

dudui

δxuI·B

d 2·δd δy

vI·B

d 2·δd δzF·B

d 2·δd

En estas expresiones el valor d es la denominada disparidad que hace referenciaa la diferencia entre las coordenadas ui y ud respecto del centro de sus imágenes.

Además, al conjunto de todas las disparidades entre dos imágenes de un par estéreose denomina mapa de disparidad. Claramente, las disparidades sólo se pueden calcular deaquellas características que son visibles en las dos imágenes; las características que sólose ven en una imagen y no en la otra se denominan oclusiones.

Con estas expresiones podemos concluir que una vez conocidas la distancia focalde las cámaras, la línea base, y la disparidad entre los píxeles correspondientes es sencillocalcular las coordenadas (x, y, z) del punto del espacio para la configuración de cámarasparalelas.

La digitalización de las imágenes estereo obliga a que la imagen tridimensional dela escena también sea discretizada. Si queremos calcular el error que se comete en elcálculo de las coordenadas por el hecho de tener un dispositivo fotosensible con un tamañode píxel discreto, derivando las expresiones anteriores llegamos a las expresionessiguientes:

Page 54: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

30

En estas expresiones δd es el tamaño del píxel de la imagen. Esto implica quecuanto menor sea la disparidad, el punto del espacio estará mas lejos y la precisión con laque podemos calcular las coordenadas (x, y, z) tendrá un valor finito que es inversamenteproporcional al cuadrado de la disparidad. Para orientarnos en la magnitud de las medidasque se han realizado, quizá lo mejor es ver lo que ocurre con datos numéricos concretos.Si suponemos que tenemos un sistema cuyas cámaras tienen una distancia focal de 35 mm.un tamaño de píxel de 25 µm., y están separadas entre sí una distancia de 70 mm., (lineabase), para distintas disparidades tendremos diferentes medidas de profundidad y diferenteserrores de estimación. Por ejemplo, para una disparidad de 1 píxel (d=25 µm) el puntofísico M tendrá una coordenada z, según las expresiones anteriores de 98 m., con un errordebido a la discretización de 98 m (±49 m.). Si la disparidad es algo mayor, significa queel objeto estará mas cerca. Una disparidad de 5 píxeles, da unos resultados de z=19,6 m.y un error δz=3,9m. En el caso de disparidades de 10 píxeles, los resultados son z=9,8 m.y un error δz=0,98m.

Todo esto significa que el hecho de discretizar las imágenes tomadas por lascámaras con un tamaño de píxel determinado, también se está discretizando la imagentridimensional en celdas de tamaño finito en las tres direcciones del espacio.

1.3.4.3. Geometría de Cámaras Convergentes y Rectificado

La configuración de cámaras paralelas se toma con mucha frecuencia debido a susimplicidad; pero siendo físicamente posible, en la práctica resulta dificultoso alinear dossistemas ópticos de forma tan precisa, y suficientemente estable. En el caso general, quese puede ver en la figura 1.5, el procedimiento a seguir sería, en primer lugar calcular laposición de los epipolos e1 y e2 de cada una de las cámaras. Con ello, cualquier punto dela imagen izquierda m1 formará una línea epipolar ep1 que lo une con el epipolo izquierdo.Dicha línea epipolar cortará al plano imagen de la cámara derecha en un punto, que juntocon el epipolo derecho e2 formará la línea epipolar derecha ep2, sobre la que habrá quebuscar las correspondencias. Además, la relación entre las coordenadas (u, v) de cada unade las imágenes con el marco de referencia (x,y,z) no es tan trivial como en el caso anterior.Es necesario transformar las componentes de los vectores (u, v) en el sistema decoordenadas de la escena (x,y,z).

Habida cuenta de esta complejidad, lo que se suele hacer es aplicar el proceso derectificado para convertir una geometría general de cámaras convergentes en una geometríamás simple de cámaras paralelas. Esto es posible, como puede verse en la figura 1.7,volviendo a proyectar las imágenes sobre un mismo plano R virtual utilizando los mismos

Page 55: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

31

Figura 1.7. Rectificación de planos retinales.

centros ópticos de las cámaras. En este caso, el plano R es el mismo para las dos nuevasretinas R’1 y R’2.

Para que los dos epipolos estén en el infinito, el plano R debe ser paralelo a la líneaque une los dos centros ópticos (C1,C2) y para minimizar la distorsión de las imágenesreproyectadas sobre el nuevo plano R, interesa que éste sea también paralelo a la línea<P1,P2> de intersección de las dos retinas originales. Por otra parte, la distancia de esteplano R a la línea que une los centros ópticos <C1,C2> corresponde a un cambio de escala;y quizá para minimizar este cambio de escala, lo propio será utilizar como medida ladistancia focal real de las cámaras.

Una vez proyectadas las imágenes sobre el plano R se tendrán las líneas epipolaresparalelas a las filas de la imagen. Pueden verse las referencias [Tru98] y [Zit00] para unadiscusión más profunda sobre la rectificación.

1.3.4.4. Calibración

El problema de la reconstrucción puede resolverse mediante la intersección de lasrectas <Ci, mi> y <Cd, md> de la figura 1.5. El resultado dependerá de con que precisiónse conocen las posiciones de Cd y Ci y los planos derecho e izquierdo en el sistema decoordenadas. Esto nos lleva al problema de la calibración; puesto que, si las posiciones mi

y md no se conocen con precisión, las rectas <Ci, mi> y <Cd, md> podrían no cortarse.

Page 56: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

32

Mediante la calibración de un sistema de estereovisión se estiman los parámetrosintrínsecos (distancia focal, centro óptico, distorsiones de las lentes) y extrínsecos(posiciones relativas y orientaciones) de las cámaras que lo componen. Existen dosmétodos comúnmente usados para la calibración: la autocalibración y la calibraciónfotogramétrica. En la autocalibración se toman varias imágenes de una misma escena ymediante la correspondencia entre puntos de distintas imágenes se pueden encontrar losmejores parámetros del modelo que puedan otorgar dicha correspondencia. Lareconstrucción de la escena tridimensional realizada con el modelo encontrado no esprecisa, ya que ésta está afectada por un factor de escala. Con este método no se puedesaber cuál es el tamaño real de los objetos captados por las cámaras; puesto que, un objetopequeño cerca del centro óptico podrá tener la misma imagen que el mismo objeto másgrande alejado del dicho centro óptico.

Si lo que se busca es una reconstrucción precisa, como es el caso de muchas de lasaplicaciones de la robótica, es recomendable utilizar la calibración fotogramétrica. Estacalibración utiliza un objeto tridimensional de referencia cuya geometría es conocida a laperfección. Se escogen N puntos de interés del objeto de referencia, obteniéndose así lascoordenadas M’i = (x’i, y’i, z’i), para i = 1, ..., N. El objeto es a continuación captado porel sistema de cámaras, y sus puntos de interés son vistos como puntos bidimensionales concoordenadas wi=(ui,vi). A partir de las medidas reales y las estimadas por el sistemaestereoscópico, es posible obtener una estimación teórica de los puntos en tresdimensiones. Así pues, se calculan los puntos en función de los parámetros desconocidoscomo la línea base B y la distancia focal de las cámaras F. Una vez llegado a aquí, elproblema de la calibración se transforma en un problema estadístico mediante el cual secalculan los parámetros B y F que minimizan el error cuadrático medio de las medidastomadas respecto de los resultados obtenidos partiendo de las imágenes.

Para una mayor profundidad en la discusión acerca de la calibración en trabajosrecientes puede verse [Fau01] y [Har00]. En esta tesis, se supondrá que la calibración dela cámara es estática y conocida.

1.3.5. Primitivas de Correspondencia

Al contrario del problema geométrico, que es un problema con solución cerrada,el problema de la correspondencia es un problema más complejo de resolver por laambigüedad que existe al buscar posibles correspondencias entre los píxeles de las dosimágenes. Con el fin de comenzar a minimizar al máximo esta ambigüedad, en primerlugar se buscan características de las imágenes que nos sirvan para establecer con mayorrobustez dichas correspondencias. Si nos quedamos simplemente comparando los píxeles

Page 57: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

33

uno a uno, encontraremos varios píxeles iguales entre los que escoger; y susemparejamientos nos llevarían a varios puntos de la escena 3D posibles. En cambio, siutilizamos primitivas más complejas, formadas por conjuntos de píxeles, como contornoso regiones, será menos probable encontrar falsas correspondencias.

El píxel individual es la primitiva más simple de todas. El pixel se utiliza en lastécnicas de correlación, pero para ello hemos de caracterizarlo, de forma que si los pixelesmi y md se corresponden, sus características sean iguales o aproximadamente iguales. Lacaracterística más simple es una medición de la radiación.

Existe un problema a la hora de utilizar píxeles individuales como primitivas, y esque la luz reflejada por una superficie de un objeto es función de la posición de las fuentesde luz, la orientación de la superficie y la dirección de la visión. Así pues, las imágenestomadas de un mismo punto físico, pueden variar en luminosidad dependiendo de estosfactores. Este comportamiento se resume en la función de reflectancia. Para superficiesLambertianas (las que son totalmente mate) la luz reflectante es igual en todas lasdirecciones. Así que como primera aproximación se puede considerar que todas lassuperficies son de este tipo, para después observar los errores que se producen con estasimplificación. Como resultado, las intensidades de los dos puntos correspondientes de unasuperficie Lambertiana son las mismas. Si se quiere tener una mayor información sobre lacorrespondencia entre dos píxeles, una posibilidad muy utilizada habitualmente es analizaréstos, junto con sus entornos. De esta manera, resulta más sencillo descartarcorrespondencias falsas producidas por la igualdad entre píxeles individuales; puesto queel entorno proporcionará una mayor información.

La siguiente primitiva a considerar es el pixel de contorno. Los píxeles decontorno pueden ser caracterizados mediante medidas basadas en su intensidad y en sugeometría, como puede ser su longitud, su orientación, su curvatura y el contraste medioa lo largo de él. También se puede pensar en agrupar los píxeles de contorno para formarcurvas o trozos de curvas. La curva más simple y que además es invariante medianteproyección perspectiva es la línea recta.

No todos los contornos son buenos para la visión estereo. Un caso particular sonlos que podemos llamar contornos ocultos y las discontinuidades suaves, donde el objetotermina de forma redondeada, en cuyo caso las dos cámaras no ven la misma parte delobjeto. Excepto en estos casos, los contornos son fuentes de información muy válidas ymuy robustas para guiar el proceso de correspondencia estéreo. El inconveniente másimportante que tiene el trabajo con contornos es lo sensibles que son al ruido. Dependiendode la calidad de las imágenes, los contornos pueden quedar perfectamente definidos yuniformes, o por contra, discontinuos y llenos de irregularidades. En este segundo caso esnecesario acudir a información o procesamientos posteriores para conseguir píxeles decontorno fiables.

Page 58: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

34

Finalmente, podemos utilizar regiones de las imágenes como primitivas paraanalizar su correspondencia en el procesamiento estéreo. Existen muchas característicasque se pueden extraer de dichas regiones para establecer las correspondencias: su nivelmedio de brillo, su tamaño, su perímetro, su forma, etc. El proceso de dividir una imagenen regiones se denomina segmentación y pueden encontrarse muchos métodos en labibliografía. Generalmente, los algoritmos de segmentación de imágenes se basan en dospropiedades fundamentales de la intensidad de los píxeles: por un lado, los cambiosabruptos, como son las líneas y los contornos de los objetos; y por otro lado, las regionescuyos píxeles son similares de acuerdo con una serie de criterios predefinidos.

La segmentación basada en los contornos de las figuras ha sido el método principalutilizado por los algoritmos de segmentación, durante muchos años. Los dos operadoresmatemáticos más habituales para la detección de discontinuidades son el operadorgradiente y el Laplaciano de un Gaussiano. Tomando como base estos operadores, la formamás común de buscar discontinuidades de niveles de gris en imágenes digitales, esmediante la convolución con máscaras de tamaños 2x2, y más habitualmente 3x3. Variosautores han desarrollado diversas máscaras tomando como base el operador gradiente.Algunos ejemplos clásicos son: Roberts [Rob65], Prewitt [Pre70], Sobel [Sob78] y Canny[Can86]. Por otra parte, las propiedades del cruce por cero del operador Lapaciano encontornos las podemos encontrar en un artículo de Marr and Hildreth [Mar80], y en elclásico libro de Marr [Mar82].

La umbralización es una técnica que cuenta con una gran popularidad, ya que esmuy sencilla de implementar. Existe una cantidad considerable de trabajo en este ámbito,que puede verse en los artículos de revisión de Sahoo et al. [Sah88], de Lee et al. [Lee90]y de Russ [Rus95]. En ellos, se proponen métodos automáticos para el ajuste de losumbrales utilizando, bien el histograma, o bien la propia imagen como guía.

Finalmente hemos de considerar la segmentación basada en regiones como tales.Dos de los métodos más referenciados son el de “unión y división” y el “crecimiento deregiones”, que son métodos opuestos por el vértice. El método de “unión y división” es unmétodo “top-down”, que comienza considerando como región la imagen completa.Eligiendo una característica concreta como criterio de uniformidad, se evalúa si toda laregión es uniforme. A menudo este criterio se basa en las características del histograma debrillo. Si se considera que la región no es uniforme, se divide en varias subregiones,examinándose cada una de la misma manera. En cuanto al crecimiento de regiones, éstecomienza desde abajo, o a nivel de píxel. A partir de un determinado píxel, se examinanlos píxeles vecinos y, si son suficientemente similares, se añaden a la región creciente. Estasimilitud puede ser evaluada considerando toda la región, o simplemente los píxelesadyacentes, permitiendo regiones con cambios de brillo graduales. El proceso terminacuando no se puede añadir ningún píxel más.

Page 59: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

35

Primitivas Ventajas Inconvenientes

Píxel Mapa denso de disparidadesCoste computacional bajo omoderado

Alta ambigüedad. Sueleanalizarse un entorno del píxel.Muy sensible a las oclusiones

Contorno Menor ambigüedad En ocasiones, sensibilidad alruido. Mapa de disparidad pocodenso

Área Muy poca ambigüedadPoca sensibilidad a lasoclusiones

Mapa de disparidad poco denso.Alto coste computacional

Tabla 1.3. Resumen de primitivas de correspondencia.

1.3.6. Restricciones a las Correspondencias

La búsqueda del píxel correspondiente a mi, en teoría, podría abarcar toda la imagenderecha trabajo sin duda muy laborioso. Afortunadamente, existen algunas característicasde la geometría del sistema y de la geometría de los objetos que nos van a restringirconsiderablemente esta búsqueda, reduciendo el número de posibles correspondenciaspotenciales de mi. Estas restricciones son de tres tipos básicos.

S Restricciones geométricas impuestas por el sistema de captación de las imágenes.Probablemente la restricción más importante sea la restricción epipolar, gracias ala cual podemos transformar una búsqueda en 2 dimensiones en otra de 1dimensión.

S Restricciones geométricas impuestas por los objetos a los que estamos mirando.Podemos asumir que, dada la continuidad de los objetos de la escena, las distanciasal origen de los puntos cercanos de la escena varía lentamente en todas lasdirecciones excepto en las discontinuidades producidas en los contornos. Este esel origen de la restricción de disparidad y del gradiente de disparidad. Otrarestricción de este tipo aparece si asumimos que los objetos a los que estamosmirando se aproximan a poliedros.

S Restricciones físicas como aquellas que proceden de modelos por los que losobjetos interactúan con la iluminación: fuentes y reflexiones en los objetos. Detodos estos, el modelo más simple y el más usado es el modelo Lambertiano yacomentado.

Page 60: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

36

1.3.6.1. Restricción Epipolar

Esta restricción se basa en la condición vista en el apartado 1.3.4.1. Cada punto Mdel espacio forma con los centros ópticos de las cámaras, Ci y Cd, el plano epipolar <Ci MCd>. Este plano epipolar corta a las superficies fotosensibles Ri y Rd de las cámaras ensendas líneas rectas epi y epd, que llamamos líneas epipolares. La existencia de estas líneasepipolares va a implicar que el correspondiente md en la imagen derecha de un píxel mi dela imagen izquierda caerá inevitablemente en la linea epipolar epd correspondiente de epi,y viceversa. Esto restringe la búsqueda de correspondencias que anteriormente se suponíaen todo el plano imagen a exclusivamente la línea epipolar; reduciendo considerablementelos cálculos a realizar; y además si se utiliza la configuración de cámaras paralelas, laslíneas epipolares coinciden con las filas de las imágenes.

1.3.6.2. Restricción de Unicidad

Esta es una restricción basada en la geometría del sistema de visión y en lanaturaleza de los objetos de la escena. Dice que, a cualquier píxel de la imagen derechasólo le ha de corresponder uno de la imagen izquierda. Esto significa que en el caso detener varios píxeles potencialmente correspondientes, habrá que escoger aquel que nos déuna mayor confianza. El análisis de confianza se puede realizar considerando cualquierade las otras restricciones aquí expuestas.

1.3.6.3. Restricción de Ordenamiento

La restricción de ordenamiento indica que, si dos píxeles mi y ni de la línea epipolarde la imagen izquierda están situados mi a la derecha de ni, sus correspondientes md y nd

estarán situados en su respectiva línea epipolar de forma que md estará a la derecha tambiénde nd. Esta restricción se cumple en un muy alto porcentaje de los casos, pero ahoraveremos que existen algunas excepciones.

Considerando la figura 1.8, en ella aparece un punto de la escena tridimensional ysus proyecciones mi y md en las retinas izquierda y derecha respectivamente. Si se escogeotro punto N en el triángulo definido por <M Ci Cd>, véase la zona rayada de la figura, Ntiene las imágenes ni y nd en distinto orden respecto de M en las retinas izquierda yderecha. Es fácil ver que sucede lo contrario con cualquier punto de la zona no rayada.

Page 61: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

37

Figura 1.8. Restricción de ordenamiento. Zona prohibida.

Existen dos argumentos para llamar a la zona rayada, zona prohibida asociada a M:

S Lo primero es que la distancia de M a las cámaras suele ser mucho mayor que lalongitud B de la línea base. De esta manera, el ángulo CiMCd es muy pequeño y laprobabilidad de que un punto N caiga dentro de él es muy baja.

S El segundo argumento es que si asumimos que M y N están situados en objetosopacos de espesor no despreciable, entonces M esconderá detrás a N, no siendoposible verlos simultáneamente en las retinas izquierda y derecha. Así que,podemos decir que N está en la zona prohibida definida por M, considerando elorden de sus imágenes a lo largo de las líneas epipolares.

En la práctica es difícil eliminar toda la zona rayada, ya que existiránconfiguraciones como la de la figura 1.8, en la que los puntos M y N pertenecen a objetosdistintos y ambos pueden verse. En este caso la restricción de orden no se aplicaría. Asíparece razonable forzar sólo a los vecinos de M, con una cercanía pequeña, a pertenecera la zona prohibida.

Page 62: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

38

Figura 1.9. Disparidad en geometría de cámaras paralelas.

1.3.6.4. Restricción de disparidad

Esta restricción está basada en la geometría de los objetos e impone un rango deprofundidades posibles para los objetos de la escena. Esta restricción considera que no esprobable que existan objetos muy cerca de las cámaras; ya que la escena suele tomarse amedia distancia. Si se descarta la posibilidad de que existan objetos muy cercanos, estamoseliminando disparidades excesivamente grandes. Nuevamente se está limitando labúsqueda en toda la línea epipolar, a una búsqueda restringida a un segmento de dichalínea. Esta restricción está basada en la geometría de la escena. Los mejores trabajosrelacionado con la restricción de disparidad son: el de Koenderink y van Doorn [KvD76]quienes expresaron la teoría necesaria, así como el de Wildes quien implementó algunasde sus ideas [Wil91].

1.3.6.5. Restricción del Gradiente de Disparidad

La idea de la zona prohibida que se apuntaba en la restricción de ordenamiento, sepuede ver como una forma particular de la idea del gradiente de disparidad. Siconsideramos la figura 1.10 donde el eje x es paralelo a los ejes v1 y v2 con su origen en O,el punto medio de la línea Ci Cd, podemos imaginar una retina virtual paralela a las dosreales con el centro óptico en O. Esta retina se llama a menudo retina ciclópea [Jul71]. Si

Page 63: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

39

OC1

m3m1 c1 c2 m2

d12 C2

f

v1 v2

x

z

M

Figura 1.10. Definición del gradiente de disparidad.

el punto M de la escena tridimensional tiene las imágenes mi y md en las dos retinas realescon coordenadas v1 y v2, entonces su imagen m3 en la retina virtual tendrá las coordenadas

v3 v1v2

2

Asumiendo que el punto M puede variar en un objeto suavizado definido por laecuación z=h(x), las ecuaciones vistas para la configuración de cámaras paralelas de lascoordenadas x, y, z, definen la disparidad d como una función suavizada de v3.

d v2v1 B·F

z; x

B2d

(v1v2)

Ahora consideramos dos puntos en el mismo objeto con coordenadas ciclópeas v3

y w3 y disparidades d1 y d2. La magnitud de la derivada de la disparidad con respecto a lacoordenada ciclópea, el gradiente de disparidad puede aproximarse a esto.

DG|d1d2

v3w3

|

Page 64: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

40

Utilizando las ecuaciones anteriores de la disparidad d y la coordenada xobtenemos

DGB|z1z2|

|z2x1z1x2|

Experimentos psicofísicos [PMF85] permiten conjeturar que la percepción humanaimpone la restricción, que el gradiente de disparidad está limitado por arriba por unaconstante (DG < K). Esto significa que, si un punto M de un objeto se percibe, los puntosdel mismo objeto que están cerca de M de forma que DG > K no se percibencorrectamente. Supongamos que M1=[x1,z1]T es fijo, y veamos que tipo de condicionesobtenemos en M2=[x2,z2]T imponiendo que DG < K.

La condición DG < K puede escribirse como

B· |z1 - z2| < |z2 · x1 - z1 · x2|

así obtenemos el cono definido por las líneas de ecuaciones

z1z2 ± KB

(z2x1z1x2)

El vértice del cono es el punto M. Su complemento es el cono prohibido para el queel gradiente de disparidad es menor que K. El caso especial K=2 es interesante porque lasdos líneas son <Ci, M> y <Cd, M> y la correspondiente zona prohibida es el conoprohibido de la restricción de ordenamiento. Si K<2 obtenemos una zona prohibida menor.

Nótese que la restricción del gradiente de disparidad impone una condición a latangente a la superficie del objeto: ésta debe quedar fuera del cono prohibido. Así larestricción del gradiente de disparidad es una restricción geométrica del tipo de objetosposibles. Es decir, los tipos de objetos que pueden ser reconstruidos mediante el procesoestéreo. Notese también, en general, que la restricción del gradiente de disparidad implicauna restricción de unicidad vista anteriormente.

1.3.6.6. Otras Restricciones Geométricas

En las restricciones a la correspondencia podemos ir un poco más lejos quesimplemente imponer un gradiente de disparidad a la escena. Además podemos imponerque las superficies de los objetos, localmente tengan alguna forma simple. Esta imposiciónpuede llegar a restringir que los objetos sean localmente planos, es decir que ellos seaproximen por sus planos tangentes en todas las direcciones excepto en las

Page 65: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

41

discontinuidades. Nótese que esto no es un caso especial del gradiente de disparidad yaque dado un umbral al gradiente de disparidad, algunos planos quedarían excluidos.

a)- Continuidad de Superficie y Continuidad FiguralEstas restricciones van en la misma dirección que la del gradiente de disparidad.

La restricción de continuidad de superficie se basa en que los puntos proyectados sobre laimagen, pertenecen a las superficies de los objetos de la escena, superficies que se asumencontinuas presentando únicamente discontinuidades en los contornos de los objetos. Estacontinuidad de las superficies se traduce en una continuidad en el mapa de profundidadesy, por lo tanto, en el mapa de disparidad, pues la disparidad está estrechamente relacionadacon la profundidad.

La restricción figural fue propuesta por Mayhew y Frisby, y establece lacontinuidad de las superficies formulada como la continuidad de la disparidad a lo largode los contornos de las figuras, y no a través de ellas. Esta formulación evita los problemasderivados de la discontinuidad en los límites de las superficies. Esta restricción impone quesi dos puntos m y n pertenecen al contorno de un mismo objeto, las disparidades de ambospuntos han de ser iguales o al menos semejantes, de forma que la diferencia de las mismassea inferior a cierto valor umbral.

b)- Posición GeneralCiertos eventos ocurren bastante infrecuentemente, en un sentido estadístico, de

forma que permiten desestimar correspondencias asociadas a disposiciones geométricasimprobables de los objetos. Se trata de una restricción específica de cada aplicación, puesla escena a captar y los objetos que la componen pueden poseer ciertas características tantoen su geometría como en su posición, de forma que permitan predecir posiblescorrespondencias correctas y desestimar o eliminar posibles correspondencias erróneas. Porejemplo, si se está utilizando la estereovisión para realizar un mapa topográfico de unazona no urbana, como puede ser una cordillera, la escena que se tiene, en su mayoría, noestará compuesta por grandes discontinuidades, sino que será un terreno continuo, enocasiones abrupto, pero continuo, permitiendo así descartar correspondencias que indicaranen el mapa de disparidad obtenido, alguna gran discontinuidad. Otra posibilidad dentro delas aplicaciones de la estereovisión, es la del control de calidad, un sistema de inspecciónde piezas tridimensionales conocidas permitiría guiar el proceso de búsqueda decorrespondencias.

Page 66: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

42

c)- Restricciones FotométricasLas restricciones fotométricas son restricciones que están basadas en los modelos

de interacción de los objetos con la iluminación. Entre ellas podemos destacar (1) larestricción de reflectancia superficial, que asume un modelo de reflectancia Lambertianapara las superficies, de modo que la intensidad de la proyección de cualquier puntotridimensional no dependa del punto de vista. En realidad, esto no es del todo cierto,aunque es una buena aproximación. (2) La restricción de compatibilidad fotométrica, queimpone que la distribución de intensidades entre puntos correspondientes debe ser similar.Y (3) la restricción de compatibilidad fotométrica diferencial, que utiliza la continuidadde superficie para asumir que dados dos puntos cercanos de una imagen, la diferencia deintensidades entre ambos puntos ha de ser similar a la diferencia de intensidades de suscorrespondientes. Estas restricciones deben aplicarse sobre entornos de vecindad oregiones, pues los valores puntuales de intensidad en un píxel están sujetos al ruido.

d)- Restricciones Locales de PrimitivaEstas restricciones son indicadores de la compatibilidad entre las características

geométricas de pares de posibles correspondencias en función del tipo de primitivasutilizadas. Por ejemplo, en los puntos de borde correspondientes la orientación delgradiente (signo) debe ser similar. En el caso de los segmentos de borde, la orientación deéste, su longitud y su gradiente también deben ser compatibles; y finalmente en lasregiones, sus dimensiones y su forma también deben estar relacionadas.

Restricción Aplicación

Epipolar La búsqueda de correspondencias se limita a las líneas epipolares

Unicidad Cada píxel sólo tiene un correspondiente (análisis de confianza)

Ordenamiento Los píxeles en las líneas epipolares guardan un orden(excepciones)

Disparidad Limita las correspondencias a un segmento de la línea epipolar

Gradiente Disp. Limita la variación de disparidad entre píxeles vecinos

Posición General Dependiente de aplicación

Fotométricas Interacción de los objetos de la escena con la luz

Locales Primitiva Dependientes de la primitiva que se utilice.Tabla 1.4. Resumen de restricciones.

Page 67: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

43

Referencia Concepto

[Bro03] Algunos métodos novedosos de estereovisión

[Sch02] Métodos basados en mapas densos de correspondencias

[Tru98] Técnicas de visión tridimensional

[Fau93] Referencia clásica de estereovisión

[Zit00] Correspondencias con detección de oclusiones

[Fau01] Geometría de sistemas multiimagen

[Har00] Geometría de múltiples vistas

[Rob65], [Pre70],[Sob78], [Can86][Mar80]

Detección de bordes

[Mar82] Referencia clásica de visión

[Sah88], [Lee90] [Rus95].

Técnicas de segmentación basadas en la umbralización

[KvD76] Teoría relacionada con la restricción de disparidad

[Wil91]. Puesta en práctica de la restricción de disparidad

[Jul71] Análisis de la retina ciclópea

[PMF85] Utilización de la restricción del gradiente de disparidadTabla 1.5. Referencias apropiadas para conceptos generales de estereovisión.

1.4. Técnicas de Correspondencia Utilizadas

El análisis de la visión en estéreo tiene una historia muy corta; los primerosartículos específicos que se encuentran en la literatura datan de los años 1970s. Desdeentonces han surgido multitud de ideas para resolver el problema de la correspondencia quees el más esquivo, y quizá por ello el más importante. Actualmente se siguen buscandosoluciones a este problema, ya que no se ha encontrado una solución que funcione bien conimágenes sintéticas y con imágenes reales, en ausencia y en presencia de ruido, etc.

Debido a esa multitud de intentos de resolución que han aparecido hasta la fechade realizar esta tesis y a que todavía se siguen buscando nuevos métodos, el intentarabarcar absolutamente todos los intentos sería un trabajo inacabable. Por ello, en esteapartado, se van a repasar algunos de los intentos de solución más representativos.

Page 68: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

44

Existen en la bibliografía múltiples ejemplos de taxonomías de las técnicas estereocomo por ejemplo [Bro03], [Sch02], cada una de ellas con una relación análisis-síntesisde los procesos involucrados diferente. En la clasificación que se presenta en los siguientesapartados se ha preferido distinguir las técnicas según su estructura general profundizandomayormente en la síntesis que en el análisis. Dentro de esta clasificación se agruparán losdistintos algoritmos según su afinidad con el fin de centrar más la atención en los diferentesconceptos que se presentan en cada modalidad.

1.4.1. Técnicas Basadas en la Correlación

Las técnicas de área basadas en intensidad han sido investigadas extensamente paraaplicaciones comerciales en estereofotogrametría [KMM77] y [FP86], pero estos son sóloalgunos métodos antiguos utilizados en visión por ordenador. La principal de este tipo detécnicas es la técnica de correlación de área. Ésta se basa en considerar los valores deintensidad de los píxeles de las imágenes como una señal bidimensional, que en una de lasdos imágenes ha sufrido una traslación (disparidad). Se trata de obtener, para cada puntode la imagen, dicha traslación minimizando una función de coste, que comúnmente tieneque ver con la correlación.

Para cada píxel de una imagen se calcula la correlación entre la distribución deintensidades de una ventana centrada en dicho píxel y una ventana del mismo tamañocentrada en el píxel a corresponder de la otra imagen. Esta técnica aplica, además de larestricción epipolar, las restricciones lambertiana, de continuidad y otra restricciónconocida como fronto-paralela, que asume que la disparidad es constante localmente, porlo que las superficies deben ser paralelas a los planos de imagen de las cámaras, o al menostener una pendiente pequeña. Las ventajas de utilizar este método de correlación de área,es que se obtienen unos buenos resultados en imágenes con texturas importantes y sonfáciles de paralelizar. Además, permite crear mapas densos de disparidad, es decir, seobtendrá una disparidad para todos los puntos de la escena, y no solo para los contornos,esquinas u otras primitivas de mayor nivel.

También es cierto que presenta problemas con imágenes que contienen elevadasdiscontinuidades de superficie y es una técnica muy sensible a variaciones fotométricasdebidas a sombras o reflejos. Tiene además problemas con las oclusiones y requiere de unproceso posterior de eliminación de falsas correspondencias. También es posible utilizaresta técnica como complemento de otras e incluso realizar algún tipo de postprocesadosobre el mapa de disparidad hallado, que permita reducir los inconvenientes de lacorrelación de área como técnica de correspondencia.

Page 69: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

45

1.4.1.1. El Principio General de las Técnicas de Correlación

Para encontrar las coordenadas de un pixel en la imagen 2 que corresponde con elpíxel de coordenadas (u1, v1) en la imagen 1, consideramos una ventana rectangular detamaño (2P+1)x(2N+1) centrada en (u1, v1) y calculamos su similitud con una parte de lasegunda imagen: la zona de búsqueda. Esta zona de búsqueda atendiendo a la restricciónepipolar estará dentro de la línea v2 = v1, y atendiendo a la restricción de disparidadpodremos centrarnos en un segmento de dicha línea. El método estadístico más utilizadopara determinar dicha similitud es la correlación cruzada normalizada c12(τ).

C12(τ)1k

N

iN

P

jP(I1(u1i, v1j)I1(u1,v1))·(I2(u1iτ, v1j)I2(u1τ,v1))

donde

k (2N1)(2P1) · σ1(u1,v1) · σ2(u1τ,v1)

En estas fórmulas I1(u1,v1) y σ1(u1,v1) son la intensidad media y la desviaciónestándar en la imagen 1 del entorno centrado en (u1,v1)

I1(u1,v1)1

(2N1)(2P1)N

iN

P

jPI1(u1i,v1j)

σ21(u1,v1)

1(2N1)(2P1)

N

iN

P

jP( I1(u1i,v1j)I1(u1,v1) )2

Las formulas son similares para I2 y σ2. Debido a la normalización por la media yla varianza, esta función es relativamente insensible a cambios en la iluminación. La curvaC12(τ) habitualmente tiene un máximo que se alcanza para el valor τ0 de τ. En este caso, ladisparidad del pixel (u1, v1) debe ser τ0. Esto puede verse en la figura 1.11.

Con esta técnica es necesarios hacer algunas consideraciones: (1) Las líneasepipolares deben ser filas de la imagen, ya que el estudio se hace por filas. Esto implica quelas imágenes deben estar rectificadas. (2) Si el máximo de la función de correlación C12(τ)no está muy definido, o existen varios máximos, la disparidad τ0 puede no ser muy precisao completamente errónea. (3) La disparidad se asume como constante en la ventana deanálisis; es posible tener problemas cuando el gradiente de disparidad sea diferente de 0.Este tercer problema es el más importante, ya que debemos asumir que las superficies de

Page 70: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

46

Figura 1.11. Forma general de la función de correlación.

la escena deben tener una disparidad constante. Esto equivale a decir que estas superficiesdeben representarse localmente como planos frontales.

Por otra parte, podemos considerar que la fórmula de C12 no es simétrica respectode I1 e I2. Por ello podemos también calcular la función de correlación C21(τ)intercambiando los roles de las imágenes 1 y 2. En este caso, los píxeles en los que C12(τ)y C21(τ) son distintos probablemente sean píxeles de contorno o cerca de discontinuidades,en los que puede haber oclusiones y el gradiente de disparidad ser grande. En el algoritmodesarrollado por Fua [Fua91], los puntos donde C12 y C21 difieren no se les asociacorrespondencia entre ellos, si no que se les consideran oclusiones, y el resultado final sedeja a una función de suavizado.

1.4.1.2. Algoritmo de Nishihara

Nishihara [Nis84] propuso una técnica de correlación basada en el signo de laconvolución de las imágenes con el operador Laplaciano de un Gaussiano. El uso delLaplaciano del Gaussiano fue motivado por el trabajo de Marr y Hildreth [Mar80] endetección de contornos, donde los contornos se detectan en los cruces por cero de la salidade dicha convolución. Otra extensión notable del método de correlación básico es elpropuesto por Kass [Kas83], [Kas88], quién procesó las dos imágenes con filtros linealesindependientes y después correlacionó los vectores de las salidas.

Page 71: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

47

Las posiciones de los cruces por cero de las imágenes en el algoritmo de Nishiharason muy sensibles al ruido. Estos cruces por cero se desplazan cantidades que sonproporcionales a la amplitud del ruido e inversamente proporcionales al gradiente de laconvolución en el cruce por cero [Nis84], [NP82]. Por otro lado, si el espacio entre crucespor cero es relativamente grande comparado con la cantidad de este desplazamiento, laregión de signo constante entre ceros será estable en un rango grande de relaciones señal-ruido. La idea es realizar la convolución de las imágenes derecha e izquierda con 2Gσ

donde Gσ es un ruido Gaussiano de varianza σ, y después correlacionar las imágenes desalida. Este tiene el efecto de hacer más abrupto el pico de la función de autocorrelación.En [Fau93] puede extenderse el estudio de la sensibilidad al ruido, y la forma de lasfunciones de correlación utilizando algunos modelos de imágenes de estadística simple.

1.4.1.3. Función de Similitud Basada en la Suma de Diferencias

La función de correlación es una función muy pesada computacionalmente; porello, los algoritmos que la utilizan suelen tardar mucho tiempo en ejecutarse. Debido aesto, se han planteado dos alternativas a esta función; alternativas que en principio sonmenos costosas computacionalmente, y que a la postre han resultado ser tanto o más fiablesque la propia función de correlación. Estas funciones son la suma de diferencias absolutas(SAD) y la suma de diferencias al cuadrado (SSD) y se aplican de la misma manera aentornos bidimensionales de los píxeles a corresponder.

Mediante la suma de diferencias absolutas se comparan los entornosbidimensionales de los píxeles a analizar, calculando sus diferencias píxel a píxel ysumándolas todas entre sí. Aquellos entornos que tengan un mínimo de esta suma serán losque más confianza tenga su correspondencia. Por su parte, la suma de diferencias alcuadrado se diferencia del anterior, en que previamente a la suma, las diferencias de lospíxeles de los entornos bidimensionales se elevan al cuadrado. En [Asc93] puede verse unacomparación extensa de estos métodos.

1.4.2. Funciones basadas en Rango y Censo

Zabih y Woodfill [Zab94] propusieron un método alternativo para analizar lacorrespondencia aplicando una transformación previa a las imágenes con el fin de eliminardependencias con la iluminación. Ambas funciones se aplican de forma local a las regionesa corresponder de las dos imágenes. La transformada del rango de una región centrada enun píxel se define como el número de píxeles de esta región cuya intensidad es menor quela del píxel central. El resultado está más basado en la cantidad de píxeles, que en los

Page 72: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

48

28 19 3248 18 2537 12 15

>rango2;28 19 3248 18 2537 12 15

>censo00000011

píxeles en sí. Después de la transformación del rango, se procede a una comparación de lasregiones mediante técnicas de correlación, SAD o SSD.

La transformada del rango es interesante porque reduce la sensibilidad a lailuminación, pero reduce el poder de discriminación en las correspondencias, ya que sepierde información sobre la posición del orden relativo de los píxeles. Los propios Zabihy Woodfill propusieron una variación de la transformación del rango llamadatransformación del censo. Ésta conserva la distribución espacial de los píxelescodificándolos mediante una cadena de bits. En este caso, el análisis de correspondenciase realiza mediante la distancia de Hamming, número de bits diferentes entre cadenas debits. Esta transformación incrementa la cantidad de información necesaria por un factor quedepende del tamaño local de la región, haciéndola algo más costosa computacionalmente.

Banks y Croke [Ban01] compararon las prestaciones de las correspondenciasmediante censos y rangos con las analizadas mediante correlaciones y medidas de ladiferencia. Sus resultados indican que los métodos del rango y el censo consiguen métricascomparables con las anteriores y son más robustos frente a la iluminación y a lasoclusiones. Para la mayoría de las escenas analizadas, las diferencias entre la correlacióncruzada y la correspondencia mediante el censo están entre el 5 y el 9 por ciento de erroresdel número total de píxeles.

1.4.3. Técnicas de Relajación

La técnica de correlación de área por sí sola presenta numerosos errores en lascorrespondencias, que bien pueden ser eliminados mediante un postprocesado oparcialmente evitados mediante un proceso que se conoce con el nombre de relajación oalgoritmo cooperativo. La idea básica de las técnicas de relajación es permitir a los píxelesque se van a poner en correspondencia, realizar “estimaciones controladas” de cómo debeser su correspondencia y después, permite a las correspondencias reorganizarse propagandoalgunas de las restricciones descritas en los apartados anteriores.

Para este tipo de proceso, no solo importa el valor de la correlación obtenida paralos píxeles de la línea que se analiza, sino que también otorga importancia a los valores decorrelación obtenidos para una cierta vecindad que se conocerá con el nombre de regiónexcitatoria; y un grupo de píxeles que se conocerán como región inhibitoria.

Page 73: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

49

Figura 1.12. Cubo de correlaciones.

Este algoritmo se implementa a partir del denominado cubo de correlación, queserá una matriz de tres dimensiones (filas x columnas x disparidad). Cada uno de loselementos de la matriz almacenará el valor de la correlación obtenido para la ventana dela imagen 1 centrada en el píxel marcado por las coordenadas (fila, columna) con laventana de la imagen 2 centrada en el píxel de coordenadas (fila, columna + disparidad).Este cubo de correlación se muestra en la figura 1.12. Una vez creado el cubo decorrelación para cada uno de los píxeles de la imagen marcado por su fila y su columna,se tiene un vector unidimensional del tamaño el límite de disparidad elegido en el análisis,y que almacena los valores de la correlación.

El proceso de relajación, se realizará ahora línea por línea, o fila por fila, de modo,que para cada una de las filas, se tiene una matriz bidimensional de la magnitud horizontaly la disparidad. Es en esta matriz donde se definirán las que antes se han llamado regióninhibitoria y excitatoria. Las regiones excitatoria e inhibitoria se definen utilizando lasrestricciones de continuidad, unicidad y, de forma indirecta, también de ordenamiento,además de la restricción epipolar que se ha utilizado para crear el cubo de correlación. Paraun píxel de coordenadas (x,y), existirá un valor de disparidad d para el cual se encuentreel punto correspondiente. Si ese punto es realmente una correspondencia tendrá un altovalor de correlación y, a su vez, atendiendo a la restricción de continuidad, los puntoscercanos a él también tendrán valores altos, de modo que esos puntos cercanos serán laregión excitatoria. Por el contrario, si dicho punto es correcto, los demás elementos de lamatriz cuya coordenada x sea la misma pero difieran en la disparidad, serán

Page 74: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

50

Figura 1.13. Regiones excitatoria e inhibitoria.

correspondencias falsas, de modo que tendrán valores pequeños de disparidad. Si a su vez,se aplica la restricción de ordenamiento y unicidad, los puntos que tengan una coordenadax diferente pero tengan una disparidad tal que lleven al mismo píxel, no seráncorrespondencias válidas, por lo que sus valores de correlación también serán pequeños.Estos dos últimos grupos de puntos se corresponderán con la región inhibitoria. En lafigura 1.13 se muestra gráficamente todo esto. Conociendo las características de lasregiones comentadas, será posible utilizarlas para mejorar el proceso de la búsqueda de lascorrespondencias.

1.4.3.1. El algoritmo de Marr-Poggio.

El algoritmo de Marr y Poggio [MP76] [MP79] fuerza las restricciones de unicidady de disparidad. Para cada píxel m1 de la imagen 1, se calcula un conjunto inicial demedidas de confianza c(m1, m2) que estiman cual de los m1 puede ser puesto encorrespondencia con m2 de la imagen 2. Existen muchas formas de calcular los valores deC. El más simple es comparar los valores de intensidad de m1 y m2:

C(m1,m2) = 1 si la intensidad de m1 y m2 están lo suficientemente cerca C(m1,m2) = 0 de otra forma.

Los puntos m2 son elegidos de la línea epipolar correspondiente de m1. Las medidasde confianza se actualizan secuencialmente para comprobar la restricción de continuidadasí:

C(n+1)(m1, m2) = 1, si el número de pixeles m’1 en el vecindario V1 de m1 son talesque C(n)(m’1, m’2) = 1 para m’2 en el vecindario V2 de m2 está por encima delumbral

C(n+1)(m1, m2) = 0 en otro caso.

Page 75: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

51

Los vecindarios V1 y V2 son usualmente aproximaciones a discos de radio unospocos píxeles centrados en m1 y m2.

El algoritmo ha sido probado, sobretodo en estereogramas de puntos donde se hanobtenido resultados muy satisfactorios. En unas pocas iteraciones éste converge; es decir,la confianza medida permanece estable. Más aún, la confianza medida es habitualmenteno ambigua en el sentido de que, para la mayoría de los píxeles m1 de la primera imagensólo hay un píxel m2 de la línea epipolar correspondiente de forma que C(m1,m2)=1. Elpunto m1 es entonces puesto en correspondencia con m2. Si existen varios m2 candidatos,no se debe aplicar la restricción de unicidad.

El algoritmo no funciona tan bien con imágenes reales, sobretodo porque lascaracterísticas que utiliza, la intensidad en el punto y las restricciones que impone(geometría plana y disparidad) no son suficientes para utilizarlas en la mayoría de lasimágenes reales. Su implementación y muchas aportaciones interesantes son debidas a EricGrimson [Gri81], [Gri85].

1.4.3.2. El Algoritmo de Pollard, Mayhew, Frisby

La mayor diferencia del algoritmo PMF [PMF85] con el de Marr y Poggio es queéste fuerza la restricción del gradiente de disparidad. Éste, primero extrae de las dosimágenes varios elementos cada uno de ellos caracterizado por varios atributos. Porejemplo, los puntos de contorno son caracterizados por su contraste y su orientación. Unacorrespondencia entre el detalle t1 de la imagen 1 y el detalle t2 de la imagen 2 secaracteriza por una medida C12 de su confianza comparando los valores de los atributos det1 y de t2.

Para cada elemento localizado en el pixel m1, y cada posible correspondiente en laimagen 2 (aplicando la restricción epipolar) se calcula una “fuerza de la correspondencia”SM(m1,m2). Se consideran todos los elementos ti localizados tanto en los píxeles m1 comoen algún vecino de m1. Para cada detalle, las correspondencias t2 localizadas en los píxelesm2 que satisfacen la restricción DG(m1, m2, n1, n2) < σ se consideran como candidatos paraconsiderarse correspondientes (m1, m2). En el caso donde hay más de un detalle con estarestricción DG<σ, sólo se considera aquel con mayor valor de Cij.

Los detalles son correspondientes mediante un proceso en que “el que gana sequeda con todo” para asegurar la unicidad. El método funciona como sigue. Para cadaiteración, se consideran correctos aquellos cuya fuerza de correspondencia es máxima paralos dos detalles de las imágenes. Después, debido a la restricción de unicidad, todas lascorrespondencias asociadas a los dos puntos se eliminan para la siguiente iteración. Estopermite que las correspondencias se elijan tan correctas como sea posible a partir de la

Page 76: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

52

(x E)v Et 0

fuerza de la correspondencia para los dos detalles (uno de cada imagen). Normalmente concuatro o cinco iteraciones es suficiente para conseguir todas las correspondencias. Elalgoritmo se ha probado en gran número de imágenes sintéticas y reales dando resultadosprecisos y fiables.

1.4.3.3. Técnicas de Grueso a Fino

Dentro de las técnicas basadas en área, existe otra bastante común que se conocecomo técnica grueso a fino y que puede emplearse con diferentes técnicas decorrespondencia, siendo lo más habitual su uso junto con la técnica de correlación de Marr-Poggio. Esta técnica se basa en crear una estructura piramidal a partir de las imágenesestéreo reduciendo su tamaño y por lo tanto, su resolución. El proceso se realizará para Kniveles de reducción comenzando la búsqueda de correspondencias en el nivel mas bajo,es decir, el de menor tamaño o resolución. Los resultados obtenidos en este nivel, seránutilizados para guiar y restringir la búsqueda de las correspondencias en el nivel superior,y así sucesivamente hasta alcanzar el nivel K-1, que serán las imágenes originales.Ejemplos de esta técnica pueden verse en [Qua84], [Wit87] o [Ber92]

Esta técnica tiene el inconveniente de que un pequeño error en un nivel bajo, seconvertiría en un gran error en el mapa de disparidad final. Su ventaja es que al realizargran parte de la búsqueda de las correspondencias en imágenes de bajas resoluciones, eltiempo de ejecución se reduce, pues al llegar a las imágenes de los niveles altos, labúsqueda queda muy restringida a unos pocos píxeles.

1.4.4. Métodos Basados en el Gradiente

Los métodos basados en el gradiente o en el flujo óptico persiguen determinardisparidades locales entre dos imágenes en base a formular una ecuación diferencial querelaciona el movimiento y el brillo en las imágenes. Para hacer esto, se asume que el brilloen la imagen de un punto de la escena es constante entre las dos vistas. Así la traslaciónhorizontal que se produce debida a la diferente perspectiva se analiza a partir de laecuación

donde xE es la componente horizontal del gradiente en la imagen, Et es la diferencia deintensidades entre las imágenes derecha e izquierda, y v es el desplazamiento entre las dosimágenes.

Page 77: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

53

Puede notarse que con esta expresión solamente es posible estimar eldesplazamiento en la dirección del gradiente. Para solucionar esto, es conveniente estudiarel gradiente en todos los píxeles del entorno del punto a estudio para, de esta manera, teneruna información más fiable para realizar las correspondencias. Un ejemplo de este tipo seencuentra en [Sch94].

1.4.5. Correspondencias entre Características

Las técnicas relacionadas con el área como la correlación, y las basadas en elgradiente son muy sensibles a errores provocados por las discontinuidades en laprofundidad, así como a las regiones uniformes. Para solventar estos problemas, lastécnicas basadas en características limitan las regiones a analizar a características fiablesde las imágenes, como pueden ser los contornos, las curvas, etc. Esta técnica reduce ladensidad de puntos sobre los que se estima la profundidad; por eso, debido a la necesidadde conseguir mapas de disparidad densos para distintas aplicaciones y también a lasmejoras en eficiencia y robustez en los métodos basados en áreas, en la última década elestudio de los métodos basados en características ha decaído. Los dos métodos que hanrecibido más atención en los últimos tiempos han sido los métodos jerárquicos, y lasegmentación basada en regiones.

Venkateswar y Chellappa [Ven95] propusieron un algoritmo de correspondenciasbasadas en características explotando cuatro tipos de ellas: líneas, vértices, contornos, ysuperficies. La correspondencia comienza en el nivel más alto de la jerarquía; lassuperficies y continua hasta el más bajo; las líneas. Una vez que los componentes de lajerarquía más alta han sido puestos en correspondencia, las características que lo componenno son vueltas a analizar en los niveles más bajos.

Otra aproximación basada en características es primero segmentar las imágenes ydespués poner en correspondencia dichas regiones. Como todos los métodos basados encaracterísticas, los mapas densos se definen en base a desplazamientos de las regiones. Porlo tanto, estos métodos son sensibles sobretodo, a la calidad de la segmentación.

1.4.6. Técnicas de Programación Dinámica

El problema de la correspondencia de primitivas entre imágenes puede ser abordadocomo minimización de una función de coste. La programación dinámica es una formaeficiente de minimizar (o maximizar) funciones de gran número de variables discretas.Intentos satisfactorios utilizando programación dinámica para resolver el problema de la

Page 78: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

54

Figura 1.14. Técnicas de programación dinámica.

correspondencia estéreo son los de Baker y Binford [BB81] y Ohta y Kanade [OK85]. Enambos casos se utilizan los contornos como primitivas básicas.

Asumamos que las líneas epipolares son paralelas a las filas de las imágenes yconsideremos dos líneas correspondientes en las imágenes derecha e izquierda. En cada filase identifican varios píxeles de contorno, y se incluyen los dos finales de las líneas porconveniencia. La correspondencia de estos píxeles de contorno, pueden considerarse comoel problema de corresponder los intervalos entre ellos de la siguiente manera: Ordenamoslos píxeles de contorno de izquierda a derecha en cada línea y los numeramos entre 0 y N-1en la imagen izquierda y 0 a M-1 en la derecha.

En la figura 1.14 se representan los pares (i,j) de puntos de contorno de las líneasderecha e izquierda como puntos que forman una rejilla. Corresponder el intervalo [i, i’]de la izquierda con el [j, j’] de la derecha es equivalente a dibujar un segmento entre lospuntos m=(i,j) y m’=(i’,j’) en la rejilla. El objetivo es encontrar una secuencia desegmentos (un camino) desde el punto m0=(0,0) hasta el punto me(N-1, M-1). En estabúsqueda, podemos aplicar restricciones del estilo de las vistas en apartados anteriores. Larestricción de orden es interesante ya que es equivalente a decir que los caminos admisiblesson caminos monótonos decrecientes.

A pesar de esta restricción todavía existen muchos caminos posibles. Definiremosel mejor camino el que minimice una función de coste. Primero definimos el coste c(m,m’)de un segmento entre los puntos m=(i,j) y m’=(i’,j’). Por supuesto, existen varias formasde definir esta función de coste. En general esta función de coste debe medir dos cosas: (1)

Page 79: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

55

la similitud de las características de los píxeles de la imagen derecha y la izquierda,características que pueden ser la orientación de los contornos o contraste a través de ellosy (2) la similitud de intensidades a lo largo de los intervalos entre contornos.

Si existe un contorno entre dos filas, las correspondencias de una fila debendepender bastante de las vecinas. Reforzar la consistencia es equivalente a aplicar lacontinuidad de las figuras, y hay varias formas de hacerlo: (1) Baker [BB81] utiliza unproceso cooperativo para detectar y corregir los resultados de la correspondencia, mientrasque (2) Ohta y Kanade [OK85] lo incluyen en la función de coste y resuelven unaprogramación dinámica en un espacio 3D en vez de un espacio previo 2D.

Además de la minimización de la función de coste para las líneas epipolaresindependientemente, también se pueden aplicar relaciones de correspondencia entre líneasepipolares vecinas (superiores e inferiores) con el fin de reducir la ambigüedad. Algunasherramientas que avanzan en esta dirección son los llamados graph cuts [Boy01], quetratan de minimizar una función de coste que puede implicar tanto a la dirección horizontalcomo a la vertical. La principal desventaja de la programación dinámica es la probabilidadde que errores locales se puedan propagar a lo largo de la línea epipolar descartándosecorrespondencias potencialmente correctas.

1.4.7. Técnica de las Curvas Íntimas

Tomasi y Manduchi [Tom98] propusieron una alternativa a la búsquedaconvencional de correspondencias utilizando una representación diferente de las líneasepipolares de las imágenes; es la técnica de las curvas íntimas. Una curva íntima es unarepresentación de descriptores definidos por la aplicación de operadores de borde o deesquinas. Las curvas íntimas se definen representando gráficamente las intensidades decada línea epipolar frente a sus respectivas derivadas. Esta representación es invariante conla disparidad, así que en el caso ideal, los píxeles correspondientes se sitúan superpuestosen las dos representaciones de las líneas epipolares.

En el caso general, debido al ruido y a las diferencias de perspectivas los puntoscorrespondientes, no siempre se superponen exactamente en el mismo sitio. De esta manerase recurre ha identificar a los puntos correspondientes como los puntos más cercanos dela gráfica. Una vez que se ha encontrado la correspondencia mediante las curvas íntimas,debe deshacerse la representación para asociar a cada correspondencia la disparidadapropiada.

La principal ventaja de las curvas íntimas es su invarianza respecto de la disparidad.Algunos métodos utilizan precisamente la restricción de disparidad para reducir su costecomputacional, pero en esta aproximación, eso no es necesario. Por supuesto esta

Page 80: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

56

representación también está afectada por las oclusiones y por texturas homogéneas en lasimágenes. Para compensar sobretodo el segundo problema, se añade un mecanismo deprogramación dinámica que se aplica en aquellos puntos de la curva íntima que por su nivelde brillo constante y su derivada también constante no quedan del todo situados.

Las oclusiones en las curvas íntimas quedan patentes como discontinuidades en larepresentación; y aunque es visiblemente un indicador interesante, todavía no se hapublicado ningún algoritmo para su tratamiento. Tampoco se han publicado análisiscomparativos con otros métodos.

1.4.8. Métodos de Predicción y Verificación

Este es un ejemplo de algoritmo estéreo donde los elementos puestos encorrespondencia son de un nivel simbólico mayor que los píxeles. Esta aproximación hasido seguida particularmente por Medioni y Nevatia [MN85]. Describiremos un algoritmoestéreo desarrollado por Ayache y Faverjon [AF87] que realiza la correspondencia desegmentos entre dos imágenes por una técnica de predicción y verificación de hipótesis.

El tomar segmentos de línea como primitivas tiene dos ventajas: (1) El número deprimitivas a poner en correspondencia es más pequeño que el número usual de píxeles decontorno y (2) en la correspondencia de primitivas simbólicas podemos utilizarcaracterísticas de ellas, como por ejemplo características geométricas, que son robustas yfiables.

El utilizar segmentos también tiene desventajas: (1) Se asume que los contornos sepueden aproximar bien por segmentos de línea, y que además los objetos de la escena sonpoliedros o parecidos. Si no lo son, el número de segmentos puede aumentar para unatolerancia dada, reduciendo la ventaja (1). (2) Si los objetos no son poliedros, no haygarantía de que los vértices de los poliedros aproximados en las imágenes del par estéreose correspondan; es decir, que estén en las mismas líneas epipolares. (3) La densidad decorrespondencias es menor que las obtenidas en el caso de puntos. A pesar de esto, lascorrespondencias son habitualmente más precisas y fiables que las tomadas por técnicasbasadas en correlación y esta ventaja compensa la desventaja. La primera desventaja sepuede aliviar considerando aproximaciones por curvas en vez de segmentos de línea. Lasegunda desventaja también puede aliviarse mediante técnicas de interpolación.

Este método utiliza tres restricciones para reducir el tamaño del espacio debúsqueda: la restricción epipolar modificada para el caso de segmentos de línea que se veráa continuación, la restricción de continuidad y la restricción de unicidad.

Page 81: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

57

1.4.8.1. Construcción de Descripciones Simbólicas

Las dos imágenes del par estéreo se representan como conjuntos de segmentos.Estos segmentos se extraen de una primera búsqueda de puntos de contorno y después seaproximan dichos puntos por líneas rectas. Cada segmento se representa por variascaracterísticas geométricas (coordenadas del punto medio, longitud, orientación) y basadasen intensidad (contraste, gradiente de intensidad media de la imagen a lo largo delsegmento).

También se introduce una estructura de vecindario en los conjuntos de segmentos[AEI85]. Esto significa que cada imagen se divide en ventanas cuadradas no solapadas.Para cada ventana se le asigna una lista de segmentos que intersectan. Esto da un accesorápido a los segmentos que están cerca de un segmento dado y se utilizan para implementarel proceso de propagar las hipótesis que se describirán a continuación.

1.4.8.2. Definición de Correspondencias

Estrictamente hablando, una correspondencia es un par (D, I) de los segmentos dela derecha y la izquierda que satisfacen la restricción epipolar. En la práctica laprobabilidad de que dos aproximaciones poligonales produzcan segmentos cuyos finalesestén en el mismo plano epipolar es muy pequeña. Es mejor observar situaciones en las quelas líneas epipolares de los finales de segmentos intersectan con otros segmentos s1 y s2 enalgún punto distinto de los finales.

Una correspondencia aceptable puede definirse de la manera más rigurosaconsiderando los puntos finales de I y sus correspondientes líneas epipolares queintersectan en D a lo largo del segmento D’ (más largo). Debe existir la intersección D”de D’ y D, si la correspondencia se acepta. Utilizando un método similar, los puntos finalesde D” corresponderán con I” que estará incluida en I. Los segmentos I” y D” existirán ytendrán sus características en correspondencia.

Como esta forma de hacer es muy costosa, definimos una restricción epipolarmodificada como sigue. La restricción epipolar para segmentos de línea implica que lossegmentos homólogos tienen al menos un punto análogo. Para hacerlo más sencillo estepunto se escoge como el punto medio del segmento. Imponemos que la linea epipolar delpunto medio del segmento I intersecte al segmento D para que la correspondencia (I, D)sea válida. Esta definición no es simétrica con respecto a I y D, y tiene la desventaja depermitir potencialmente una correspondencia global entre contornos aproximados pordistintos segmentos. Finalmente, para evitar falsas correspondencias espúreas posibles, lascaracterísticas de los segmentos se comparan.

Page 82: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

58

Como resumen, una correspondencia es un par (I, D) de segmentos de la derechay la izquierda que satisfacen la restricción epipolar modificada. Además las característicasde los segmentos derecho e izquierdo deben estar suficientemente cercanas.

1.4.9. Métodos Basados en Diferencias de Fase

Otro de los enfoques quizá menos extendido sea el fundamentado en el cálculo dela disparidad binocular en base la diferencia de fase a la salida de filtros paso banda localesaplicados a las imágenes estereo. Este enfoque es analizado con mayor profundidad en[Jep89], y [San88]. Además existen evidencias biológicas incluidas en [Wil89] quesoportan diferentes aspectos de este método. Estos métodos han surgido debido a que sepiensa que la forma en que el cortex visual primario procesa las imágenes visuales puedeser modelada adecuadamente mediante filtros paso banda espacio-temporales [Cor93].

1.5. Tratamiento de las Oclusiones

La mayor parte de la investigación en estereovisión en la última década se haorientado a la detección y medida de regiones ocultas, y en recuperar la profundidadprecisa para estas regiones. Este apartado define el problema de la oclusión enestereovisión y contempla tres clases de algoritmos para el manejo de oclusiones: métodosque detectan oclusiones, métodos que reducen la sensibilidad a las oclusiones y métodosque modelan la geometría de las oclusiones.

El problema de las oclusiones en estereovisión se refiere al hecho de que algunospuntos de la escena son visibles por una cámara y sin embargo, no por la otra, debido a lapropia escena y a la geometría del sistema. En estos casos, la estimación de la profundidadno es posible si no se añaden más vistas en las que el punto no esté oculto, o se asumanciertas características de la escena.

Page 83: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

59

Referencia Concepto

[KMM77] Fotogrametría aplicada a la teledetección

[FP86] Uso de la visión artificial en fotogrametría

[Fua91] Correlación biunívoca para detección de oclusiones

[Nis84], [NP82] Correlación basada en detección de bordes

[Kas83],[Kas88]

Correlación con filtrados lineales previos

[Asc93] Similitud basada en sumas de diferencias (SAD), (SSD).

[Zab94] Similitud basada en la transformación del rango y del censo

[Ban01] Comparativa de similitudes basadas en rango y censo

[MP76],[MP79]

Técnica de relajación basada en vecindario

[PMF85] Correlación basada en características

[Qua84],[Wit87] [Ber92]

Utilización de técnicas de grueso a fino

[Sch94] Métodos basados en el flujo óptico

[Ven95] Correspondencias basadas en líneas, vértices, contornos ysuperficies

[BB81], [OK85] Técnicas basadas de programación dinámica

[Boy01] Minimización de función de coste mediante graph cuts

[Tom98] Técnica de curvas íntimas o “intrinsic curves”

[AF87] Correspondencias basadas en segmentos (predicción yverificación)

[Jep89],[San88],[Wil89]

Métodos basados en diferencias de fase a la salida de filtros pasobanda

[Cor93] Evidencias biológicas de la existencia de filtrados en el sistemavisual biológico

Tabla 1.6. Métodos de resolución de la estereovisión

Page 84: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

60

1.5.1. Métodos de Detección de Oclusiones

Los acercamientos más simples al manejo de oclusiones comienzan por sudetección previa o posteriormente a las correspondencias. Estas regiones en algunos casosresultan interpoladas cuando se pretende conseguir un mapa denso de disparidades, osimplemente no se toman en consideración cuando se busca un mapa menos denso. Laaproximación más común es detectar discontinuidades en el mapa de profundidad despuésdel análisis de correspondencias. Habitualmente se utilizan filtros de mediana para eliminardichas discontinuidades que son producidas generalmente por oclusiones. Por ejemplo,Hoff y Ahuja [Hof89] detectan la profundidad y la orientación de las discontinuidadescomparando los resultados con superficies planas. Cuando dos de estas superficies difierenen profundidad o en orientación más de un determinado umbral, se considera que existeuna oclusión.

Chang et al. [Cha91] calcula dos mapas de disparidad, uno basado en lascorrespondencias de la imagen izquierda con las de la derecha, y otro basado en lascorrespondencias de la derecha con las de la izquierda. Las disparidades inconsistentes seconsideran producidas por oclusiones en la escena. Existen otras muchas causas posiblesde inconsistencias, incluyendo diferencias de perspectiva, iluminación no uniforme, o ruidoen los sensores. La inconsistencia de izquierda a derecha trata todos estos fenómenos porigual, pero es un método que utilizando las funciones SAD o SSD vistas anteriormentetienen un coste computacional razonable. Por ello, son comúnmente utilizadas en sistemasen tiempo real.

La restricción de ordenamiento también se puede utilizar para detectar oclusiones.El ordenamiento relativo de los puntos a lo largo de las líneas epipolares es monótono,asumiendo que no existen objetos excesivamente estrechos en la escena. Silva y Santos-Victor [Sil00] han propuesto un método que buscan correspondencias fuera de orden, quepueden indicar la presencia de oclusiones.

Otra aproximación a la detección de oclusiones se basa en la observación dediscontinuidades en la profundidad y orientación que aparecen en torno a los bordes de losobjetos. Los mapas de disparidad se suavizan, manteniendo exclusivamente sin suavizarlas disparidades asociadas a los bordes. Entonces, aquellos puntos con grandes diferenciasde disparidad entre la versión original y la suavizada se considera como regiones ocultas.

La programación dinámica de Ohta y Kanade [OK85] que hace corresponder a lasregiones a través de la interpolación de las profundidades de los contornos, no sólo detectasino que también evita el problema de las oclusiones.

Page 85: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

61

1.5.2. Métodos para Reducir la Sensibilidad a lasOclusiones

El uso de métodos robustos es un camino para conseguir reducir la sensibilidad aoclusiones en la correspondencia, y otras diferencias en las imágenes. La presencia deoclusiones en pares de imágenes estereo producen discontinuidades en la disparidad quepor otro lado son coherentes; es decir, existen regiones que por un lado tienen unadiscontinuidad grande en la disparidad, pero en otra dirección su función disparidad essuave. Esta suavidad introduce un nuevo umbral en la detección de oclusiones. Stewart[Ste97] llama a estas discontinuidades “pseudo-outliers” y ofrece sugerencias para unaselección cuidadosa de estimadores robustos para manejarlas.

Zabih y Woodfill [Zab94] Propusieron las transformaciones del rango y el censoque se aplican a las áreas locales antes de la correlación. Como estos métodos se basan enla intensidad relativa en vez de en las intensidades absolutas, son bastante robustos a lasdiscontinuidades de disparidad.

Otra aproximación para reducir la sensibilidad a las oclusiones es redimensionarla ventana de correlación para optimizar la similitud de las correspondencias cerca de lasoclusiones. Kanade y Okutomi [Kan94] proponen un método iterativo para determinar eltamaño óptimo de las ventanas. El tamaño de las ventanas es inicialmente muy pequeño,y se analiza la incertidumbre de la correspondencia. Entonces, el tamaño de la ventana seexpande un píxel por cada dirección independientemente, y se vuelve a calcular laincertidumbre. Si esta incertidumbre ha crecido al expandir la ventana en una dirección,esa dirección se declara prohibida para expandir. Este procedimiento se aplica de formaiterativa hasta que todas las direcciones se declaran prohibidas.

1.5.3. Métodos para Modelar la Geometría de lasOclusiones

Aunque los métodos anteriores para la detección y reducción de la sensibilidad alas oclusiones ofrecen distintas ventajas y todos son computacionalmente abordables, estosno aprovechan todas las posibilidades que aportan las restricciones a la estereovisión. Esdeseable integrar el conocimiento de la geometría de las oclusiones dentro del proceso debúsqueda.

Belhumeur [Bel96] define las bases de una serie de estimadores Bayesianos, loscuales cada uno maneja un modelo más complicado de la escena. Estos se utilizan paradefinir funciones de coste para utilizar en programación dinámica. El modelo más simple

Page 86: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

62

supone que las superficies son suaves. El segundo asume que además de la suavidad de lassuperficies existen contornos abruptos en los objetos. El modelo tercero es más realista,e incluye superficies con inclinaciones además de los contornos en los objetos. Variacionesde estos modelos, sobretodo del segundo han sido utilizados tanto en la programacióndinámica como en los graph cuts para determinar el mapa de disparidad óptimo.

Otro método para detectar oclusiones y recuperar las profundidades de estasregiones es explotar la posibilidad de tener varias cámaras [Oku93]. Kanade et al. [Kan92]proponen un algoritmo que utiliza la función SSD, y tiene como base la posibilidad dedesplazar las cámaras obteniendo diferentes lineas base conocidas. La ambigüedad en elpar estereo debida a las oclusiones no están presentes en otros pares, en los que el objetoes visible desde las dos perspectivas.

También se puede utilizar visión activa para detectar oclusiones y recuperar laprofundidad de éstas, en base al estudio del movimiento de las cámaras, para conseguir queel punto oculto pase a ser visible. Ching [Chi94] utiliza la visión activa para discernir entreoclusiones y reflejos especulares. Una de las dos cámaras del par estereo se rota, y seanaliza el cambio de las dimensiones de las regiones supuestamente ocultas. Aquellas áreasque no crecen o decrecen de una forma predecible se asume que son debidas a reflejosespeculares.

Una aproximación más general para manejar oclusiones utilizando visión activa fuepropuesta por Reed y Allen [Ree00], quienes describen la planificación de un sistemasensor que minimiza el número de cámaras requeridas para capturar todos los puntos dela escena.

1.6. Técnicas que Relacionan Estereopsis conMovimiento

Además de la estereovisión clásica, también han aparecido otras formas derecuperar la estructura 3D de una escena en base a información de movimiento. Lasprimeras de ellas han sido agrupadas con la denominación de “Estructura desde elMovimiento - Structure from Motion” y utilizan para ello una sola secuencia de video. Encambio, actualmente se trata de combinar la información espacial y temporal para aumentarla robustez y la eficiencia computacional de la recuperación tridimensional.

Page 87: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

63

Referencia Concepto

[Hof89] Existencia de oclusiones cuando dos superficies difieren enprofundidad o en orientación más de un determinado umbral

[Cha91] Detección en base a inconsistencias entre dos mapas dedisparidad, derecha-izquierda e izquierda-derecha

[Sil00] Elementos que no cumplen la restricción de ordenamiento

[OK85] Interpolación de profundidades en base a la programacióndinámica

[Ste97] Oclusiones en puntos con distinta variación de disparidadsegún la dirección de análisis

[Zab94] Las intensidades relativas del rango y el censo son robustosfrente a oclusiones

[Kan94] Variaciones de tamaño de las ventanas de correlación y análisisde incertidumbre

[Bel96] Aproximación a las superficies en base a programacióndinámica y diferentes modelos de superficie (plana, bordes,inclinaciones)

[Oku93], [Kan92] Diferentes análisis con líneas base distintas pero conocidas

[Chi94] Rotación de cámara para detectar regiones especulares

[Ree00] Uso de varias cámaras para evitar oclusionesTabla 1.7. Tratamiento de las oclusiones.

Page 88: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

64

Autores Método Restricciones Refs.

Nishihara Búsqueda de contornos y correlación. Ep. Uni. [Nis84],[NP82]

Zabih -Woodfill

Transformada del Rango ycorrelación.Transf. Censo y distancia deHamming.

Ep. Uni. [Ban01],[Zab94]

Marr - Poggio Comparación de intensidades yanálisis de vecindario.

Ep. Uni. Disp [Mar82],[Mar80],[Gri85]

Pollard -Mayhew -Frisby

Extracción de características depíxeles y comparación.

Ep. Uni.Disp.Grad-Disp

[PMF85]

Venkatesvar -Chellappa

Correspondencias basadas encaracteríticas: regiones, contornos,vértices, líneas.

Ep. Uni. Ord.Disp.

[Ven95]

Baker-Binford,Otha-Kanade

Programación dinámica: Detección decontornos y estimación de superficieen profundidad medianteminimización de función de coste.

Ep. Uni. Ord. [BB81],[OK85]

Tomasi-Manduchi

Representación de nivel de brillofrente a derivada (curvas íntimas).

Ep. Uni. [Tom98]

Medioni-Nevatia,Ayache-Faverjon

Comparación de segmentos de líneaaplicando restricción epipolarmodificada

Ep. Uni.Disp.

[MN85],[AF87]

Sanger,Jepson-Jemkin

Filtrado paso banda local ycomparación de diferencias de fase.

Ep. Uni.Disp. Grad-Disp.

[San88],[Jep89]

Tabla 1.8. Resumen de técnicas orientadas al análisis estéreo estático.

Page 89: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

65

1.6.1. Técnicas de “Estructura desde el Movimiento”

Estas técnicas son inherentemente temporales y como se ha dicho en laintroducción para su análisis sólo utilizan una secuencia de imágenes tomada por unacámara. Los desarrollos actuales han puesto de manifiesto la robustez de estas técnicasincluso en el caso de tener que recuperar simultáneamente la trayectoria de la cámara.

Los inconvenientes de estos algoritmos se centran, por una parte, en que laestructura tridimensional sólo se puede recuperar a falta de un factor de escala; no esposible recuperar medidas absolutas sino se dispone de información adicional. Por otraparte, se necesitan numerosos fotogramas, al menos decenas de ellos para recuperar deforma robusta los datos de la estructura 3D de la escena, esto se debe a que el movimientoentre fotogramas se impone que sea pequeño para simplificar el problema de lacorrespondencia.

Algunos investigadores han acometido el problema introduciendo ademásinformación estéreo. Esto ayuda a resolver problemas como el del factor de escala, ya quela información extra del estéreo aumenta la precisión de la recuperación de la escena. Eneste entorno existen métodos basados en características como [YiO97], [Hun95], o[HoC97] y métodos que consiguen mapas densos utilizando flujo óptico de los gradientesespaciales y temporales de las imágenes, como [Wan96], [HoP96] y [Gro89]. En estosúltimos el efecto de paralaje permite estimar la profundidad y solucionar ambigüedades.

En el caso de los métodos basados en características es frecuente utilizar filtrosKalman como estimación del movimiento de las características en 2D y 3D. Estos métodosutilizan técnicas estereo a lo largo de las secuencias de movimiento. Por ejemplo en[YiO97], dado un sistema de cámaras estéreo y un conjunto de posibles correspondencias,el algoritmo genera un conjunto de objetos virtuales con ellas. Posteriormente, utilizandofiltrado Kalman predicen el movimiento de los objetos virtuales a lo largo de la secuencia.Las correspondencias erróneas se identifican debido a que su seguimiento en el espacio 3Dno sigue a la predicción de su filtrado Kalman.

1.6.2. Estéreo Convencional a Partir del Movimiento

Los algoritmos estéreo convencionales reconstruyen la escena en base alconocimiento de las diferentes perspectivas de la escena tomadas por dos cámaras. A partirde esta idea, se han desarrollado algoritmos robustos que resuelven el problema de lacorrespondencia utilizando secuencias monoculares como entrada. En este caso, lasecuencia de entrada se produce habitualmente en base a un movimiento de rotación o detraslación de la cámara cuidadosamente controlado, para conseguir diferentes perspectivas

Page 90: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

66

de la escena desde posiciones conocidas. Los pares estéreo se forman pareando diferentesfotogramas de la secuencia monocular. Este conocimiento de la geometría instantánea dela cámara permite ser más precisos en la estimación de profundidades absolutas. Ejemplosde esto son [Mat89], [Dal96] y [Nev76].

Puesto que la resolución del problema de la correspondencia estereo con lineas baseamplias es dificultoso, estos algoritmos comienzan con pares estéreo con lineas base cortas.De esta manera se tendrán márgenes de disparidades pequeños. Los datos de disparidad conlíneas base pequeñas permiten estimar el proceso de correspondencias estéreo con paresde imágenes con líneas base más amplias; ya que las imágenes iniciales proporcionan unarepresentación a groso modo de los objetos en la escena. Conforme la línea base se amplía,el modelo de disparidad se va actualizando, y la representación de la escena resultarefinada.

1.6.3. Restricción de Disparidad Dinámica

La mayoría de los algoritmos estéreo convencionales utilizan un límite fijo para ladisparidad, lo que limita la profundidad mínima de la escena a analizar. Esto se utiliza,sobretodo por que se conoce la naturaleza de la escena que discurre entre los límitesmarcados. Esta configuración manual conocida la escena no es conveniente aplicarla enel caso de sistemas móviles autónomos de visión en los cuales es posible encontrar granvariedad de escenas. De forma alternativa se puede optar por buscar correspondencias deforma exhaustiva a lo largo de toda la línea epipolar lo que introduce grandes cantidadesde ambigüedad a las correspondencias.

En secuencias estéreo, una tercera posibilidad es considerar en cada fotograma ypara cada píxel o característica un margen de disparidades limitado pero alrededor de ladisparidad encontrada en el fotograma anterior. De esta manera se pueden conseguirmárgenes estrechos de búsqueda, en principio, con probabilidades de error pequeñas. En[Cro98] y en [Cro97] se persigue esto estableciendo la búsqueda en un margen a lo largode la línea epipolar basado en las disparidades encontradas en un vecindario local alrededordel bloque que se está utilizando para realizar la correlación. Al restringir el margen dedisparidades a buscar, la carga computacional del algoritmo se reduce y por tanto es posibleprocesar secuencias con velocidades entre fotogramas más altas.

En [Cro98] además se propone utilizar una técnica de grueso a fino temporal quepermita realizar búsquedas de correspondencias rápidas desde los primero fotogramas conun grano grueso (por ejemplo diezmando las imágenes por 2 o por 3), y conforme se vaavanzando en el tiempo afinar el algoritmo llegando a procesar los fotogramas completos.

Page 91: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

67

Método Procesamiento básico

Estructuradesde elmovimiento

Utilización estimación del movimiento 2D en cada secuencia,análisis estéreo de los móviles y estimación del movimiento 3D. Sedescartan correspondencias cuya estimación 3D de movimiento no escoherente

Estéreoconvencionalconmovimiento

Movimiento controlado de rotación o traslación de la cámara apraconseguir distintas perspectivas entre fotogramas. Con líneas basecortas estimación de profundidad gruesa. Refinamiento con lineasbase más largas

Restricciónde disparidaddinámica

Búsqueda de correspondencias en un margen pequeño dedisparidades en torno a una estimación a partir de la disparidad delfotograma anterior.

Tabla 1.9. Métodos de estereovisión basados en el movimiento

1.7. Aplicaciones

Los algoritmos que relacionan la estereovisión con el movimiento en secuenciasde imágenes nos permiten conseguir diversos efectos sobre las secuencias del par estéreoque le apliquemos a la entrada:

S La primera de ellas es el filtrado y eliminación de todos aquellos objetos que no semuevan en nuestra escena. Las propias memorias de permanencia en XY yarealizan este filtrado.

S Es posible obtener un mapa tridimensional del movimiento para todos los objetosque se sitúen en la periferia del campo de visión.

S A partir de dicho mapa tridimensional del movimiento, podemos conocer laposición de los objetos que se acercan y que se alejan.

S Podemos estimar otras características como pueden ser la velocidad, e incluso laaceleración en la dirección z.

S Conocidas todas estas características del movimiento en la dimensión z de losobjetos es posible preparar filtros para ellas: sería posible eliminar tanto los que seestán alejando como los que se acercan independientemente. Previsiblemente, seríaposible también filtrar aquellos objetos que tienen una determinada velocidad,aunque para ello se necesita una mayor precisión que la actual.

S Finalmente, en entornos estáticos, montando este sistema en un robot móvilpodemos explorar el entorno existente con el mero hecho de girar o hacer avanzar

Page 92: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conceptos y Técnicas en Estereovisión

68

dicho robot por este entorno. El propio movimiento del robot generará suficienteinformación del movimiento relativo de los objetos de alrededor.

Referencia Concepto

[YiO97] Basado en características. Predicción y corrección, del movimiento 3Den base a filtrados Kalman de las entradas estéreo y la salidatridimensional

[Hun95] Basado en características. Predicción del movimiento 3D en base afiltros Kalman.

[HoC97] Basado en características. Seguimiento de características 2D yutilización de métodos clásicos de análisis de correspondencias paraseguimiento 3D.

[Wan96] Aplicación cooperativa de flujo óptico y estereovisión a objetosrígidos. Calculo independiente de estructuras 3D de las secuencias(paralaje).

[HoP96] Paralaje de cada secuencia y doble estereo: derecha con izquierda eizquierda con derecha. Resolución de ambigüedades

[Gro89] Integración de correlación estereo con paralaje derecha e izquierda.

[Mat89] Estereo convencional basado en el movimiento de traslación conocidode una cámara

[Dal96] Estereo basado en el flujo óptico de la traslación conocida de unacámara

[Nev76] Utiliza cámara con rotación conocida para realizar análisis estéreoentre fotogramas

[Cro97] Restringe búsqueda de disparidades a un vecindario corto según laestimación realizada en base al fotograma anterior

[Cro98] Utiliza una técnica de grueso a fino temporal para realizar búsquedasde correspondencias rápidas

Tabla 1.10. Referencias de estereo basada en el movimiento.

Page 93: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

69

2. El Efecto de Permanencia como Método deSolución de Problemas en VisiónEstereoscópica Dinámica

2.1. Modelado del Conocimiento al Nivel deConocimiento [Mir04]

Un problema central de la inteligencia artificial es el de construir modelos de tareasy métodos de resolución de problemas ("problem solving methods", PSMs) en el nivel deconocimiento y en el dominio del observador externo ([Mat75] [Mir87] [For93] [Mir03a]).A continuación, se han de reducir estos modelos de pericia del dominio de los expertoshumanos al dominio de las herramientas formales, ambos en el nivel del conocimiento. Esdecir, recorremos el camino desde la descripción en lenguaje natural de una tarea y el PSMusado para resolver esta tarea, a una transformación de formalismo de este modeloconceptual en términos de herramientas formales (reglas). Finalmente se realiza una nuevareescritura del modelo formal en término de las primitivas de un lenguaje de programaciónpara producir un programa.

El enfoque usual al modelado en el nivel de conocimiento y a la facilitación de lareducción subsiguiente del modelo al programa ha sido el de desarrollar librerías de PSMsy ontologías del dominio. Hablamos de una reducción del modelo real ya que lainformación siempre permanece al nivel de conocimiento (en el sentido de Newell) y enel dominio del observador (en el sentido de Maturana [Mat75], Varela [Var79] y Mira yDelgado [Mir87]). Algunos ejemplos más relevantes de este enfoque incluyen lametodología CommonKADS [Bre94] [Eri95] [Sch01], el marco de trabajo formal UPML[Fen99] y el marco de trabajo de propósito general Protégé II [Eri95] [MAM00]. En estecontexto metodológico, el proceso de modelado del conocimiento arranca en el nivel deconocimiento y sigue los siguientes pasos [MHD98] [MAM00]:

S Descripción en lenguaje natural de la tarea a modelar y codificar, y eliminación delos términos no causales en el proceso de razonamiento.

Page 94: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

70

S Identificación de las entidades del conocimiento del dominio. Estas entidadesdesempeñan el mismo papel que las magnitudes físicas en un modelo analítico.Representan conceptos separados que el experto humano considera necesarios ysuficientes para describir su conocimiento acerca de la solución a la tarea específicabajo consideración.

S Identificación de las relaciones entre estas entidades que aparecen explícitamenteo implícitamente en la descripción del experto.

S Búsqueda de componentes inferenciales del razonamiento, generalmente verbos("establish", "refine", "select", "match", "abstract"), usados por el experto humanopara describir sus pasos de razonamiento en lenguaje natural. Estas inferencias sonlos componentes a partir de los cuales se construyen los PSMs.

S Descripción, por cada uno de estos verbos inferenciales, de los roles de entrada ysalida usados por las entidades del dominio.

S Obtención de un boceto del circuito inferencial correspondiente al flujo deconocimiento a partir de los roles dinámicos y a las diferentes inferencias, deacuerdo con la secuencia, las concurrencias y lazos que mejor representen el patrónde razonamiento seguido por el experto. Estos patrones de razonamiento (PSMs)pueden seleccionarse a veces de una biblioteca componentes reutilizables [Bre94][Fen97] [Ben98] [Sch01] ("abstract match refine", "establish and refine", "proposecritique modify", "generate and test", "cover and differentiate"), aunque suele sernecesario aportar conocimiento adicional para la adaptación del PSM a la tarea(puente tarea PSM) y al dominio (puente PSM dominio) [Tab01].

Al final del último paso, tendremos:

1. Un conjunto de entidades y relaciones del modelo del dominio.2. Un conjunto de inferencias con los correspondientes roles de entrada y salida.3. Un circuito inferencial que conecta estas inferencias mediante roles dinámicos.4. Una estructura de control.

Es decir, tenemos un modelo conceptual al nivel del conocimiento para resolver latarea. El siguiente paso en el camino de construcción del código es hacer operacional cadauna de estas inferencias ("abstract", "select", "classify", "refine"). En otras palabras, hayque reescribir en términos formales seleccionando operadores formales (reglas simbólicas,reglas borrosas, redes neuronales, redes bayesianas, etc.) cada una de estas inferencias. Loscriterios usados en este proceso de selección están siempre relacionados con el equilibrioentre los datos y el conocimiento disponible para la inferencia específica considerada.

Page 95: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

71

También es relevante la clase de conocimiento (preciso, incierto) y los datos (etiquetados,no etiquetados) disponibles.

Generalmente, no se dispone de todo el conocimiento para ser capaces de utilizarúnicamente operadores orientados al conocimiento. Tampoco es frecuente no saber nadaacerca del procedimiento de los expertos humanos para resolver la tarea y verse unoforzado a utilizar métodos orientados al dato. En los problemas reales, el expertogeneralmente describe su método para resolver la tarea de un modo híbrido, con una partesimbólica (reglas) y una parte conexionista [Fu90] [Hil95] [Sun97]. Por convención, unmétodo se denomina simbólico si es esencialmente guiado por conocimiento, hechoexplícito de un modo declarativo, y acaba siendo completamente programado. Comoalternativa, un método se llama conexionista si posee una arquitectura modular de granofino, con una función paramétrica local, y donde una parte importante de la programaciónse sustituye por un mecanismo de aprendizaje supervisado o no supervisado.Esencialmente, un método es conexionista si es guiado por datos. La idea de un sistemahíbrido se usa para describir aquellas situaciones donde no se dispone de todo elconocimiento o datos necesarios para resolver el problema. Así, el conocimiento disponiblepuede usarse en primer lugar para especificar el modelo esquelético inicial de una redconexionista y, después, se establece un método de aprendizaje supervisado para ajustarlos valores de este modelo esquelético.

Por lo tanto, el concepto de híbrido se usa en el sentido del denominado "enfoqueunificado” ("unified approach") [Hil95]. Dicho de otro modo, se mantiene la estructura dela red conexionista, mientras que la capacidad de cálculo de cada nodo aumenta por mediode un modelo inferencial que posee la estructura de una regla en la que se evalúa elantecedente sobre el campo de datos especificados por el campo receptivo. Después deesto, se usa una tabla LUT para seleccionar la acción más adecuada correspondiente a cadaresultado de la evaluación del antecedente de la regla. Este es nuestro enfoque general eneste trabajo para la tarea de visión estereoscópica dinámica en una secuencia de imágenes.

2.2. La Visión Estereoscópica Dinámica comoSistema Basado en Conocimiento

Bajo el nombre de visión estereoscópica dinámica se engloban un conjuntomecanismos de procesamiento de imágenes encaminados a calcular el movimientoexistente en una escena, considerando como sistema de referencia tridimensional del marcode referencia (x,y,z), tomado como base el movimiento detectado en un par de secuencias

Page 96: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

72

Características Calculadas u Profundidad de objetos u Movimiento de objetos

Parámetros

Expresiones

evaluate

Escena Visual (izquierda)

Escena Visual (derecha)

Figura 2.1. Tarea de Visión Estereoscópica Dinámica.

estereoscópicas de video, cada una de ellas respecto del sistema de referenciabidimensional (u,v) de los fotogramas de cada secuencia.

Estos mecanismos de estereoscopía visual sirven a varios propósitos: (1) Detectarla profundidad de los objetos móviles de una escena tridimensional, (2) Analizar elmovimiento existente en dicha escena tomando como sistema de referencia el propio marcode referencia tridimensional en lugar de los fotogramas, afectados por un factor de escala,(3) Filtrar la información relevante relativa al movimiento de otra que no lo es, (4) Situarun robot autónomo en un entorno dinámico, (5) Permitir al propio robot desenvolversedentro de dicho entorno.

Planteada así, la tarea de visión estereoscópica tiene las características de unaevaluación secuencial dinámica, basada en una combinación de parámetros geométricosdel sistema tal como se ilustra en la figura 2.1. El rol de entrada es el conjunto de píxelesque componen la pareja de secuencias tomadas de la escena visual (secuencia derecha ysecuencia izquierda) en cada momento, y el rol de salida lo constituyen los parámetros deprofundidad y movimiento de los ítems seleccionados. Los roles estáticos los constituyenlos parámetros geométricos del sistema.

La tarea de visión estereoscópica se considera habitualmente de carácter estático,ya que implícitamente se supone que la escena visual permanece constante mientras quese aplican los criterios de selección. Sin embargo, en muchas situaciones de interés laselección de coordenadas y/o ítems relevantes se realiza sobre el tiempo (conducción,blancos móviles, vigilancia, etc.) lo que nos obliga a comparar la situación de la escena

Page 97: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

73

visual en instantes sucesivos de tiempo. Para ello, los mecanismos de visión estereoscópicadinámica necesitan disponer de una memoria de trabajo en la que almacenar la constanciao novedad de la evolución temporal de la escena.

La propuesta que hacemos en este trabajo de tesis doctoral es que gran parte de losmecanismos constituyentes de la organización ascendente de la visión estereoscópicadinámica pueden hacerse computables mediante métodos basados en el efecto depermanencia.

En efecto y en concreto, el Modelo de Disparidad de Carga presentado aplicamosel efecto de permanencia para dos propósitos diferentes pero de una forma absolutamentesimilar. En primer lugar, para cada una de las secuencias de entrada, una vez segmentadasen niveles de gris, el efecto de permanencia nos sirve para caracterizar el movimiento quese está produciendo en cada instante de las dos secuencias de entrada, con el fin deestablecer, posteriormente, correspondencias entre los elementos de carga fruto de aplicardicho efecto. En segundo lugar, después de calculada la profundidad de cada elementomóvil de la escena, volvemos a aplicar las memorias de permanencia con la finalidad deestudiar, en base a las estelas de movimiento extraídas del Mapa de Carga 3D, elmovimiento (velocidad, aceleración) de los objetos en la dirección z con respecto delmarco de referencia de la escena. Esto a su vez nos permitiría realizar filtrados en base ala velocidad, así como las demás aplicaciones vistas al principio de este apartado.

2.3. El Efecto de Permanencia en el Nivel Físico[Mir03b]

Los modelos más usuales en computación neuronal son de naturaleza estática. Una

vez conocidos los valores de entrada, , y los valores de los pesos, , en un( )rx t ( )rw t

instante, se obtiene el valor de salida en ese instante, . Sin embargo, una( ) ( )r r ry t w t x t= ⋅( )

parte importante de los procesos biológicos y de la propia computación son más bien denaturaleza dinámica. Es decir, se trata de modelos dependientes del tiempo, donde la

respuesta, , es una función de las entradas y respuestas en instantes anteriores,( )ry t

. Para modelar estas redes dinámicas se necesita un( ){ ( )}v rx t k t y t k t− ⋅ − ⋅1 2∆ ∆,

conjunto de variables de estado descritas por medio de una ecuación diferencial de primer

orden , de modo que en el caso estacionario la variable ( ) ( )τj

ii j

dy tdt

y t h= − + ( )ry t

alcanza su valor de equilibrio (hj) con una constante temporal τj.

Page 98: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

74

Al añadir el efecto de las entradas , se obtiene la parte lineal de la expresión( ){ }x ti

de un modelo neuronal dinámico conocido como filtro integrador. Esto significa que elvalor y el signo de la variable de estado dependen de la excitación o inhibición en el camporeceptivo del elemento de cálculo:

( ) ( ) ( ) jVi

ijijj

j htxwtydt

tdy

j

+⋅+−= ∑∈

τ

En este caso la influencia de la componente temporal del cálculo (la memoriaanalógica) viene representada físicamente por medio de procesos de carga y descarga deun condensador [Hay99].

Por otra parte, en modelos digitales de redes neuronales, la memoria local sepresenta mediante un biestable D que representa el efecto del retardo sináptico [Mor68].En este caso, el modelo computacional es un circuito secuencial modular (un autómatamodular), en el que cada elemento de cálculo es un autómata universal de dos estados quepermite calcular cualquier función lógica de sus entradas y de las salidas de los propioselementos o de otros elementos en instantes de tiempo previos:

( ) ( ) ( )tmtωtΔty i

12

0ijij

MN

⋅∑=+−

=

+

donde , son los pesos binarios y son los términos mínimos, ( ) { }10,tωij ∈ ( )tmi

, usando la notación de Gilstrap:γ⋅⋅⋅µ⋅⋅⋅αβ=⋅⋅⋅⋅⋅⋅⋅= γµβα iforyxxxm NMi 21

( )xx,xx == 10

El efecto de permanencia a nivel físico puede describirse como un novedosomodelo local con grandes capacidades computacionales que expande los modelosconvencionales analógicos y lógicos dinámicos, basándose en la carga y descarga de uncondensador o en la utilización de un biestable D. La capacidad de la memoria local seaumenta para comportarse como un autómata de S estados y se añaden elementos decontrol a dicha memoria local. La parte equivalente de cálculo analógico ( ) o digitalW Tx(t)( ) del equilibrio entre excitación e inhibición se generaliza para incluir ωij(t)·mi(t)cualquier preprocesado no relacionado con el aprendizaje, donde se calculan característicasespacio-temporales de los estímulos sobre expansiones temporales del espacio de entrada.Esta expansión mediante una estructura de memoria FIFO representa a las característicascomputacionales del campo receptivo, lo que hace computacionalmente homogéneos losdatos que provienen de intervalos de tiempo diferentes. La parte correspondiente a lagestión del retardo también se generaliza al substituirse por un autómata de S estados con

Page 99: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

75

Expansión Temporal del

Espacio de Entrada (memoria FIFO)

Medida de una Característica Espacio-Temporal

Cálculo de la Persistencia Incremento/Decremento, ±δQ(t),

y nuevo valor de Q(t+∆t)

Estado de Persistencia Acumulada de al

Característica Seleccionada

Generador de Patrones

de Salida

Reloj Maestro, τ

÷n t τ

τ

t

t+∆t

t Información de Programación

MODO DE CONTROL • Inicialización • Cálculo

- Carga gradual - Descarga gradual - Carga abrupta - Descarga abrupta - Espera

• Reconfiguración

M

APRENDIZAJE Adquisición de Nuevos Valores de Parámetros

+δ -δ Qmax Qmin

Figura 2.2. Arquitectura de un modelo computacional de efecto de permanencia

la estructura de un contador reversible (o una memoria RAM), donde se programa elincremento y el decremento de su contenido. Este modelo se denomina computaciónacumulativa y su funcionalidad se ha llamado efecto de permanencia.

La figura 2.2 muestra el diagrama de bloques del modelo computacional para elefecto de permanencia. El modelo trabaja en dos escalas de tiempo, una macroscópica, t,asociada a la secuencia de datos externos a procesar por la red, y otra microscópica, τ ,interna, asociada al conjunto de procesos internos que ocurren mientras los datos externospermanecen constantes. El modelo contiene los siguientes elementos:

S Una extensión temporal del espacio de entrada (una memoria FIFO) que permiteacceder a los valores de las entradas en varios instantes de tiempo sucesivos.

Page 100: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

76

S Un módulo, para la extracción de las características espacio-temporales sobre dichaexpansión de entrada, que calcula la acumulación temporal de su persistencia sobreel campo de datos.

S Un módulo que calcula el valor de incremento o decremento, (±δQ), del estado deactividad de la propiedad medida como una función de su valor en ese instante,Q(t), a partir del valor acumulado en instantes anteriores y del modo deacumulación seleccionado en la unidad de control.

S Un módulo de acumulación del tipo contador reversible, que almacena el nuevoestado de persistencia de la característica seleccionada.

S Un módulo de control del modo de acumulación, que recibe entradas de losmódulos de programación y de aprendizaje, y controla la operación de cambio deestado de la memoria a partir del cálculo de incrementos o decrementos, ±δQ, sobreel valor previo. Tenemos tres modos de operación en el modelo: (I) Inicialización,(II) cálculo y (III) reconfiguración (aprendizaje). En modo de cálculo, y de acuerdoa la secuencia temporal de valores p(x,y;t) medidos en los datos de entrada I(x,y;t),se activa uno de los siguientes procesos: (1) Carga gradual, (2) carga abrupta, (3)descarga gradual, (4) descarga abrupta o (5) espera. Los valores de los parámetrosque especifican los procesos de carga y descarga (Qmax, Qmin, +δQ, -δQ) seintroducen en el modelo durante la fase de inicialización y se modifican durante lafase de aprendizaje.

S Un módulo de aprendizaje supervisado que permite ajustar los valores losparámetros de carga y descarga a las características de las propiedades de interés.

S Un módulo de programación, usado para configurar el modo de control y paraespecificar la expansión temporal del espacio de entrada y la forma del camporeceptivo. De este modo es posible especificar la propiedad espacio-temporal quedeseamos destacar, después de acumular su persistencia.

S Un módulo de temporización que consiste en un reloj maestro que genera el trende pulsos que controla el tiempo local ("microscópico") usado para calcular el valory el signo del cambio de estado de acumulación y la transición al nuevo estado decarga, así como la producción de la respuesta de la unidad que pasa a una FIFOpara su distribución a los módulos vecinos. Mientras se realiza el cálculo interno,los datos del espacio de entrada permanecen constantes, controlados por el reloj"macroscópico" resultante de la división por n de la frecuencia del reloj maestro.

Page 101: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

77

2.4. El Efecto de Permanencia al Nivel de losSímbolos (Reglas)

El modelo de permanencia en el nivel físico no puede ir más allá del lenguaje deseñales. La primera abstracción posible, que pasa de un circuito a un algoritmo, se obtieneal reescribir los procesos de carga y de descarga en términos de reglas (condicionales"if-then") como generalización de la suma y del umbral. Por otro lado, la estructura delmodelo de permanencia se mantiene.

Entre otras posibilidades, al especificar la naturaleza de las reglas de decisiónincluidas en el modo de control obtenemos los distintos tipos de reglas del efecto depermanencia. En la figura 2.3 se muestra el comportamiento del modelo asociado al efectode permanencia en algunas situaciones unidimensionales muy sencillas. Supongamos quelos valores de I(x,y,t) corresponden a una secuencia indefinida de imágenes. Supongamostambién que la propiedad medida, p(x,y,t) (b), es sencillamente el resultado de laumbralización binaria de la imagen I(x,y,;t). Entonces, el modo de control compara losvalores de p(x,y,t) en dos instantes consecutivos de tiempo, interpretando que p(x,y,t)=1significa que algo se ha movido sobre el pixel (x,y) en t, y que p(x,y,t)=0 significa que nose ha detectado movimiento sobre (x,y). De este modo, cambios del tipo p(t-Δt)=0 y p(t)=1significan que un objeto en movimiento ha entrado en el campo receptivo de la unidad. Sip(t-Δt)=1 y p(t)=0, un móvil ha salido del campo receptivo; si ambos son cero, no se hadetectado ningún móvil, y finalmente, si ambos valen uno, hay un objeto en movimientocruzando el campo receptivo. Para esta propiedad, la evolución de la carga y descarga desu persistencia se muestra en la figura 2.3 para algunos de los modos de utilizaciónseleccionados.

La figura 2.3.c muestra el comportamiento del efecto de permanencia en unamodalidad denominada RLV (relación longitud-velocidad) [Fer03]. Esta modalidad ha sidoestudiada y utilizada para la clasificación de objetos a partir de esta relación [Fer92][Fer95a] [Fer99]. Su modo de funcionamiento puede expresarse de la siguiente manera:

if p(t) == 1 then begin Q(t) = Q(t-Δt) + δQ; if Q(t) > Qmax then Q(t) = Qmax; end else Q(t) = Qmin;

Page 102: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

78

Las figuras 2.3.d y 2.3.e muestran la operación del modelo propuesto en lasmodalidades de salida y entrada, respectivamente. Ambas opciones permiten realizar uncálculo posterior de parámetros de movimiento característicos, tales como la velocidad yla aceleración [Fer95b]. La primera de estas modalidades ofrece información en la cola delos objetos en movimiento, mientras que la segunda lo hace por delante del movimiento.Para la modalidad de salida, tenemos:

if ((p(t-Δt) == 0) && (p(t) == 1)) then Q(t) = Qmax else begin Q(t) = Q(t-Δt) - δQ; if Q(t) < Qmin then Q(t) = Qmin; end;

En modalidad de entrada, tenemos:

if ((p(t-Δt) == 1) && (p(t) == 0)) then Q(t) = Qmax else begin Q(t) = Q(t-Δt) - δQ; if Q(t) < Qmin then Q(t) = Qmin; end;

Finalmente, se muestra la modalidad más general de carga/descarga (figura 2.3.f).Esta modalidad ha sido usada con éxito en algunos trabajos previos del grupo deinvestigación [Fer03b], [Fer03c], [Fer03d]. Estos artículos versan sobre detección deobjetos en movimiento, clasificación y seguimiento en secuencias de imágenes indefinidas.

Page 103: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

79

if p(t) == 1 then begin Q(t) = Q(t-Δt) + δQ; if Q(t)> Qmax then Q(t) = Qmax; end else begin Q(t) = Q(t-Δt) - δQ; if Q(t)< Qmin then Q(t) = Qmin; end;

(a)

(b)

(c)

(d)

(e)

(f)

Figura 2.3 Ilustración del modelo usado para el caso sencillo de una umbralización binariade una imagen. (a) Reloj macroscópico t. (b) p(t). (c) Q(t) en la modalidad RLV. (d) Q(t)en la modalidad de entrada. (e) Q(t) en la modalidad de salida. (f) Q(t) en la modalidad decarga/descarga

Page 104: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

80

2.5. El Efecto de Permanencia como Método aNivel de Conocimiento en la Tarea de VisiónEstereoscópica Dinámica

Para completar las posibilidades del efecto de permanencia, realizamos un nuevoproceso de abstracción y pasamos del nivel de los símbolos al nivel de conocimiento,generalizando las reglas en términos de inferencias ([Mir01], [Del02], [Mir03a], [Mir04]),particularizando para la tarea de Visión Estereoscópica Dinámica.

2.5.1. Esquema Inferencial del Efecto de Permanencia

Ahora el circuito de permanencia se convierte en un esquema inferencial. Es decir,en un método para descomponer tareas en visión usando todo el conocimiento disponibleen la aplicación. La figura 2.4 muestra el esquema inferencial correspondiente al efecto depermanencia, que comienza evaluando los datos de entrada, comparando después losresultados de esas evaluaciones para obtener las clases de discrepancia y seleccionandofinalmente las salidas asociadas a cada una de esas clases de discrepancia.

En la figura 2.4 y en el resto de los esquemas inferenciales usados en la redacciónde esta memoria usaremos el convenio usual en CommonKADS [Sch01] para representarlos roles estáticos y dinámicos y el significado operacional de los verbos inferencialespropuestos por Breuker [Bre94] ("compare", "select", ...) Los roles dinámicos serepresentan como rectángulos con trazo continuo y los roles estáticos se representan comorectángulos a trazos discontinuos. En algunas ocasiones un rol dinámico resultado de unainferencia puede jugar el papel de rol estático en otra inferencia posterior dentro del flujode información. En estos casos usaremos un doble rectángulo, de línea continua como finalde la flecha que lo trae de la inferencia que lo genera como rol dinámico y de líneadiscontinua (y exterior al otro rectángulo) de la que parte la flecha que termina en lainferencia en la que esa entidad juega un papel estático.

Volviendo a la figura 2.4, y manteniendo en mente que el objetivo de lainstanciación ofrecida es la de la detección de movimiento en la modalidad de salida delefecto de permanencia, vemos que el espacio de entrada está compuesto por la pareja devalores binarios, p(x,y,t) y p(x,y,t-Δt), mientras que el espacio de salida es el resultado delcálculo local del elemento. La inferencia "compare" recibe, pues, los observables p(x,y,t)y p(x,y,t-Δt), y el valor actual del valor de carga (que inicialmente toma el valor Qmin).También recibe como rol estático la regla de comparación y la codificación numérica de

Page 105: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

81

CCrriitteerriiooss 1. Regla de comparación

2. Clases de discrepancia p(t) p(t-∆t) Clases

0 0 D1 0 1 D1 1 0 D2 1 1 D3

compare

CCllaasseess ddee DDiissccrreeppaanncciiaa

select

VVaalloorr ddee CCaarrggaa AAccuummuullaaddaa, Q(t)

RReeggllaa ddee sseelleecccciióónn Clases Q(t-∆t)

D1 Qmin D2 Qmax D3 max{Q-δQ, Qmin}

( )tyxp ;,

( )ttyxp ∆−;,

Figura 2.4. Instanciación del efecto de permanencia para el caso dedetección de movimiento en la modalidad de salida.

las distintas clases de discrepancia (D1, D2, D3). El rol (dinámico) de salida es la clase dediscrepancia seleccionada en este instante, D(t). Esta clase desempeña ahora el rol estáticode una inferencia "select", que está al cargo de filtrar un valor de carga específico a partirde un conjunto potencial de valores. Estos valores potenciales son Qmin, Qmax y max{Q-δQ,Qmin}, donde δQ es el valor de descarga aplicado cuando no se detecta movimiento, entredos instantes de tiempo consecutivos, Qmin es el valor mínimo de carga y Qmax es el valormáximo de carga. El valor Qmax se obtiene cuando un objeto acaba de entrar en el camporeceptivo. La salida está constituida por el valor de carga acumulado, Q(t).

Page 106: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

82

Figura 2.5. Representación gráfica de los roles implicados en el estudio de laprofundidad a partir del efecto de permanencia

2.5.2. Aplicación a la Tarea de Visión EstereoscópicaDinámica

Considerando como entradas los Mapas de Carga 2D, obtenidos a través de lasmemorias de permanencia 2D, procedentes de procesamiento de las secuencias derecha eizquierda, se pretende obtener a la salida un mapa tridimensional que nos muestra laprofundidad de los puntos de la escena en los que se ha producido movimiento.

En la figura 2.5 se observa como una de las aplicaciones posibles del efecto depermanencia es el análisis de profundidades en Visión Estereoscópica Dinámica. El hechode utilizar como entradas las memorias de permanencia tiene dos característicasdestacables:

S En primer lugar, se utiliza solo la información de movimiento, filtrando toda lainformación estática de la escena, ya sea 2D, como 3D. Como nuestro objetivo es

Page 107: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

83

obtener un mapa tridimensional del movimiento de la escena, este filtrado nossupone más una ventaja que un inconveniente, ya que los elementos estáticosaportan ruido a este estudio.

S Por otra parte, el movimiento de diversos objetos produce estelas en las memoriasde permanencia que tendrán características diferentes según su dirección suvelocidad instantánea y su historia de movimiento. Sin embargo, el movimientoinstantáneo de un mismo objeto va a tener una representación muy semejante enlas dos memorias de permanencia. Por eso, la puesta en correspondencia de lasestelas de los objetos móviles que hay en la secuencia es sencilla y muy robusta.

2.5.2.1. Aspectos Generales del Método

A continuación se realiza una aproximación al método por el que se estima ladisparidad, y por lo tanto la profundidad, de una escena dinámica a partir de las estelas demovimiento contenidas en los Mapas de Carga 2D.

Los métodos basados en primitivas locales, como píxeles y contornos, pueden sermuy eficientes, pero son muy sensibles a regiones locales ambiguas en imágenes, talescomo oclusiones, o regiones con texturas uniformes. Los métodos basados en áreas sonmenos sensibles a estos problemas, ya que proporcionan un soporte adicional para queestas regiones difíciles correspondan de una manera sencilla y robusta, o se descartendisparidades falsas; pero, en general, son muy costosos computacionalmente. En nuestrocaso, hemos tratado de conjugar las ventajas de ambos sistemas. Hemos de tener en cuentaque el mayor inconveniente de los píxeles es la puesta en correspondencia, mientras quesu mayor ventaja es conseguir un mapa de disparidad denso. En cambio, en las regioneso contornos, su mayor inconveniente es el cálculo de disparidades y su mayor ventaja esla robustez de las correspondencias. Nuestro algoritmo trata de establecer lascorrespondencias a nivel de áreas, mientras que el cálculo de la disparidad se realiza píxela píxel, tratando de aprovechar las ventajas de uno y otro sistema.

Por otra parte, a lo largo del proceso quedarán encajadas las restricciones a lascorrespondencias como se verá en cada momento. Para explicar de forma progresiva elalgoritmo utilizado en primer lugar se realiza una simplificación suponiendo que sólo sequieren hacer corresponder las líneas epipolares entre sí, de forma independiente. Este esel desarrollo que se sigue en éste apartado. Posteriormente, en el capítulo 3, se lleva a cabola generalización, al análisis de los Mapas de Carga 2D completos.

La utilización, como pares de secuencias de entrada, de aquellas que han sidotomadas según la configuración paralela, o si esto no fuera posible, aplicándoles un procesode rectificado, permite la aplicación de la restricción epipolar según las filas de las

Page 108: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

84

imágenes. A partir de esta condición el estudio de correspondencias se podrá realizar a lolargo de las filas de las memorias de permanencia. En la figura 2.6 se representa lasuperposición de dos líneas epipolares correspondientes genéricas obtenidas de lasmemorias de permanencia de la entrada.

Con dos cámaras en configuración paralela, en un entorno en el que los objetos dela escena están muy lejos (hipotéticamente en el infinito) las dos imágenes tomadas por lascámaras serán iguales. Pero si suponemos que a lo lejos se acerca un objeto en direcciónal punto central de la línea base; es decir, entre las dos cámaras, su imagen, conforme seva acercando, aparece más a la derecha en la imagen izquierda y más a la izquierda en laimagen derecha. De este hecho surge el concepto de disparidad; objetos más cercanostienen una mayor disparidad que objetos más lejanos. Para explicar esto con mayordetenimiento quizá sea conveniente utilizar un ejemplo:

Dado un par de líneas epipolares correspondientes obtenidas de un par estéreo dememorias de permanencia, como las que aparecen en la figura 2.6, en primer lugar,podemos caracterizar el movimiento de los tres elementos móviles, independientementeen cada memoria, a través de su estela de movimiento: la estela “a” es más larga y tiene sumáximo de carga a la izquierda, lo que indica que el móvil que la está produciendo estáavanzando, precisamente, hacia la izquierda con una velocidad alta; la estela “b” es máscorta; así el elemento de la escena asociado a la misma está avanzando también en lamisma dirección que el “a”, pero con una velocidad más baja. Finalmente, la estela “c”,que esta invertida en horizontal, pertenecerá a un móvil que está moviéndose en sentidocontrario, a una velocidad media de acuerdo al tamaño de dicha estela.

A partir de la misma figura 2.6 pero en este caso comparando las estelas entre lasdos líneas podemos realizar el análisis de disparidad a las estelas. En este caso, la estelade movimiento del elemento “b” tiene una disparidad nula y por lo tanto podemos concluirque es la más alejada de todas; puesto que, suponiendo configuración de cámaras paralelaslos píxeles que tienen una disparidad nula se localizan, teóricamente, en el infinito. Elsiguiente elemento más cercano es el “a” que tiene una disparidad algo mayor y,finalmente, el mas cercano de todos es el elemento “c“ que tiene la mayor disparidad delos tres. De este ejemplo se pueden sacar dos conclusiones.

S Respecto al análisis de correspondencias entre dos líneas epipolares de sendosMapas de Carga 2D, para considerar dos estelas de movimiento correspondientesentre sí, tenemos que comprobar que las cargas del máximo número de elementosde permanencia homólogos sean iguales. De esta forma sería más probableestablecer correctamente las correspondencias entre las estelas “a”, resultando demenor confianza una “unión” entre una estela “a” y otra “b”, a pesar que tienen lamisma dirección.

Page 109: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

85

Figura 2.6. Disparidad de estelas de permanencia..

S En segundo lugar, para analizar las disparidades a partir de las correspondencias,una posibilidad es comenzar a desplazar la línea epipolar derecha completa haciala derecha a partir del punto en el que ambas líneas están superpuestascompletamente; o lo que produciría el mismo efecto, desplazar la línea epipolarizquierda hacia la izquierda, hasta que dos de las estelas de movimiento coincidan.En ese momento, el valor de desplazamiento que se haya ejercido coincidirá conel valor de disparidad de dicha estela de movimiento.

La forma de implementar el cálculo de dicha disparidad puede basarse en elestablecimiento de dos temporizaciones.

S En el inicio del procesamiento se superponen las dos líneas epipolares sin ningúndesplazamiento entre ellas.

S A partir de esto, en la primera temporización cada elemento de procesamientorealiza paso de mensajes a sus vecinos a derecha e izquierda para establecer unconteo entre aquellos en los que existe correspondencia (igualdad de cargaasociada).

S Terminado este primer proceso de conteo, en la segunda temporización seincrementaría el valor de un contador y se realizaría el desplazamiento de una líneaepipolar sobre la otra volviendo a la primera temporización.

Page 110: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

86

S Llegados al desplazamiento máximo sólo queda por asociar como disparidad aquelvalor de desplazamiento cuya carga en cada elemento de procesamiento, entendidacomo el valor de cada uno de los conteos para cada desplazamiento, es máxima.

Para saber hasta que punto hemos de desplazar una línea sobre otra buscandocorrespondencias podemos atender a dos restricciones diferentes de las vistas en el capítulo1 dedicado al estado del arte. Si atendemos a la restricción de disparidad, las estelas nodeben tener un valor de disparidad mayor que el dado por la restricción; de manera, que eldesplazamiento máximo a analizar vendrá dado por el máximo de la disparidad permitido.

La segunda restricción aplicable es la de ordenamiento. Esta restricción se aplicade forma general con este algoritmo, ya que los desplazamientos que realizamos con laslíneas epipolares y el conteo elementos con igual carga suponen un cierto ordenamiento enlos píxeles. No obstante, el definir y respetar un limite de disparidad máxima puedepermitir que se pongan en correspondencia estelas que no cumplen la restricción deordenamiento. Si se quiere aplicar rigurosamente la restricción de ordenamiento y no teneren cuenta las excepciones posibles, el orden de las estelas debe también mantenerse entrelas dos memorias de permanencia; por lo tanto, cuando una estela en su desplazamientoencuentre a la correspondiente de otra estela, no debería seguir buscando más allá. Yasabemos que esta restricción de ordenamiento debemos tomarla con mucho cuidado,precisamente debido a las excepciones vistas en el apartado 1.3.6.3.

En este entorno, cada píxel puede pertenecer a varias regiones diferentes segúndistintos desplazamientos; ya que siempre hay regiones planas en las imágenes, y en lasmemorias de permanencia, existen también móviles suficientemente rápidos como paraprovocar la carga simultánea de varios elementos de una fila. De todas estas regionesasociadas a los distintos desplazamientos habrá, en general, sólo una, cuyo tamaño serámáximo. De esta manera se aplica la restricción de unicidad. El desplazamiento asociadoa esta región indicará el valor de disparidad de máxima confianza para cada uno de lospíxeles contenidos en ella.

2.5.2.2. Aspectos Específicos del Método

En el método utilizado en esta tesis se han pretendido examinar los estímulossucedidos en el hemicampo visual izquierdo de los ocurridos en el hemicampo visualizquierdo. Por ello en el capítulo 3, como entrada al análisis de correspondencias estéreose utilizarán separadamente las mitades izquierdas de las memorias de permanencia, de lasdos mitades derechas; con el fin de realizar dicho examen separado. De esta manera, sedisponen dos sistemas de procesamiento paralelos; cada uno para procesar su mitad

Page 111: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

87

Figura 2.7. Procesamiento de líneas epipolares. Separación dehemicampos visuales derecho e izquierdo.

correspondiente del campo visual. Ambos sistemas, como puede suponerse, son muysemejantes

En la figura 2.7 puede apreciarse la filosofía de la separación de hemicamposvisuales en el análisis de disparidades de a partir de las dos memorias de permanencia. Unade las posibilidades es que el hemicampo visual izquierdo de la memoria de permanenciaizquierda se desplace hacia la izquierda sobre el hemicampo visual izquierdo de lamemoria de permanencia derecha, y a su vez, el hemicampo visual derecho de la memoriade permanencia derecha se desplace hacia la derecha sobre el hemicampo visual derechode la memoria de permanencia izquierda.

Page 112: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Efecto de Permanencia como Método de Solución de Problemas en Visión Estereoscópica Dinámica

88

2.6. Conclusiones al Modelado de la Tarea deVisión Estereoscópica Dinámica al Nivel deConocimiento

A lo largo del capítulo tercero, como hemos anunciado en el apartado 2.2, haremosuso específico y detallado de las distintas particularizaciones del método del efecto depermanencia adecuados a las distintas subtareas en los que vamos a descomponer la tareade visión estereoscópica dinámica.

Se ha presentado el enfoque del modelado del conocimiento aplicado al efecto depermanencia, intentando mostrar dos aspectos metodológicos fundamentales:

S La conveniencia de modelar el conocimiento de tareas y métodos en términos deuna biblioteca de componentes reutilizables (verbos inferenciales "compare" y"select") y un conjunto de roles de entrada y salida jugados por las entidades deldominio de la aplicación. De este modo, se contribuye a acercar la ingeniería delconocimiento a la ingeniería electrónica, donde la ventaja inherente del carácterreutilizable de los mismos circuitos básicos es evidente.

S La utilidad potencial de búsqueda de inspiración en la biología. En este casoestamos usando una versión de memoria local para modelar una tarea de visiónartificial. El carácter distintivo de este enfoque es que se han introducido variosniveles de abstracción. Se ha pasado del nivel de las señales al del conocimiento,donde el efecto de permanencia se convierte en un PSM genérico construido sobrelas inferencias "compare" y "select".

La conveniencia de utilizar un PSM híbrido para resolver problemas en visiónartificial, donde la configuración final de un PSM es siempre dependiente del equilibrioparticular entre los datos y el conocimiento disponibles para el caso específico bajoestudio. En el problema base de detección del movimiento (usado posteriormente para latarea de visión estereoscópica dinámica), se ha usado en primer lugar, el conocimientodisponible para especificar la arquitectura del modelo asociado al efecto de permanencia.Después, se ha mejorado el poder computacional de los elementos de cálculo alconvertirlos en reglas inferenciales de naturaleza paramétrica. De este modo es posible usarmétodos supervisados de aprendizaje conexionista para ajustar los valores de estosparámetros.

La idea en la que se fundamenta la aplicación del efecto de permanencia a laresolución de problemas de visión estereoscópica dinámica es, finalmente, sencilla. Las

Page 113: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

89

estelas de movimiento que aparecen en los Mapas de Carga 2D, obtenidos procesando unpar de secuencias de imágenes estéreo, minimizan la ambigüedad a las correspondencias.La aplicación de la restricción epipolar a estos Mapas de Carga 2D simplifica la búsquedade correspondencias a estelas de movimiento pertenecientes a una misma fila del Mapa.La restricción de disparidad, además, limita también la búsqueda de correspondencias asegmentos de dichas líneas epipolares. Un desplazamiento mutuo de las líneas epipolaresy la comparación de las estelas de movimiento nos permite, en último lugar, aplicar larestricción de unicidad quedándonos con aquellas correspondencias que mayor confianzaofrezcan.

Page 114: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

90

Page 115: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

91

3. El Modelo de Disparidad de Carga comoMétodo de Solución de Problemas para elAnálisis Estéreo del Movimiento 3D

En este capítulo presentamos el núcleo de esta tesis. El Modelo de Disparidad deCarga se configura como la herramienta para obtener, a través del efecto de permanencia,información tridimensional del movimiento en una escena de forma continua. Para facilitarla comprensión del modelo hemos optado por realizar previamente una descripción delmismo a nivel general, para después pasar a describir cada subtarea más en detalle.Dividimos por tanto este capítulo en dos apartados: uno de descripción general y otrodedicado a la descripción detallada de cada subtarea. Además, dicha descripción detalladase apoyará gráficamente, con los modelos ejemplo utilizados en el capítulo 4 de resultados.

3.1. Descripción General del Modelo

Para alcanzar el objetivo propuesto, optando por las directrices descritas en laintroducción a esta tesis, se ha diseñado la estructura de computación que puede verse enla figura 3.1, y que describimos a continuación. Dicha estructura es fruto del análisis delproblema geométrico de la estereovisión y la aplicación de las restricciones pertinentes, asícomo del estudio de los sistemas de estereovisión biológicos y de los mecanismos depermanencia y comunicaciones a nivel local, bien conocidos por nuestro grupo deinvestigación. A continuación describimos, de forma general, la estructura propuesta,dedicando el resto del capítulo a detallar específicamente cada una de las subtareas en lasque desglosamos la solución del problema en términos de subtareas elementales einferencias.

La entrada al sistema es una escena tridimensional en la que aparecerán, a lo largodel tiempo, diversos elementos móviles. Como veremos mas adelante, al hablar de losresultados, el sistema admite que las cámaras sean móviles, lo que configura una variacióncontinua entre la posición de la cámara y la escena, haciendo que las imágenes se desplacenmodificando sus coordenadas locales en los sensores.

Page 116: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

92

Figura 3.1. Esquema funcional del modelo propuesto.

Page 117: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

93

En la sección “A” de la figura 3.1 se representa la adquisición y Digitalización delPar Estéreo de Secuencias tomadas de la escena. La entrada a esta subtarea es la escenareal y la salida son dos secuencias de imágenes digitalizadas que configuran el par estéreode secuencias que suponen la base del proceso que realiza nuestro Modelo de Disparidadde Carga. En el apartado 3.2.1 se desarrollará algo más esta operación. A pesar de que ladigitalización de las secuencias es una tarea que generalmente nos viene dada, la hemosincluido aquí, puesto que parámetros como la resolución de las imágenes y la frecuenciade refresco de las imágenes son roles fundamentales para las subtareas posteriores delsistema.

En la sección “B” se representa la subtarea mediante la que se obtiene, cuadro acuadro, el estado de los Mapas de Carga en dos dimensiones correspondientes al par desecuencias estéreo al aplicar el efecto de permanencia sobre ellas. La entrada en cadainstante es el par de imágenes estéreo en niveles de gris correspondiente a un cuadro, y lasalida a cada cuadro es el estado del mapa de carga donde se almacena la informaciónasociada al movimiento. El proceso de obtención del estado de los mapas de carga serealiza mediante la correspondiente segmentación en bandas y posterior aplicación delefecto de permanencia descrito en el capítulo 2. Claramente, a cada secuencia de imágenesderecha e izquierda se le aplica, de forma independiente, dicho proceso, con lo que seobtiene un mapa de carga para cada secuencia; esto es, un mapa de carga para el sensorderecho y otro para el sensor izquierdo. Debido a nuestra intención de analizar la periferiadel punto de fijación, separamos los mapas de carga derecho e izquierdo en dos zonas,correspondientes a los dos hemicampos visuales asociados. Esta opción se justifica al igualque se vio en el ámbito biológico en el apartado 1.2.3 por la intención de analizarseparadamente los estímulos que provienen de cada lado del campo visual.

La sección “C” representa la subtarea que realiza el matching entre los dos mapasde carga de las secuencias izquierda y derecha para cada cuadro. La entrada a la subtareade Análisis de Disparidad de Carga son los mapas de carga de cada uno de los doshemicampos visuales de cada uno de los sensores iniciales y la salida es un mapa deprofundidad por cuadro, donde aparecen activados los puntos (x,y,z) donde se ha detectadomovimiento en dicho cuadro. Este mapa, como es lógico por el procesamiento realizado,también aparecerá dividido en sus dos hemicampos correspondientes. En esta sección seaplican todos los conceptos del dominio de conocimiento de estereovisión: restriccionesa las correspondencias, las primitivas, etc. pero aplicados a los mapas de carga obtenidosde la sección anterior en vez de a información de formas de objetos, como es clásico. Porotra parte, hemos tratado de aplicar técnicas de comunicación a nivel local entre elementosde procesamiento que nos han parecido muy útiles para la implementación del proceso. Eldesarrollo pormenorizado de todos estos aspectos se encuentra en el apartado 3.2.3.

Page 118: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

94

La sección “D” representa la subtarea destinada a Obtener el Mapa de Carga 3D.El proceso a partir del mapa de profundidades es sencillo, y consiste básicamente en laaplicación del efecto de permanencia en un espacio de tres dimensiones. Esto es, unaactivación en el punto (x,y,z) del mapa de profundidad genera una carga hasta la saturaciónen dicha posición del mapa de carga tridimensional disminuyendo este valor de cargapaulatinamente hasta la descarga total cuando el punto no aparece activado en el mapa deprofundidad. Las entradas a esta subtarea son los mapas tridimensionales de profundidadde ambos hemicampos visuales, y la salida son los mapas tridimensionales de carga quese utilizarán en la subtarea siguiente. La descripción detallada de este proceso puede verseen el apartado 3.2.4.

La sección “E” representa la subtarea cuya función es Obtener el Mapa deMovimiento 3D, que en cada cuadro contiene las componentes (x,y,z) de los vectoresvelocidad y aceleración de los puntos móviles de la escena. La entrada a cada cuadro sonlos mapas de carga procedentes de la sección “D” y la salida, también a cada cuadro, es elpropio mapa tridimensional de movimiento. Sobre las estelas de movimiento en el mapatridimensional de carga se pueden obtener los valores vx,vy,vz y ax,ay,az de los vectoresvelocidad y aceleración para los puntos en los que ha existido movimiento y todavía no hanllegado a descargarse por completo. La descripción detallada de este proceso puede verseen el apartado 3.2.5.

Con esta estructura se ha pretendido realizar un análisis del movimiento de laescena, eliminando toda información estática, y estimando la profundidad y la velocidad,en las tres dimensiones del espacio, de los móviles que aparecen en ella. En la figura 3.2podemos observar la descomposición en subtareas de la tarea principal que trata de analizarel movimiento en una escena tridimensional. Como podemos apreciar, a través del métodode resolución de problemas descomponemos el problema en las cinco subtareas vistas enlos párrafos anteriores. Una de las utilidades quizá más destacada puede ser la navegaciónautónoma de un robot móvil en un entorno dinámico.

3.2. Descripción Detallada de las Subtareas

Después de haber dado un vistazo a las ideas generales de cada una de las subtareasque componen nuestra propuesta, a continuación pasamos a mostrar un detalle másconcreto de los procesamientos aplicados en cada una de ellas.

Page 119: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

95

Digitalización del Par Estéreo de

Secuencias

Obtención del Mapa de Carga 2D Análisis de

Disparidad de Carga

Obtención del Movimiento 3D

Análisis Estéreo del Movimiento

3D

Modelo de Disparidad de Carga

Obtención del Mapa de Carga 3D

Figura 3.2. Descomposición en subtareas de la tarea “Análisis Estéreo delMovimiento”

3.2.1. Digitalización del Par Estéreo de Secuencias

Esta subtarea se representa en la sección “A” de la figura 3.1. Su finalidad estribaen la necesidad de obtener el parámetro resolución en profundidad δz a partir de losparámetros de resolución de las cámaras. Sin él estaríamos trabajando siempre afectadospor un factor de escala en dicha dimensión. La entrada de esta sección es la escena y lasalida son el par estéreo de secuencias indefinidas digitalizadas por las cámaras. A partirdel desarrollo realizado en el apartado 1.3.4.2, considerando la energía luminosa de laescena tridimensional, se calcularán los niveles de gris de los píxeles de las secuencia deimágenes izquierda y derecha digitalizadas, así como la resolución en profundidad que serácapaz de conseguir el sistema.

La resolución en profundidad es necesaria puesto que marca la configuración quehemos de utilizar según la escena a analizar. Habitualmente, para una cámara con untamaño de píxel de 25 micras y una escena cuya profundidad máxima esté en torno a los20 metros, valores entre 60 y 150 milímetros para la línea base y distancias focales de 35milímetros ofrecen buenos resultados.

Page 120: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

96

Dig

italiz

ació

n de

l Par

Est

éreo

de

Secu

enci

as

Digitalización del Par Estéreo de

Secuencias

Escena de Entrada 3DE(x,y,z,t)

Secuencia Izquierda de Imágenes 2DNGI(uI,vI,t)

Secuencia Derecha de Imágenes 2D NGD(uD,vD,t)

Resolución en Profundidad

Figura 3.3. Esquema de procesos de “Digitalización del Par Estéreo deSecuencias”.

La adquisición de las secuencias de imágenes se realiza mediante dos cámaras deniveles de gris según la norma ITU-R BT.601, a 25 cuadros por segundo. Los sensores delas cámaras colocados a la distancia focal del centro óptico del objetivo pueden tenertamaños en píxeles de 720 x 576, que se utiliza en este estándar para televisión, aunquees factible utilizar otros formatos de imagen diferentes. Los fotogramas a la salida de lascámaras quedan digitalizados en 256 niveles de gris, esto es, con 8 bits por píxel.

En esta subtarea, para un resultado óptimo del modelo, se impone que las doscámaras estén dispuestas en configuración paralela para captar la escena según se vio enel apartado 1.3.4.2; de esta manera, las líneas epipolares coincidirán con las filas de lasimágenes. Aunque los resultados óptimos se obtendrán a partir de dicha configuraciónparalela, el modelo propuesto permite utilizar una configuración con una pequeñaconvergencia de las cámaras hacia un punto de fijación finito, girando éstas a ser posiblesobre el centro óptico de las lentes objetivo. El análisis de correspondencias basado en elmovimiento que se propone admite cierta flexibilidad en este aspecto, aunque laconfiguración en cámaras convergentes es algo más susceptible de generar falsascorrespondencias.

En la figura 3.3 puede verse la representación de esta subtarea, y en la figura 3.4los roles asociados a ésta.

Page 121: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

97

Hmax

2<uI<

Hmax

2;

Vmax

2<vI<

Vmax

2Hmax

2<uD<

Hmax

2;

Vmax

2<vD<

Vmax

20 < z < ; 0 < t <

La función E(x, y, z, t) hace referencia a la energía luminosa que existe en cadapunto (x, y, z) del espacio en la escena para cada instante de tiempo t. A partir de ella,mediante la digitalización realizada por las cámaras se consiguen las secuencias deimágenes derecha e izquierda denotadas como NGI(uI, vI, t) y NGD(uD, vD, t). Estassecuencias así como la resolución en profundidad, van a depender de distintos parámetrosde la geometría del sistema, como la distancia o línea base B y el ángulo α que forman losejes ópticos de las cámaras. También depende de las características de las cámara como eltamaño de píxel, la distancia focal del objetivo, y la frecuencia a la que se toman losfotogramas consecutivos. De todos estos parámetros se analizará su necesidad y suinterrelación mutua.

Atendiendo a la transformación que se produce por la proyección de la escena enlas cámaras que se presentó en el apartado 1.3.4.2, las relaciones que existe entre la escenade entrada y las secuencias de salida son las siguientes:

NGI(uI,vI,t) EuI

F·z,

vI

F·z, z, t

NGD(uD,vD,t) EuD·z

FB,

vD

F·z, z, t

En ellas podemos observar dos sistemas de referencia (uI, vI) y (uD, vD) diferentespara las imágenes izquierda y derecha de la salida, respectivamente. Los orígenes decoordenadas de cada sistema se toman en el centro geométrico de las superficiesfotosensibles, o, lo que es lo mismo, en el centro de las imágenes obtenidas. Los márgenesde variación de las coordenadas de las imágenes, de la profundidad y del tiempo son,respectivamente:

En las expresiones anteriores podemos observar la dependencia de las imágenesrespecto de la distancia base B, la profundidad a la que esté cada objeto y la distancia focaldel objetivo de las cámaras.

Page 122: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

98

línea_base B

ángulo_cámaras α

Escena 3D E (x,y,z,t)

Secuencia Izq. 2D NGI (uI,vI,t)

Digitalización del Par Estéreo de Secuencias

Parámetros Cámara

tamaño_pixel δd frecuencia ν

distancia_focal f

Secuencia Derecha 2D NGD (uD,vD,t)

Resolución en Profundidad δz

Figura 3.4. Roles de la subtarea “Digitalización del Par Estéreo de Secuencias”.

Por otra parte, en el mismo apartado 1.3.4.2 también se calculó la dependencia dela variable “z” con respecto de la disparidad. Esta relación se repite a continuación paramayor claridad.

z F·Bd

Es nuestro caso, esta relación es importante, porque a partir de ella podemoscalcular la resolución en la profundidad (δz) que se puede obtener en función de ladisparidad que existe entre dos puntos correspondientes. Esta relación vimos que resultabaasí:

δz F·Bd 2

·δd

Puede observarse asimismo la relación de estos parámetros con la geometría delsistema y la resolución de las imágenes reflejada en el tamaño del píxel δd.

Puesto que la disparidad “d”, que es el dato a partir del cual estimamos laprofundidad es todavía desconocida, el valor de “z” no se conoce; aunque, puede verse que

Page 123: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

99

está implícito en la información del par de imágenes de entrada. Las expresiones anterioresúnicamente modelan el efecto de transformación de la energía luminosa de la escena en lavariación de luminosidad captada por los elementos fotosensibles de las cámaras. A partirde estas expresiones y mediante la estimación de la disparidad aportada por el sistema, secalculará una estimación de la profundidad a la que está cada uno de los elementos de laescena deshaciendo, dicha transformación por proyección.

Existen, asimismo, otros dos parámetros que pueden influir ciertamente en losvalores calculados anteriormente. Estos son el ángulo entre los ejes ópticos de las cámaras,que, puesto que se ha impuesto como mejor opción la configuración de cámaras paralelas,tendrá un valor siempre nulo (α=0), y la frecuencia de captación de los fotogramas, queredundará en la discretización de la variable tiempo entre la escena y las imágenes.

Las secuencias de imágenes a obtener mediante las cámaras deben poseer lassiguientes características:

S Deben ser secuencias de imágenes estereoscópicas con un mínimo de 5 cuadros,aunque lo normal será tomar secuencias con longitud indefinida

S Se ha trabajado con secuencias de imagen en blanco y negro, después de comprobarque el color no aporta gran información a nuestro proceso.

S Para sacarle todo el rendimiento al algoritmo es conveniente que en el escenarioexista movimiento en las tres direcciones del espacio (x,y,z).

A partir de estas características que deben tener las secuencias estéreo, lassecuencias analizadas se han obtenido de las siguientes fuentes:

S Imágenes sintéticas realizadas mediante aplicaciones: se ha utilizado el programade animación tridimensional LightWave para configurar secuencias estéreo deobjetos en movimiento y posteriormente aplicarles el Modelo de Disparidad deCarga propuesto.

S También se han recogido imágenes de internet ofrecidas por algunos autores. Losejemplos utilizados en el capítulo de resultados han sido obtenidos de la direcciónlabvisione.deis.unibo.it/~smattoccia/stereo.htm.

Para el resto de la explicación del Modelo de Disparidad de Carga vamos a tomarcomo ejemplo una de las secuencias descargadas precisamente de este sitio de Internet. Setrata de la secuencia “IndoorZoom”, de la cual representamos en la figura 3.5 algunosfotogramas consecutivos. En estas secuencias, que no han sido tomadas por nosotros, notenemos control de los parámetros geométricos del sistema de cámaras, ni de las

Page 124: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

100

Figura 3.5. Cuatro fotogramas consecutivos de la secuencia “IndoorZoom”.

características de éstas, como la distancia focal, o el tamaño del píxel. Por lo tanto, losresultados saldrán afectados por un factor de escala. A lo largo del presente apartado y losque siguen se irán sucediendo las figuras con los resultados obtenidos a cada paso con lasecuencia “IndoorZoom”.

3.2.2. Obtención del Mapa de Carga 2D

Esta subtarea representa la sección “B” de la figura 3.1, y tiene como finalidad larepresentación del movimiento bidimensional de cada secuencia de entrada en los nivelesde carga de los elementos de permanencia. Una vez obtenidos éstos, se realizará laseparación de las imágenes en hemicampos con el fin de analizar por separado losestímulos procedentes de cada lado del campo visual.

La entrada son las secuencias de imágenes estéreo en niveles de gris procedentesde la digitalización de la señal de las cámaras. Por su parte, la salida es el estado de cargade las memorias de permanencia derecha e izquierda divididas cada una en sus dos mitadespor las razones enunciadas en el párrafo anterior.

Page 125: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

101

Segmentación en Bandas de Niveles

de Gris Detección de Movimiento

(Permanencia)

Obtención del Mapa de Carga 2D

Efecto de Permanencia

Separación de Hemicampos

Visuales

Figura 3.6. Descomposición en subtareas de “Obtención del Mapa de Carga2D”.

En la figura 3.6 se representa la división en subtareas de la tarea Obtención delMapa de Carga 2D. Como puede verse, la subtarea consta de tres pasos fundamentales queson:

S Segmentación en bandas de niveles de gris, S Detección del movimiento o cálculo de los mapas de carga bidimensionales

(memorias de permanencia) y,S Separación de hemicampos visuales.

En la figura 3.7 pueden verse también estas tres subtareas en su secuencia naturaly con sus interrelaciones. En ella se aprecian dos procesamientos en paralelo, cada unocorrespondiente a una secuencia de entrada, la izquierda y la derecha. A partir de laentrada, el subsistema de “Segmentación en Bandas de Niveles de Gris” separa cada unode los fotogramas en regiones conexas con el fin de analizar posteriormente susmovimientos. Como veremos en el apartado siguiente, este subsistema requiere comoentrada, además de la secuencia a segmentar, la salida del fotograma anterior. Esta

Page 126: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

102

O

bten

ción

del

Map

a de

Per

man

enci

a 2D

Segmentación en Bandas de Nivel de

Gris

Nivel de Gris Imagen Izquierda

NGI(u,v,t)

Detección de Movimiento

(Permanencia)

Banda de Nivel de Gris Imagen Izquierda

BNGI(u,v,t)

Separación de Hemicampos

Visuales

Mapa de Carga 2D Izquierdo C2I[u,v,t]

Hemicampo Visual 2D

Izdo. / Izdo.H2II[u,vI,t]

Hemicampo Visual 2D Izdo. / Dcho. H2ID[u,vI,t]

Segmentación en Bandas de Nivel de

Gris

Detección de Movimiento

(Permanencia)

Separación de Hemicampos

Visuales

Nivel de Gris Imagen Derecha NGD(u,v,t)

Banda de Nivel de Gris Imagen Derecha BNGD(u,v,t)

Mapa de Carga 2D Derecho C2I[u,v,t]

Hemicampo Visual 2D

Dcho. / Izdo.H2DI[u,vI,t]

Hemicampo Visual 2D Dcho. / Dcho. H2DD[u,vI,t]

BNGI(u,v,t-1) BNGD(u,v,t-1)

Figura 3.7. Esquema de procesos de la “Obtención del Mapa de Carga 2D”.

necesidad se justificó convenientemente en el capítulo 2, en el que se hizo el análisis delas memorias de permanencia.

El sistema de detección del movimiento a través de la permanencia tambiénrequiere como entradas la imagen actual segmentada en bandas de niveles de gris y laimagen anterior con el fin de analizar qué elementos de la memoria han saltado entrebandas y por lo tanto han detectado movimiento en los píxeles correspondientes.

Finalmente, cada uno de los subsistemas de separación de hemicampos visualestiene como entrada la información de movimiento procedente de la respectivapermanencia, y tiene como salidas los dos hemicampos visuales separados.

A continuación se desarrollan más en detalle cada una de estas subtareas.

Page 127: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

103

número_bandas NB

nivel_gris_mínimo NGmin nivel_gris_máximo NGmax

solape_bandas SB

Nivel de Gris NG (u,v,t)

Segmentación en Bandas de Niveles

de Gris

Banda de Niveles de Gris BNG (u,v,t)

Banda de Niveles de Gris BNG (u,v,t-1)

Figura 3.8. Roles de la subtarea “Segmentación en Bandas de Niveles de Gris”.

3.2.2.1. Segmentación en Bandas de Niveles de Gris

La subtarea “Segmentación en Bandas de Niveles de Gris” transforma las imágenesde entrada tomadas en 256 niveles de gris en un número menor de niveles. En concreto,se suele trabajar con buenos resultados utilizando 8 niveles. A estas imágenes en 8 nivelesse les denomina imágenes segmentadas en 8 bandas de niveles de gris (BNG).

Las razones por las que preferimos trabajar con bandas de niveles de gris son dos:

S El método tradicional de detección de movimiento está basado en la diferencia deimágenes. Al unir un rango de niveles de gris en una sola banda, y considerandoque existe movimientos cuando se detecta una variación en la banda de niveles degris, se reduce el nivel de ruido debido a pequeñas variaciones de luminosidad deun mismo objeto entre dos imágenes consecutivas.

S Por otra parte se consigue una disminución de la complejidad computacionalteniendo en cuenta el gran paralelismo usado en los algoritmos del modelopropuesto. Pasamos a computar en paralelo en el orden de magnitud de bandas deniveles de gris NB, y no de niveles de gris NG con NG>NB.

En la figura 3.8 pueden observarse los roles asociados a la subtarea deSegmentación en Bandas de Niveles de Gris. En dicho esquema podemos apreciar unarealimentación de la salida en el instante actual t, BNG(u,v,t), al tenerse en cuenta su propia

Page 128: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

104

SB

SB

SB

NGmin

NGmax

BNG1

BNG2

BNG3

BNGn-1

BNGn

NG nivel de gris NB bandas de niveles de gris

E2max

E2min

Figura 3.9. Solape entre bandas de niveles de gris.

respuesta en el instante anterior, BNG(u,v,t-1). Como se muestra en la misma figura, losroles estáticos son el número de bandas de niveles de gris (NB) en el que quedará divididala imagen, el solape entre bandas (SB) y los valores máximo (NGmax) y mínimo (NGmin) delos niveles de gris de la imagen de entrada. El valor de solape entre las bandas (SB) seutiliza para aumentar el tamaño de las bandas sin disminuir el número de estas. De estemodo se consigue adaptar el nivel de disminución del ruido debido a los leves cambios deluminosidad entre dos tramas de imagen consecutivas. La figura 3.9 muestra gráficamentela idea que subyace tras el solape entre bandas SB.

A la izquierda de la figura 3.9 podemos ver la división en “NG” niveles de gris,siendo NG=NGmax-NGmax+1, y en la parte derecha podemos ver la división en “NB” bandasde niveles de gris, desde BNG1 hasta BNGn; siendo obviamente NB<NG. Tal como sepuede apreciar en la misma figura, existe un solape entre las bandas de niveles de gris, demodo que un punto de la imagen de entrada cuyo nivel de gris sea NG, a priori podríapertenecer a una sola banda de niveles de gris en el caso de que el solape no le afecte, o ados bandas de niveles de gris si el nivel de gris está situado en la zona de solape.Obviamente, en un instante de tiempo determinado t, un punto de la imagen sólo puedepertenecer a una de las posibles bandas.

Como ya se ha indicado con anterioridad, el uso de las bandas de niveles de grisreduce el nivel de ruido. De la misma manera, el solape entre bandas está pensado para queun punto que pertenece en un instante a una banda de niveles de gris permanezca en esabanda cuando la variación de luminosidad es pequeña. Por “pequeña” hemos de entender

Page 129: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

105

Emin(u,v,t)max (BNG(u,v,t1) 1) NNB

SB , NGmin

Emax(u,v,t)min BNG(u,v,t1) NNB

SB , NGmax

que la luminosidad de un punto de la imagen incluido en una zona solapada no sale de lamisma zona de solape SB en el siguiente instante de tiempo. Queda claro que se disminuyede este modo aún más la afectación por el nivel de ruido sin variar el número de bandas.También observamos en la figura los valores de Emax, valor máximo de la banda actual (enel caso de la figura la banda 2) y Emin valor mínimo de dicha banda, aplicable a cada unade las bandas de niveles de gris.

A continuación se pasa a detallar cual es la labor de cada una de las inferenciasmostradas en la figura 3.10. La primera de las inferencias de tipo evaluate realiza el cálculodel valor de B, que será el propio valor de salida de la subtarea si hay variación de bandade niveles de gris (ver inferencia select más adelante). El valor de B es el valor calculadode paso de nivel de gris a banda de nivel de gris, sin tener aún en cuenta el valor del solape.El cálculo del valor de B se expresa en la ecuación siguiente.

B(u,v,t)round NG(u,v,t) NBNGmaxNGmin1

0,5

Como puede verse, se trata de un sencillo cambio de escala. Véase que aún noestamos decidiendo si existe o no variación en la banda de niveles de gris del punto (u, v).

Por otra parte, la segunda inferencia evaluate realiza sobre la parte central delespacio de salida, (o sea, sobre su propia salida en el instante anterior de tiempo) el cálculode los valores extremos Emax y Emin, que producen cambios en la banda. Emin es el extremoinferior y Emax es el extremo superior. Sus valores son los siguientes:

y

en estas expresiones el factor N=NGmax-NGmin+1 corresponde al número de niveles deentrada que en general serán 256.

Page 130: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

106

BNG (u,v,t-1)

NG (u,v,t) clases

Emin≤ NG (u,v,t) ≤ Emax 1

NG (u,v,t) < Emin 0 NG (u,v,t) >Emax 0

NB NGmin NGmax

{0,1}

BNG (u,v,t-1)

B

compare

B Emin, Emax

evaluate evaluate

NG (u,v,t)

SB NGmin NGmax

select

BNG (u,v,t)

Figura 3.10. Esquema inferencial de “Clasificación en Bandas de Niveles de Gris”.

Interpretando las dos fórmulas anteriores de Emax y Emin, vemos que tanto Emax comoEmin se corresponden con un nivel de gris: respectivamente, Emax con el nivel de grissuperior de la banda de niveles de gris a la que pertenecía el píxel analizado en el instantede tiempo t-1, y Emin el nivel de gris inferior de la banda de niveles de gris en el mismoinstante t-1. La inferencia compare comprueba si el valor del nivel de gris NG(u,v,t),produce cambio de banda con respecto al valor de la banda de niveles de gris obtenida ent-1, es decir BNG(u, v, t-1). Para ello, el criterio usado es el siguiente: si NG(u,v,t) se

Page 131: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

107

Variación(u,v,t)0 si Emin(u,v.t) NG(u,v,t) < Emax(u,v,t)

1 en caso contrario

BNG(u,v,t)BNG(u,v,t1) si Variación0

B en caso contrario

encuentra dentro del rango establecido entre Emax y Emin, la salida de esta inferencia(denominada Variación ya que detecta la variación de un píxel en su banda de niveles degris entre los instantes t y t-1), será 0 y en caso contrario 1:

Por último, la inferencia select selecciona como valor para la salida el valorcalculado B, si la salida de la inferencia compare es 1, y BNG(u,v,t-1) si la salida de lainferencia compare es 0.

En la figura 3.11 podemos ver, de forma gráfica, una representación de lasimplicaciones de la segmentación en bandas de niveles de gris. Para ello se ha utilizado elfotograma I(t) de la figura 3.5, segmentándolo en ocho bandas de niveles de gris.

Resumiendo, el resultado de la subtarea Segmentación en Bandas de Niveles deGris es, por cada píxel de la imagen de entrada, la transformación de nivel de gris en sucorrespondiente banda de niveles de gris, o la banda de niveles de gris anterior, si no haexistido variación suficiente para el cambio de banda. Es decir, el resultado será una matrizcon el mismo tamaño que la imagen de entrada, pero su contenido tomará valores entre 1y NB.

3.2.2.2. Detección de Movimiento (Permanencia)

Una vez establecida la banda de niveles de gris a la que pertenece cada píxel de lasdos imágenes, el siguiente paso es caracterizar el movimiento. Para ello, en primer lugar,establecemos un mapa de movimiento bidimensional para cada una de las secuencias, quese irá actualizando para cada fotograma. Este mapa de movimiento bidimensional tendrátantos elementos detectores de movimiento como píxeles tengan las imágenes en ladimensión horizontal y vertical.

Page 132: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

108

Clasificación Integración

Banda 1

Banda 3

Banda 6

Banda 8

NGi(u,v,t) BNGi(u,v,t)

Banda 7

Banda 5

Banda 2

Figura 3.11. Segmentación en bandas de niveles de gris: clasificación e integración

Page 133: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

109

Detección de Movimiento

(Permanencia)

Mapa de Carga 2D C2 (u,v,t)

Banda de Niveles de Gris BNG (u,v,t-1)

Banda de Niveles de Gris BNG (u,v,t)

valor_mínimo_carga C2min valor_máximo_carga C2max

descarga_permanencia C2des

Figura 3.12. Roles asociados a la subtarea “Detección de Movimiento(Permanencia)”.

En la figura 3.12 se muestran los roles asociados a esta subtarea. Las entradas a esteproceso son las bandas de nivel de gris actual BNG(u,v,t) y anterior BNG(u,v,t-1) para unmismo píxel (u,v). La variación temporal de la banda a la que pertenece un píxel nos vaindicar la existencia de movimiento. Aparecen en esta figura otros roles estáticos con el finde aportar algo más de información temporal al movimiento. Estos son el valor máximode carga C2max que puede tener un elemento de permanencia, el valor mínimo de cargaC2min que puede tener un elemento de permanencia, y el valor de la descarga paulatina quese producirá en ausencia de movimiento. Como salida de esta subtarea se obtiene el mapade carga 2D de la secuencia en el instante de tiempo t. Esta subtarea, a su vez se divide endos partes que presentamos a continuación a través de sus esquemas inferenciales.

a)- Detección de MovimientoEn la figura 3.13 se representa el esquema inferencial del proceso involucrado en

la detección de movimiento. La presencia de movimiento MOV2(u,v,t), se obtiene mediantela comparación punto a punto de dos imágenes segmentadas en bandas de niveles de grissucesivas en el tiempo, de forma que si el punto (u, v) en un instante t pertenece a la mismabanda de niveles de gris que en el instante anterior t-1, consideramos que no ha habidomovimiento, mientras que si ha existido un cambio de BNG entonces consideramos quesí lo ha habido.

Page 134: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

110

MOV2 (u,v,t)

compare

BNG (u,v,t-1) BNG(u,v,t)

Criterio clases

BNG(u,v,t)=BNG(u,v,t-1) 0

BNG(u,v,t)≠ BNG(u,v,t-1) 1

Figura 3.13. Esquema inferencial de la detección del movimiento

Se obtiene presencia de movimiento, MOV2(u, v, t) a partir de los roles dinámicosde entrada Banda de Niveles de Gris en los instantes de tiempo t y t-1. ver figura 3.13. Eneste caso la inferencia realizada es un compare, que valora la similitud entre las bandas denivel de gris actual y anterior del píxel de coordenadas (u,v). El resultado de estacomparación, denominada Presencia de Movimiento es directamente la salida del procesoMOV2(u,v,t) con valores 0 si las bandas son iguales y 1 si éstas son diferentes:

MOV2(u,v,t)0 si BNG(u,v,t) BNG(u,v,t1)1 si BNG(u,v,t) BNG(u,v,t1)

Estos mapas de movimiento bidimensionales identifican aquellos píxeles de laimagen de entrada en los que se ha producido un salto entre bandas de niveles de gris; y,por lo tanto, los puntos en las coordenadas u,v de las imágenes en los que ha habidomovimiento.

En la figura 3.14 podemos observar gráficamente el resultado de la detección demovimiento en dos instantes consecutivos de la secuencia “IndoorZoom”. Puedeobservarse que de todas las regiones segmentadas, el sistema únicamente atiende a aquellospíxeles en los que ha habido salto de banda de niveles de gris y por lo tanto se ha detectadomovimiento.

Page 135: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

111

Figura 3.14. Detección de movimiento.

b)- Obtención del mapa de carga 2DCon el fin de extraer mayor información sobre el movimiento, es interesante no

solamente detectar los puntos en los que ha habido movimiento, sino también la historiareciente de dicho movimiento. Para ello, utilizamos los mapas de carga de las memoriasde permanencia.

Esta subtarea obtiene mediante mecanismos de computación acumulativa sobre lanegada de la propiedad Presencia de Movimiento la Memoria de Carga de Movimientoasociada a dicho proceso de acumulación.

El modo de funcionamiento se explica mediante el esquema inferencial de la figura3.15. Los roles estáticos mostrados tienen el siguiente significado: C2min y C2max son losvalores mínimo y máximo respectivamente que pueden alcanzar los valores almacenadosen la Memoria de Carga de Movimiento 2D, y C2des es el valor de disminución de la carga.El incremento de la carga no aparece como rol, ya que se ha considerado que es igual al

Page 136: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

112

C2min C2max C2des

C2 (u,v,t-1)

select

{Ch1, Ch2}

evaluate

C2 (u,v,t)

Criterio Clases Selección

MOV2 (u,v,t)=0 Ch1

MOV2 (u,v,t)=1 Ch2

Figura 3.15. Esquema inferencial de la “Obtención del Mapa de Carga 2D”.

C2max. La idea de este proceso es que si no existe movimiento en el punto (u, v), el valorde carga C2(u, v, t) irá disminuyendo hasta llegar a C2min, y que si existe movimiento, seproduce la carga completa tomando el valor C2max. Los puntos en los que ha existidomovimiento recientemente tendrán valores de carga comprendidos entre la saturación y ladescarga, siendo más próximos a la saturación cuanto más reciente haya sido dichomovimiento; y a la inversa, tomarán valores más bajos cuanto más tiempo hace que seprodujo el movimiento en esta zona de la imagen.

De esta manera, el valor de carga C2(u, v, t) es proporcional al tiempo transcurridodesde la última variación significativa de la luminosidad sobre cada píxel de imagen (u,v).

La inferencia evaluate realiza el cálculo de los valores de Ch1 y Ch2 en losdistintos intervalos de tiempo. Estos valores de Ch1 y Ch2 son los posibles valores de laMemoria de Carga 2D. A continuación, mediante la inferencia select, se obtiene el valorde la salida C2(u,v,t), que tomará uno de los valores del conjunto {Ch1, Ch2} dependiendo

Page 137: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

113

del resultado obtenido en el apartado anterior (MOV2(u, v, t)), que actúa como clase dediscrepancia. Así el criterio usado es:

Ch1 max(C2(u,v,t1) C2des, C2min)

Ch2 C2max

Ch1 representa el caso de descarga paulatina, mientras que Ch2 se utiliza cuandose detecta movimiento y, en consecuencia, debe cargarse el elemento de permanencia hastala saturación. La inferencia select selecciona como valor de salida el valor Ch1 siMOV2(u,v,t) es 0 (ausencia de movimiento), y Ch2 en caso contrario.

C2(u,v,t)Ch1 si MOV2(u,v,t) 1Ch2 si MOV2(u,v,t) 0

A la hora de darle valores a la variable C2des, hemos de tener en cuenta la relaciónmuestreo-velocidad de las secuencias captadas. Por ejemplo, en los pares de secuenciasvirtuales preparados para probar el algoritmo, se han utilizado velocidades de descargaC2des=16. En cambio, en las secuencias reales obtenidas de Internet, debido a que lasimágenes estaban tomadas a una velocidad lenta, hemos debido utilizar un parámetroC2des=64 para conseguir una descarga rápida y, por tanto, estelas relativamente cortas.

A través de los Mapas de Carga 2D derecho e izquierdo tenemos ya caracterizadoel movimiento a nivel de las imágenes en las direcciones horizontal y vertical.

En la figura 3.16 puede verse la evolución de los fotogramas en la secuencia“IndoorZoom” al aplicar el efecto de permanencia sobre la detección de movimiento.Podemos observar que en la memoria de permanencia se van almacenando los últimosmovimientos que se han producido en la secuencia. En esta representación se ha supuestoque el proceso es continuo y por lo tanto los Mapas de Carga 2D contienen informaciónde instantes anteriores.

Page 138: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

114

Figura 3.16. Efecto de permanencia aplicado a la detección del movimiento 2D.

3.2.2.3. Separación de Hemicampos Visuales

Como salida de esta sección, estas memorias de permanencia son divididas en dosmitades, ya que queremos separar el movimiento que se produce en la parte derecha delcampo visual, respecto del que se produce en la parte izquierda. En la figura 3.17 quedanrepresentados los roles estáticos y dinámicos asociados a esta subtarea. Así, a partir de losmapas de carga extraídos de cada una de las dos memorias de permanencia, la derecha yla izquierda, obtenemos las mitades que aparecen en la figura 3.19.

Page 139: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

115

Separación de Hemicampos

Visuales

Mapa de Carga 2D C2 (u,v,t)

Hemicampo Visual 2D Derecho

H2d (u,v,t)

Hemicampo Visual 2D Izquierdo H2i (u,v,t)

tamaño_imagen_horizontal Hmax

Figura 3.17. Roles de la subtarea “Separación de Hemicampos Visuales”.

Al hemicampo visual izquierdo de un Mapa de Carga 2D lo denominaremosH2I(u,v,t); y al hemicampo visual derecho lo denominaremos H2D(u,v,t). La separación deambos hemicampos se produce por la mitad de la longitud horizontal del mapa de carga,de ahí la utilización de este tamaño (Hmax) como rol estático.

En la figura 3.18 podemos ver el esquema inferencial propuesto. En él se utilizacomo entrada el Mapa de Carga 2D completo. La primera inferencia select extrae de dichomapa completo su parte izquierda, dejando la derecha en conjunto vacío. En el caso de lainferencia select derecha su función es la misma sólo que en este caso lo que se extrae esel hemicampo visual derecho del Mapa de Carga 2D completo.

Así pues, el contenido del hemicampo visual izquierdo será:

H2I(u,v,t) C2(uHmax

2, v, t)

considerando:

0 < u Umax

2

Vmax

2< v <

Vmax

20 < t <

Page 140: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

116

select

C2 (u,v,t)

H2i (u,v,t)

Criterio Clases Selección

02max <<− uH C2 (u,v,t)

20 maxHu << ∅

select

H2d (u,v,t)

Criterio Clases Selección

02max <<− uH ∅

20 maxHu << C2 (u,v,t)

Figura 3.18. Esquema inferencial de la “Separación de Hemicampos Visuales”.

y el contenido del hemicampo derecho será

H2D(u,v,t) C2(u,v,t)

considerando:

0 < u Umax

2

Vmax

2< v <

Vmax

20 < t <

En la figura 3.19 queda representado gráficamente la separación de hemicamposvisuales de un mapa de carga 2D.

3.2.3. Análisis de la Disparidad de Carga

Esta subtarea se representa en la sección “C” de la figura 3.1. En dicha figura sepuede ver que, a la entrada se disponen por separado las dos mitades izquierdas de losMapas de Carga respecto de las dos mitades derechas, con el fin de separar los estímulosprovenientes de cada hemicampo visual. De esta manera, se necesitarán dos sistemas deprocesamiento paralelos; cada uno para procesar su mitad correspondiente del campovisual. Ambos sistemas son muy semejantes con lo que aquí se concentrará la atención en

Page 141: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

117

Separación de hemicampos

C2I(u,v,t)

H2II(u,v,t) H2DI(u,v,t)

Figura 3.19. Separación de hemicampos visuales

explicar el funcionamiento de uno de ellos. La salida es un mapa tridimensional deprofundidad que nos muestra la profundidad de los puntos de la escena en los que se haproducido movimiento.

El hecho de utilizar como entradas los Mapas de Carga, con se vio en el capítulo2 tiene dos características destacables:

S Se utiliza sólo la información de movimiento filtrando toda la información estáticade la escena ya sea 2D como 3D. Como nuestro objetivo es obtener un mapatridimensional del movimiento de la escena, este filtrado supone más una ventajaque un inconveniente, ya que los elementos estáticos aportan ruido a este estudio.

S Por otra parte, el movimiento de los objetos produce estelas en los mapas de cargade las memorias de permanencia que tendrán características diferentes según su

Page 142: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

118

Análisis de Correspondencias

de Carga

Análisis de Disparidad de

Carga

PSM

Obtención del Mapa de

Profundidad 3D

Figura 3.20. Descomposición en subtareas del “Análisis de Disparidad de Carga”.

dirección su velocidad instantánea y su historia de movimiento. Sin embargo, elmovimiento instantáneo de un mismo objeto va a tener una representación en losdos mapas de carga como estelas muy semejantes; por eso, la puesta encorrespondencia de las estelas de los objetos móviles que hay en la secuencia serásencilla y muy robusta.

En la figura 3.20 se representa la división en subtareas elementales de esta subtarea.En ella se pueden ver las dos subtareas elementales en las que se descompone, que son; porun lado el Análisis de Correspondencias de Carga, y por otro la Obtención del Mapa deProfundidad 3D.

Por su parte, en la figura 3.21 se visualiza el esquema de procesos de esta subtarea.En él se pueden ver, además, las interrelaciones de los procesos entre sí, así como lasentradas y salidas involucradas en cada proceso.

Como puede verse, los dos hemicampos visuales de las Memorias de Carga 2D deentrada se reorganizan para procesar separadamente los estímulos procedentes delhemicampo visual izquierdo de los del derecho. Así, el proceso de análisis decorrespondencias de carga izquierdo tiene como entradas el hemicampo visual izquierdodel mapa de carga izquierdo y el hemicampo visual izquierdo del mapa de carga derecho.Por su parte, el proceso de análisis de correspondencias derecho tiene como entradas losdos hemicampos derechos de ambos Mapas de Carga 2D.

Page 143: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

119

Obt

enci

ón d

el M

apa

de P

rofu

ndid

ad 3

D

Análisis de Correspondencias de

Carga

Obtención del Mapa de Profundidad de Carga

3D

Mapa de Correspondencias de Carga 3D Izquierdo

S3I(u,v,d,t)

Mapa de Profundidad 3D

IzquierdoD3I(u,v,t)

Hemicampo Visual 2D

Izdo. / Izdo.H2II(u,v,t)

Hemicampo Visual 2D Izdo. / Dcho. H2ID(u,v,t)

Análisis de Correspondencias de

Carga

Obtención del Mapa de Profundidad de Carga

3D

Mapa de Correspondencias de Carga 3D Derecho S3D(u,v,d,t)

Mapa de Profundidad 3D Derecho D3D(u,v,t)

Hemicampo Visual 2D

Dcho. / Izdo.H2DI(u,v,t)

Hemicampo Visual 2D Dcho. / Dcho. H2DD(u,v,t)

Figura 3.21. Esquema de procesos del “Análisis de Disparidad de Carga”.

La salida de los análisis de correspondencias los denominamos Mapas deCorrespondencias de Carga 3D (S3(u,v,d,t)); donde d es la disparidad. En ellos se van arepresentar las correspondencias existentes entre píxeles de los hemicampos de lasimágenes derecha e izquierda para diferentes disparidades.

A partir de dichos Mapas de Correspondencias de Carga se decidirá cual es laprofundidad de máxima confianza para cada una de las coordenadas (u,v) de loshemicampos visuales. Esto se realizará mediante el proceso de Obtención del Mapa deProfundidad de Carga 3D, y la salida la denominaremos Mapa de Profundidad 3D.

3.2.3.1. Análisis de Correspondencias de Carga

Con esta subtarea se pretende preparar la información necesaria para,posteriormente, en la obtención del Mapa de Profundidad 3D, tomar la decisión de cuales la disparidad de mayor confianza para cada uno de los elementos de procesamiento delos mapas de carga de entrada. En esta tarea principalmente se va a tomar en consideración

Page 144: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

120

Análisis de Correspondencias

de Carga

Mapa de Correspondencias de Carga 3D

S3 (u,v,d,t)

Hemicampo Visual 2D Derecho

H2D (u,v,t)

Hemicampo Visual 2D Izquierdo H2I (u,v,t)

tamaño_imagen_horizontal Hmax

tamaño_imagen_vertical Vmax disparidad_máxima dmax

Figura 3.22. Roles asociados a la subtarea “Análisis de Correspondencias de Carga”.

las restricciones epipolar, de ordenamiento y de disparidad. La forma de aplicarlas se veráen cada uno de los pasos realizados.

Con estas consideraciones se puede afrontar ya el análisis de los roles estáticos ydinámicos que concurren en esta subtarea. Estos se pueden ver representados en la figura3.22. En ella vemos como roles dinámicos los hemicampos homólogos de las imágenesderecha e izquierda a la entrada y el Mapa de Correspondencias de carga 3D a la salida.Por su parte como roles estáticos figuran el tamaño de la imagen en horizontal y verticaly el valor máximo de disparidad dado por la restricción del mismo nombre.

Se sabe que las primitivas de correspondencia de mayor robustez son aquellas demás alto nivel como los contornos o las regiones. En nuestro caso pretendemos realizar unanálisis de correspondencias por regiones. Por lo tanto, hemos de agrupar aquelloselementos de carga vecinos cuyos correspondientes tengan la misma disparidad. Pero antesde agrupar a los vecinos correspondientes hemos de definir qué es lo que consideramoselementos de carga correspondientes. Básicamente, para cada elemento de carga se trataríade buscar en la línea epipolar contraria qué píxel tiene una historia de movimientosemejante, y por lo tanto qué elemento de procesamiento del mapa de cargacorrespondiente tiene un nivel instantáneo de carga almacenada igual.

Page 145: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

121

Una vez establecidas las regiones que denominamos de “disparidad constante”,se hace conveniente establecer una característica de ellas que nos permita establecer uncriterio de confianza para la decisión de cuál es la disparidad correcta para cada elementode carga (u,v).

La característica escogida depende de la posición (u, v) de cada elemento deprocesamiento y tiene que ver con el tamaño de cada región de “disparidad constante”.La forma de calcular dicho tamaño se realiza en dos fases:

S En primer lugar se lleva a cabo un conteo en horizontal de todos los vecinoscontiguos que pertenecen a dicha región.

S Posteriormente se acumulan los valores horizontales encontrados para todos loselementos de procesamiento contiguos verticales que también pertenecen a dicharegión.

En los próximos subapartados se explicarán estas fases por el orden en el que seproducen, (Correspondencias Puntuales, Conteo Horizontal y Acumulación Vertical),utilizando para ello los esquemas inferenciales.

a)- Análisis de Correspondencias PuntualesEl análisis de Correspondencias Puntuales se realiza sobre los elementos de carga

de dos hemicampos correspondientes. Aplicando la restricción epipolar se compara cadauno de los elementos de carga de un hemicampo con aquellos del otro que están en lamisma fila, pero desplazados en horizontal hasta el límite máximo impuesto por larestricción de disparidad.

El esquema inferencial de esta parte se puede ver en la figura 3.23. En este esquemapuede verse que se tienen dos inferencias evaluate una para cada hemicampo visual. Cadauna de éstas tienen como roles dinámicos de entrada las mitades correspondientesH2I(u,v,t) y H2D(u,v,t) de los mapas de carga del hemicampo visual y como roles estáticosel valor de la disparidad máxima dmax dada por la restricción. El rol dinámico de salida decada inferencia es una matriz tridimensional Sa3(u, v, d, t) en la que para cada coordenada(u, v) y para cada valor de disparidad d indica si existe o no correspondencia puntual.

Page 146: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

122

dmax

Sa3I (u,v,d,t)

evaluate

H2II (u,v,t) H2DI (u,v,t) H2ID (u,v,t) H2DD (u,v,t)

dmax

Sa3D (u,v,d,t)

evaluate

Figura 3.23. Esquema inferencial del “Análisis de Correspondencias Puntuales”.

Las expresiones de cálculo de los elementos de esta matriz tridimensional de salidaen cada hemicampo visual son las siguientes:

Sa3I(u,v,d,t)1, si |H2II(u,v,t)H2DI(ud,v,t)| 1

0, en caso contrario, d | 0ddmax

Sa3D(u,v,d,t)1, si |H2ID(ud,v,t)H2DD(u,v,t)| 1

0, en caso contrario, d | 0ddmax

En la figura 3.24 se puede ver una representación gráfica del desarrollo del análisisde correspondencias. Como el rol de salida Sa3(u,v,d,t) es una variable que depende de tresdimensiones espaciales, además del tiempo, en la figura se ha representado la variación enla disparidad a modo de mosaico. Por ello, el elemento central de la figura en la queaparecen las correspondencias está configurado como una matriz de cinco columnas ycuatro filas, en las que cada columna a su vez está dividida en dos para albergar loshemicampos derecho e izquierdo de cada mapa de carga. En dicha figura se puede observarcómo el personaje que aparece en el hemicampo izquierdo es el más cercano pues su regiónde disparidad constante tiene un tamaño máximo para d=18. En cambio, el personaje delhemicampo derecho está más alejado, apareciendo con una disparidad menor (d=6). Elpersonaje central aparece con una disparidad (d=15) y está bastante estático.

Page 147: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

123

Figura 3.24. Análisis de correspondencias a partir de los Mapas de Carga.

Page 148: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

124

a

evaluate

Sb3 (u-1,v,d,t) Sa3 (u,v,d,t)

Criterio clases

Sa3 (u,v,d,t) = 0 0

Sa3 (u,v,d,t) ≠ 0 1

compare

{0,1}

select 0 a

Sb3 (u,v,d,t)

Sb3 (u-1,v,d,t) + 1

Figura 3.25. Esquema inferencial del “Conteo de Carga en Horizontal”.

b)- Conteo y Homogeneización de Carga en HorizontalEn este segundo paso, la finalidad es establecer una matriz de elementos de carga

del mismo tamaño que las matrices tridimensionales Sa3 procedentes del paso anterior, enla que cada uno de los elementos tenga como resultado final la cantidad de elementoscontiguos de entrada que se consideran correspondientes (aquellos en los queSa3(u,v,d,t)=1) en la dirección horizontal. Este proceso se realiza en dos tiempos: unaprimera pasada hacia la izquierda va contando los elementos de entrada puestos a 1 yalmacenando el valor en el elemento de carga de salida correspondiente (Sb3(u,v,d,t)). Elesquema inferencial de este primer paso se puede ver en la figura 3.25.

En primer lugar, la inferencia compare comprueba si el elemento de entradaSa3(u,v,d,t) tiene valor 1, lo que significaría que ha encontrado correspondencia válida enel proceso anterior. Si es así, el resultado de esta comparación es 1, y 0 en caso contrario.En la parte superior derecha de la figura se puede ver una inferencia evaluate quesimplemente ofrece como salida a, el valor de salida anterior Sb3(u,v,d,t) incrementado en1.

Page 149: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

125

Finalmente en la parte final del esquema se utiliza una inferencia select para, apartir de los valores de salida de la inferencia compare, decidir si dar como salida un valornulo o el valor a previamente calculado.

En el aspecto temporal debemos decir que deben calcularse en primer lugar loselementos de menor coordenada u, avanzando a lo largo de la matriz de elementos haciala izquierda. Así el proceso se puede interpretar como tres bucles anidados de la siguientemanera.

for u=1 to (Hmax / 2) {for v=1 to Vmax {

for d=1 to dmax {aSb3(u1,v,d,t)1

Sb3(u,v,d,t)a si Sa3(u,v,d,t)00 en caso contrario

}}

}

Una vez realizado el conteo hacia la derecha en horizontal, se realiza unahomogeneización de carga, para que todos los elementos de carga que pertenezcan a unaregión horizontal de disparidad constante adquieran el mismo valor de carga. Este valoradquirido será el máximo y corresponderá con el tamaño horizontal de la región dedisparidad constante que forman todos ellos. El esquema inferencial de este proceso puedeverse en la figura 3.26, y su explicación es muy similar a la anterior, aunque veremos queexisten diferencias.

La inferencia compare nuevamente comprueba si el elemento de entradaSb3(u,v,d,t) tiene valor distinto de 0, lo que significaría que ha acumulado carga en elproceso anterior. Si es así, el resultado de esta comparación es 1, y en caso contrario 0. Enla parte superior derecha de la figura se puede ver una inferencia evaluate que simplementeofrece como salida en b el valor máximo entre la entrada actual Sb3(u,v,d,t) y el valoranterior, considerando este como Sb3(u+1,v,d,t).

Finalmente en la parte final del esquema se utiliza una inferencia select para, apartir de los valores de salida de la inferencia compare, decidir si dar como salida un valornulo o el valor b previamente calculado.

En cuanto a la temporización, hemos de destacar que en este proceso han derealizarse primero las operaciones con los elementos de carga de la parte derecha de lasmatrices de entrada, y posteriormente avanzar hacia la izquierda.

Page 150: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

126

b

evaluate

Sb3 (u+1,v,d,t) Sb3 (u,v,d,t)

Criterio clases

Sb3 (u,v,d,t) = 0 0

Sb3 (u,v,d,t) ≠ 0 1

compare max [Sb3 (u,v,d,t), Sb3 (u+1,v,d,t)]

{0,1}

select 0 b

Sc3 (u,v,d,t)

Figura 3.26. Esquema inferencial de la “Homogeneización de Carga Horizontal”.

El procesamiento de este esquema también puede escribirse en forma de buclesanidados de esta manera:

for u=(Hmax / 2)-1 downto 1 {for v=1 to Vmax {

for d=1 to dmax {bmax(Sb3(u,v,d,t),Sb3(u1,v,d,t))

Sc3(u,v,d,t)b si Sb3(u,v,d,t)00 en caso contrario

}}

}

Page 151: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

127

c

evaluate

Sc3 (u,v-1,d,t) Sc3 (u,v,d,t)

Criterio clases

Sc3 (u,v,d,t) = 0 0

Sc3 (u,v,d,t) ≠ 0 1

compare Sc3 (u,v,d,t) + Sc3 (u,v-1,d,t)]

{0,1}

select 0 c

Sd3 (u,v,d,t)

Figura 3.27. Esquema inferencial de la “Acumulación de Carga Vertical”.

c)- Acumulación y homogeneización de carga en verticalEn este tercer paso la finalidad es establecer una nueva matriz de elementos de

carga del mismo tamaño que las matrices tridimensionales Sc3 procedentes del pasoanterior, en la que cada uno de los elementos tenga como resultado final la acumulaciónde carga de los elementos contiguos de entrada que se consideran correspondientes en ladirección vertical. Este proceso se realiza, de la misma manera que en el caso anterior endos tiempos: una primera pasada hacia abajo (valores de v crecientes) va contando loselementos de entrada distintos de 0 y almacenando el valor acumulado en el elemento decarga de salida correspondiente (Sd3(u,v,d,t)). El esquema inferencial de este primer pasose puede ver en la figura 3.27.

En primer lugar, la inferencia compare comprueba si el elemento de entradaSa3(u,v,d,t) tiene valor distinto de cero, lo que significaría que ha encontradocorrespondencia válida en los procesos anteriores. Si es así, el resultado de estacomparación es 1, y en caso contrario 0. En la parte superior derecha de la figura se puedever una inferencia evaluate que simplemente ofrece como salida en c la suma de los valoresde entrada Sc3(u,v,d,t) y Sc3(u,v-1,d,t).

Page 152: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

128

En la parte final del esquema se utiliza una inferencia select para, a partir de losvalores de salida de la inferencia compare, decidir si dar como salida un valor nulo o elvalor c previamente calculado.

En el aspecto temporal debemos decir que deben calcularse, en primer lugar, loselementos de menor coordenada v, avanzando a lo largo de la matriz de elementos haciavalores más altos. Así, el proceso se puede interpretar como tres bucles anidados de lasiguiente manera:

for u=1 to (Hmax / 2) {for v= 2 to Vmax {

for d=1 to dmax {cSc3(u,v,d,t)Sc3(u,v1,d,t)

Sd3(u,v,d,t)c si Sc3(u,v,d,t)00 en caso contrario

}}

}

Una vez realizado el conteo hacia valores positivos de v, se realiza unahomogeneización de carga, de manera que todos los elementos de carga que pertenezcanen vertical a una región de disparidad constante tengan el mismo valor de carga, que seráel máximo, y corresponderá al tamaño total de esta región. El esquema inferencial de esteproceso puede verse en la figura 3.28.

La inferencia compare nuevamente comprueba si el elemento de entradaSd3(u,v,d,t) tiene valor distinto de 0, lo que significaría que ha acumulado carga en elproceso anterior. Si es así, el resultado de esta comparación es 1, y en caso contrario 0. Enla parte superior derecha de la figura se puede ver una inferencia evaluate que simplementeofrece como salida en e el valor el valor máximo entre la entrada actual Sd3(u,v,d,t) y elvalor anterior, considerando este como Sd3(u,v+1,d,t).

Finalmente en la parte baja del esquema se utiliza una inferencia select para, a partirde los valores de salida de la inferencia compare, decidir si dar como salida un valor nuloo el valor e previamente calculado.

En cuanto a la temporización, hemos de destacar que en este proceso han derealizarse primero las operaciones con los elementos de carga de valores de v altos de lasmatrices de entrada, y posteriormente avanzar hacia valores más bajos.

El procesamiento de este esquema también puede escribirse en forma de buclesanidados de esta manera:

Page 153: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

129

e

evaluate

Sd3 (u,v+1,d,t) Sd3 (u,v,d,t)

Criterio clases

Sd3 (u,v,d,t) = 0 0

Sd3 (u,v,d,t) ≠ 0 1

compare max [Sd3 (u,v,d,t), Sd3 (u,v+1,d,t)]

{0,1}

select 0 e

S3 (u,v,d,t)

Figura 3.28. Esquema inferencial de la “Homogeneización de Carga Vertical”.

for u=1 to (Hmax / 2){for v=(Vmax- 1) to 1 {

for d=1 to dmax {emax(S3(u,v,d,t),S3(u,v1,d,t))

S3(u,v,d,t)e si Sd3(u,v,d,t)00 en caso contrario

}}

}

Page 154: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

130

Obtención del Mapa de Profundidad 3D

Mapa de Profundidad 3D D3 (u,v,t)

disparidad_maxima dmax

Mapa de Correspondencias de Carga 3D S3 (u,v,d,t)

Figura 3.29. Roles asociados a la subtarea “Obtención del Mapa de Profundidad3D”.

3.2.3.2. Obtención del Mapa de Profundidad 3D.

Una vez calculados los tamaños de región a los que pertenece cada una de lascorrespondencias de los mapas de carga, sólo queda por asociar como disparidad demáxima confianza de cada píxel aquel valor cuya carga S3(u,v,d,t) es máxima en d. Conesto se está imponiendo la restricción de unicidad; ya que, como valor final, cada elementode procesamiento sólo tendrá un valor único de disparidad.

En la figura 3.29 pueden verse los roles estáticos y dinámicos involucrados en estasubtarea. Ésta tiene como entrada el Mapa de Correspondencias de Carga, S3(u,v,d,t), ycomo rol estático la disparidad máxima impuesta por la restricción de disparidad.

En la expresión siguiente queda también reflejado el procesamiento que se realizapara obtener la disparidad asociada a cada elemento de carga.

D3(u,v,t)i | S3(u,v,i,t)S3(u,v,j,t), (i,j), 0idmax, 0jdmax

Page 155: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

131

Figura 3.30. Obtención del Mapa de Profundidad a partir de las correspondencias.

Básicamente, esta operación trata de buscar aquel valor i cuyo S3(u,v,i,t) es máximoen la tercera dimensión. Puede observarse que en el método propuesto para la subtarea deanálisis de la disparidad de carga queda incluída la restricción de ordenamiento, puestoque la comprobación de correspondencias puntuales y la posterior configuración enregiones lleva implícita la conservación del orden de las correspondencias encontradas.

A partir del cálculo de disparidades de carga realizado y del análisis geométrico delsistema de cámaras, podemos estimar las profundidades de los elementos móviles. Conello, hemos conseguido un mapa estereoscópico de movimiento, en el que cada uno de los

Page 156: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

132

Obt

enci

ón d

el M

apa

de P

erm

anen

cia

3D

Obtención del Mapa de Carga

3D

Mapa de Profundidad 3D Izquierdo

D3i(u,v,t)

Mapa de Carga 3D Izquierdo

C3i(u,v,d,t)

Mapa de Profundidad 3D Izquierdo D3i(u,v,t-1)

Obtención del Mapa de Carga

3D

Mapa de Profundidad 3D DerechoD3d(u,v,t)

Mapa de Carga 3D Derecho C3d(u,v,d,t)

Mapa de Profundidad 3D Derecho D3d(u,v,t-1)

Figura 3.31. Esquema de procesos de la Obtención del Mapa de Carga 3D

móviles de la escena aparece con su profundidad asociada. En la figura 3.30 pueden versede forma gráfica los roles de entrada y salida a la subtarea “Obtención del Mapa deProfundidad 3D.

3.2.4. Obtención del Mapa de Carga 3D

Esta subtarea representa la sección “D” en la figura 3.1. Esta subtarea tiene comofinalidad la representación del movimiento en la profundidad de los objetos móviles queaparecen en las secuencias de entrada en los niveles de carga de los elementos depermanencia.

A partir del valor de profundidad de cada móvil de la escena, la subtarea deObtención del Mapa de Carga 3D pretende obtener, en base al efecto de permanencia vistoanteriormente estimar el movimiento que están teniendo cada uno de los objetos en laprofundidad. Esta subtarea aplicará el efecto de permanencia a la información demovimiento en esta dirección para obtener el mapa de carga 3D buscado. En la figura 3.31se representa el esquema de procesos de esta subtarea.

Asimismo, en la figura 3.32 se representan los roles estáticos y dinámicos. Lasentradas a cada uno de los procesos, izquierdo y derecho, son los Mapas de Profundidadactual D3(u,v,t) y anterior D3(u,v,t-1). Los roles estáticos que aparecen son, por un lado,los valores mínimo y máximo de carga de los elementos de carga de la memoria depermanencia C3max y C3min, y, por otro, el valor de la descarga en ausencia de movimientoC3des. El rol dinámico de salida es propiamente el mapa de carga 3D.

Page 157: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

133

Obtención del Mapa de Carga 3D

Mapa de Carga 3D C3 (u,v,d,t)

Mapa de Profundidad 3D D3 (u,v,t-1)

Mapa de Profundidad 3D D3 (u,v,t)

valor_mínimo_permanencia C3min valor_máximo_permanencia C3max

descarga_permanencia C3des

Figura 3.32. Roles estáticos y dinámicos de la subtarea “Obtención del Mapa deCarga 3D”.

a)- Detección de Movimiento 3D.Una vez establecidos los mapas de profundidad 3D, el siguiente paso es caracterizar

el movimiento. Para ello, en primer lugar, establecemos un mapa de movimientostridimensional para cada una de las secuencias, que se irá actualizando para cadafotograma. Este mapa de movimiento tridimensional tendrá tantos elementos detectoresde movimiento como píxeles tengan las imágenes en la dimensión horizontal y verticalmultiplicado por el número de diferentes disparidades posibles (Dmax +1).

En la figura 3.33 se representa el esquema inferencial del proceso involucrado enla detección de movimiento. La presencia de movimiento MOV3(u,v,d,t), se obtienemediante la comparación punto a punto de dos mapas de profundidad 3D sucesivos en eltiempo, de forma que si el punto (u, v, d) en un instante t se encuentra en la misma posiciónque en el instante anterior t-1, consideramos que no ha habido movimiento, mientras quesi ha existido un cambio de posición, entonces consideramos que sí lo ha habido.

En este caso, la inferencia realizada es un compare, que valora la igualdad entre lasposiciones actual y anterior del móvil de coordenadas (u,v,d). El resultado de estacomparación denominada Presencia de Movimiento es directamente la salida del procesoMOV3(u,v,d,t) con valores 0 si las posiciones son iguales y 1 si éstas son diferentes.

Page 158: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

134

MOV3 (u,v,z,t)

compare

D3 (u,v,t-1) D3 (u,v,t)

Criterio clases

D3(u,v,t) = D3 (u,v,t-1) 0

D3 (u,v,t) ≠ D3 (u,v,t-1) 1

Figura 3.33. Esquema inferencial de la Detección de Movimiento 3D.

MOV3(u,v,D3(u,v,t),t)0 si D3(u,v,t) D3(u,v,t1)1 si D3(u,v,t) D3(u,v,t1)

donde D3(u,v,t) contiene la disparidad de más confianza para cada píxel (u,v).Estos mapas de movimiento bidimensionales identifican aquellas celdas del marco

de referencia discretizado en los que se ha producido un movimiento en la dirección Z y,por lo tanto, los puntos en las coordenadas (u,v,d) de los mapas de profundidad en los queha habido movimiento.

En la figura 3.34 puede verse la transformación entre el Mapa de Profundidad y lasalida de la Detección del Movimiento 3D. Básicamente, se trata de poner a cada píxel enla profundidad según su disparidad. En el mapa de profundidad, los píxeles más cercanosaparecen en color claro, y en la salida de la detección de movimiento 3D los píxeles máscercanos se representan con colores más cálidos y a diferente altura.

b)- Efecto de Permanencia 3DCon el fin de extraer mayor información sobre el movimiento es interesante, no

solamente detectar los puntos en los que ha habido movimiento sino también, la historiareciente de dicho movimiento. Para ello utilizamos los mapas de carga resultado de lasmemorias de permanencia.

Page 159: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

135

Figura 3.34. Representación gráfica de la Detección de Movimiento 3D.

En esta ocasión, así como en el caso bidimensional visto en el apartado 3.2.2.2, seobtiene, mediante mecanismos de computación acumulativa sobre la negada de lapropiedad Presencia de Movimiento, la Memoria de Carga de Movimiento asociada a dichoproceso de acumulación.

El modo de funcionamiento se explica mediante el esquema inferencial de la figura3.35. Los roles estáticos mostrados tienen el siguiente significado: C3min y C3max son losvalores mínimo y máximo, respectivamente, que pueden alcanzar los valores almacenadosen la Memoria de Carga de Movimiento 3D, y C3des es el valor de disminución de la carga.El incremento de la carga no aparece como rol, ya que se ha considerado que es igual alC3max. La idea de este proceso es que, si no existe movimiento en el punto (u, v, d), el valorde carga C3(u,v,d,t) se irá decrementando hasta llegar a C3min, y que si existe movimiento,se produce la carga completa tomando el valor C3max. Los puntos en los que ha existidomovimiento recientemente tendrán valores de carga entre la saturación y la descarga,siendo más próximos a la saturación cuanto más reciente haya sido dicho movimiento; ya la inversa, tomará valores más bajos cuanto más tiempo hace que se produjo elmovimiento en esta zona de la imagen.

De esta manera, el valor de carga C3(u,v,d,t) representa una medida del tiempotranscurrido desde la última variación significativa de la posición sobre cada celda delmarco de referencia (u,v,d).

La inferencia evaluate realiza el cálculo de los valores de Ch1 y Ch2 en losdistintos intervalos de tiempo. Estos valores de Ch1 y Ch2 son los posibles valores de laMemoria de Carga 3D. A continuación, mediante la inferencia select se obtiene el valorde la salida C3(u,v,d,t), que tomará uno de los valores del conjunto {Ch1, Ch2}

Page 160: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

136

C3min C3max C3des

C3 (u,v,,d,t-1)

select

{Ch1, Ch2}

evaluate

C3 (u,v,d,t)

Criterio Clases Selección

MOV3 (u,v,d,t)=0 Ch1

MOV3 (u,v,d,t)=1 Ch2

D3 (u,v,t-1)

Figura 3.35. Esquema inferencial del Efecto de Permanencia 3D

dependiendo del resultado obtenido en el apartado anterior (MOV3(u, v, d, t)), que actúacomo clase de discrepancia. Así el criterio usado es:

Ch1 = max(C3(u,v,D3(u,v,t),t-1)-C3des , C3min)Ch2 = C3max

En la figura 3.35 y en la expresión anterior, D3(u,v,t) indica el valor de lasdisparidad estimada para el píxel (u,v). Ch1 representa el caso de descarga paulatina,mientras que Ch2 se utiliza cuando se detecta movimiento y en consecuencia debe cargarseel elemento de permanencia hasta la saturación. La inferencia select selecciona como valorde salida el valor Ch1 si MOV3(u,v,t) es 0 (ausencia de movimiento), y Ch2 en casocontrario.

Page 161: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

137

C3(u,v,D3(u,v,t),t)Ch1 si MOV3(u,v,D3(u,v,t),t) 1Ch2 si MOV3(u,v,D3(u,v,t),t) 0

Para darle valores a la variable C3des, nuevamente hemos de tener en cuenta larelación muestreo-velocidad de las secuencias captadas. Por ejemplo, en los pares desecuencias virtuales preparados para probar el algoritmo se han utilizado velocidades dedescarga C3des=32. En cambio, en las secuencias reales obtenidas de Internet, debido a quelas imágenes estaban tomadas a una velocidad lenta, hemos debido utilizar un parámetroC2des=128 para conseguir una descarga rápida y por tanto estelas relativamente cortas.

Con los elementos de carga de los Mapas de Carga 3D derecho e izquierdotenemos ya caracterizado el movimiento en la profundidad.

3.2.5. Obtención del Movimiento 3D

Esta subtarea se representa en la figura 3.1 como la sección “E”. Las entradas a estasubtarea son los Mapas de Carga 2D y 3D en el tiempo t obtenidos a partir de lasdisparidades detectadas para cada elemento de carga en los apartados anteriores, y la salidaes el Mapa de Movimiento 3D en el que para cada punto se definen los vectores develocidad y aceleración (ver figura 3.36).

vx(x, y, z, t); vy(x, y, z, t); vz(x, y, z, t)ax(x, y, z, t); ay(x, y, z, t); az(x, y, z, t)

Los Mapas de Carga 2D y 3D derecho e izquierdo van a almacenar en suselementos de carga información referente el tiempo que ha transcurrido desde el últimomovimiento detectado. A dichos Mapas de Carga se le pueden realizar diferentes filtrados,de manera que seamos capaces de identificar independientemente aquellos objetos que seacercan o se alejan e incluso asociándoles una velocidad aproximada en esta dirección.También, a partir de los elementos de carga de los Mapas de Carga 3D de los hemicamposvisuales derecho e izquierdo tenemos ya caracterizado el movimiento en la profundidad.Sólo nos restaría convertir las coordenadas u, v, d del sistema de cada Mapa de Carga alas del Marco de Referencia o sistema de referencia de la escena en x, y, z con lasrelaciones encontradas en el apartado 1.3.4.2.

Page 162: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

138

O

bten

ción

del

Mov

imie

nto

3D

Digitalización del Par Estéreo de

Secuencias

Mapa de Carga 2D C2(u,v,t)

Movimiento 3D(vx, vy, vz)

Mapa de Carga 3D C3(u,v,d,t)

Figura 3.36. Esquema de procesos de “Obtención del Movimiento 3D”.

xuI·B

dy

vI·Bd

zF·Bd

δxuI·B

d 2·δd δy

vI·B

d 2·δd δzF·B

d 2·δd

La velocidad v(x, y, z) en cualquier punto del espacio viene dada por la ecuaciónen derivadas parciales clásica que reproducimos aquí

v(x,y,z,t) δM(x,y,z,t)δt

δxδt

·ux δyδt

·uy δzδt

·uz

donde M(x, y, z) es la posición de un objeto y ux, uy, y uz, son los vectores unitarios en lasdirecciones de los ejes.

En las expresiones obtenidas de x, y, z, del Marco de Referencia a partir de lainformación de las imágenes que es de la que partimos relacionábamos estas variables conla disparidad y las variables ui, vi, y en su caso ud y vd. Estas expresiones eran:

En estas expresiones podemos comprobar que las tres componentes x, y, z,dependen de la disparidad con variaciones respecto de ella dadas por las siguientesecuaciones:

Page 163: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

139

δdδt 1

C3I(uI,vI,zI,t)C3I(uI,vI,zI1,t)C3des

δxBd

·δuI δyBd

·δvI

y en el caso de las componentes x e y también dependen de la variación de uI y de vI.

De esta manera hemos de retomar el cálculo de la velocidad reflejando dichasrelaciones.

v(x,y,z,t) δx(uI,d)

δt·ux

δy(uI,d)δt

·uy δz(d)δt

·uz

Desarrollando esta expresión llegamos a la siguiente

v(x,y,z,t) δXδuI

·δuI

δtδXδd

· δdδt

·ux δYδvI

·δvI

δtδYδd

· δdδt

·uy δZδd

· δdδt

uz

De esta expresión conocemos ya los términos de derivada de las componentesrespecto de la disparidad y respecto de las componentes ui y vi. Por su parte, el términoderivada de uI con respecto del tiempo lo podemos obtener de la evolución de la carga enla estela de permanencia horizontal obtenido en la sección “C”. Dicha derivada puedeaproximarse localmente por la diferencia de carga entre dos elementos contiguos del Mapade Carga 2D. De este modo podemos considerar la siguiente ecuación:

δuI

δt 1

C2I(uI,vI,t)C2I(uI1,vI,t)C2des

El mismo razonamiento podemos realizar para la derivada de vi, pero esta vezreferido a las estelas en la dirección vertical de cada elemento de carga.

δvI

δt 1

C2I(uI,vI,t)C2I(uI,vI1,t)C2des

Finalmente la derivada de la disparidad respecto del tiempo la podemos aproximara partir de las estelas de permanencia en la dirección z. También en este caso, hemos detrabajar sobre la variación de la carga en 3D dividida por la descarga realizada en cadacuadro.

Page 164: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

140

Sustituyendo los valores conocidos de expresiones anteriores y aplicando lasrelaciones para cada una de las direcciones obtenemos las diferentes componentes de lavelocidad para cada punto del espacio.

vx(x,y,z,t)Bd

·C2des

C2I(uI,vI,t)C2I(uI1,vI,t)

uI·B

d 2·

C3des

C3I(uI,vI,zI,t)C3I(uI,vI,zI1,t)

vy(x,y,z,t)Bd

·C2des

C2I(uI,vI,t)C2I(uI,vI1,t)

uI·B

d 2·

C3des

C3I(uI,vI,zI,t)C3I(uI,vI,zI1,t)

vz(x,y,z,t) F·Bd 2

·C3des

C3I(uI,vI,zI,t)C3I(uI,vI,zI1,t)

Con los valores de disparidad y variación de la disparidad que manejamos, puedeimaginarse que la velocidad calculada no tendrá una gran precisión debido a los efectos dela cuantificación en las direcciones x e y sobre la cuantificación en la dirección z; perociertamente nos aportan una nueva información muy valiosa sobre el movimiento de losobjetos de nuestra escena.

El desarrollo matemático del cálculo de la aceleración es absolutamente similar alrealizado hasta aquí con la velocidad. Aplicando la derivación de la expresión de lavelocidad v(x,y,z,t) vista respecto del tiempo, casi todos los términos se pueden calculardirectamente de las expresiones vistas hasta aquí. Los términos más conflictivos son losreferentes a las derivadas segundas de la posición horizontal y vertical “ui” y “ud” y de ladisparidad “d” con respecto del tiempo dos veces, que, de la misma manera que lasprimeras derivadas del caso de la velocidad se pueden resolver por el método dediferencias finitas.

Para el cálculo de la velocidad de los objetos contamos con un inconvenientefundamental y es la escasa resolución en profundidad que suelen aportar los sistemasestereoscópicos con los parámetros de resolución de las cámaras y la línea base que semaneja. En el apartado 3.4.1.2 se analizó esta cuestión, comprobando que, conforme nosalejamos, la resolución en z es cada vez peor; e incluso que para las distancias habitualesentre 5 y 20 metros somos capaces de discriminar entre 15 y 20 profundidades diferentes.

Todo esto hace que las posiciones en la dirección z, o las velocidades y lasaceleraciones en cualquiera de los ejes, sean muy difíciles de obtener con precisión. Porello, nosotros hemos optado por simplificar el análisis de velocidades al máximo,persiguiendo más la comprobación del funcionamiento del modelo, que un análisis de

Page 165: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: Un Enfoque con Inspiración Biológica

141

precisión más riguroso que nos llevarían un volumen de trabajo importante. Así, en primerlugar, a la salida del sistema sólo vamos a considerar la velocidad en la dimensión z; y ensegundo lugar, de este análisis de velocidad en z, tratamos de discriminar exclusivamentevelocidades positivas, es decir de móviles que se alejan hacia valores positivos del eje delas z, y velocidades negativas; es decir, que se acercan. Las velocidades positivas se haoptado por representarlas en color oscuro y las velocidades negativas en color claro.

Page 166: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

El Modelo de Disparidad de Carga como PSM para el análisis estéreo del movimiento 3D

142

Page 167: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

143

4. Resultados

En este capítulo se van a presentar los resultados obtenidos con el Modelo deDisparidad de Carga propuesto para algunas secuencias estereoscópicas en las que existemovimiento. Para estas pruebas se han utilizado tanto secuencias sintéticas generadas porordenador como secuencias reales tomadas mediante cámaras.

Las secuencias generadas por ordenador tienen un tratamiento relativamente mássencillo que las secuencias reales. Básicamente, esto es debido a que en ellas no apareceránefectos de ruido aleatorio en las imágenes. Unicamente deberá tenerse en cuenta lainteracción de la iluminación con los objetos del escenario, y las sombras que se puedenproducir en ellos. Todos estos factores en cualquier caso son controlables en el momentode la generación de la secuencia, en base a una correcta situación de los focos de luz. Sehan preparado varias secuencias sintéticas diferentes, de las cuales en este capítulo sepresentarán nueve, correspondientes a cuatro escenarios distintos. Cada escenario tiene unanaturaleza diferente para tratar de mostrar las capacidades del modelo desarrollado. En losdos primeros escenarios se ha situado un fondo negro sobre el cual se hacen moverdiferentes objetos. El primer escenario es el más sencillo y sobre él se mueven variosvolúmenes cúbicos con movimientos circulares a diferentes profundidades. El segundoescenario se compone de objetos con diferentes geometrías que se mueven con trayectoriasde acercamiento y alejamiento respecto del sistema de cámaras. El tercer escenario se basaen el segundo, al que se han añadido un fondo diferente y un elemento volumétrico estáticoa una determinada profundidad para probar el filtrado de objetos estáticos. El cuarto,finalmente, es un pasillo con planta cuadrangular en el que la cámara se desplaza por suinterior, simulando la deambulación de un robot.

En las secuencias reales es mucho más complicado tratar con la iluminación de laescena y su sombreado, y además, es muy habitual, por la propia naturaleza de las cámaras,que aparezcan efectos de ruido aleatorio en las imágenes que nos dificulten el análisis delmovimiento mediante la segmentación en bandas de niveles de gris. No obstante, paramejorar en lo posible estos resultados, se ha utilizado el solapamiento entre las bandasexplicado en su momento, obteniendose unos buenos resultados.

En gran cantidad de algoritmos estereo se suelen realizar pruebas sobreestereogramas de puntos aleatorios, pero esto no es factible con este algoritmo puesto quelas memorias de permanencia en este caso estarían siempre saturadas y no habría forma deseparar estelas de los objetos móviles.

Page 168: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

144

4.1. Entorno de Trabajo y Simulación

Para poner a prueba todas nuestras ideas se ha utilizado el entorno matemáticoMatlab. Este entorno no brilla por su eficiencia computacional, ya que utiliza un lenguajeinterpretado, y por lo tanto muy lento de procesar. Sin embargo, donde Matlab es realmenteexcelente es en las etapas de desarrollo, debido a la cantidad de funciones de alto nivel delas que se dispone para realizar pruebas. Esta gran cantidad de funciones permiteimplementar y probar una idea en unas pocas horas, lo que con otros lenguajes deprogramación, como puede ser C++, sería impensable.

Las funciones que más se han utilizado de Matlab han sido los operadores de sumay producto de matrices, además del producto de vectores. Finalmente, es destacable por susimplicidad la lectura y escritura de ficheros de imágenes que nos han permitido volcar aficheros de fotogramas y posteriormente a secuencias “avi” los resultados de nuestroscálculos.

Este volcado de los ficheros de fotogramas a secuencias “avi” se ha realizadomediante la aplicación “Adobe Premiere” dedicada básicamente a la edición no lineal. Deeste programa no se han utilizado técnicas de edición de vídeo sino que se han idoconfigurando las secuencias a partir de los fotogramas, para después renderizar y conseguirel fichero “avi” buscado.

4.2. Modos de Representación de los Resultados

Los resultados relacionados con la profundidad de los objetos han sidorepresentados en falso color, haciendo que los elementos más cercanos, con mayordisparidad tengan niveles de gris más claros y los objetos más lejanos, niveles más oscuros.En la figura 4.1 puede verse un ejemplo de representación de este tipo.

En el caso del estudio del movimiento en la dirección z, se ha optado porrepresentar, sobre un gris medio, de color negro los objetos que se están alejando y de colorclaro los que se están acercando hacia las cámaras. En la figura 4.2 puede observarse unejemplo de esta representación.

Page 169: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

145

Figura 4.1. En la imagen derecha, representación en falso color del Mapa deProfundidad. Los elementos más claros son los más cercanos.

Figura 4.2. Representación del movimiento en la dirección z. Los objetos que sealejan aparecen en colores oscuros, los objetos que se acercan se representan en colorblanco y el fondo estático se representa en gris oscuro.

4.3. Estimación de Profundidad

Las pruebas más sencillas que se han realizado corresponden a un escenario virtualen el que se mueven varios volúmenes cúbicos. En las dos primeras pruebas se presentanobjetos que no varían la profundidad en su desplazamiento; únicamente se mueven enplanos transversales al eje óptico de las cámaras. Así, en este caso, se trata exclusivamentede representar sus diferentes profundidades. Respecto de la presentación de resultados, Seutilizará una tabla en la que se representan, por filas, algunos de los fotogramassignificativos. Por columnas se representan de izquierda a derecha el fotograma izquierdodel par de entrada, la imagen segmentada en bandas de niveles de gris, el estado del Mapade Carga 2D y el Mapa de Profundidad 3D en cada instante.

Page 170: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

146

4.3.1. Secuencia 1: Elemento Próximo

En este ejemplo, el escenario se compone de un volumen cúbico moviéndose sobreun fondo negro. Este cubo tiene una arista de 60 cm y gira alrededor del eje z centrado enel plano z=0. El radio de la trayectoria tiene aproximadamente 1 m. Las cámaras estánsituadas en un punto negativo del eje z y están orientadas hacia el eje positivo de las z, auna distancia de 4,5 m. del origen. Las cámaras están en configuración paralela con unadistancia de separación de B=15 cm. Esta secuencia está formada por 240 fotogramas y,a lo largo de ella, el cubo realiza una vuelta completa.

Los parámetros utilizados a lo largo del proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem. de permanencia (C2des) 32

Disparidad máxima (Dmax) 16 píxeles

El hecho de no utilizar solapamiento es debido a que la escena es muy sencilla, yes difícil que se produzcan alteraciones en las bandas de niveles de gris tanto pordiferencias en la iluminación como por ruido aleatorio.

En la tabla 4.1 se representan, los resultados obtenidos en el formato que apareceen el punto 4.3. Como observaciones más importantes destacan las siguientes:

S En primer lugar, entre las imágenes de entrada y las segmentadas en bandas deniveles de gris existe una ligera variación en los niveles de gris de los objetos. Estavariación es producida por la propia naturaleza de la segmentación que disminuyela cantidad de niveles de gris posibles en los objetos de la escena.

S En cuanto al movimiento, en los fotogramas 8, 30 y 90 se observa movimiento enlas dos direcciones x e y; mientras que en el fotograma 60, el movimiento esbásicamente vertical y en el 120 el movimiento es horizontal.

S Referente a la profundidad, se observa que en todos los casos el nivel de gris conel que se representa la estela de movimiento del cubo a la salida (columna 4) esconstante y alto. Esto da idea de que el objeto está cerca de las cámaras, puesto queun elemento del Mapa de Profundidad 2D con un valor de brillo alto significa altadisparidad y, por lo tanto, cercanía. En la siguiente secuencia, en la que el cuboaparece más separado de la cámara, se observará que a pesar de que la información

Page 171: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

147

de movimiento es la misma, la representación en la profundidad es más oscura,debido a los valores de disparidad obtenidos.

Foto NG BNG C2 D3

8

30

60

90

120

Tabla 4.1. Resultados de la secuencia “Elemento próximo”:su representación en Bandasde Niveles de gris, el estado del Mapa de Carga 2D y el Mapa de Profundidad.

Page 172: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

148

4.3.2. Secuencia 2: Elemento Lejano

Este ejemplo es muy similar al anterior con la diferencia de que las cámaras estánmucho más alejadas del plano de movimiento del cubo. Nuevamente, el escenario secompone de un volumen cúbico moviéndose sobre un fondo negro. Este cubo tiene unaarista de 60 cm y gira alrededor del eje z centrado en el plano z=0. El radio de la trayectoriatiene aproximadamente 1 m. Las cámaras están situadas en un punto negativo del eje z yestán orientadas hacia el eje positivo de las z a una distancia de 11 metros del origen. Lascámaras están en configuración paralela con una distancia de separación de 15 cm. Estasecuencia está formada por 240 fotogramas y a lo largo de ella, el cubo realiza una vueltacompleta.

Se han utilizado los mismos parámetros de captación y procesamiento que en elejemplo anterior para hacer posible una comparación de los resultados obtenidos. Estosparámetros son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem. de permanencia (C2des) 32

Disparidad máxima (Dmax) 16 píxeles

Al ser una escena virtual muy sencilla, no se ha utilizado solapamiento entre bandasa la hora de la segmentación. Como en el caso anterior, es difícil que se produzcanalteraciones en las bandas de niveles de gris, tanto por diferencias en la iluminación, comopor ruido aleatorio.

En la tabla 4.2 se representan, los resultados obtenidos en el formato que apareceen el punto 4.3. Como observaciones más importantes destacan las siguientes:

S Los resultados en cuanto al movimiento son similares. En los fotogramas 8, 30 y90 se observa movimiento en las dos direcciones x e y; mientras que en elfotograma 60, el movimiento es básicamente vertical y en el 120 horizontal.Únicamente se observa que los objetos parecen más pequeños y las estelas son unpoco más cortas debido a la variación de la profundidad.

S En cuanto a la profundidad, en todos los casos el nivel de gris con el que serepresenta la estela de movimiento del cubo a la salida es constante y bajo. Esto esdebido a la mayor lejanía del elemento que se mueve respecto de las cámaras.

Page 173: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

149

Foto NG BNG C2 D3

8

30

60

90

120

Tabla 4.2. Resultados de la secuencia “Elemento lejano”.

Como aclaración de los resultados obtenidos, en la figura 4.3 se presenta unacomparación de los resultados obtenidos en el fotograma 90 para las dos secuencias vistashasta ahora. En ella se puede comprobar que, a pesar de que el movimiento es semejanteen los dos casos, los valores de los Mapas de Carga 2D son similares, los valores de losMapas de profundidad 3D son diferentes. No hay más que comprobar los valores de losejes de las figuras “c” y “d”: En la figura “c” el acercamiento se representa con un máximode 250 mientras que en la figura “d” éste es de 100..

Page 174: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

150

Figura 4.3. Comparación de los fotogramas 90 de las secuencias “ElementoCercano” (“a” y “c”) y “Elementos Lejano” (“b” y “d”). Las imágenes “a” y “b”corresponden a Mapas de Carga 2D, y las imágenes “c” y ”d” a Mapas deProfundidad 3D.

4.4. Detección de Movimiento en la Profundidad

Después de poner a prueba el algoritmo con varias secuencias en las que los objetosse mueven en la dirección z; es decir, en la profundidad, se han elegido otras tres pruebas.La primera es similar a las dos anteriores, con la diferencia de que, además de un cubomoviéndose en un plano transversal, existe otro cubo moviéndose en el mismo plano enel que están las cámaras. Las otras dos secuencias se han preparado para que el algoritmodetecte objetos que se mueven, acercándose y alejandose de las cámaras. La presentaciónde los resultados se realiza en forma de tabla de la misma forma que en el apartado 4.3.

Page 175: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

151

Figura 4.4. Escenario del ejemplo “Cubos”.

4.4.1. Secuencia 3: Movimiento de Vaivén

En este ejemplo, el escenario se compone de dos volúmenes cúbicos moviéndosesobre un fondo negro. El cubo más grande ha sido modelado con una arista de tamaño 1m.y gira alrededor del eje y, centrado en el plano y=0 y con un radio de giro aproximado de1 m. En cambio, el cubo pequeño tiene una arista de 60 cm., gira alrededor del eje zcentrado en el plano z=0 y tiene un radio de giro aproximado de 1 m. Dicha escena puedeverse representada en la figura 4.4. La cámara está situada en un punto negativo del eje z,a 5m. del origen y está orientada hacia el eje positivo de las z. La separación entre lascámaras es de 15 cm.

Esta secuencia está formada por 240 fotogramas y a lo largo de ella, ambos objetosrealizan una vuelta completa. Los parámetros utilizados a lo largo del proceso son lossiguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem. de permanencia (C2des) 16

Disparidad máxima (Dmax) 8 píxeles

Page 176: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

152

No se utiliza solapamiento ya que nuevamente la escena es muy sencilla, y es difícilque se produzcan alteraciones en las bandas de niveles de gris tanto por diferencias en lailuminación como por ruido aleatorio.

En las imágenes resultado de la tabla 4.3 podemos observar varios efectos:

S En la columna de los Mapas de Carga 2D puede observarse la trayectoria llevadaa cabo por cada elemento desde algunos fotogramas anteriores. De estainformación, quizá la más destacable sea la que aparece el fotograma 60 con elcubo más grande. En ese instante, este elemento llega al extremo horizontal de sutrayectoria, pasando de moverse hacia la izquierda a quedar estático para despuésmoverse hacia la derecha. También se está produciendo un movimiento enprofundidad, pero ése no es perceptible por la imagen XY representada.

S Finalmente, en la columna de las salidas podemos observar cómo el nivel de grisde los objetos varía con su profundidad. El objeto más pequeño no sufremovimientos en profundidad. Por ello no se aprecia variación en sus niveles degris. En cambio el objeto más voluminoso pasa de un nivel de brillo más claro enel fotograma 30, a hacerse más oscuro en el fotograma 120, y volverprogresivamente a aclararse al final de la secuencia, en el fotograma 240.

En la figura 4.5 puede verse una comparación de los Mapas de Profundidad 3Dobtenidos para diferentes fotogramas. Puede observarse como en el caso del fotograma 30el cubo pequeño se representa a mayor profundidad que el grande. Esta diferencia deprofundidades se hace menor en el fotograma 60, en el que la escala de cercanía (ejevertical) ha cambiado de 300 a 250. En el fotograma 120, el cubo grande está algo máslejos que el pequeño, pero la diferencia es poco significativa. Finalmente, en el fotograma240, el cubo mayor que está a una profundidad menor, oculta al cubo menor que estaría pordetrás de él. Lo peor de las representaciones tridimensionales es que cualquier falsacorrespondencia puede ocultar la información coherente de otras correspondencias reales.No obstante se ha optado por representarlas así por aumentar la información ofrecida porlos resultados.

Page 177: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

153

Foto NG BNG C2 D3

30

60

90

120

150

210

240

Tabla 4.3. Resultados de la escena de los “Cubos”.

Page 178: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

154

Figura 4.5. Representación tridimensional del Mapa de Profundidad 3D obtenido enlos fotogramas 30, 60, 120 y 240 de la secuencia “Cubos”.

4.4.2. Secuencia 4: Objetos Acercándose

En este ejemplo, el escenario es semejante al anterior, pero los objetos se dirigenen dirección a la cámara hasta perderse por detrás de ella. Los objetos de los que se tratason un volumen cúbico con una arista de 1 m., una esfera de radio 50 cm., otro cubo peroesta vez deformado con tamaños aproximados de 1,5 m. en cada dirección del espacio yun toro de revolución con un radio máximo de 1,30 m. y mínimo de 70 cm. El fondo delescenario es completamente negro. En la figura 4.6 puede verse una imagen de la situacióninicial de los objetos y sus trayectorias con un tamaño de rejilla de 1m. Puede observarseque el elemento más lejano es el toro de revolución con una profundidad inicial de 20metros aproximadamente. Finalmente, como parámetros geométricos del sistema, ladistancia entre las cámaras es de 6 cm.

Page 179: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

155

Figura 4.6. Escena de “Objetos Acercándose”.

La secuencia de este ejemplo está compuesta originalmente por 240 fotogramas.Los parámetros utilizados a lo largo del proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem. de permanencia (C2des) 16

Disparidad máxima (Dmax) 15

Se han hecho pruebas con solapamiento y sin él debido a que con los movimientostan largos y algunos tan complejos como el del cubo que gira sobre si mismo, lailuminación produce algún efecto imprevisto. No obstante, se ha elegido como mejoropción la no utilización de éste. En el caso de utilizar solapamiento, la interacción de lailuminación con las superficies hacía que aparecieran sombras en los objetos. Estas

Page 180: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

156

sombras no afectan negativamente pero por simplicidad se decidió no utilizar elsolapamiento. Básicamente, el solapamiento entre bandas es útil para el caso de variacionesde la iluminación entre las dos cámaras y ruido electrónico en las imágenes y esto, en unescenario virtual como éste, no es normal que se produzca.

En los resultados que se presentan en la tabla 4.4, podemos fijarnos en algunosdetalles como estos:

S En el fotograma 60 puede verse que el Mapa de Carga 2D almacena muchainformación sobre los movimientos acaecidos en la escena, sin embargo, a la salidael sistema detecta que esos movimientos se han producido muy lejos y por ello losrepresenta con niveles de gris muy oscuros.

S En este mismo fotograma, y sólo en el caso del cubo deformado de la izquierdaaparecen algunas falsas correspondencias representadas por puntos más claros.Éstas son debidas a irregularidades en la superficie del cubo deformado que almoverse de fotograma en fotograma generan informaciones semejantes desplazadasque son interpretadas por el sistema como disparidades diferentes de las reales. Elnúmero de estos puntos no es muy significativo y conforme el objeto se vaacercando, dichos puntos pasan a tomar sus valores de disparidad correctos.

S En el fotograma 100 se observa como los objetos se van acercando y, a la salida,sus movimientos toman niveles de gris más claros denotando su cercanía.

S En el fotograma 145 se tienen tres elementos, el cubo es el más cercano, y así serepresenta en la imagen de salida. Después está la esfera que aparece con menosbrillo, y finalmente se acerca el toro de revolución.

S En el toro de revolución del fotograma 145 también se aprecian falsascorrespondencias. En la columna de la segmentación en bandas de este fotogramay los siguientes puede apreciarse como la diferente gradación de colores de laimagen original genera cambios bruscos de contraste en la imagen segmentada enbandas. Cada uno de estos contrastes genera una región distinta que produce propiaestela de movimiento en la memoria de permanencia. Dichas estelas, cuando sonsemejantes es probable que el sistema las asocie como correspondientes sin serlorealmente. Como en el caso del cubo deformado anterior, las falsascorrespondencias van desapareciendo conforme el objeto se acerca.

S En los fotogramas 180 y 200 se aprecia el acercamiento del toro de revolución queaparece cada vez con un nivel de gris más claro y también como se van eliminandola mayoría de las falsas correspondencias de fotogramas anteriores.

Page 181: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

157

Foto NG BNG C2 D3

60

100

145

165

180

200

215

Tabla 4.4. Resultados de la escena de los “Objetos Acercándose”.

Page 182: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

158

Figura 4.7. Representación tridimensional de los Mapas de Profundidad obtenidos dela secuencia “Objetos Acercándose” en los fotogramas 60, 100, 145, 180, 200 y 215.

S En el fotograma 215 el toro de revolución ya casi ha salido del campo de visión delas cámaras, en cambio su estela de movimiento permanece todavía en la memoriade permanencia apareciendo a la salida con niveles de gris muy claros, acordes consu proximidad.

Page 183: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

159

Finalmente, en la figura 4.7 se puede apreciar la evolución del Mapa deProfundidad 3D en una representación tridimensional. En ella, se aprecia como en elfotograma 60 en el que los objetos se encuentran lejos aparecen falsas correspondencias.En el fotograma 100 ya aparecen acercándose el cubo y el cubo deformado. En elfotograma 145, el cubo se representa en color verde como más cercano. En el fotograma180 el color rojo del cubo denota su cercanía. el resto de objetos aunque van apareciendocada vez más cercanos, siguen produciendo falsas correspondencias. En el fotograma 200únicamente se deja ver el toro de revolución. Éste conforme se va acercando va haciendodesaparecer las falsas correspondencias, hasta que estando cerca en el fotograma 215 semuestra su relieve nítidamente.

4.4.3. Secuencia 5: Objetos Acercándose y Alejándose

Este ejemplo es prácticamente igual que el anterior, con la diferencia que la esferay el cubo deformado realizan la trayectoria invertida. Así pues, los objetos son los mismos:el volumen cúbico de arista 1m., la esfera de radio 50 cm., el cubo deformado con tamañosaproximados de 1,5 m. en cada dirección del espacio y el toro de revolución con un radiomáximo de 1,30 m. y mínimo de 70 cm. El fondo del escenario también es negro.Nuevamente el elemento más lejano es el toro de revolución con una profundidad inicialde 20 metros aproximadamente y la distancia entre las cámaras es de 6 cm. La secuenciatiene 240 fotogramas en total.

Los parámetros utilizados a lo largo del proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem. de permanencia (C2des) 16

Disparidad máxima (Dmax) 15

En este caso se ha adoptado directamente la opción de segmentación en bandas deniveles de gris sin solapamiento a la vista de los resultados obtenidos en los ensayosrealizados con la secuencia anterior. En los resultados de la tabla 4.5 podemos fijarnos enalgunos detalles como estos:

Page 184: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

160

S En el fotograma 60 puede verse que la memoria de permanencia almacena muchainformación sobre los movimientos acaecidos en la escena, sin embargo, a la salidael sistema detecta que esos movimientos se han producido muy lejos y por ello losrepresenta con niveles de gris muy oscuros.

S En el fotograma 75 se observa la aparición de la esfera como objeto más cercano.Por otra parte, en el toro de revolución pueden apreciarse falsas correspondenciasen toda su superficie. Si observamos la segmentación en bandas de dicho objeto,y donde mejor lo podemos ver es en el fotograma 190, lo complejo de su superficiey la interacción con la iluminación hace que éste aparezca segmentado en diversasregiones. Cada región es considerada por la memoria de permanencia como unobjeto diferente y de ahí que aparezcan tantas estelas solapadas. El solape de tantasestelas y la posibilidad de que entre ellas se consideren correspondientes, es la quegenera estas falsas correspondencias

S En los fotogramas 90 y 120 se observa como el cubo y el toro de revolución vantomando niveles de gris más claros debido a su acercamiento, mientras que laesfera toma niveles más oscuros.

S En los fotogramas 190 y 220, la esfera ya está suficientemente lejos como para quesus niveles de gris casi se confundan con los del fondo negro.

S En el fotograma 190 el toro de revolución ya prácticamente no tiene falsascorrespondencias. Hemos de tener en cuenta que las regiones ya son más grandesen píxeles que el valor de la restricción de disparidad utilizado, de manera que nose considera su posibilidad de corresponder.

S En los fotogramas 190 y 220 aparece, por la izquierda, el cubo deformado. Ésteaparece ya a una distancia que hace que sus niveles de gris en el mapa deprofundidad no son muy altos. En el fotograma 220 en el que el toro de revoluciónya se ha perdido por detrás de las cámaras, su estela de movimiento se veinterrumpida por el movimiento lento de dicho cubo deformado.

La representación tridimensional de la figura 4.8 es similar a la vista en la figura4.7 con la diferencia de que entre los fotogramas 75 a 120 se aprecia como la esfera se alejaaumentando su profundidad.

Page 185: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

161

Foto NG BNG C2 D3

60

75

90

120

150

190

220

Tabla 4.5. Resultados de la escena de los “Objetos Acercándose y alejándose”.

Page 186: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

162

Figura 4.8. Representación tridimensional del Mapa de Profundidades 3D, obtenidosen la secuencia “Objetos Acercándose y Alejándose”, en los fotogramas 60, 75, 90,120, 190 y 220.

Page 187: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

163

4.5. Filtrado de Objetos Estáticos

4.5.1. Secuencia 6: Objetos Estáticos y Acercándose

En este ejemplo el escenario es semejante al de la secuencia 4. Únicamente se haañadido un fondo estático que es el paisaje de un río, y un cono que tiene una base de 50cm. y una altura de 1 m. situado de forma estática a una distancia de 13 m. El resto de losvolúmenes son los mismos y realizan las mismas trayectorias vistas en el apartado 4.4.2:el cubo de 1 metro de arista, la esfera de radio 50 cm., el cubo deformado con tamañosaproximados de 1,5 m. en cada dirección del espacio y el toro de revolución con un radiomáximo de 1,30 m. y mínimo de 70 cm. Finalmente, como parámetros geométricos delsistema, la distancia entre las cámaras es de 6 cm. y la distancia inicial a los objetos oscilaentre 10 y 20 metros.

La secuencia de este ejemplo está compuesta originalmente por 240 fotogramas ylos parámetros utilizados a lo largo del proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem. de permanencia (C2des) 16

Disparidad máxima (Dmax) 15

Respecto al solapamiento entre las bandas al segmentar pueden hacerse las mismasprecisiones que en el caso del apartado 4.4.2. De todas las imágenes de la tabla 4.6, quizálo más destacable respecto de la tabla 4.4 vista anteriormente sea: por una parte el filtradorealizado de los elementos estáticos, filtrado que también se produce en los mecanismosbiológicos (ver apartado 1.2.1.2); y por otro, un cierto error en la forma de los objetosprovocado por la segmentación en bandas de niveles de gris. En dicha segmentación,algunos píxeles pertenecientes al fondo pueden ser incluidos en la misma región que algúnobjeto móvil. Con ello, pueden aparecer efectos de ruido en las estelas de movimiento, quea la postre aparecen en la información de profundidad a la salida.

En la figura 4.9, siendo similar a las dos anteriores, podemos apreciar que el nivelde ruido aumenta considerablemente. Ya se comentó que los fondos multicolor producíanerrores en la segmentación en bandas de niveles de gris que en definitiva se convertían enerrores de profundidad.

Page 188: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

164

Foto NG BNG C2 D3

60

100

145

165

180

200

215

Tabla 4.6. Resultados de la escena de los “Objetos Estáticos y Acercándose.

Page 189: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

165

Figura 4.9. Representación tridimensional de los Mapas de Profundidad 3D obtenidosde la secuencia “Objetos Estáticos y Acercándose” en los fotogramas 60, 120, 190 y220.

4.6. Profundidad en Secuencias Reales

Se han realizado pruebas con secuencias tomadas por cámaras reales. En ellas, losparámetros no son tan ideales como en las secuencias virtuales. Por ello, los resultadosobtenidos son más interesantes.

4.6.1. Secuencia 7: IndoorZoom

Este ejemplo se descargó de labvisione.deis.unibo.it/~smattoccia/stereo.htm. En él,se sitúan las dos cámaras en la puerta de entrada de una estancia por la que entran y salenvarias personas. En la figura 4.10 puede verse una de las imágenes tal y como se descargande dicha página. En ella se pueden observar cuatro vistas diferentes: las dos superiores son

Page 190: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

166

Figura 4.10. Escena “IndoorZoom”: fotograma 53.

las tomadas directamente por las cámaras y las dos inferiores son las mismas imágenes, unavez corregidos mediante procesamiento los pequeños errores de orientación y de distanciafocal de las lentes de las cámaras para considerar realmente la configuración de cámarasparalelas.

Esta secuencia tiene una duración de 29,9 segundos, y está tomada a una velocidadde 10 imágenes por segundo, lo que resulta en 299 fotogramas. Quizá esta sea unavelocidad demasiado baja para los movimientos que se producen en la escena. Con estavelocidad, las diferencias entre un fotograma y el siguiente son bastante significativas, porlo que, las estelas de los Mapas de Carga serán muy grandes. Esto nos ha obligado autilizar una descarga muy rápida de los elementos de carga de las memorias depermanencia con el fin de que las estelas no sean tan largas y se detecten los objetosmóviles de forma independiente.

Por otra parte, los fotogramas de la secuencia tienen poca iluminación. Como puedeverse en la figura 4.11, que representa el histograma de uno de los fotogramas tomados, lamayoría de los niveles de gris están entre los valores 0 y 128, aproximadamente. Esto haceque en nuestro algoritmo la mitad superior de las bandas de nivel de gris no se aprovechen.Esta característica no ha sido corregida una vez comprobado que los resultados son buenos.

Page 191: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

167

Figura 4.11. Histograma de brillo del fotograma 53 de laescena “IndoorZoom”.

Los parámetros utilizados a lo largo del proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 16

Valor de descarga de la mem. de permanencia (C2des) 128

Disparidad máxima (Dmax) 21

Se han hecho pruebas con solapamiento y sin él, y se ha elegido como mejor opciónun valor de solape de 16. En el caso de no utilizar solapamiento, los resultados eran algopeores debido al ruido que aparecía a la salida.

Puede observarse en la tabla 4.7 de resultados que, debido a la escasa iluminaciónde la escena, las bandas de niveles de gris aparecen muy oscuras y muy semejantes. Lamayor información de esta tabla está en las columnas de los Mapas de Carga 2D (C2) yla salida del sistema (D3). En ellas podemos fijarnos en algunos detalles como estos:

S En el fotograma 48 se observa una persona que acaba de entrar en la escena y sedirige hacia la puerta. Como puede verse en la columna de la salida, la estela deesta persona aparece en color blanco lo que significa que está cercano a lascámaras.

S En el fotograma 123 aparecen tres personas en movimiento. La primera, máscercana y más a la izquierda está saliendo de la escena; la que aparece en el centroestá a media distancia; y, finalmente, la tercera está más lejos y se dirige hacia lapuerta. En el Mapa de Profundidad 3D aparecen las siluetas con ligeros niveles debrillo más oscuros conforme el personaje está más lejos.

Page 192: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

168

Foto NG BNG C2 D3

48

123

154

186

193

250

283

Tabla 4.7. Resultados de la escena “IndoorZoom”.

Page 193: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

169

Figura 4.12. Representación tridimensional del Mapa de Profundidades 3D obtenidosde la secuencia “IndoorZoom” en los fotogramas 48, 154, 186 y 250.

S En el fotograma 154 aparece una persona más allá de la puerta al fondo de laimagen. Este personaje aparece en la última columna representado con una siluetacon un nivel de gris muy oscuro.

S En el fotograma 186 aparecen dos personajes que se cruzan delante de la cámara.A pesar de que sus dos imágenes están solapadas, las estelas de su movimiento lessepara y en la imagen de salida aparecen con niveles de gris acordes con laprofundidad de su posición.

S En el fotograma 193 aparecen tres personas la más cercana a las cámaras es aquellaque aparece la parte inferior central de la imagen y así se refleja en la columna(D3). Después está un poco más lejos la persona que abandona la escena por laizquierda. y finalmente el más lejano es que se dirige hacia la izquierda en el centrode la imagen.

Page 194: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

170

S En el fotograma 250 se representan dos personas la que está más a la izquierda estádesapareciendo de la escena cerca de las cámaras, y la otra que está junto a lapuerta abandonando la sala se detecta, en el Mapa de Profundidad 3D como máslejana con niveles de gris más oscuros.

S En el fotograma 283 nuevamente aparecen dos personajes solapados en la imagende entrada, pero sus estelas de movimiento los separan, viéndose a la salida (D3)con niveles de gris más claros aquel que está junto a las cámaras.

Las representaciones tridimensionales de la figura 4.12 son menos aclaratorias queen los casos anteriores. A pesar de ello, podemos ver entre los fotogramas 48 y 154 que enel 48 el personaje está más cerca y por eso aparece con una representación en rojo. En elcaso del fotograma 154 esta representación es más azulada. En los fotogramas 186 y 250se puede ver como se separan dos personajes según su profundidad, apareciendo el máscercan en tonos rojos y el más alejado en tonos verdosos.

4.6.2. Secuencia 8: OutdoorZoom

Este ejemplo también se ha descargado de la página web mostrada anteriormente:labvisione.deis.unibo.it/~smattoccia/stereo.htm. En él, se sitúan las dos cámaras en lo queparecen las escaleras de un subterráneo. Por estas escaleras, como en el caso anterior,suben y bajan varias personas. En la figura 4.13 puede verse una de las imágenesdescargadas de dicha página. De nuevo en ellas se pueden observar cuatro vistas diferentes:las dos superiores son las tomadas directamente por las cámaras y las dos inferiores son lasmismas imágenes, una vez corregidos mediante procesamiento los pequeños errores deorientación y de distancia focal de las lentes de las cámaras.

Esta secuencia tiene una duración de 30 segundos, y está tomada a una velocidadde 10 imágenes por segundo, lo que resulta en 300 fotogramas. En este caso tambiénpodemos hacer las observaciones del ejemplo anterior; comenzando porque ésta puede seruna velocidad demasiado baja para los movimientos que se producen en la escena. Con estavelocidad las diferencias entre un fotograma y el siguiente es bastante significativa, por loque la estela de las memorias de permanencia serán muy grandes. Nuevamente se hasolucionado, utilizando una descarga muy rápida de las memorias de permanencia, con elfin de que las estelas no sean excesivamente largas y se detecten los objetos móviles deforma independiente.

Page 195: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

171

Figura 4.13. Fotograma 211 de la secuencia “OutdoorZoom”.

Figura 4.14. Histograma de brillo del fotograma 211 de la secuencia “OutdoorZoom”

También en este caso, la iluminación de la escena es escasa. Como puede verse enla figura 4.14, la mayoría de los niveles de gris están entre los valores 0 y 148. Esto haceque en nuestro algoritmo la mitad superior de las bandas de nivel de gris no se aprovechen.En este caso tampoco se ha corregido esta característica a la vista de los resultados.También se observa en el histograma una gran discretización de niveles, pero esto para elalgoritmo no es ningún problema, puesto que la segmentación en bandas de niveles de gristodavía reduce más los niveles de gris a utilizar para el proceso.

Page 196: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

172

Los parámetros utilizados a lo largo del proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 16

Valor de descarga de la mem. de permanencia (C2des) 128

Disparidad máxima (Dmax) 16

Se han hecho pruebas con solapamiento y sin él, y se ha elegido como mejor opciónun valor de solape de 16. En el caso de no utilizar solapamiento los resultados eran algopeores debido al ruido que aparece a la salida.

La mayor información de las imágenes de la tabla 4.8 está en las columnas de losMapas de Carga (C2) y los Mapas de Profundidad (D3) del sistema. En ellas podemosfijarnos en algunos detalles como estos:

S En el fotograma 35 acaba de aparecer en la escena por la derecha una persona, cuyaestela de movimiento a la salida (D3) aparece con niveles de gris muy claros dadasu cercanía a las cámaras.

S Esta persona progresivamente se va alejando representandose a la salida delfotograma 50 con niveles de gris intermedios.

S En el fotograma 65 esta persona ya se ha alejado bastante y su silueta aparece enel Mapa de profundidad 3D (D3) con un niveles de gris más oscuro.

S En el fotograma 215 se tiene en primer lugar una persona que baja las escaleras ypor la derecha aparece un bulto transportado por otro personaje. A la salida se notaun leve matiz como más cercano en el caso del bulto de la derecha que en elpersonaje que está bajando las escaleras.

S La persona que aparecía en escena en el fotograma 215 se dirige hacia la izquierdasin apreciarse una gran diferencia de cambio de profundidad en el fotograma 228.

S En el fotograma 245 esta persona da un giro de 180º, en un punto en el quetampoco se aprecia apenas cambio de profundidad

S Finalmente, en el fotograma 261 se muestra como esta persona abandona la escenapor la parte derecha, observándose unos niveles de gris más claros a la salida. Estoindica, y el las imágenes de entrada también se puede apreciar, que el sujeto estámás cerca de las cámaras en este fotograma.

Page 197: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

173

Foto NG BNG C2 D3

35

50

65

215

228

245

261

Tabla 4.8. Resultados de la escena “OutdoorZoom”.

Page 198: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

174

Figura 4.15. Representación tridimensional del Mapa de Profundidades 3D obtenidode la secuencia “OutdoorZoom” en los fotogramas 35, 50, 65 y 228.

En la figura 4.15 podemos apreciar un cambio de profundidad entre los fotogramas35 y 50, más apreciable aún en el fotograma 65. En el caso del fotograma 228, el personajeaparece visto desde arriba a media distancia, con lo que se aprecia una diferencia deprofundidad entre las partes superior e inferior, pareciendo más alejada de las cámaras laparte inferior.

Page 199: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

175

Figura 4.16. Escenario del pasillo

4.7. Navegación Autónoma Basada en laProfundidad

Para realizar esta prueba se ha diseñado un escenario en forma de pasillo de plantacuadrada, cuyo lado exterior es de 12 m. y su lado interior 9 m.; esto implica un ancho delpasillo es de 1,5 m. Por otra parte, la altura del pasillo es de 2,5 m. En las paredes externasdel pasillo pueden verse varios cuadrados a modo de ventanas y de puertas; mientras queen las paredes interiores sólo aparecen las puertas. La inclusión de puertas y ventanas seha realizado para disponer de algunos objetos móviles que se desplacen según la cámaravaya avanzando. En este entorno, la cámara se desplaza recorriendo el pasillo por suinterior. En la parte superior de la figura 4.16 puede verse una imagen exterior del pasillo;y en la parte inferior una imagen del interior con el fin de tener una idea de este entorno.

Page 200: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

176

La escena del pasillo está compuesta originalmente por 500 fotogramas, de loscuales cada 125 son suficientes para contemplar un tramo recto y una vuelta de esquina.Se han separado los análisis de los tramos rectos de los giros, con el fin de hacer hincapiéen sus aplicaciones.

4.7.1. Secuencia 9: Análisis del Entorno 3D MedianteGiros

En este caso el segmento de secuencia puesto a prueba es el giro de una esquina delpasillo. Con el se pretende dar una idea del comportamiento de este sistema montado enun robot móvil autónomo en la tarea de analizar su entorno para dirigirse al punto másalejado que se detecte.

Los parámetros utilizados a lo largo del procesamiento son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem. de permanencia (C2des) 16

Disparidad máxima (Dmax) 15

Para esta secuencia se han realizado pruebas con solapamiento y sin él con el finde observar el comportamiento de los objetos frente a la iluminación. Finalmente, se hapreferido no utilizar solapamiento. El utilizar solapamiento la interacción de la iluminacióncon las superficies hacía que, en algunos casos, la pared más oscura se confundiera con eltecho, y los resultados fueran peores. Básicamente, el solapamiento es útil para el caso devariaciones de la iluminación entre las dos cámaras y ruido electrónico en las imágenes yesto, en un escenario virtual como éste, es extraño que se produzca. En cuanto a losresultados, que se presentan en la tabla 4.9, caben destacar los siguientes detalles

S Entre los fotogramas 350 y 365, al girar las cámaras, todos los objetos del entornoresultan desplazados en la imagen apareciendo su estela en la memoria depermanencia y dicha estela es analizada por el sistema estereoscópico para ofrecerla profundidad a su salida (D3).

Page 201: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

177

Foto NG BNG C2 D3

350

355

360

365

370

375

380

Tabla 4.9. Resultados de la escena del pasillo: tramo esquina.

Page 202: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

178

Figura 4.17. Representación tridimensional del Mapa de Profundidad 3D obtenido dela escena del pasillo en los fotogramas 350, 355, 360, 365, 370 y 375.

S En los fotogramas cercanos al 370 comienza a aparecer nuevamente el fondo delpasillo recto en la escena. Esta aparición provoca un gran efecto en la memoria depermanencia, efecto que es interpretado por el algoritmo ofreciendo a la salida suprofundidad, que es muy grande como puede verse en el Mapa de Profundidad 3Da la salida.

Page 203: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

179

S A partir del fotograma 375 el pasillo ya no se moverá en dirección horizontal,únicamente se acercará hacia la cámara. No obstante, los efectos del giro siguenpresentes en el Mapa de Carga 2D (C2), por ello a la salida se puede estimar suprofundidad.

S Entre los fotogramas 375 y 380, los movimientos horizontales del fondo del pasilloal terminar los giros van perdiendo fuerza en la memoria de permanencia, pero aúnasí el algoritmo tiene información suficiente para estimar su profundidad.

S A partir del fotograma 380 pasaríamos a tener un pasillo recto, de forma semejantea lo que se tiene en el siguiente subapartado, ya que todos los tramos del pasillomodelado son iguales.

En la figura 4.17 podemos apreciar la evolución de las profundidades a lo largo delgro de la cámara. En el fotograma 350 podemos ver los objetos móviles a una cortadistancia. En este momento, junto con un acercamiento a éstos, las cámaras van girandohacia la izquierda haciendo desfilar en los fotogramas 355 y 360 los elementos móviles pordelante del objetivo a una corta distancia. En el fotograma 365 puede apreciarse comoaparece mayor profundidad. Profundidad que aumenta y se va centrando en la imagen enel fotograma 375.

4.7.2. Secuencia 10: Deambulación Autónoma

En este caso, se simula el deambular de un robot a lo largo de un pasillo rectilíneo.El movimiento de avance del propio robot hace que los objetos que son por naturalezaestáticos aparezcan desplazándose en dirección a las cámaras.

Los parámetros utilizados a lo largo del procesamiento son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem. de permanencia (C2des) 16

Disparidad máxima (Dmax) 15

Page 204: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

180

Foto NG BNG C2 D3

265

280

300

320

330

340

350

Tabla 4.10. Resultados de la escena del pasillo: tramo recto.

Page 205: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

181

Figura 4.18. Representación tridimensional del Mapa de Profundidad 3D obtenido dela escena del pasillo en los fotogramas 265, 280, 300 y 340.

Al igual que en la secuencia anterior, las pruebas sin solapamiento han dadomejores resultados. A raíz de estos podemos realizar los siguientes comentarios.

S En el fotograma 265, a pesar de que en la imagen original no aparece ya la primerapuerta que existe en los tramos rectos de los pasillos (ver figura 4.9) puesto queésta ya ha sido rebasada por la cámara, su presencia sigue vigente en la memoriade permanencia puesto que estaba ahí en fotogramas anteriores. Por esta razónaparecen dichas puertas en la memoria de permanencia y se calcula su profundidaden la imagen de salida (D3).

S También en la imagen de salida del fotograma 265 puede verse como el fondo delpasillo aparece con un nivel de brillo mucho más bajo debido a su lejanía.

S Asociadas al fotograma 280 las paredes lisas centrales del pasillo no ofreceninformación de su movimiento, por ello no tienen representación en los Mapas de

Page 206: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

182

Carga 2D (C2) ni en el Mapa de Profundidad 3D (D3). En este fotogramanuevamente las puertas y ventanas del fondo aparecen con niveles de gris más bienoscuros.

S Poco a poco, conforme se avanza en los fotogramas entre el 300 y el 350, losobjetos del fondo se van aclarando debido a su movimiento de acercamiento a lascámaras.

En la figura 4.18 podemos ver como, en el avance por el pasillo, en el momento enel que tenemos referencia de objetos móviles (fotogramas 265 y 340), éstos nos vanindicando la dirección de máxima profundidad. En los fotogramas 280 y 300 lainformación es menor. Aún así, aparece información relevante que puede servir de guía sidescartamos todo aquello que tenga nivel de cercanía cero.

4.8. Análisis de Velocidad en la Profundidad

Como se vio en el capítulo 3, a partir de la disparidad detectada en las estelas demovimiento podemos estimar su profundidad y a partir de la variación en el tiempo de estaprofundidad podemos estimar el movimiento que se produce en la dimensión z medianteel efecto de permanencia. Para probar estos extremos, en este apartado se utilizan tantosecuencias de imágenes sintéticas como reales.

En la tabla de presentación de resultados de este apartado el orden de las columnases el siguiente: en primer lugar, se representa la imagen de entrada en niveles de gris; ensegundo lugar, el estado del Mapa de Carga 2D; en tercer lugar, el Mapa de Profundidad3D; y finalmente, las velocidades en la dirección z (vz). En el caso de la velocidad, serecuerda que un nivel de blanco significa que ese punto se está acercando, y un nivel denegro que se está alejando.

4.8.1. Secuencias Sintéticas

4.8.1.1. Detección de Objetos que se Acercan y se Alejan

Este ejemplo es el mismo que se utilizó en el apartado 4.3.3. La esfera de 50 cm.de radio y el cubo deformado de tamaño 1,5 metros realizan un recorrido de alejamiento;mientras que el cubo de 1 metro de arista y el toro de revolución de radio máximo de 1,30m. y mínimo de 70 cm. se acercan progresivamente hasta perderse por detrás de la cámara.La distancia entre las cámaras es de 6 cm.

Page 207: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

183

La secuencia tiene 240 fotogramas en total y los parámetros utilizados a lo largodel proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 0 - Sin solape

Valor de descarga de la mem de permanencia 2D (C2des) 16

Valor de descarga de la mem. de permanencia 3D (C3des) 16

Disparidad máxima (Dmax) 15

Se ha adoptado la opción de segmentación en bandas de niveles de gris sinsolapamiento a la vista de los resultados obtenidos en los ensayos realizados anteriormente.Respecto a los resultados que se representan en la tabla 4.11, se pueden resaltar lossiguientes aspectos.

S En el fotograma 40 los dos objetos están bastante lejos geométricamente, y cuantomás lejos estén en profundidad, menor resolución en z podemos obtener. El cuboparece provocar falsas correspondencias y, sin embargo, no aparece movimientoen z. A tan larga distancia, la estela de movimiento en z puede ser demasiado cortadebido a la discretización del espacio producida por las imágenes digitales.

S En cambio, en el mismo fotograma 40, el toro de revolución, por sus característicassuperficiales, genera muchas falsas correspondencias en la estimación de suprofundidad. Esta generación de falsas correspondencias fue interpretada en elapartado 4.3.2. como un exceso de regiones en la segmentación, (vease fotograma200 de la tabla 4.4) lo que genera múltiples estelas de permanencia yconsecuentemente muchos errores al establecer su dirección de movimiento.

S En el análisis de movimiento en z del fotograma 70, en primer lugar, el cubopresenta una zona oscura a su izquierda. Esto puede ser debido al movimiento degiro sobre sí mismo, que en algún caso puede provocar que mientras que la partederecha se acerque, la izquierda se aleje levemente; no obstante, a tan largadistancia las estelas de movimiento en la dirección z pueden ser algo confusas, yde ahí el error. Por su parte, el toro de revolución sigue obteniendo algunas falsascorrespondencias en el Mapa de Profundidad 3D; falsas disparidades que puedensignificar los errores de velocidad en el mapa de movimientos en z. Tambiénaparece un trozo de la esfera que en la práctica se va alejando; sin embargo lainformación de la estela todavía no es suficiente para asegurar la dirección de sumovimiento.

Page 208: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

184

Foto NG C2 D3 vz

40

70

90

110

180

200

220

Tabla 4.11. Resultados de la escena de los “Objetos Acercándose y Alejándose”.

Page 209: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

185

Figura 4.19. Representación tridimensional de la velocidad en la dirección z (ejevertical) obtenidos en la secuencia “Objetos Acercándose y Alejándose” en losfotogramas 110 y 220.

S A partir del fotograma 90, en el que los objetos están suficientemente cerca, ladetección de movimientos en z pasa a ser mucho más fiable. Tanto en el fotograma90 como en el 110 se observa que el cubo ha tomado su color blanco denotando sudirección hacia la cámara; en cambio, la esfera de la derecha aparece negra en elmapa de movimiento en z indicando su alejamiento. En ambos fotogramas, todavíael toro de revolución está suficientemente lejos como para que su estimación develocidad no sea correcta.

S La estimación correcta de la dirección del toro de revolución (que es el elementoque más correspondencias falsas genera por su estructura) comienza a producirsea partir del fotograma 160, y en el 180 que está representado, ya se puede apreciarsu dirección con cierta fiabilidad. En este fotograma aparece también en cubodeformado a la izquierda cuya indicación de movimiento resulta que se estáalejando, como así es. En estos fotogramas la información de velocidad ya no esapropiada para la esfera que está demasiado lejos

S En la salida del fotograma 200 la única información del mapa de movimiento enz es la del toro de revolución, que claramente indica que se está acercando.

S Finalmente en el fotograma 220, el cubo deformado comienza a verse a través dela estela del toro. En este instante, el mapa de movimiento en z indica con colornegro su alejamiento.

En la figura 4.19, aunque con ciertas falsas correspondencias pueden apreciarse lasdirecciones de movimiento en la profundidad de dos fotogramas distintos. En el fotograma

Page 210: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

186

110 el cubo se acerca mientras la esfera se aleja. En el fotograma 220, el toro de revoluciónse está acercando, y sin embargo por la izquierda aparece alejándose el cubo deformado.

4.8.2. Secuencias Reales

4.8.2.1. Secuencia IndoorZoom

Este ejemplo se utilizó anteriormente en el apartado 4.5.1 y como se comentóentonces, se ha descargado de labvisione.deis.unibo.it/~smattoccia/stereo.htm.

Los parámetros utilizados a lo largo del proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 16

Valor de descarga de la mem. de permanencia 2D (C2des) 64

Valor de descarga de la mem. de permanencia 3D (C3des) 64

Disparidad máxima (Dmax) 21

Hechas las pruebas con diversos valores de solapamiento se ha elegido como mejoropción un valor de solape de 16. Menores valores de solapamiento entre bandas producíanresultados peores debido al ruido existente entre las imágenes. A partir de la tabla 4.12 deresultados podemos realizar los siguientes comentarios:

S En el fotograma 55 de entrada podemos observar una persona que se dirige haciala puerta de salida. Su estela de permanencia indica un movimiento hacia laderecha y su información de profundidad una distancia media. Finalmente, en laimagen de salida (vz) se observa una silueta principalmente oscura indicando sualejamiento.

S La escena del fotograma 95 es algo más compleja. El personaje que está detenidofrente a la puerta de salida acaba de llegar desde la esquina inferior izquierda, porello a la salida su estela de movimiento tiene un color oscuro de alejamiento. Suprofundidad nuevamente tiene valores medios y así aparece en la tercera columna.El personaje que aparece en el fondo de la imagen a la derecha está a unaprofundidad mayor, de ahí su color oscuro en la tercera columna. Su movimientoen la dirección Z es de acercamiento hacia las cámaras; por ello, a la salida seobtiene una silueta de tono básicamente claro.

Page 211: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

187

Foto NG C2 D3 vz

55

95

125

175

195

210

239

Tabla 4.12. Resultados de la escena “IndoorZoom”.

Page 212: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

188

Figura 4.20. Representación tridimensional de la velocidad en la dirección z(eje vertical) obtenida de la secuencia “IndoorZoom” en el fotograma 175. Apesar de que la imagen 2D de la tabla 4 12 es muy clarificadora en cuanto ala dirección, puede verse que no ocurre lo mismo con la representación 3D.

S En el fotograma 125, el personaje que en el 95 estaba estacionado delante de lapuerta está saliendo por la esquina inferior izquierda. En este caso, el algoritmomuestra cierta tendencia a mostrar a la salida una estela blanca de acercamiento,pero los errores son evidentes. Probablemente a estos errores haya contribuido queal desaparecer el personaje, se ha detectado una falsa estela de movimiento delfondo que ha aparecido tras éste, aportando información de alejamiento en ese áreade la imagen. Mucho más evidentes son los movimientos de acercamiento yalejamiento detectados en los otros dos personajes. Sus mapas de profundidad ymovimiento en x e y también aportan información clarificadora sobre la historia demovimiento de dichos personajes.

S En el fotograma 175 sólo aparece una persona que se acerca desde la puerta deentrada. Su estela de movimiento en x e y corresponde a un desplazamiento haciala izquierda y su información de profundidad indica lejanía. No obstante lainformación del movimiento en z indica claramente un acercamiento con su colorblanco.

Page 213: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

189

S El personaje que aparecía en el fotograma 175, en el 195 ya está desapareciendopor el margen inferior izquierdo y mientras que su información de movimiento xe y, y de profundidad son evidentes, en la información de movimiento en znuevamente aparecen áreas claras y oscuras. Es probable que otra vez el cambio enlos píxeles que representan al personaje a representar al fondo se interprete comoun movimiento de alejamiento. En los otros dos personajes sus movimientos dealejamiento son más claros. Uno se está dirigiendo hacia la puerta de la estancia,y el otro se aleja por la izquierda hacia la zona de los armarios.

S Los dos personajes que se alejan en el fotograma 195, en el 210 aparecen a unamayor profundidad. Ambos, tienen su silueta a la salida muy oscura debido a estemovimiento de alejamiento.

S Los personajes que aparecen en el fotograma 239 tienen las trayectorias inversasque los anteriores: el que viene de la izquierda se aproxima paralelo a los armarioshacia las cámaras y el que aparece por la derecha se aproxima desde la puerta.Ambos están representados a la salida por una silueta clara.

En el caso de imágenes reales, como podemos ver en la figura 4.20 referente alfotograma 175, la representación tridimensional no nos clarifica de ninguna manera ladirección del movimiento en la profundidad del personaje.

4.8.2.2. Secuencia OutdoorZoom

En este apartado se vuelve a utilizar la secuencia OutdoorZoom del apartado 4.5.2descargada de la página web labvisione.deis.unibo.it/~smattoccia/stereo.htm. En ella, sesituaron las dos cámaras en lo que parecen las escaleras de un subterráneo, percibiendo lasubida y bajada de personas por ellas.

Los parámetros más importantes utilizados a lo largo del proceso son los siguientes:

Bandas de niveles de gris (NB) 8

Niveles de solapamiento entre bandas (SB) 16

Valor de descarga de la mem. de permanencia 2D (C2des) 64

Valor de descarga de la mem. de permanencia 3D (C3des) 64

Disparidad máxima (Dmax) 16

Como en ejemplos anteriores de secuencias reales, se han hecho pruebas consolapamiento y sin él, y se ha elegido como mejor opción un valor de histéresis de 16.

Page 214: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

190

A partir de los resultados presentados en la tabla 4.13, podemos fijarnos en algunosdetalles como los siguientes:

S En el fotograma 45 se observa una persona que se aleja por las escaleras. Según suinformación de profundidad, éste se encuentra a corta distancia.

S En el fotograma 65, se observa como ya está más lejos y sin embargo lainformación de movimiento en z sigue indicando su alejamiento.

S En el fotograma 120 aparece otro personaje a la misma distancia aproximadamenteque el del caso anterior, pero en este caso acercándose; dicho acercamiento quedareflejado en la salida del sistema.

S En el fotograma 140 este personaje está considerablemente más cerca y estacircunstancia se refleja en el Mapa de Profundidad 3D de la columna tercera conun nivel de brillo más claro. La evolución entre los fotogramas 149 y 151 laconsideramos curiosa, puesto que en el 149 el personaje que estaba bajando va adesaparecer por la esquina inferior derecha y en el 151 aparece otro personaje queva a subir las escaleras a un ritmo más ágil. En el mapa de movimiento se detectacomo se pasa de un móvil cercano que desaparece y otro algo más lejano que seinterpreta como un alejamiento en esta zona del mapa de movimiento en z.

S En el fotograma 170 al personaje que se aleja ágilmente por las escaleras sólo sele ven ya los pies, pero en su historia de movimiento se detecta claramente sualejamiento.

4.9. Conclusiones de los Resultados

En todo este capítulo podemos destacar algunos de los resultados que se obtienencon el algoritmo propuesto:

S En primer lugar, podemos destacar la desaparición de todos los objetos estáticosque existan en la escena. Estos quedan filtrados en una de las primeras etapasreferente la detección del movimiento a través de las memorias de permanencia.

S Nuestro objetivo se sitúa en la periferia del punto de fijación de las dos cámaras,que teóricamente está en el infinito para configuración paralela. Fuera del centrode la imagen la representación del mapa de movimiento tridimensional obtenidoes acorde al movimiento que se está produciendo en la escena. Dicho estudio delmovimiento se realiza, tanto en las direcciones X e Y, como en la Z a través delsistema de análisis estéreo. También, a pesar de no prestar excesiva atención alcentro de la imagen los resultados son relativamente buenos.

Page 215: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

191

Foto NG C2 D3 vz

45

65

120

140

149

151

170

Tabla 4.13. Resultados de la escena “OutdoorZoom”.

Page 216: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Resultados

192

S El análisis de movimiento en la dirección Z nos permite conocer qué objetos seestán alejando y qué objetos se están acercando.

S Por otra parte, este sistema situado en un robot autónomo móvil nos puede permitirla generación de un mapa tridimensional del entorno, a pesar de que los objetosestán estáticos; pues el propio movimiento del robot nos permite detectarlos através del movimiento relativo de las cámaras respecto del entorno.

S Se han realizado pruebas con secuencias sintéticas y reales. De ellas podemosdestacar que las imágenes sintéticas nos permiten de una forma más controlada laprueba de determinados comportamientos del modelo presentado. En cambio, lassecuencias reales, por su complejidad nos permiten asegurar su validez encircunstancias reales. El conseguir pares estéreo de secuencias reales enconfiguración paralela es altamente complejo, ya no solo por la dificultad desituación de las cámaras, sino también por la variabilidad de los parámetros deéstas, lo que en ocasiones obliga a realizar rectificados sobre las secuenciasobtenidas.

S Respecto a la utilización de diversos fondos, todos aquellos que sean estáticosserán filtrados; si bien es cierto que la segmentación en bandas de los fotogramascuando el color de los objetos es similar al fondo presenta algunas dificultades enla captación de la forma de los objetos.

S Para fondos en movimiento, estos no serían filtrados, pero la subtarea de Obtencióndel Mapa de Profundidad 3D situaría los objetos a la distancia que les corresponde.

S La iluminación es importante tanto en las escenas reales como en las sintéticas, yaque las sombras producen la aparición de diferentes regiones segmentadas quepotencialmente provocan falsas correspondencias.

S No parece tener relevancia el número de objetos que aparezcan en una escena. perolo que sí es relevante es su tamaño respecto a la segmentación en bandas de nivelesde gris. Objetos grandes y monocolor son más sencillos de segmentar y de analizarsu movimiento y su disparidad. En cambio, objetos pequeños o cuya segmentaciónen bandas de niveles de gris produzca regiones pequeñas, como hemos vistoanteriormente, hacen más probable la aparición de falsas correspondencias.

Page 217: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

193

5. Discusión

5.1. Resumen

Hasta la fecha, las técnicas usuales de estereovisión se basan en la forma,analizando la disparidad y, por tanto, obteniendo la profundidad a partir de la geometríadel sistema, pero fundamentalmente son estáticas. En esta tesis, se propone una nuevaalternativa que permite obtener, de forma continua, información tridimensional delmovimiento en la escena, tomando como entrada al sistema, una pareja de secuencias deimágenes estéreo, prolongadas en el tiempo de forma indefinida.

Nuestra alternativa tiene una orientación específica, pretendiendo cubrir variasfacetas conocidas en los sistemas visuales biológicos. Por un lado, entendiendo como puntode fijación el punto donde se centran y enfocan el par de cámaras estéreo (esto es el puntodonde se centra la mirada en un sistema biológico), nuestra alternativa no plantea optimizarlos resultados en la zona del punto de fijación, si no al contrario, se optimiza para obtenerla información del movimiento que se produce en la periferia del punto de fijación de losdos ojos (o cámaras).

El efecto de que la información asociada al movimiento en la periferia del puntode fijación es importante y, como se vio en el apartado 1.2.2, muy reconocido en múltiplessistemas visuales biológicos.

Una de las aplicaciones más relevantes de esta propuesta es su posible utilizaciónconjunta con un sistema de atención selectiva visual como aporte de información deaquello que está sucediendo fuera del elemento sobre el que se focaliza la atención en cadamomento.

Otra aportación importante es la posibilidad de utilizar el movimiento en unaescena para definir un plano tridimensional de la misma. Este efecto puede asociarse biena los movimientos sacádicos de los ojos, bien al hecho de que el movimiento del sistemaque observa, sirve para obtener un plano tridimensional que le permite navegar por elentorno observado, como hemos puesto de manifiesto en el apartado 4.6 de la sección deresultados donde el sistema navega a lo largo de un pasillo.

Puesto que el objetivo final es el estudio del movimiento en la profundidad, elsistema sólo atiende a objetos móviles, despreciando cualquier información sobre objetos

Page 218: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Discusión

194

estáticos. Puesto que se trabaja sobre planos de carga generados por permanencia, se filtratoda la información estática de la escena.

Según se ha descrito, los elementos de partida del algoritmo desarrollado son dossecuencias de imágenes tomadas por dos cámaras en configuración paralela, o previamenterectificadas. Cada una de estas dos secuencias se procesan independientemente paraextraerles la información del movimiento en las direcciones x e y. Esta extracción de lainformación de movimiento se realiza fotograma a fotograma mediante una segmentaciónen bandas de niveles de gris y el proceso posterior de análisis de movimiento mediantememorias de permanencia. Esto nos permite segmentar cada fotograma en base almovimiento de los objetos que existen en él.

Las estelas de movimiento de varios objetos móviles en cada fotograma serándiferentes entre sí, debido a la diferente naturaleza de los movimientos de éstos; sinembargo, un mismo objeto móvil producirá estelas muy semejantes en las dos memoriasde permanencia que forman un par estéreo. Esto hace que el análisis de correspondenciasobtenido a partir de las estelas sea sencillo y a la vez robusto, más que en los sistemas queanalizan disparidad de formas; esto se debe fundamentalmente a dos razonas:

S En primer lugar hemos filtrado multitud de información al suprimir todos loselementos estáticos de la escena. Por lo que al reducir el número de elementos (loque no se mueve, no existe), el matching es más sencillo.

S Por otro lado, la información del movimiento está asociada, no sólo al fotogramapresente, sino a la historia de los últimos fotogramas de la escena, esto hace que elmatching se realice atendiendo a una información mas específica (dos elementosiguales con distinta historia reciente de movimiento generan estelas distintas).

Atendiendo a nuestro objetivo de optimizar el análisis en la zona de la periferia delcentro de atención, cada uno de las imágenes de permanencia asociadas a cada sensor(derecho e izquierdo) se separa en dos mitades con el fin de analizar por separado el campovisual derecho y el campo visual izquierdo. Favorecemos además el efecto de separar losmovimientos de los objetos que vienen por la derecha de los que vienen por la izquierda.

Aplicando la restricción epipolar y utilizando comunicaciones a nivel local entreelementos de procesamiento, cada uno de los pares de semi-imágenes se van desplazandohorizontalmente entre sí, buscando las disparidades de los elementos que se han movidoen la escena y que, por lo tanto, han dejado su estela en la memoria de permanencia. En elmomento en que la disparidad de las estelas de los objetos móviles coinciden con losdesplazamientos de las semi-imágenes, las áreas de píxeles vecinos a la salida seránmáximas, y eso será interpretado como la disparidad correcta. Los desplazamientos de los

Page 219: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

195

mapas de carga nos permiten convertir la disparidad en tiempo, el tiempo en carga y lacarga finalmente en profundidad.

Una vez detectada la profundidad de cada elemento en movimiento, será posiblela reconstrucción tridimensional del movimiento en la escena en el momento presente. Noobstante, esta información se obtiene cuadro a cuadro de forma indefinida sobre la escena.Por lo que, cuadro a cuadro, obtenemos una matriz tridimensional en la que aparecenactivados los puntos del espacio en los que se ha producido movimiento en el momentopresente. Al aplicar el efecto de permanencia de forma equivalente a como lo hacemossobre una imagen bidimensional, pero en este caso sobre la representación tridimensionalque hemos obtenido, el mapa tridimensional de carga que se genera, nos permite obtenerlas características tridimensionales del movimiento en la escena; esto es las coordenadas(x,y,z), la velocidad y la aceleración de todos los elementos móviles en cada cuadro. Estainformación nos permitirá conocer la naturaleza del movimiento de un objeto en sucoordenada de profundidad; es decir, si se aleja o se acerca, e incluso estimar su velocidady aceleración, aunque eso sí, limitados por la resolución en la profundidad del sistemageométrico.

La solución que se propone, conlleva un tipo de procesamiento que trata deaprovechar las ventajas de la utilización de primitivas de alto orden, y la utilización depíxeles simplemente. Por un lado, los elementos que se ponen en correspondencia sonregiones obtenidas de las estelas de movimiento de los objetos móviles a través de lainterpretación de las memorias de permanencia. Esto permite, como se ha vistoanteriormente, conseguir correspondencias sencillas y robustas. Por otro lado, el hecho deque a partir de la superposición de las estelas de movimiento cada píxel decida medianteun análisis local la disparidad que le ofrece mayor confianza produce un mapa dedisparidades denso, cuestión que se plantea como la mayor ventaja de los sistemas decorrespondencias basados en píxeles.

5.2. Comparación con Otros Métodos Utilizados

Los métodos que se han utilizado en esta tesis tienen características especificas quelos diferencian de los métodos usuales de análisis estereoscópico. Estas diferencias lasanalizaremos separadamente en los siguientes subapartados.

5.2.1. Primitivas de Correspondencia

En los algoritmos encontrados en la bibliografía, el concepto de primitiva decorrespondencia establece una clasificación férrea entre los algoritmos que utilizan como

Page 220: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Discusión

196

primitiva los píxeles, u otros elementos de mayor orden como contornos o regiones. En elcaso de los píxeles, los mayores inconvenientes suelen ser la ambigüedad en superficiesuniformes, y las oclusiones. Para solucionarlo es habitual la utilización de ventanas devecindad rectangulares alrededor del píxel que minimizan la ambigüedad, penalizando laresolución. La mayor ventaja de estos es la densidad del mapa de disparidades con unaeficiencia computacional alta. Los métodos basados en áreas son menos sensibles a estosproblemas, ya que proporcionan una información adicional, basada en la forma o en eltamaño, para que las regiones difíciles correspondan de una manera sencilla y robusta, yse descarten las disparidades falsas. En cambio, los métodos basados en regiones, engeneral, son muy costosos computacionalmente.

En nuestro caso, hemos tratado de conjugar las ventajas de ambos sistemas. Nuestroalgoritmo trata de establecer las correspondencias a nivel de áreas, mientras que el análisisde disparidades es independiente para cada píxel y lo realiza a partir de la carga acumulada,según el tamaño de la región de “disparidad constante” a la que pertenece.

Llegados a este punto, nos parece apropiado realizar algunos comentarios alrespecto de los resultados que se obtienen con el método de análisis de disparidad de cargapropuesto para explicar su alcance.

El método de recogida y acumulación de carga que se propone en este algoritmono trata de asignar un valor único de disparidad a toda una estela de movimiento. Elhacerlo de esta manera implicaría, a nuestro juicio, no tomar en consideración movimientosde acercamiento y alejamiento, que obviamente provocarían estelas con segmentos máslejanos y más cercanos. En un trabajo como éste, en el que se mezcla el movimiento conla estereovisión para profundizar en las características del movimiento en la profundidad,no parece apropiado considerar las estelas en conjunto a la misma profundidad.

Para contribuir a aclarar estos términos se presenta la figura 5.1, donde puedenapreciarse posibles, aunque caprichosas, formas de estelas de movimiento correspondientessuperpuestas pero con una disparidad diferente; de ahí su desplazamiento relativo. En todasellas, el aspa (x) marca la posición en la que está un elemento de carga que inicia suproceso de acumulación de carga y en color gris oscuro la región que abarcará dichaacumulación. Puede verse, que en el ejemplo superior izquierdo, el elemento inicial estásituado a lo largo de la diagonal vertical del rombo común. En este caso, todos loselementos de la vertical en la que está el elemento inicial cuentan a derecha e izquierda suscontiguos correspondientes y por lo tanto todos los elementos del área común a las dosfiguras quedarán contabilizados.

El ejemplo superior derecho es algo más complejo, puesto que la vertical delelemento inicial no abarca toda la vertical de la zona común. Por eso, las áreas superior einferior de la zona en gris oscuro no se contabilizan para el análisis de este píxel, sólo se

Page 221: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

197

Figura 5.1. Dependencia del tamaño de la “región dedisparidad constante” según la posición del elemento queinicia el análisis,

contabilizará la franja horizontal que se sitúa entre los límites de la vertical al objetoinicial.

En el ejemplo inferior izquierdo de la misma figura 5.1 tampoco se contabilizantodos los elementos comunes a las dos estelas, sino que sólo se contabilizan aquellos delas horizontales que están entre los límites superior e inferior de la vertical del elementoinicial. Un resultado parecido se obtiene en el caso de la figura inferior derecha.

En definitiva, puede apreciarse que en una misma estela, aparece una dependenciaen el resultado final de la carga de cada elemento según su posición inicial. Lo queconlleva tres características muy beneficiosas a nuestro entender:

S La primera es que se restringe el área en la que cada elemento analiza sucorrespondencia a un entorno local, pero flexible. Esto es positivo porque asíexistirá una probabilidad menor de que algún elemento remoto (no local) participeen el cálculo de la disparidad.

S La segunda es que dos elementos vecinos van a analizar regiones correspondientessemejantes, aunque no iguales. Esto lo consideramos como una forma de aplicarlas restricciones de continuidad, como la del gradiente de disparidad, ya que

Page 222: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Discusión

198

generalmente no habrá excesivas diferencias entre las disparidades de elementoscontiguos.

S La tercera se refiere a que, a pesar de que el área que se analiza en cada caso no esel área total, cada una de estas áreas cumplen la condición de ser máximas para elvalor de desplazamiento en el que las dos estelas de movimiento se solapanlocalmente.

Como puede verse, el algoritmo presentado es muy sensible a las diferentesdisparidades que pueden aparecer en los distintos segmentos de una estela de movimiento,y ésta es una cuestión muy importante a la hora de estudiar el movimiento en laprofundidad.

También, como conclusión, es destacable que los desplazamientos que nosotrosrealizamos con las dos imágenes en nuestro algoritmo y el análisis de correspondencias,puede aproximarse a los movimientos sacádicos de convergencia y divergencia de los ojosque permiten explorar el entorno con precisión, analizando, por geometría, la profundidada la que están los objetos, además de la fusión de las imágenes que se produce en lascolumnas de dominancia ocular. Un barrido de los ojos desde la orientación en la quemiran al infinito hasta la configuración convergente en la que se está atendiendo a unobjeto cercano, es equivalente en nuestro sistema a un desplazamiento horizontal de las dosimágenes desde la disparidad 0 hacia valores superiores.

Este método de análisis de disparidades presentado fue probado inicialmente conimágenes estáticas reales ofreciendo también unos resultados muy buenos. En las imágenesreales, pequeñas diferencias en la iluminación pueden provocar que píxeles que puedancorresponder, aparezcan con diferente nivel de brillo y, por tanto, no sea adecuado poneren correspondencia píxeles por el hecho de ser exactamente iguales. En este caso, habráque decidir el margen de valores que permite considerar dos píxeles iguales, y el límitemáximo que se establece para considerar que ambos son diferentes. A esta decisión hayque llegar mediante un proceso de diferencia y umbralización. Se calcula la diferencia píxela píxel de las dos imágenes, y, después, aquellas diferencias que sean mayores que unumbral, nos harán considerar a los dos píxeles implicados como diferentes. No obstante,éste no es el problema planteado en este trabajo, aquí, como se ha dicho, la entrada son lasmemorias de permanencia, y la igualdad entre elementos vendrá dada por la igualdad desus elementos de carga.

Page 223: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

199

5.2.2. Restricciones a las Correspondencias

La aplicación de las diferentes restricciones viene incluida y es inseparable a cadauno de los métodos desarrollados. De todas ellas las restricciones más habituales son laepipolar, y la de disparidad y la de unicidad. La restricción de ordenamiento se sueleutilizar a nivel local de píxel; es decir dentro del vecindario más cercano del píxel aanalizar, pero se suelen permitir correspondencias que no cumplen dicha restricción envirtud de las excepciones que existen. Las demás restricciones se utilizan de una formamenos extendida.

En el caso de nuestro algoritmo, también aplicamos las restricciones epipolar, dedisparidad, de unicidad, y de ordenamiento a nivel local. La aplicación de la restricciónepipolar es consistente con la forma de desplazamiento de los mapas de carga para buscarcorrespondencias. La restricción de disparidad se aplica teniendo en cuenta eldesplazamiento máximo que se permite en dicha búsqueda. La restricción de ordenamientoa nivel local se basa en la forma en que los elementos que configuran el mapa deprofundidades se comunican entre sí para cada desplazamiento con el fin de indicar si sucorrespondencia es suficientemente fiable. Finalmente, la restricción de unicidad se aplicaal buscar en cada uno de los elementos del mapa de profundidad aquellos cuya región dedisparidad constate es máxima.

5.2.3. Técnicas de Correspondencia

En cuanto a la forma de estudiar la profundidad a la que están los objetos, no estrivial encontrar parecidos con otros métodos fuera de la aplicación de las restriccionesgenerales a las correspondencias. Probablemente los métodos más parecidos al que sepropone en esta tesis sean los algoritmos basados en la correlación y las técnicas derelajación. Los algoritmos basados en la correlación estudian las correspondencias en basea los parecidos que existen entre vecindarios discretos alrededor de los píxeles cuyacorrespondencia se está analizando. Dicho parecido ha dado en estudiarse además demediante la función correlación, mediante sumas de diferencias absolutas, sumas dediferencias al cuadrado y las transformadas del rango y el censo. En nuestro caso sepropone la operación diferencia píxel a píxel y posteriormente se le da un valorfundamental a la aplicación del mecanismo de relajación. En cuanto a dicho mecanismo,lo habitual es aplicar nuevamente la propagación de las restricciones en un entornolimitado y fijo de los píxeles a corresponder. Quizá aquí está la mayor diferencia entre losalgoritmos habituales y el propuesto en esta tesis. En nuestro caso la propagación de lasrestricciones se realiza a toda aquella área, tenga el tamaño y la forma que tenga, en la que

Page 224: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Discusión

200

los elementos de carga se sientens correspondientes para un valor de desplazamiento odisparidad dado.

Otra de las diferencias destacables es que, en las técnicas de relajación, se trabajacon imágenes estáticas en general, y nuestro algoritmo parte de la información demovimiento procedente de la aplicación del efecto de permanencia a la secuencia a estudio.De hecho, en nuestro caso, los objetos estáticos son eliminados por el sistema previamenteal análisis de profundidad, ya que sólo nos interesa la información del movimiento.

Respecto a aquellas técnicas de relajación que se basan en la correlación decaracterísticas como los contornos podemos encontrar también algún parecido puesto quelas memorias de permanencia detectan sobretodo contornos desplazándose; si bien es ciertoque en el algoritmo presentado no es, ciertamente, el contorno el que más informaciónaporta, sino la región entre contornos.

Otros métodos en estereovisión como la programación dinámica, las curvas íntimas,los algoritmos de predicción o las técnicas de grueso a fino son todavía menos comparablescon el modelo que se presenta aquí.

5.2.4. Tratamiento de las Oclusiones

Los métodos usuales de detección de oclusiones se basan en varios aspectos: laaparición de inconsistencias entre análisis de disparidades derecha sobre izquierda eizquierda sobre derecha, la aparición de correspondencias fuera de orden y un altogradiente de disparidad a lo largo de un contorno. Dichas oclusiones en algunos casos seseñalizan, y en otros se tratan a través de interpolaciones.

Más cercanos a nuestro algoritmo son aquellos que tratan de aumentar la robustezfrente a las oclusiones. De la misma manera que los métodos basados en lastransformaciones del rango y el censo se consideran robustos frente a las oclusiones porser independientes de la luminosidad puntual, nuestro modelo basado en las estelas depermanencia también lo consideramos robusto en este aspecto, ya que las oclusionesaparecerán en general en los contornos de los objetos, y en ellos, la frontera entremovimiento y no-movimiento evitará que las oclusiones afecten al resultado.

Por otra parte, la utilización del tamaño de las regiones de disparidad constante,como elemento para analizar la confianza de una disparidad, hace que aquellas oclusionesque existan, queden fuera de dicha región y, por tanto, no se consideren.

Page 225: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

201

5.2.5. Técnicas Relacionadas con el Movimiento

En cuanto al estudio de movimiento, las memorias de permanencia han sidoutilizadas por nuestro grupo, como se ha visto, para muchas aplicaciones durante variosaños; pero en cambio, el procedimiento más habitual que se utiliza en este campo es elflujo óptico. Las diferencias entre ambos son notables: mientras que el flujo óptico se basaen analizar el desplazamiento de determinadas características de las imágenes, lasmemorias de permanencia juegan con las variaciones de luminosidad que se producen enlos píxeles para, a través de las estelas, analizar el movimiento de los objetos que aparecenen las secuencias.

Por otra parte, los parecidos en cuanto a filosofía de funcionamiento entre losmétodos de estereovisión basada en el movimiento y el propuesto en esta tesis son muydistintos. Los métodos de “Estructura desde el Movimiento” analizan la tridimensionalidada partir de la trayectoria conocida de la cámara y utilizan el estereo para resolver el factorde escala inherente a dicho análisis. En el algoritmo que presentamos el movimiento seutiliza para separar lo que se mueve de lo que no y, a partir de esta información, aplicar unatécnica de análisis de disparidades basada en la estereovisión.

En el “estéreo convencional a partir del movimiento” se trata de analizar latridimensionalidad utilizando para ello una sola cámara que visualiza un objeto que girao se desplaza de modo conocido. En el modelo presentado, el movimiento no se conocea priori, y se debe estimar a partir de la estereovisión.

Respecto a las técnicas que utilizan el movimiento para establecer una restricciónde disparidad dinámica, podemos considerarlas complementarias a la que se propone aquí,puesto que a partir de la información que nos proporciona el Modelo de Disparidad deCarga seria factible realizar una estimación hacia el futuro de las posiciones y, por lo tanto,disminuir el margen de disparidades a estudiar

5.3. Aspectos Biológicos

Respecto a las características biológicas que se han considerado aplicables para eldesarrollo del modelo propuesto podemos considerar las siguientes:

S En primer lugar, nuestro algoritmo trata de relacionar las percepciones delmovimiento con las de la profundidad. Esto también se produce en los sistemasbiológicos; ya que la vía que se encarga del análisis del movimiento parece queestá implicada también en la estimación de la profundidad. En el capítulo 1, se vioque la isoluminancia implicaba grandes dificultades para conseguir percepciones

Page 226: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Discusión

202

correctas del movimiento de los objetos, así como de la perspectiva y laprofundidad a la que están.

S La vía magnocelular posee muy poca resolución, y con ello es suficiente pararesolver la percepción del movimiento y la profundidad. En nuestro caso, laaplicación de la segmentación en bandas de niveles de gris reduce la cantidad deinformación existente en las imágenes, y sin embargo los resultados son bastanteaceptables.

S Por otra parte, también respecto de la vía del movimiento, ésta es una vía casiinsensible al color. En nuestro caso podemos decir que los experimentos que se hanrealizado con imágenes en color no han aportado ninguna ventaja. Por ello, ennuestro algoritmo, a partir de la aplicación de la segmentación en bandas de nivelesde gris y las memorias de permanencia los análisis sucesivos se realizan coninformación en niveles de gris.

S Nosotros, por las razones que aportábamos en el apartado 1.2.5.2, consideramosque la estereovisión biológica depende directamente de la propiocepción de laconvergencia relativa de los ojos. Esta convergencia de los ojos es equivalente a undesplazamiento de las imágenes en las retinas, con el fin de solapar las imágenesde cada ojo en una imagen global. En nuestro caso, el algoritmo propuesto se basaen el desplazamiento horizontal de las imágenes para analizar la disparidad de cadauno de los píxeles.

S Independientemente de que estemos o no en lo cierto respecto a la importancia dela propiocepción de los ojos en la visión tridimensional, si es una conclusión de lospropios neurocientíficos que la visión estereoscópica, considerada como la fusiónde las imágenes derecha e izquierda en una sola percepción, sólo se produce en unmargen pequeño del campo visual; entre unos 2º en horizontal, y unos pocosminutos de arco en vertical. Fuera de este margen la visión es doble. En el caso denuestro algoritmo, la fusión de las dos memorias de permanencia derecha eizquierda y el análisis de disparidad realizado por cada píxel también está acotadopor el análisis local de las correspondencias.

S En la visión humana, la periferia del campo de visión, salvo que de reojo se estéatendiendo a un objeto en concreto, no posee percepción de objetos estáticos, sinembargo sí es sensible a objetos en movimiento. Cada vez que un objeto se mueveen la periferia se produce un comportamiento reflejo que orienta los ojos paracentrar dicho objeto en las dos fóveas. Este es el fundamento principal del sistemadesarrollado: nuestro objetivo ha sido desde un principio el analizar el movimientode los objetos en la periferia del campo receptivo, con el fin de informar de loseventos que están ocurriendo a un sistema superior de control de cámaras, o a unsistema de atención selectiva visual.

Page 227: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

203

S La separación en dos mitades del campo visual en los humanos a partir de quiasmaóptico tiene su correspondencia en el modelo propuesto; ya que si lo que nosinteresa es estudiar el movimiento en las periferias derecha e izquierda a partir delpunto de fijación, parece adecuado separar computacionalmente las percepcionesde ambos lados en procesos paralelos. De esta manera es más sencillo discernirentre lo que está pasando a un lado, respecto de lo que ocurre en el otro.

S El hecho de que las células complejas sensibles a elementos lineales que sedesplazan en una dirección dentro del campo visual no actúen claramente en la víadel movimiento puede implicar que dicha detección del movimiento se produzcapor las variaciones del contraste (carga-descarga) en las células simples, sensiblesa la orientación y a la posición concreta del estímulo. Esta es la filosofía denuestras memorias de permanencia; el comportamiento de carga y descarga de loselementos de procesamiento, cada vez que se detecta movimiento suficiente comopara hacer que un píxel de la imagen segmentada en bandas de niveles de gris saltede una banda a otra.

Page 228: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Discusión

204

Page 229: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

205

6. Conclusiones y Aportaciones Realizadas

El trabajo objeto de esta tesis ha consistido en definir el Modelo de Disparidadde Carga, el cual configura una nueva alternativa para obtener de forma continua,información tridimensional del movimiento en la escena; tomando como entrada alsistema, un par estéreo de secuencias de imágenes, prolongadas en el tiempo de formaindefinida.

El modelo sustituye el análisis de disparidad basado en luminancia por el análisisde disparidad basado en carga obtenida por permanencia. Esto es, realiza estereoscopia pormovimiento, en lugar de basar la estereopsis en luminancia, filtrando al tiempo toda lainformación estática de la escena.

El Modelo de Disparidad de Carga se inspira en la biología, sin pretender replicarla,intentando cubrir algunos aspectos de esta, en concreto la detección de movimiento en laperiferia del punto de atención.

Entre las posibles aportaciones de esta tesis, o en concreto del Modelo deDisparidad de Carga, mencionamos las siguientes:

S Usa la información de carga, debida a permanencia para el análisis estereoscópico.S Configura una nueva alternativa para obtener información tridimensional del

movimiento en la escena. S Posibilita la captación de la atención asociada al movimiento en la zona periférica

del foco de atención.S Puede ser utilizado para navegación en robótica, ya que el movimiento de las

cámaras genera un plano tridimensional del entorno.S Filtra toda la información estática de la escena.S Permite (y requiere) un análisis continuo, pudiendo utilizarse sobre secuencias

estereoscópicas de cualquier duración, ya que la información se obtiene cuadro acuadro de forma indefinida sobre la escena.

S Permite calcular la componente z de los objetos con movimiento, lo cual nospermite obtener las componentes reales de movimiento para las dos coordenadas(x,y) paralelas al plano focal. Al conocer z podemos pasar de la velocidad de laimagen sobre el sensor (u,v) a la velocidad del objeto en el espacio (x,y,z).

S Dentro del análisis de profundidades estéreo, la consideración del concepto decorrespondencia como un ente separado de la disparidad nos permite realizaranálisis de correspondencias basados en regiones, y conseguir mapas de disparidad

Page 230: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Conclusiones y Aportaciones Realizadas

206

densos, de la misma manera que si trabajásemos directamente con píxeles, solo quecon una robustez mucho mayor.

S Integra las componentes de estereovisión y movimiento de forma similar a comosucede en los sistemas biológicos.

S Al igual que muchos de los sistemas biológicos, obtiene la informaciónestereoscópica diferenciada en hemicampos.

Como continuación a esta memoria esta previsto que nuestro trabajo se desarrolleen las siguientes líneas:

S Dotar al sistema de aprendizaje, con el fin de capacitarlo para que sus parámetrosevolucionen persiguiendo la máxima precisión y robustez.

S Aumentar la resolución tridimensional independizándola del pixelado de lascámaras, en base a utilizar leves movimientos de convergencia con las mismas.Estos movimientos de convergencia, potencialmente, sustituirían a losdesplazamientos realizados con los mapas de carga.

S Integrar el Modelo de Disparidad de Carga con un sistema de Atención VisualSelectiva lo que aumentaría considerablemente sus prestaciones y sus aplicaciones.El objetivo sería conseguir un sistema capacitado en variar su elemento de atenciónen función de los movimientos que se están produciendo en su entorno. Estecambio en la atención podría producir un giro controlado, y muy eficiente, de lascámaras de observación para centrar el elemento de interés en las dos imágenes,derecha e izquierda.

S Profundizar en las aplicaciones de este sistema de Visión Estereoscópica Dinámicatanto separada como conjuntamente a un sistema de Atención Selectiva Visual.Dentro de estas aplicaciones podemos encontrar la metrología, la seguridad, larobótica o el Control de Calidad.

Page 231: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

207

7. Bibliografía y Enlaces

7.2. Bibliografía

[Ade85] Adelson E.H. & Bergen J.R. “Spatiotemporal energy models for theperception of motion”,. Journal of the Optical Society of America A, 2,(1985): 284-299.

[AEI85] Asano, T., Edahiro, H. & Imai, H. “Bucketting Techniques in ComputerGeometry”. Computer Geometry. Toussaint, G. Ed. (1985).

[AF87] Ayache, N. & Faverjon, B. “Efficient Registration of Stereo Images byMatching Graph Descriptions of Edge Segments”. The International Journalof Computer Vision. (1987).

[Agr03] Agrawal, M. & Davis, L., “Window Based, Discontinuity PreservingStereo” Dept of Computere Science, University of Maryland. (2003).

[Alv02] Álvarez, L., Deriche, R., Sánchez, J. & Weickert, J., “Dense Disparity MapEstimation Respecting Imagen Discontinuities: A PDE and Scale-SpacedBased Approach”, JVCIR, vol. 13, (2002): 3-21.

[Ann03] Annonymous, “Analisys of Means to Improve Cooperative DisparityEstimation”, ISPRS, Vol. 34, (2003).

[Arn95] Arndt, P. A., Maillot, H. A. Bulthoff, H. H. “Human Stereovision withoutLocalized Image Features”, Byological Cybernetics, vol. 72 (1995): 279-293

[Asc93] Aschwanden, P. & Guggenbuhl, W., “Experimental Results from aComparative Study on Correlation-Type Registration Algorithms”. RobustComputer Vision. Frostner and Ruwiedel, Eds. (1993): 268-289.

[Ban01] Banks, J. & Corke, P. “Quantitative Evaluation of Matching Methods andValidity Measures for Stereo Vision”. International Journal of RoboticsResearch. vol. 20. no. 7. (2001)

[Bar65] Barlow H.B. & Levick R.W. “The mechanism of directionally selectiveunits in the rabbit's retina”. Journal of Physiology, no. 178, (1965):477-504.

Page 232: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Bibliografía y Enlaces

208

[BB81] Baker, H.H. & Binford, T.O.; “Depth from Edge- and Intensity-BasedStereo”. Proceedings 7th Joint Conference on Artificial Intelligence.(1981).

[Bel96] Belhumeur, P. N. “A Bayesian Approach to Binocular Stereopsis”.International Journal of Computer Vision. vol. 19, no. 3, (1996): 237-260.

[Ben98] Benjamins, R., & Fensel, D. Editorial: Problem Solving Methods.International Journal on Human Computer Studies, 49(4), (1998): 305-313.

[Ber92] Bergen J. R., Anandan, K., Hanna, K. J. & Hingorani, R. “HierarchicalModel-Based motion estimation”, ECCV (1992): 237-252.

[Bla84] Blasdel G.G. & Fitzpatrick D. “Physiological organization of layer 4 inmacaque striate cortex”, Journal of Neuroscience, no. 46, (1984): 880-895.

[Boy01] Boycov, Y., Beksler, O. & Zabih, R. “Fast Aproximate EnergyMinimization Via Graph Cuts”, IEEE Trans. on Pattern Analysis andMachine Intelligence, vol. 20, no. 12, (2001): 1222-1239.

[Bre94] Breuker, J., & van de Velde, W. “CommonKADS Library for ExpertiseModelling, IOS Press, Amsterdam.(1994).

[Bro03] Brown, M. Z., Burschka, D. & Hager, G. D., “Advances in ComputationalStereo”, IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 25,no. 8, (2003): 993-1008.

[Bul80] Bullier J. & Henry G.H. “Ordinal position and afferent input of neurons inmonkey striate cortex”. Journal of Comparative Neurology, no. 193,(1980): 913-935.

[Can86] Canny, J. “A Computational Approach for Edge Detection”. IEEE Trans.on Pattern Analysis and Machine Intelligence. vol 8. no. 6. (1986) 679-698.

[Cas85] Casas, J. Óptica. Cooperativa de Artes Grßficas. (1985).[Cha91] Chang, C., Chatterjee , S. & Kube, P. R. “On an Analysis of Static

Occlusion in Stereo Vision”. Proceedings on Computer Vision and PatternRecognition”. (1991): 722-723.

[Chi94] Ching, W. S. “A New Method of Identifying Occlusion and SpecularHighlights Using Active Vision“. Proceedings of the InternationalSymposium on Speech, Image Processing and Neural Networks, (1994):437-440.

[Cor93] Coren, S., Ward, L. M. & Enns, J. T. “Brightness and Spatial Frequency inSensation and Perception”. Cap. 4. Harcourt Brace (1993)

[Cro97] Crossley, S, Lacey, A. J. Thacker, N. A. and Seed N. L. “Robust Stereo ViaTemporal Consistency”, Proceedings of the British Machine VisionConference, (1997): 659-668.

Page 233: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

209

[Cro98] Crossley, S, Thacker, N. A. and Seed N. L. “Benchmarking of BootstrapTemporal Stereo Using Statisitical and Phisical Scene Modeling”,Proceedings of the British Machine Vision Conference, (1998): 346-355.

[Dal96] Dalmia, A. K. & Trivedi, M. “High Speed Extraction of 3D Structure ofSelectable Quality Using a Translating Camera”, Computer Vision andImage Understanding. Vol. 64, No.1, (1996): 97-110.

[Del02] Delgado, A.E., & Mira, J. “Algorithmic Lateral Inhibition as a GenericMethod for Visual Information Processing with Potential Applications inRobotics”. In Da Ruan P. D'Hondt, & E.E. Kerre (eds.) ComputationalIntelligent Systems for Applied Research, World Scientific: Singapore,(2002): 477-484.

[Dem01] Demirdjian, D. & Darrell, T. J., “Motion Estimation from DisparityImages”, ICCV01 (2001).

[Dud73] Duda O.R. & Hart P.E. “Pattern Classification and Scene Analysis”. JohnWiley and Sons, (1973). New-York.

[Egn02] Egnal, G. & Wildes, R. P. “Detecting Binocular Half-Occlusions: EmpiricalComparisons of Five Approachs”, Trans. on Pattern Analysis and MachineIntelligence”. vol. 24. no. 8, (2003): 1127-1133.

[Eme81] Emerson R.C. & Coleman L. “Does image movement have a special naturefor neurons in the cat's striate cortex?”, Investigative Ophthalmology andVisual Science, no. 20, (1981): 766-783.

[Eri95] Eriksson, H., Shahar, Y., Tu, S.W., Puerta, A.R., & Musen, MA.. “TaskModeling with Reusable Problem Solving Methods”, Artificial Intelligence,79(2), (1995): 239-326.

[Fau93] Faugeras O. “Three-Dimensional Computer Vision. A GeometricViewpoint”. The MIT Press. (1993).

[Fau01] Faugeras, O. & Luong, Q. T., “The Geometry of Multiple Images”, TheMIT Press, (2001)

[Fen79] Fennema C.L. & Thompson W.B. “Velocity Determination in ScenesContaining Several Multiple Moving Objects”. Computer Graphics andImage Processing, no. 9, (1979): 301-315.

[Fen97] Fensel, D.“The Tower-of-Adapter Method for Developing and ReusingProblem-Solving Methods”. In E. Plaza,, & V.R. Benjamins, (eds.),Knowledge Acquisition, Modeling and Management. Proceedings of the10th European Workshop, EKAW'97, LNAI, 1319, Springer Verlag:Berlin, (1997): 97- 112.

Page 234: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Bibliografía y Enlaces

210

[Fen99] Fensel, D., Benjamins, V.R., Motta, E., & Wielinga, B. “UPML: AFramework for Knowledge System Reuse”. In Proceedings 17thInternational Joint Conference on Artificial Intelligence, IJCAI99, MorganKaufmann: San Francisco. (1999)

[Fer92] Fernández, M. A. & Mira, J., “Permanency Memory: A System for Real-Time Motion Analysis in Image Sequences”, IAPR Workshop on MachineVision Applications, MVA’92, (1992):249-252.

[Fer93] Fernández M.A. “Análisis de movimiento en secuencias de imagen”. En:Notas de Visión y Apuntes sobre la Ingeniería del Software, III Curso deVerano de Informática, Colección Estudios, 24, Universidad de Castilla-LaMancha, (1993): 99-110.

[Fer95a] Fernández, M. A., Mira, J., López M. T., Álvarez J. R., Manjarrés, A. &Barro, S., “Local Accumulation of Presistent Activity at Synaptic Level:Application to Motion Analysis”, Mira, J. & Sandoval, S. (Eds) FromNatural to Artificial Neural Computation, IWANN’95 Springer-Velag:137-143.

[Fer95b] Fernández, M.A. “Una Arquitectura Neuronal para la Detección de BlancosMóviles. Unpublished Ph.D. dissertation (1995)

[Fer97] Fernández, M. A., “Una Arquitectura Modular de Inspiración Biológica conCapacidad de Aprendizaje para el Análisis de Movimiento en Secuenciasde Imágenes en Tiempo Real”, Tesis Doctoral 48, Universidad de Castilla-La Mancha, (1997).

[Fer99] Fernández, M.A., Fernández-Caballero, A., Moreno, J., Sebastián, G.:Object Classification on a Conveying Belt. Proceedings of the ThirdInternational ICSC Symposium on Soft Computing, SOCO'99 (1999)

[Fer01a] Fernández-Caballero, A., “Modelos de Interacción Lateral en computaciónacumulativa para la obtención de siluetas”, Tesis Doctoral (2001).

[Fer01b] Fernández-Caballero, A., Mira, J., Fernández, M. A. & López M. T.“Segmentation from Motion of non-rigid objects by neuronal LateralInteraction”, Pattern Recognition Letters, vol. 22 no. 14, (2001); 1517-1524.

[Fer03a] Fernández, M. A., Fernández-Caballero, A., López M. T. & Mira, J.,“Lenght-Speed Ratio (LSR) as a Characteristic for Moving Elements Real-Time Classification”, Real-Time Imaging, no. 9, (2003); 49-59.

[Fer03b] Fernández-Caballero, A., Fernández, M. A., Mira, J. & Delgado A. E.“Spatio–Temporal Shape Building from Image Sequences Using LateralInteraction in Accumulative Computation”, Pattern Recognition, vol. 36,no. 5, (2003); 1131-1142..

Page 235: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

211

[Fer03c] Fernández-Caballero, A., Mira, J., Delgado A. E. & Fernández, M. A.“Lateral Interaction in Accumulative Computation: A Model for MotionDetection”, Neurocomputing 50C, (2003); 341-364.

[Fer03d] Fernández-Caballero, A., Mira, J., Férnandez, M.A., Delgado, A.E.: OnMotion Detection Through a Multi-Layer Neural Network Architecture.Neural Networks, accepted (2003)

[For93] Ford, K., Bradshaw, J.M., Adams-Webber, J.R., & Agnew, N.M.“Knowledge Acquisition as a Constructive Modeling Activity”.International Journal of Intelligent Systems, 8, (1993): 9-32.

[FP86] Forstner, W. & Pertl, A. “Photogrammetric Standard Methods and DigitalImage Matching Technics for High Precision Surface Measurements”.Pattern Recognition in Practice II. Elsevier Science Publishers. (1986).

[Fu90] Fu, L.M., & Fu, L.C. Mapping Rule-Based Systems into NeuralArchitecture, Knowledge-Based Systems, 3(1), (1990): 48-56.

[Fua91] Fua, P. “Combining Stereo and Monocular Information to Compute DenseDepth Maps that Preserve Depth Discontinuities”. Proceedings of te 12thInternational Joint Conference on Artificial Intelligence. (1991).

[Gon01] González, R. C. & Woods, R. E. “Digital Image Processing”. AddisonWesley / Diaz de Santos. (2001).

[Gou03] Goulermas, J. Y., & Liatsis, J., “A Collective-Based Adaptive SymbioticModel for Surface Reconstruction in Area-Based Stereo”. IEEE Trans. onEvolutionary Computation, vol. 7, no. 5, (2003): 482-502.

[Gri81] Grimson, W.E.L. “A Computer Implementation of a Theory of HumanStereo Vision”. Philosophical Transactions of the Royal Society of London.(1981).

[Gri85] Grimson, W.E.L. “Computational Experiments with a Feature Based StereoAlgorithm”. IEEE Transacions on Patteren Analisys and MachineIntelligence. IEEE. 1985.

[Gro89] Grosso, E., Sandini, G.- & Tistarelli, M., “3D Object Reconstruction UsingStereo and Motion”, IEEE Trans on. Systems, Man and Cybernetics, Vol.19, No. 6, (1989): 1465-1476.

[Gut04] Gutiérrez, S. & Marroquín, J. L. “Robust Approach for DisparityEstimation in Stereo Vision”, Image and Vision Computing, vol. 22, no. 3,(2004): 183-195.

[Har00] Hartley R. & Zisserman, A. “Multiple View Geometry in ComputerVision”, Cambridge University Press, (2000)

Page 236: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Bibliografía y Enlaces

212

[Has56] Hassenstein B. & Reichardt W.E. “Functional structure of a mechanism ofperception of optical movement”, Proceedings of the 1st InternationalCongress of Cybernetics in Namar, (1956): 797-801.

[Haw84] Hawken M.J. & Parker A.J. “Contrast sensitivity and orientation selectivityin lamina IV of the striate cortex of old world monkeys”, ExperimentalBrain Research, no. 54, (1984): 367-372.

[Hay99] Haykin, S: “Neural Networks: A Comprehensive Foundation”. PrenticeHall (1999)

[Hec99] Hecht Eugene; Óptica; Addison-Wesley Iberoamericana; 1999[Hee87] Heeger D.J. “Model for the extraction of image flow”, Journal of the

Optical Society of America A, 4 (8), (1987):1455-1471.[Hen00] Henkel, R. D. “Synchronization, Coherence-Detection and Three-

Dimensional Vision”, University of Bremen (2000).[Hil84] Hildreth E.C. The Measurement of Visual Motion. Cambridge. MIT Press.

(1984). [Hil95] Hilario, M., Orsier, B., Rida, A., & Pellegrini, C. “Integration of

Model-Based Reasoning and Neural Processing, Report of MIX Project,CUI, University of Geneva. (1995).

[Hir01] Hirschmüller, H., “Improvements in Real-Time Correlation-Based Stereo”,Proceedings of IEEE Workshop on Stereo and Multi-Baseline Vision,(2001): 141-148.

[HoC97] Ho, P. K. & Chung, R. “Stereo-Motion taht Compliments Stereo andMotion Analisys”, Proceedings of the IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition”, (1997): 213-218.

[Hof89] Hoff, W. & Ahuja, N. “Surfaces from Stereo: Integrating Feature Matching,Disparity, Estimation and Contour Detection”. IEEE Trans. on PatternAnalysis and Machine Intelligence. vol. 11. no. 2. (1989): 121-136

[Hon04] Hong, L. & Chen, G., “Segment-Based Stereo Matching Using GraphCuts”, CVPR 2004, (2004).

[HoP96] Ho, A. Y. K. & Pong, T. C. “Cooperative Fusion of Stereo and Motion”,Pattern Recognition, vol. 29, no. 1, (1996): 121-130.

[Hor81] Horn B.K.P. & Schunck B.G. “Determining optical flow”, ArtificialIntelligence no. 17, (1981): 185-203.

[Hub77] Hubel D.H. & Wiesel T.N. “Functional architecture of macaque monkeyvisual cortex”, Proceedings of the Royal Society of London, B, 198, (1977):1-59.

[Hub95] Hubel, D. H. Eye, Brain, and Vision. Scientific American Library. (1995).

Page 237: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

213

[Hun95] Hung, Y. P., Tang, C. Y. Shih, S. W., Chen, Z. & Lin, W.S., “A 3DPredictive Visual Tracker for Tracking Multiple Moving objects with aStereo Vision System”, Lecture Notes in Computer Science, Vol 1024,(1995) 25-32

[Jep89] Jepson, A. D. & Jemkin, M. R. M. “The Fast Computation of Disparityfrom Phase Differences”. Proceedings of the Conference on ComputerVision and Pattern Recognition. (1989): 398-403.

[Jul71] Julesz, B. “Foundations of Cyclopean Perception”. University of ChicagoPress. (1971).

[Kan92] Kanade, T., Okutomi, M. & Nakahara, T. “A Multiple-Baseline StereoMethod”. Proceedings ARPA Image Understanding Workshop. (1992):409-426.

[Kan94] Kanade, T. & Okutomi, M. “A Stereo Matching Algorithm with anAdaptative Window: Theory and Experminets”. IEEE Trans. on PatternAnalysis and Machine Intelligence. vol. 16. (1994).

[Kan00] Kandel, E. R., Schwartz, J. H. & Jessel, T. M. Priciples of Neural Science.McGraw Hill. (2000).

[Kas83] Kass, M. “A Computational Framework for the Visual CorrespondenceProblem”. Proceedings of the Eighth International Joint Conference onArtificial intelligence. (1983).

[Kas88] Kass, M. “Linear Image Features in Stereopsis”. The International Journalof Computer Vision. (1988).

[Kla98] Klarquist, W. N. & Bovik, A. C., “FOVEA: A Foveated Vergent ActiveStereo Vision System for Dinamic Three-Dimensional Scene Recovery”,IEEE Trans. on Robotics and Automation, vol. 14, no. 5, (1998)

[KMM77] Kelly R.E., McConnell, P.R.H. & Mildenberger, S.J. “ The GestaltPhotomapper; Photogrammetric Engineering and Remote Sensing”. (1977).

[Kol01] Kolmogorov, V. & Zabih, R., “Computing Visual Correspondence withOcclusions Using Graph Cuts”, International Conference on ComputerVision, (2001): 508-515.

[Koc86] Koch C., Marroquin J. & Yuille A. “Analog "neuronal" networks in earlyvision”, Proceedings of the National Academy of Sciences USA 83, (1986):4263-4267.

[KvD76] Koenderink, Jan A. & van Doorn, A.J. Geometry of Binocular Vision anda Model for Stereopsis. Biological Cibernetics. (1976).

[Lap82] Lappin J.S. & Fuqua M. “Non-linear recruitment in the visual detection ofmoving patterns”, Investigative Ophthalmology and Visual ScienceSupplement 22, 123.(1982).

Page 238: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Bibliografía y Enlaces

214

[Law89] Lawton T.B. “Outputs of paired Gabor filters summed across thebackground frame of reference predict the direction of movement”. IEEETransactions of Biomedical Engineering, no. 36, (1989): 130-139.

[Lee90] Lee, S. U., Chung, S. Y. & Park, R.H. “A Comparative Performance Studyof Several Global Thresholding Techniques for Segmentation”. ComputerVision, Graphics and Image Processing. vol. 52. no.2. (1990): 171-190.

[Lop03a] López, M. T., Fernández, M. A., Fernandez-Caballero, A. & Delgado A. E.,“Neurally Inspired Mechanisms for the Dinamic Visual Attention MapGeneration Task”, Mira, J & Álvarez, J. R. (Eds.) Computational Methodsin Modeling Computation, IWANN’03, Springer-Verlag, (2003): 694-701

[Lop03b] López, A. & Pla, F., “Visión Estereoscópica Basada en Regiones Medianteuna Técnica de Minimización”, Universitat Jaume I. (2003)

[Lop04] López, M. T., “Modelado Computacional de los Mecanismos de AtenciónSelectiva Visual Mediante Redes de Interacción Lateral”, Tesis Doctoral.Universidad Nacional de Enseñanza a Distancia (2004).

[MAM00] Mira, J., Alvarez, J.R., & Martinez, R. ”Knowledge Edition and Reuse inDIAGEN: A Relational Approach”, IEE Proceedings Software, 147(5),(2000): 151-162.

[Mar80] Marr, D. & Hildreth, E. “Theory of Edge Detection”. Procedings RealSociety of London. vol B207. (1980): 187-217

[Mar81] Marr D. & Ullman S. “Directional selectivity and its use in early visualprocessing”. Proceedings of the Royal Society of London, B, no. 211,(1981). 151-180.

[Mar82] Marr, D. “Vision”. Freeman. San Francisco. (1982)[Mar98] Martin, J. H. “Neuroanatomía”. Prentice Hall (1998).[Mat75] Maturana, H.R. The Organization of the Living: A Theory of the Living

Organization”. International Journal of Man-Machine Studies, 7, (1975):313-332.

[Mat89] Matthies, L & Okutomi, M. “Bootstrap Algorithms for Dinamic StereoVision”, Proceedings of the 6th Multidimensional Signal ProcesssingWorkshop, (1989): 12-.

[McC74] McCann J.J., Savoy R.L., Hall J.A. & Scarpetti J.J. “Visibility ofcontinuous luminance gradients”. Vision Research, no. 14, (1974):917-927.

[McK85] McKee S.P. & Welch L. “Sequential Recruitment in the Discrimination ofVelocity”. Journal of the Optical Society of America A, 2, (1985): 243-251.

Page 239: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

215

[MHD98] Mira, J., Herrero, J.C., & A.E. Delgado. Where is Knowledge inComputational Intelligence? On the Reduction of the Knowledge Level tothe Level Below”. In Proceedings 24th EUROMICRO Conference, IEEE,II, (1998): 723-732.

[Mir87] Mira, J., & Delgado, A.E. “Some Comments on the AntropocentricViewpoint in the Neurocybernetic Methodology”. In Proceedings of theSeventh International Congress of Cybernetics and Systems, 2, (1987):891-895.

[Mir01] Mira, J. & Delgado, A. E. “What Can We Compute with Lateral InhibitionCircuits”, Mira, J. & Prieto, A. (eds,) Connectionist Models of Neurons,Learning Processes and Artificial Intelligence. Lecture Notes in ComputerScience 2084 Springer-Verlag, (2001): 38-46.

[Mir03a] Mira, J., & Delgado, A.E. “Where is Knowledge in Robotics? SomeMethodological Issues on Symbolic and Connectionist Perspectives of AI”.In C. Zhou, D. Maravall, and Da Rua (eds.), Autonomous Robotic Systems,chap. 1, Physical-Verlag, Springer-Verlag, (2003): 3-34.

[Mir03b] Mira, J., Fernández, M. A. López, M. T., Delgado, A. E. & Fernández-Caballero, A. “A Model of neural Inspiration for Local AccumulativeComputation”, 9th. International Conference on Computer Aided SystemsTheory, EUROCAST 2003, Lecture Notes in Computer Science 2809,Springer Verlag (2003): 427-435.

[Mir04] Mira, J., Delgado, A. E., Fernández-Caballero, A. & Fernández, M. A.“Knowledge Modelling for the Motion Detection Task: The AlgorithmicLateral Inhibition Method”. Aceptado, Expert Systems with Applications,27 (2), Elsevier Science. (2004).

[MN85] Medioni, G. & Nevatia, R. “Segment-Based Stereo Matching”. ComputerVision, Graphics, and Image Processing. (1985).

[Mor68] Moreno-Díaz, R. “Realizability of a Neural Network Capable of allPossible Modes of Oscillation. In: Caianiello, E. (ed.): Neural Network.Springer-Verlag (1968) 70-78

[MP76] Marr, D. & Poggio, T. “Cooperative Computation of Stereo Disparity”.Science. (1976).

[MP79] Marr, D. & Poggio, T. “A Computational Theory of Human Stereo Vision”.Proceedings of the Royal Society of London. (1979).

[Müh02] Mühlmann, K., Maier, D., Hesser, J. & Männer, R., “Calculating DenseDisparity Maps from Color Stereo Images, an Efficient Implementation”,International Journal of Computer Vision, vol. 47, no. 1, (2002): 79-88.

Page 240: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Bibliografía y Enlaces

216

[Nak83] Nakayama K. & Silverman G.H. “Perception of moving sinusoidal lines”.Journal of the Optical Society of America A, 72, (1983).

[Nak84] Nakayama K. & Silverman G.H. “Temporal and spatial characteristics ofthe upper displacement limit for motion in random dots”. Vision Research24, (1984): 293-299.

[Nev76] Nevatia, R. “Depth Measurement by Motion Stereo”, Computer Graphicsand Image Processing, vol. 5, (1976): 203-214.

[Nis84] Nishihara, H.K. “PRISM, a Practical Real-Time Imaging Stereo Matcher;Technical Report”. A.I.Memo 780 MIT. MIT Press. (1984).

[NP82] Nishihara, H.K. & Poggio, T. “Hidden Cues in Random Line Stereograms”.Nature. (1982).

[OK85] Ohta, Y. & Kanade T. “Stereo by Intra- and Interscanline Search”. IEEETransactions on Pattern Analisys and Machine Intelligence. IEEE. (1985).

[Oku93] Okutomi, M. & Kanade, T. “A Multiple-Baseline Stereo”, IEEE Trans. onPattern Analysis and Machine Intelligence, vol. 15, no. 4, (1993): 355-363.

[Opp99] Oppenheim, A. V. & Schafer, R. W., “Tratamiento de Señales en TiempoDiscreto”. Prentice Hall. (1999).

[Par01] Park, S. K. & Kweon, I. S., “Robust and Direct Estimation of 3-D Motionand Scene Depth from Stereo Image Sequences”, Pattern Recognition, vol.34, no. 9 (2001): 1713-1728.

[PMF85] Pollard, S.B., Mayhew, J.E.W. & Frisby, J.P. “A Stereo CorrespondenceAlgorithm Using a Disparity Gradient Constraint”. Perception. (1985).

[Pra79] Prager J.M. “Segmentation of static and dynamic scenes”. COINSTechnical Report 79-7. University of Massachusetts (1979). .

[Pra83] Prager J.M. & Arbib M.A. “Computing the optic flow: The MATCHalgorithm and prediction”. Computer Vision, Graphics and ImageProcessing, 24, (1983): 271-304.

[Pre70] Prewitt, J.M.S. “Object Enhancement and Extraction”. Picture Processingand Psychopictorics. Lipkin, B.S. and Rosenfeld, A. (eds.), AcademicPress. New York. (1970).

[Qua84] Quam, L. H. “Hierarquical Warp Stereo”, Image Understanding Workshop(1984): 149-155.

[Ree00] Reed, M. K. & Allen, P. K. “Constraint-Based Sensor Planning for SceneModeling”. IEEE Trans. on Pattern Analysis and Machine Intelligence. vol.22. (2000): 1460-1467.

[Res03] Reskó, B., Stubán, N. & Nagy, S. “Artificial Neural Network Based StereoMatching in Stereo Vision System”, Budapest University of Technologyand Economics (2003)

Page 241: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

217

[Rob65] Roberts, L.G. “Machine Perceptions of Three-Dimensional Solids”. Opticaland Electro-Optical Information Processing. Tippet, J. T. (ed). MIT Press(1965).

[Rus95] Russ, J. C. “Thresholding Images”. Computer Assisted Microscopy. vol. 7.no. 3. (1995): 41-164.

[Sah88] Sahoo, P. K., Soltani, S., Wong, A. K. & Chan, Y. C. “A Survey ofThresholding Techniques.”. Computer Vision, Graphics and ImageProcessing. vol. 4. (1988): 233-260.

[San88] Sanger, T. D. “Stereo Disparity Computation using Gabor Filters”.Biological Cybernetics. no. 59. (1988).

[Sch94] Scharstein, S. “Matching Images by Comparing Their Gradients Fields”,ICPR, vol. 1, (1994): 572-575.

[Sch01] Schreiber, A., Akkermans, H., Anjewierden, A., de Hoog, R., Shadbolt, N.,van de Welde, W., & Wielinga, B. “Knowledge Engineering andManagement. The CommonKADS Methodology”, The MIT Press.(2001).

[Sch02] Scharstein, D & Szeliski, R., “A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms.”, International Journal ofComputer Vision, vol. 47, no.1, (2002): 7-42.

[Ser89] Sereno M.I. “Learning the solution to the aperture problem for patternmotion with a Hebb rule”. Advances in Neural Information ProcessingSystems, 2, Morgan-Kaufman. (1989).

[Sil77] Sillito A.M. “Inhibitory processes underlying the directional specificity ofsimple, complex and hypercomplex cells in the cat's visual cortex”. Journalof Physiology, 271, (1977): 699-720.

[Sil00] Silva, C. & Santos-Victor, J. “Intrinsic Images for Dense Stereo Matchingwith Occlusions”. Proceedings on European Computer Vision. (2000): 100-114.

[Smi04] Smith, P., Drummond, T. & Cipolla, R., “Layered Motion Segmentationand Depth Ordering by Tracking Edges”, Trans. on Pattern Analysis andMachine Intelligence, vol.26, no.4, (2004): 479-494.

[Sob78] Sobel, I. “Neighbourhood Coding of Binary Images for Fast ContourFollowing and General Array Binary Processing”. Computer Graphics andImage Processing. vol. 8. (1978): 127-135.

[Ste97] Stewart, C. V. “Bias in Robust Estimation Caused by Discontinuous andMultiple Structures”. IEEE Trans. on Pattern Analysis an MachineIntelligence. vol. 19. no. 8. (1997): 818-833.

[Str02] Strecha, C. & Van Gool, L. J. “Motion-Stereo Integration for DepthEstimation” ECCV02, (2002)

Page 242: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Bibliografía y Enlaces

218

[Sun97] Sun, R., & Alexandre, F. “Connectionist - Symbolic Integration”, LEAPublishers: London.(1997).

[Sun02] Sun, C., “Fast Stereo Matching Using Rectangular Subregioning and 3DMaximum-Surface Techniques”, International Journal of Computer Vision,val.47, no. 13, (2002): 99-117.

[Sun03] Sun, J., Zheng, N. N. & Shum H. Y., “Stereo Matching Using BeliefPropagation”, IEEE Trans. on Pattern Analysis and Machine Intelligence,vol. 25, no.7, (2003): 787-800.

[Tab01] Taboada, M., Des, J., Mira, J., & Marin, R. Diagnosis Systems in Medicinewith Reusable Knowledge Components”, IEEE Intelligent Systems, 16(6),(2001): 68-73.

[Tho81] Thompson W.B. & Barnard S.T. “Lower-level estimation and interpretationof visual motion”. IEEE Computer vol. 14, (1981): 20-28.

[Tom98] Tomasi, C. & Manduchi, R. “Stereo Matching as a Nearest NeighborProblem”. IEEE Trans. on Pattern Analysis an Machine Intelligence”. vol.20. (1998): 333-340.

[Tru98] Trucco, E. & Verri, A. “Introductory Techniques for 3-D ComputerVision”, Prentice Hall, (1998).

[Tsa03] Tsai, J. J. & Victor, J. D., “Reading a Population Code: a Multi-ScaleNeural Model for Representing Binocular Disparity”, Vision Research, vol.43. (2003) 445-466.

[Val88] de Valois R.L. & de Valois K.K. “Spatial Vision”. New York. Ed. OxfordUniversity Press, (1988).

[Var79] Varela, F.. J. “Principles of Biological Autonomy”, The North HollandSeries in General Systems Research, North-Holland: New York. (1979).

[Vek02] Veksler, O., “Stereo Correspondence with Compact Windows viaMinimum Ratio Cycle”, Trans. on Pattern Analysis an MachineIntelligence”. vol. 24. no. 12, (2002): 1654-1660.

[Ven95] Venkateswar, V. & Chellappa, R. “Hierarchical Stereo and MotionCorrespondence Using Feature Groupings”. International Journal ofComputer Vision. vol. 15. (1995): 245-269.

[Wan96] Wang, W. % Duncan, J. H., “Recovering the Three Dimensional Motionand Structure of Multiple Moving Objects from Binocular Image Flows”,Computer Vision and Image Understanding, Vol. 63, No. 3, (1996): 430-446.

[Wat85] Watson A.B. & Ahumada A.J. “Model of human visual motion sensing”.Journal of the Optical Society of America A, 2 (2), (1985): 322-341.

Page 243: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

219

[Wei04] Wei, Y. & Quan, L., “Region-Based Progressive Stereo Matching”. CVPR2004, (2004).

[Wil89] Wilson, R. & Knutsson, H., “A Multiresolution Stereopsis AlgorithmBased on Gabor Representation”. Proceedings of the IEE InternationalConference on Image Processing and Applications. (1989): 19-22

[Wil91] Wildes, R. P. “Direct Recovery of Three-Dimensional Scene Geometryfrom Binocular Stereo Disparity”. IEEE Transactions on Pattern Analisisand Machine Intelligence. IEEE. (1991).

[Wit87] Witkin, A. Terzopoulos, D. & Kass, M. “Signal Matching Through ScaleSpace”, International Journal of Computer Vision, vol. 1 (1987): 133-144.

[YiO97] Yi, J. W. & Oh, J. H., “Recursive Resolveing Algorithm For MultipleStereoand Motion Matches”, Image and Vision Computing, Vol. 15, no.3,(1997): 181-196.

[Yui88] Yuille A.L. & Grzywacz N. “A computational theory for the perception ofcoherent visual motion”, Nature 333, (1988): 71-74.

[Zab94] Zabih, R. & Woodfill, J. “Non Parametric Local Transforms for ComputingVisual Correspondence”. Proceedings Third European Conference onComputer Vision”. (1994): 150-158.

[Zit00] Zitnick, C. L. & Kanade, T., “A Cooperative Algorithm for StereoMatching and Occlusion Detection”, IEEE Trans. on Pattern Analysis andMachine Intelligence, vol. 22, no.7, (2000)

7.3. Enlaces Web

www.vison3d.com/stereo.html Punto de vista fisiológico.

www.inria.fr/robotvis/demo/rkeriv/stereo.html Visión estéreo.

www.merl.com/threads/vision/index.html Visión estéreo.

server.esc.cquest.utoronto.ca/psych/psy280f/ch7/chaprter7.html Punto de vista psicológico.

jsamper/webjump.com Apartado dedicado a la visión estéreo.

www.dia.uned.es/ia/asignaturas/vision Visión artificial.

Page 244: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Bibliografía y Enlaces

220

extra,cmis.csiro.au/IA/changs/stereo Matching mediante división en subregionesrectangulares.

www.middlebury.edu/stereo Algunas comparativas interesantes de [Sch02].

www.shef.ac.uk/eee/esg/compvis/temporal_stereo.html Combinación de informaciónespacial y temporal para análisis estereo.

www.cs.ubc.ca/spider/jhoey/review/review.html Visión estereoscópica natural y artificial.

www.ien.it/is/rec3d/index.shtml Reconstrucción 3D para manipulación autónoma.

labvisione.deis.unibo.it/~smattoccia/stereo.htm Visión estéreo

Page 245: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

221

ANEXO

Page 246: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Anexo

222

Funciones de prueba en Matlab

Segmentación en bandas de niveles de gris

function BNGt=SegBNG(NGt, BNGt_1, L_NB, L_SB)

escalon=256/L_NB; % Intervalo de bandas de niveles de gris

% Limites de las bandas

Emin=max((BNGt_1 * escalon) - L_SB, 0); %limites de las bandasEmax=min(((BNGt_1 + 1) * escalon) + L_SB, 255);

% Deteccion de pixeles que cambian de banda% Los que no cambian de banda se ponen a cero

supEmax=min(max(NGt - Emax, 0), 1); % 1 para todos los pixeles por encima de Emax

infEmin=min(max(Emin - NGt, 0), 1); % 1 para los que esten por debajo de Emin

% Nuevas bandas sin considerar solape

BNGt=fix(NGt/escalon);

% Consideracion del solape

BNGt=BNGt_1 + ((BNGt - BNGt_1) .* (supEmax + infEmin));

Page 247: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

223

Detección de movimiento 2D

function MOV2 = DetMov2D(BNGt, BNGt_1)

% Si no hay movimiento se pone a 0% Resto a 1

MOV2=min(1, abs(BNGt-BNGt_1));

Obtención del Mapa de Carga 2D

function C2 = MapCarga2D(C2t_1, MOV2, L_C2des)

% Si no hay movimiento MOV2=0 % Si hay movimiento 1-MOV2=0

C2=max(0, (255 * MOV2 + ((1-MOV2) .* (C2t_1 - L_C2des))));

Separación de hemicampos visuales

function [L_H2dd, L_H2id]=sepHemi_d(L_C2d, Hmax, L_Dmax)

L_H2dd=L_C2d(:, round(Hmax/2)-L_Dmax : Hmax); % parte derecha L_H2id=L_C2d(:, 1:round(Hmax/2)); % parte izquierda

function [L_H2di, L_H2ii]=sepHemi_i(L_C2i, Hmax, L_Dmax)

L_H2di=L_C2i(:, round(Hmax/2)+1 : Hmax); % parte derecha L_H2ii=L_C2i(:, 1:round(Hmax/2)+L_Dmax); % parte izquierda

Page 248: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Anexo

224

Análisis de correspondencias puntuales

function L_Sa3d=CorresPunt_d(L_H2id, L_H2dd, d, L_Dmax, Hmax)

L_Sa3d=abs(L_H2dd(:, L_Dmax+1-d:round(Hmax/2)+L_Dmax-d) - L_H2id);

function L_Sa3i=CorresPunt_i(L_H2ii, L_H2di, d, L_Dmax, Hmax)

L_Sa3i=abs(L_H2ii(:, 1+d:round(Hmax/2)+d) - L_H2di);

Tamaño de regiones de disparidad constante

function L_S3=TamRegion(L_Sa3, nulos, L_Dmax, Hmax, Vmax, L_umbral)

% Conteo horizontal de cargas hacia "u" mayores L_S3(:,1)=max(min((L_umbral+1-L_Sa3(:,1)),1),0); % Carga actual de la primera columna

for u=2:round(Hmax/2) % carga actual de las restantes columnas L_S3(:,u)=max(min((L_umbral+1-L_Sa3(:,u)),1),0); L_S3(:,u)=(L_S3(:,u)+L_S3(:,u-1)).*L_S3(:,u).*nulos(:,u);end

% Homogeneizacion hacia "u" menoresfor u=round(Hmax/2)-1:-1:1 L_S3(:,u)=max(L_S3(:,u), L_S3(:,u+1)).*min(L_S3(:,u),1);end

% Acumulacion de carga hacia "v" mayoresfor v=2:Vmax L_S3(v,:)=(L_S3(v,:)+L_S3(v-1,:)).*min(L_S3(v,:),1);end

Page 249: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

225

% Homogeneizacion hacia "v" menoresfor v=Vmax-1:-1:1 L_S3(v,:)=max(L_S3(v,:), L_S3(v+1,:)).*min(L_S3(v,:),1);end

Obtención del mapa de profundidad

function L_D3=MapaProf(L_S3)

[maximo L_D3] = max(L_S3, [], 3);

Detección del movimiento 3D

function L_MOV3 = DetMov3D(L_D3_t, L_D3_t_1, Hmax, Vmax, L_Dmax)

% Si no hay movimiento se pone a 0% Resto a 1

L_MOV3=zeros(Vmax, Hmax, L_Dmax+1);for v=1:Vmax for u=1:Hmax L_MOV3(v,u,L_D3_t(v,u))=min(1, abs(L_D3_t(v,u) - L_D3_t_1(v,u))); endend

Page 250: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Anexo

226

Análisis de velocidades en el marco de referencia

function L_vel_z=VeloProf(L_C3, L_D3, L_Dmax, Hmax, Vmax)

L_vel_z=zeros(Vmax, Hmax); calc_vel=ones(Vmax, Hmax, 4); calc_vel(:,:,4)=0; finvel=Vmax*Hmax; hvel=waitbar(0,'Estimacion de velocidad. Espera, por favor...'); cuentavel=0; for v=1:Vmax for u=1:Hmax d=L_D3(v,u); cuenta=1; vector=zeros(L_Dmax, 2); for k=4:L_Dmax+1 % regresion de velocidad if L_C3(v,u,k)~=0 vector(cuenta,1)=L_C3(v,u,k); % carga vector(cuenta,2)=k; % disparidad cuenta=cuenta+1; end end if cuenta>2 [m ind]=max(vector(:,1)); if ind <= (cuenta/2) L_vel_z(v,u)=-1; else L_vel_z(v,u)=1; end end waitbar(cuentavel/finvel,hvel); cuentavel=cuentavel+1; end end close(hvel);

Page 251: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

227

Programa principal

%-------------------------------------------% inicializacion de nombres y numeros%-------------------------------------------

ent=['..\imagenes\pares3d\secuenciasLW\Pelota2\Pelota']; % ficheros de entradaban=['pelota2\Bandas\Pelota']; % salida de segmentacion en bandasper=['pelota2\Perma\pelota']; % salida de memoria de permanenciassalida=['pelota2\Salida\Pelota']; % salida estereovelocidad=['pelota2\veloz\Pelota']; % salida velocidad

num_ini=1; % fotograma inicialnum_fin=240; % fotograma finalNB=8; % numero de bandasSB=0; % solape entre bandasC2des=16; % carga de las memorias de permanencia 2D indoor(64-128)C3des=16; % carga de las memorias de permanencia 3D indoor(64-128)Dmin=0; % resto(0),indoora(15),outdoora(15)Dmax=15; % disparidad maxima detectable: Cubos(8),Pasillo(15), % Pelota(15),outdoora(32),outdoorb(16),indoora(30), % indoorb(21), CubosCerca(15),umbral=1; % umbral de diferencias para pixeles iguales

horizontal=0; % tamaños mascara de vecindadvertical=0;

hfoto=waitbar(0,'Conteo de fotogramas. Espera, por favor...');

% --------------------------------------------------------------% preparacion del sistema con el primer fotograma% --------------------------------------------------------------

nombre_d=[ent 'r0001.bmp'];nombre_i=[ent 'l0001.bmp'];NGd=imread(nombre_d);NGi=imread(nombre_i);

Page 252: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Anexo

228

tam=size(NGd);

if sum(tam)~=tam(1)+tam(2) % eliminacion del color NGd=rgb2gray(NGd); NGi=rgb2gray(NGi);end

NGd=double(NGd);NGi=double(NGi);

% segmentacion en bandas de nivel de gris

BNGd_t_1=SegBNG(NGd, zeros(tam(1), tam(2)), NB, 0);BNGi_t_1=SegBNG(NGi, zeros(tam(1), tam(2)), NB, 0);

% Inicializacion de mapas de carga

C2d=zeros(tam(1), tam(2))+255;C2i=zeros(tam(1), tam(2))+255;

D3_t_1=zeros(tam(1), tam(2));C3=zeros(tam(1), tam(2), Dmax+1);

% ----------------------------------------------------% Sucesion de fotogramas% ----------------------------------------------------

for foto=num_ini+1:num_fin

% Inicializacion de nombre de fotograma if foto < 10 resto_d=['r000' int2str(foto) '.bmp']; resto_i=['l000' int2str(foto) '.bmp']; resto=['000' int2str(foto) '.bmp']; elseif foto < 100 resto_d=['r00' int2str(foto) '.bmp']; resto_i=['l00' int2str(foto) '.bmp']; resto=['00' int2str(foto) '.bmp'];

Page 253: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

229

elseif foto < 1000 resto_d=['r0' int2str(foto) '.bmp']; resto_i=['l0' int2str(foto) '.bmp']; resto=['0' int2str(foto) '.bmp']; else resto_d=['r' int2str(foto) '.bmp']; resto_i=['l' int2str(foto) '.bmp']; resto=['' int2str(foto) '.bmp']; end

% Preparacion del fotograma actual NGd=imread([ent resto_d]); NGi=imread([ent resto_i]);

if sum(tam)~=tam(1)+tam(2) % Eliminacion del color NGd=rgb2gray(NGd); NGi=rgb2gray(NGi); end

NGd=double(NGd); NGi=double(NGi);

% segmentacion en bandas

BNGd_t=SegBNG(NGd, BNGd_t_1, NB, SB); BNGi_t=SegBNG(NGi, BNGi_t_1, NB, SB);

imwrite(uint8(BNGd_t*256/NB), [ban resto_d], 'BMP'); %salida a fichero imwrite(uint8(BNGi_t*256/NB), [ban resto_i], 'BMP');

% Deteccion de movimiento MOV2d=DetMov2D(BNGd_t, BNGd_t_1); MOV2i=DetMov2D(BNGi_t, BNGi_t_1);

Page 254: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Anexo

230

% Efecto de permanencia C2d=MapCarga2D(C2d, MOV2d, C2des); C2i=MapCarga2D(C2i, MOV2i, C2des); imwrite(uint8(C2d), [per resto_d], 'BMP'); % salida a fichero imwrite(uint8(C2i), [per resto_i], 'BMP');

% Separacion de hemicampos visuales

[H2dd, H2id]=sepHemi_d(C2d, tam(2), Dmax); %imagen derecha [H2di, H2ii]=sepHemi_i(C2i, tam(2), Dmax); %imagen derecha

% --------------------------------------------------------% Analisis de disparidad de carga% -------------------------------------------------------- % Inicializacion de variables

S3d=zeros(tam(1), tam(2)/2, Dmax+1); % Mapa de correspondencias: tamaños S3i=zeros(tam(1), tam(2)/2, Dmax+1); % de regiones disparidad constante

Sa3d=zeros(tam(1), tam(2)/2); % Mapa de correspondencias puntuales Sa3i=zeros(tam(1), tam(2)/2); % PARA UNA DISPARIDAD DADA

% Barra de evolucion del bucle (inicializacion)

h=waitbar(0,'Analisis de correspondencias. Espera, por favor...');

% Analisis para cada disparidad for i=Dmin:Dmax % Correspondencias puntuales Sa3d=CorresPunt_d(H2di, H2dd, i, Dmax, tam(2));

Page 255: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

231

Sa3i=CorresPunt_i(H2ii, H2id, i, Dmax, tam(2)); % Tamaño de regiones de disparidad constante

nulos_d=max(min(H2dd(:,Dmax+1-i:(tam(2)/2)+Dmax-i)+H2di,1),0); nulos_i=max(min(H2ii(:,1+i:(tam(2)/2)+i)+H2id,1),0); % "nulos_*" contiene informacion de pixeles con movimiento

S3d(:,:,i+1)=TamRegion(Sa3d, nulos_d, Dmax, tam(2), tam(1), umbral); S3i(:,:,i+1)=TamRegion(Sa3i, nulos_i, Dmax, tam(2), tam(1), umbral);

waitbar(i/Dmax,h); end close(h)

% mascara de vecindad if horizontal+vertical>0 mascara=zeros(2*vertical+1,2*horizontal+1); for y=1:2*vertical+1 for x=1:2*horizontal+1 mascara(y,x)=(1/2^abs(y-vertical-1))*(1/2^abs(x-horizontal-1)); end end clear final_i; clear final_d; for k=1:disp_max+1 final_d(:,:,k)=conv2(S3d(:,:,k), mascara); final_i(:,:,k)=conv2(S3i(:,:,k), mascara); end final_d=final_d(vertical:(tam(1)+vertical-1),horizontal:((tam(2)/2)+horizontal-1),:); final_i=final_i(vertical:(tam(1)+vertical-1),horizontal:((tam(2)/2)+horizontal-1),:); else final_d=S3d; final_i=S3i; end

Page 256: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Anexo

232

% Obtencion del Mapa de Profundidad 3D % estimacion de disparidades con mas confianza

D3d=MapaProf(final_d); D3i=MapaProf(final_i);

% Unificacion de hemisferios en un mismo mundo visual D3_t=zeros(tam(1), tam(2)); D3_t(:,1:tam(2)/2)=D3i; D3_t(:,((tam(2)/2)+1):tam(2))=D3d;

imwrite(uint8((D3_t-Dmin)*255/(Dmax-Dmin)), [salida resto], 'BMP');

% -------------------------------------------------- % Obtencion del Mapa de Carga 3D% --------------------------------------------------

% Deteccion de movimiento en Z

MOV3=DetMov3D(D3_t, D3_t_1, tam(2), tam(1), Dmax); % Efecto de permanencia C3=MapCarga3D(C3, MOV3, C3des);

% --------------------------------------------------% Obtencion del Movimiento 3D% -------------------------------------------------- vel_z=VeloProf(C3, D3_t, Dmax, tam(2), tam(1)); imwrite(uint8(((vel_z/max(max(vel_z)))*127)+127), [velocidad resto], 'BMP'); % Fin del procesamiento de un fotograma y preparacion del siguiente

BNGd_t_1=BNGd_t;

Page 257: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica

233

BNGi_t_1=BNGi_t; D3_t_1=D3_t; waitbar(foto/num_fin,hfoto);endclose(hfoto);

Page 258: etsiiab.uclm.esetsiiab.uclm.es/~jmlova/Archivos/04-TesisJMLV.pdf · Estereopsis y Movimiento. Modelo de Disparidad de Carga: un Enfoque con Inspiración Biológica i Indice Indice

Anexo

234