Supervised learning and inference of semantic information from road scene images

  1. Yebes Torres, José Javier
Dirigida por:
  1. Luis M. Bergasa Pascual Director

Universidad de defensa: Universidad de Alcalá

Fecha de defensa: 25 de julio de 2014

Tribunal:
  1. Miguel Angel Sotelo Vázquez Presidente
  2. Marta Marrón Romera Secretaria
  3. Enrique Cabello Pardos Vocal
  4. Pablo Fernández Alcantarilla Vocal
  5. Luis Baumela Molina Vocal
Departamento:
  1. Electrónica

Tipo: Tesis

Resumen

En la actualidad, la industria del automóvil utiliza cámaras y técnicas de visión para integrar funcionalidades avanzadas que asisten a las personas durante la conducción. Sin embargo, la investigación en vehículos autónomos supone un paso más allá de los sistemas ADAS y es un área de gran interés tanto en el sector académico como industrial. Son muchos los desafíos que surgen a raíz de las plataformas robóticas autónomas en escenarios urbanos, debido principalmente a su complejidad en cuanto a la estructura de la escena y a los participantes dinámicos (peatones, vehículos, vegetación, etc.). Por este motivo, proveer a dichas plataformas de las capacidades para el entendimiento de escenas es un objetivo esencial, ya que las cámaras captan las escenas 3D de forma muy similar a como es percibida por una persona. De hecho, la necesidad de realizar entendimiento de escenas 3D, ha provocado un creciente interés en el etiquetado conjunto de los objetos y la estructura de la escena. Concretamente, con el objetivo de inferir la geometría y otra información semántica relevante en entornos urbanos. En este aspecto, esta Tesis aborda dos desafíos: 1) la predicción de la geometría de intersecciones de carreteras y/o calles y, 2) la detección y la estimación de la orientación de coches, peatones y ciclistas. Para llevar a cabo dicho etiquetado automático, se extraen distintas características visuales de imágenes estéreo pertenecientes a la base de datos pública conocida como KITTI. En consecuencia, para inferir los objetos y las intersecciones en escenas de carretera, esta Tesis propone un aprendizaje supervisado de modelos discriminativos, haciendo uso de técnicas robustas de “aprendizaje máquina” para recolectar la información relevante de las características visuales. Para llevar a cabo la primera de las tareas, se emplean mapas 2D de ocupación, que se construyen a partir de las secuencias estéreo capturadas por un vehículo en movimiento en una ciudad de tamaño medio. En base a estas imágenes de vista de pájaro, se propone una parametrización para carreteras rectas y otra para intersecciones de 4 vías. A su vez, las dependencias entre las variables aleatorias discretas que definen dicha geometría se representan mediante Modelos Gráficos Probabilísticos. A continuación, el problema se formula como una predicción estructurada, utilizando Conditional Random Fields (CRF) para el entrenamiento y convex Belief Propagation (dcBP) y Branch and Bound (BB) para realizar inferencia. La validación de la metodología propuesta se realiza mediante un conjunto de pruebas a partir de imágenes reales e imágenes sintéticas con diferentes niveles de ruido aleatorio. Además se incluye un análisis de las dificultades observadas para el caso de escenas reales, ya que, estas imágenes recuperadas de las secuencias estéreo presentan unos mapas de ocupación dispersos y ruidosos. En relación a la detección y la estimación de la orientación de objetos en scenas de carretera, el objetivo de esta Tesis es competir en el desafío internacional conocido como KITTI evaluation benchmark, que anima a los investigadores a avanzar el estado del arte actual en métodos de reconocimiento visual, y en particular para el entendimiento de escenas 3D urbanas. Esta Tesis propone modificar el detector de objetos basado en partes y ampliamente conocido como DPM, con el propósito de aprender modelos mejorados a partir de datos 2.5D (color y disparidad). Por este motivo, se revisa el planteamiento del DPM, que está basado en descriptores HOG y “mixture models” que se entrenan mediante “latent SVM”. En base a ello, esta Tesis realiza una serie de modificaciones sobre el método DPM: I) Se extiende el proceso de entrenamiento del DPM para adaptarlo a las nuevas “3D-aware features” diseñadas. II) Se realiza un análisis detallado del aprendizaje paramétrico supervisado para distintas configuraciones. III) Se introducen dos planteamientos adicionales con el objetivo de mejorar la detección de objetos: “whitening” de las características visuales y análisis de consistencia entre las vistas estéreo. Adicionalmente, a) se analiza la base de datos de imágenes KITTI y detalles importantes en relación al protocolo de evaluación; b) un largo conjunto de experimentos de validación cruzada muestran el rendimiento de las contribuciones propuestas y se comparan contra una línea de base que usa DPM y, c) finalmente, los resultados de nuestra propuesta se publican en el ranking de la web de KITTI, siendo el primer planteamiento que se publica basado en datos estéreo, obteniendo una mayor precisión en la detección de coches (3%-6%) y consiguiendo el primer puesto para la detección de ciclistas.