Vision based localization: from humanoid robots to visually impaired people

Fernández Alcantarilla, Pablo

Vision based localizationfrom humanoid robots to visually impaired people

Fernández Alcantarilla, Pablo

unter der Leitung von:

Luis M. Bergasa Pascual Doktorvater

Universität der Verteidigung: Universidad de Alcalá

Fecha de defensa: 21 von Oktober von 2011

Gericht:

Miguel Angel Sotelo Vázquez Präsident
Daniel Pizarro Pérez Sekretär
José María Martinez Montiel Vocal
Walterio W. Mayol Cuevas Vocal
Miguel Cazorla Quevedo Vocal

Fachbereiche:

Electrónica

Art: Dissertation

Teseo: 316490 DIALNET e_Buah editor

Zusammenfassung

En la actualidad, las aplicaciones 3D presentan un gran interés en diversos campos tales como la robótica, la visión artificial o la realidad aumentada. Mediante el uso de cámaras y técnicas de visión artificial, se pueden obtener modelos 3D precisos en grandes entornos tales como ciudades. Además, las cámaras son unos sensores no invasivos y de bajo coste en comparación con otros sensores tales como el láser y que ofrecen una gran información sobre el entorno. Una aplicación de gran interés es la localización visual en un mapa 3D. Los robots necesitan realizar tareas en el entorno de manera autónoma, y para la realización de estas tareas es necesario conocer en que posición se encuentran dentro un mapa de manera precisa. Del mismo modo, proporcionar información de posición y orientación puede ser de mucha utilidad para personas ciegas o con problemas de visión. La movilidad o capacidad de desplazarse de forma independiente y segura tanto en entornos conocidos, como en entornos desconocidos, puede llegar a ser un gran reto para las personas que presentan ceguera o algún tipo de deficiencia visual. Los sistemas comerciales de ayuda a la movilidad de personas invidentes, están basados en tecnología de posicionamiento por satélite GPS. Sin embargo, esta tecnología no es fiable en entornos urbanos para la comunidad de personas invidentes, ya que presenta errores de localización elevados del orden de varios metros y otros problemas asociados a la tecnología GPS como pérdida de la señal o escasa visibilidad de satélites. La tecnología GPS no funciona si no existe un número mínimo de satélites visibles. Por consiguiente, esta tecnología no puede ser utilizada en entornos de interiores. Por lo tanto, es necesario investigar nuevos métodos de localización más precisos y robustos. En esta tesis se desarrollan diversos algoritmos para obtener una localización visual precisa y en tiempo real a partir de un mapa 3D conocido. Para obtener una localización robusta es necesario calcular previamente un mapa 3D del entorno. Para calcular dicho mapa 3D, se utilizan técnicas conocidas como Simultaneous Localization and Mapping (SLAM) o Structure from Motion (SfM). En esta tesis se presenta un sistema de SLAM utilizando una cámara estéreo como único sensor que nos permite obtener reconstrucciones 3D precisas del entorno. El sistema de SLAM propuesto es capaz de detectar posibles objetos en movimiento en un rango cercano a la cámara de aproximadamente 5 metros, gracias a un módulo desarrollado de detección de objetos en movimiento. Los objetos en movimiento se detectan gracias a una representación densa conocida como scene flow que nos permite obtener información sobre la velocidad de los puntos 3D del entorno. Este módulo resulta muy eficaz en entornos muy dinámicos en los que suelen existir una gran cantidad de objetos dinámicos tales como peatones. A partir del módulo de detección de objetos en movimiento se evita incorporar puntos 3D erróneos al proceso de SLAM, obteniendo mejores resultados de reconstrucción 3D. Desde nuestro conocimiento, es la primera vez que se aplica la técnica de scene flow denso y detección de objetos en movimiento en el contexto de SLAM visual para entornos complejos y dinámicos, tales como los que se presentan en esta Tesis. Tanto en las técnicas de SLAM como en los algoritmos de localización visual, los puntos 3D del mapa se identifican mediante descriptores de apariencia. A partir de estos descriptores, se realiza la asociación de datos de un punto 3D con una característica 2D detectada en la imagen. En esta tesis se ha desarrollado una familia nueva de descriptores de apariencia llamada Gauge-Speeded Up Robust Features (G-SURF), los cuáles se basan en el uso de las coordenadas gauge. A partir de este tipo de representación, para cada píxel en la imagen se define un nuevo sistema de coordenadas basado en la estructura local alrededor del píxel de interés. Dicho sistema de coordenadas se define a partir del vector gradiente y la dirección perpendicular a este en el píxel de interés. Se ha realizado una evaluación experimental detallada en aplicaciones de matching, reconocimiento de categorías visuales y aplicaciones de reconstrucción 3D que demuestran la utilidad y mejores resultados de los descriptores G-SURF con respecto a otras propuestas en el estado del arte tales como los descriptores Scale Invariant Feature Transform (SIFT) o SURF. En las aplicaciones de localización visual, uno de los pasos que presentan una mayor carga computacional es la asociación de datos entre un mapa grande de puntos 3D y las características 2D detectadas en la imagen. Los métodos tradicionales normalmente basan esta asociación de datos únicamente en información de apariencia. Estos algoritmos pueden llevar una carga computacional elevada y en entornos con texturas repetitivas, dicha asociación de datos puede dar lugar a corresponencias erróneas. En esta tesis se ha desarrollado un algoritmo para la predicción de la visibilidad de puntos 3D utilizando técnicas de aprendizaje sobre una reconstrucción 3D previa. Gracias a estas técnicas de aprendizaje, se obtiene una mejor y más rápida asociación de datos gracias a la predicción de la visibilidad de los puntos 3D para una pose de cámara. Se han desarrollado y evaluado algoritmos de SLAM y localización visual utilizando información de una sola cámara y un mapa 3D previo para dos aplicaciones diferentes de gran interés: robots humanoides y personas con deficiencia visual. En el caso de los robots humanoides, se ha evaluado el algoritmo desarrollado de localización visual monocular con predicción de visibilidad en distintos escenarios y diversos tipos de secuencias tales como trayectorias rectangulares, circulares, con personas moviéndose en el entorno, cambios de iluminación, etc. Se ha realizado una comparativa del error del sistema de localización y mapeado con respecto a un sistema preciso de captura de movimiento, que demuestra que los errores son del orden de pocos centímetros. También se ha comparado el sistema de localización visual con el algoritmo Parallel Tracking and Mapping (PTAM), obteniendo mejores resultados con el sistema de localización visual propuesto en esta tesis. Respecto a la aplicación de localización de personas con deficiencia visual, se ha evaluado un sistema de localización visual monocular en secuencias de interiores de tipo oficina. También, se ha evaluado el sistema de visual SLAM con detección de objectos de movimiento en pruebas reales con usuarios invidentes considerando entornos interiores muy dinámicos tales como el interior de la estaci´on de trenes de Atocha (Madrid, España) y en la ciudad de Alcalá de Henares (Madrid, España). Los resultados obtenidos demuestran que los algoritmos desarrollados puede ser de gran interés para aplicaciones de localización de usuarios invidentes en grandes entornos.