Clasificación y seguimiento visual de entidades en entornos urbanos mediante redes de neuronas convolucionales

  1. García, Francisco José
Zuzendaria:
  1. Antonio Sanz Montemayor Zuzendaria
  2. Alfredo Cuesta Infante Zuzendarikidea

Defentsa unibertsitatea: Universidad Rey Juan Carlos

Fecha de defensa: 2022(e)ko abendua-(a)k 16

Epaimahaia:
  1. Roberto Javier López Sastre Presidentea
  2. César Beltrán Royo Idazkaria
  3. Ana María Bernardos Kidea

Mota: Tesia

Teseo: 763813 DIALNET

Laburpena

Con la llegada del IoT (Internet of Things o Internet de las cosas) y el concepto de Smart City (Ciudad Inteligente) existe un creciente interés por monitorizar todos los elementos que están presentes en nuestras ciudades. La solución más utilizada para conseguir dicho propósito se basa en instalar sensores de diversos tipos por la ciudad para obtener información. En la última década los sensores de imagen han evolucionado de forma espectacular, multiplicando la calidad y cantidad de información que ofrecen y reduciendo de forma significativa su coste, lo que los hace muy atractivos para su utilización en el ámbito de la monitorización de ciudades. Por otra parte, la evolución de los sistemas de Machine Learning o Aprendizaje Automático han conseguido resultados que eran impensables hace pocos años, consiguiendo en muchas ocasiones superar la capacidad humana. Uno de los elementos más importantes de las ciudades son los peatones. Históricamente la detección, reconocimiento y seguimiento de humanos ha gozado de gran atención en la rama de la Visión Artificial. En esta tesis se analizan y comparan de forma exhaustiva diferentes redes de neuronas convolucionales diseñadas para detectar peatones en secuencias de vídeo y se propone un método de seguimiento utilizándolas de forma combinada con un filtro de partículas. Gracias a la colaboración con la empresa Ecoembes, se planteó el reto de diseñar un sistema para detectar y reconocer contenedores de residuos en secuencias de vídeo tomadas desde un vehículo en marcha. El problema de identificar contenedores de residuos de manera visual es novedoso, dado que no existen trabajos previos o conjuntos de datos disponibles de manera pública. Con el objetivo de su uso en dispositivos empotrados, se ha realizado un estudio de rendimiento y se propone una optimización sobre las redes de detección para mejorar la velocidad de inferencia. En la categoría de las redes convolucionales para la clasificación de objetos, una de las íltimas aportaciones notables han sido las redes de cápsulas o CapsNets. Este tipo de redes han conseguido resultados del estado de arte en conjuntos de datos clásicos como los dígitos manuscritos de MNIST. En esta tesis se analiza como se comportan este tipo de redes en un conjunto de datos realista como el de imágenes de contenedores de residuos. También se demuestra como optimizar este tipo de redes para aumentar su eficiencia.