Clasificación y seguimiento visual de entidades en entornos urbanos mediante redes de neuronas convolucionales

García, Francisco José

Clasificación y seguimiento visual de entidades en entornos urbanos mediante redes de neuronas convolucionales

García, Francisco José

Dirigida por:

Antonio Sanz Montemayor Director/a
Alfredo Cuesta Infante Codirector/a

Universidad de defensa: Universidad Rey Juan Carlos

Fecha de defensa: 16 de diciembre de 2022

Tribunal:

Roberto Javier López Sastre Presidente
César Beltrán Royo Secretario/a
Ana María Bernardos Vocal

Tipo: Tesis

Teseo: 763813 DIALNET

Resumen

Con la llegada del IoT (Internet of Things o Internet de las cosas) y el concepto de Smart City (Ciudad Inteligente) existe un creciente interés por monitorizar todos los elementos que están presentes en nuestras ciudades. La solución más utilizada para conseguir dicho propósito se basa en instalar sensores de diversos tipos por la ciudad para obtener información. En la última década los sensores de imagen han evolucionado de forma espectacular, multiplicando la calidad y cantidad de información que ofrecen y reduciendo de forma significativa su coste, lo que los hace muy atractivos para su utilización en el ámbito de la monitorización de ciudades. Por otra parte, la evolución de los sistemas de Machine Learning o Aprendizaje Automático han conseguido resultados que eran impensables hace pocos años, consiguiendo en muchas ocasiones superar la capacidad humana. Uno de los elementos más importantes de las ciudades son los peatones. Históricamente la detección, reconocimiento y seguimiento de humanos ha gozado de gran atención en la rama de la Visión Artificial. En esta tesis se analizan y comparan de forma exhaustiva diferentes redes de neuronas convolucionales diseñadas para detectar peatones en secuencias de vídeo y se propone un método de seguimiento utilizándolas de forma combinada con un filtro de partículas. Gracias a la colaboración con la empresa Ecoembes, se planteó el reto de diseñar un sistema para detectar y reconocer contenedores de residuos en secuencias de vídeo tomadas desde un vehículo en marcha. El problema de identificar contenedores de residuos de manera visual es novedoso, dado que no existen trabajos previos o conjuntos de datos disponibles de manera pública. Con el objetivo de su uso en dispositivos empotrados, se ha realizado un estudio de rendimiento y se propone una optimización sobre las redes de detección para mejorar la velocidad de inferencia. En la categoría de las redes convolucionales para la clasificación de objetos, una de las íltimas aportaciones notables han sido las redes de cápsulas o CapsNets. Este tipo de redes han conseguido resultados del estado de arte en conjuntos de datos clásicos como los dígitos manuscritos de MNIST. En esta tesis se analiza como se comportan este tipo de redes en un conjunto de datos realista como el de imágenes de contenedores de residuos. También se demuestra como optimizar este tipo de redes para aumentar su eficiencia.