Planificación óptima de movimiento y aprendizaje por refuerzo en vehículos móviles autónomos

  1. Gómez Plaza, Mariano
unter der Leitung von:
  1. Sebastián Sánchez Prieto Doktorvater
  2. Tomás Martínez Marín Co-Doktorvater/Doktormutter

Universität der Verteidigung: Universidad de Alcalá

Fecha de defensa: 10 von Dezember von 2009

Gericht:
  1. Daniel Meziat Luna Präsident/in
  2. Miguel Angel Sotelo Vázquez Sekretär
  3. Félix Monasterio-Huelin Maciá Vocal
  4. Pedro Gómez Vilda Vocal
  5. Pedro José Zufiria Zatarain Vocal
Fachbereiche:
  1. Automática

Art: Dissertation

Zusammenfassung

El presente trabajo de investigación se ha centrado en la propuesta de un algoritmo, capaz de realizar una planificación óptima de movimiento en vehículos móviles autónomos, pasándose en técnicas de control óptimo en lazo cerrado. Estos vehículos se caracterizan por estar dotados de cuatro ruedas, con dirección delantera y tracción delantera o trasera y, fundamentalmente, por ser sistemas dinámicos no lineales en los cuales la planificación de movimiento y su control, son tareas complejas, debido a que se trata de sistemas no-holonómicos. Todos los estudios llevados a cabo para la puesta en práctica de esta planificación óptima se han realizado considerando como base teórica los conceptos de aprendizaje por refuerzo y espacio de estados celular. El nuevo algoritmo propuesto tiene la peculiaridad de ser muy robusto ante posibles cambios en el entorno o en la estructura física o mecánica del propio vehículo, de manera que la generación del controlador óptimo vendrá dada, una vez que se haya ejecutado previamente una fase de aprendizaje por la que estos cambios se habrán tenido en cuenta de forma implícita por el algoritmo. El aprendizaje está orientado a alcanzar un objetivo de acuerdo a un criterio de optimización (p.e. tiempo mínimo). El vehículo aprende de su propia experiencia, la dinámica y cinemática sin necesidad de disponer de modelos matemáticos. Además, otro aspecto del algoritmo que reduce drásticamente el tiempo de aprendizaje es su capacidad para extrapolar el conocimiento adquirido localmente en una zona del espacio, al resto del espacio sin necesidad de que el vehículo se mueva físicamente a todos los puntos de dicho espacio. Una vez que el aprendizaje concluye, la generación de trayectorias desde diversos orígenes para alcanzar el objetivo deseado se hace en lazo cerrado aplicando en cada momento las acciones de control óptimas dependiendo de las condiciones de estado del vehículo en dicho momento.