Nuevas técnicas de selección de parámetros en máquinas de vectores soporte para regresión

ORTIZ GARCÍA, EMILIO GEDEÓN

Nuevas técnicas de selección de parámetros en máquinas de vectores soporte para regresión

ORTIZ GARCÍA, EMILIO GEDEÓN

Dirixida por:

Sancho Salcedo Sanz Director

Universidade de defensa: Universidad de Alcalá

Fecha de defensa: 08 de xullo de 2010

Tribunal:

Manuel Rosa Zurera Presidente
José Antonio Portilla Figueras Secretario
Óscar Cordón García Vogal
Mauricio Naldi Vogal
César Hervás Martínez Vogal

Departamento:

Teoría de la Señal y Comunicaciones

Tipo: Tese

Teseo: 297573 DIALNET TESEO editor

Resumo

Esta tesis se centra en el ámbito de las herramientas para el aprendizaje máquina, enfocadas a problemas de regresión. En concreto en una de las técnicas más importantes y novedosas de los últimos años: las máquinas de vectores soporte para regresión. Estas herramientas son conocidas por su habilidad para encontrar modelos con un grado de generalización muy elevado. Entre sus características más importantes: la capacidad de aproximar funciones no lineales aprovechando la teoría de kernels, y su rápido y óptimo algoritmo de entrenamiento utilizado para encontrar el modelo final de regresión. Por el contrario, el problema de optimización asociado a este tipo de modelos de regresión depende de una serie de hiper-parámetros que deben de ser establecidos para realizar el entrenamiento. La decisión de cuáles deben ser los valores de estos hiper-parámetros es un tema ampliamente tratado en la literatura. Existen dos alternativas generalmente aceptadas. La primera es una selección directa basada en la experiencia del autor, lo cuál puede generar problemas a investigadores noveles. La segunda es la utilización de herramientas de búsqueda automáticas como pueden ser la búsqueda grid, la búsqueda por gradiente o técnicas evolutivas. Todas estas técnicas requieren de la especificación de un espacio de búsqueda del cual se obtendrá el conjunto de hiper-parámetros óptimo, lo que condiciona ampliamente el tiempo necesario para dicha búsqueda. Sin embargo, este espacio de búsqueda no ha sido hasta la fecha establecido de una manera teórica, siendo siempre seleccionado por pruebas experimentales. Para llevar a cabo una definición del espacio de búsqueda de hiper-parámetros se ha desarrollado un análisis teórico de las propiedades y el comportamiento que los modelos clásicos de regresión para máquinas de vectores soporte y sus parámetros asociados presentan. Esto ha permitido el desarrollo de una delimitación inicial del espacio de búsqueda mediante cotas generales para los parámetros que así lo permiten y una posterior reducción del espacio total mediante cotas más restrictivas para todos ellos. Para estas últimas se ha aprovechando las relaciones que existen entre los diferentes hiper-parámetros y siempre teniendo en cuenta la búsqueda de modelos con alta capacidad de generalización. La acotación inicial del espacio de búsqueda de hiper-parámetros y la reducción del mismo han sido comparadas mediante el uso de una búsqueda grid, realizando múltiples experimentos sobre conjuntos de carácter genérico. Éstos han permitido comprobar que el tiempo de entrenamiento utilizando la reducción del espacio es muy considerable y sin generar pérdidas en la precisión de los modelos encontrados que sean significativas. Por otra parte, también se ha comparado esta búsqueda grid con reducción del espacio frente a otras técnicas disponibles en la literatura, demostrando una mejor relación tiempo-precisión frente a éstas. Por otra parte, también orientado a la reducción del espacio de búsqueda y a la consecuente reducción del tiempo de entrenamiento, se ha desarrollado una metodología basada en la estimación de uno de los hiper-parámetros del modelo clásico de regresión, en particular, el parámetro de regularización que controla el balance entre la búsqueda de un modelo con mayor generalización o un modelo que se aproxime mejor a los datos disponibles. De este modo, al estimar directamente su valor, se consigue eliminar una de las dimensiones del espacio de búsqueda, reduciendo el tiempo necesario para la búsqueda del resto de parámetros. De manera similar al caso anterior, esta reducción presenta un tiempo de entrenamiento menor que la metodología clásica de búsqueda grid provocando leves pérdidas en el rendimiento de los modelos. Una vez establecida la metodología de búsqueda de hiper-parámetros se procede a su utilización en dos aplicaciones específicas de alto interés social. La primera de ellas es la predicción de viento en parques eólicos como herramienta de mejora en la implantación de este tipo de energías renovables. Para llevar a cabo esta predicción se han realizado varios estudios de los modelos físicos que gobiernan el comportamiento del viento. Estos modelos se han caracterizado finalmente mediante la utilización de modelos globales de medición de variables meteorológicas así como un proceso de downscaling que permiten transformar los datos a nivel global a niveles locales centrados alrededor del parque eólico de estudio. De este modo, es posible realizar una predicción de ciertas variables meteorológicas que pueden ser utilizadas en un proceso de aprendizaje, basado en modelos de regresión como redes neuronales o máquinas de vectores soporte, para realizar la predicción final en cada aerogenerador. Mediante el uso de múltiples sistemas como el anterior, basados en la utilización de varios modelos de predicción global y de downscaling, se puede obtener una gran diversidad de datos de entrada. Esto ha permitido el desarrollo de estructuras complejas de predicción basadas en la agrupación de múltiples modelos en bancos de máquinas de vectores soporte, habiéndose realizado un estudio comparativo de las mismas. Por otra parte, también se ha comparado la mejor alternativa basada en máquinas de vectores soporte con un perceptrón multicapa realizado en estudios previos, que ha permitido demostrar la elevada eficiencia de los mismos. La segunda aplicación está relacionada con el modelado y predicción de niveles de concentración de ozono, basándose en la red de monitorización de calidad del aire de la ciudad de Madrid. Para ello se han realizado dos estudios, relativos a predicción diaria de máximos y predicción horaria. En ambos estudios se realiza una evaluación completa de las variables necesarias para mejorar el sistema de predicción. Entre las variables utilizadas se destacan el uso del propio histórico de las estaciones donde se realiza la predicción, el uso del histórico de las estaciones cercanas a las de estudio y la utilización de variables meteorológicas como son la temperatura y la radiación.