On the design of distributed and scalable feature selection algorithms

Palma Mendoza, Raúl José

On the design of distributed and scalable feature selection algorithms

Palma Mendoza, Raúl José

Dirigida por:

Luis de Marcos Ortega Director
Daniel Rodríguez García Codirector

Universidad de defensa: Universidad de Alcalá

Fecha de defensa: 03 de octubre de 2019

Tribunal:

José Javier Dolado Cosín Presidente/a
Ana Castillo Martínez Secretaria
Verónica Bolón-Canedo Vocal

Departamento:

Ciencias de la Computación

Tipo: Tesis

Teseo: 150887 DIALNET TESEO editor

Resumen

La selección de atributos es una importante etapa en el preprocesamiento de los datos previo al entrenamiento de un modelo en minería de datos o como parte de cualquier proceso de análisis de datos. El objetivo de la selección de atributos consiste detectar dentro de un grupo de atributos cuáles son los más relevantes y cuáles son redundantes de acuerdo a alguna métrica establecida. Con esto se logra crear modelos de minería de datos de forma más eficiente y fáciles de interpretar, también, al detectar atributos pocos relevantes se puede ahorrar costo en futuras recolecciones de datos. Sin embargo, actualmente, de acuerdo al fenómeno ampliamente conocido como ¿big data¿, los conjuntos de datos que se desea analizar son cada vez mayores. Esto provoca que muchos algoritmos existentes para minería de datos sean incapaces de procesarlos completos e incluso, dependiendo de su tamaño, tampoco puedan ser procesados directamente por los mismos algoritmos de selección de atributos. Considerando que esta tendencia al crecimiento de los conjuntos de datos no se espera cesará, se vuelve necesaria la existencia de algoritmos de selección de atributos escalables que sean capaces de aumentar su capacidad de procesamiento aprovechando los recursos de clúster de computadoras. La siguiente disertación doctoral presenta el rediseño de dos algoritmos de selección de atributos ampliamente utilizados: ReliefF y CFS, ambos algoritmos fueron rediseñados con el propósito de ser escalables y capaces del procesamiento de grandes volúmenes de datos. Esto queda demostrado mediante una extensiva comparación de ambas propuestas con sus versiones originales así como también con otras versiones escalables diseñadas para propósitos similares. Todas las comparaciones se realizaron usando grandes conjuntos de datos de acceso público. Las implementaciones se realizaron utilizando la herramienta Apache Spark, que actualmente se ha convertido en todo un referente en el área del big data. El código fuente escrito se ha puesto disponible en un repositorio público de GitHub a nombre del autor .