On the design of distributed and scalable feature selection algorithms

  1. Palma Mendoza, Raúl José
Supervised by:
  1. Luis de Marcos Ortega Director
  2. Daniel Rodríguez García Co-director

Defence university: Universidad de Alcalá

Fecha de defensa: 03 October 2019

Committee:
  1. José Javier Dolado Cosín Chair
  2. Ana Castillo Martínez Secretary
  3. Verónica Bolón-Canedo Committee member
Department:
  1. Ciencias de la Computación

Type: Thesis

Teseo: 150887 DIALNET lock_openTESEO editor

Abstract

La selección de atributos es una importante etapa en el preprocesamiento de los datos previo al entrenamiento de un modelo en minería de datos o como parte de cualquier proceso de análisis de datos. El objetivo de la selección de atributos consiste detectar dentro de un grupo de atributos cuáles son los más relevantes y cuáles son redundantes de acuerdo a alguna métrica establecida. Con esto se logra crear modelos de minería de datos de forma más eficiente y fáciles de interpretar, también, al detectar atributos pocos relevantes se puede ahorrar costo en futuras recolecciones de datos. Sin embargo, actualmente, de acuerdo al fenómeno ampliamente conocido como ¿big data¿, los conjuntos de datos que se desea analizar son cada vez mayores. Esto provoca que muchos algoritmos existentes para minería de datos sean incapaces de procesarlos completos e incluso, dependiendo de su tamaño, tampoco puedan ser procesados directamente por los mismos algoritmos de selección de atributos. Considerando que esta tendencia al crecimiento de los conjuntos de datos no se espera cesará, se vuelve necesaria la existencia de algoritmos de selección de atributos escalables que sean capaces de aumentar su capacidad de procesamiento aprovechando los recursos de clúster de computadoras. La siguiente disertación doctoral presenta el rediseño de dos algoritmos de selección de atributos ampliamente utilizados: ReliefF y CFS, ambos algoritmos fueron rediseñados con el propósito de ser escalables y capaces del procesamiento de grandes volúmenes de datos. Esto queda demostrado mediante una extensiva comparación de ambas propuestas con sus versiones originales así como también con otras versiones escalables diseñadas para propósitos similares. Todas las comparaciones se realizaron usando grandes conjuntos de datos de acceso público. Las implementaciones se realizaron utilizando la herramienta Apache Spark, que actualmente se ha convertido en todo un referente en el área del big data. El código fuente escrito se ha puesto disponible en un repositorio público de GitHub a nombre del autor .