PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado de datos. Sin embargo, una actuación adecuada sobre los datos antes de su inserción en el algoritmo de minería de datos puEde producir una mejora sobre el rendimiento del algoritmo. En este documento se presenta una revisión de las técnicas más usuales para el preprocesado de datos en minería de datos. Objetivos: Entender, en líneas generales, las actividades de procesamiento de datos en minería de datos. 1 Introducción El preprocesado de datos es el primer paso en muchos procesos de toma de decisión y de algoritmos de minería de datos 1 . Un correcto preprocesado de los datos puede ser necesario o simplemente mejorar el rendimiento del algoritmo. Sin embargo, en muchos ejemplos, el preprocesado de datos no recibe la atención que requiere. Las operaciones realizadas durante la fase de preprocesado pueden agruparse en dos categorías. Por un lado, están aquellas técnicas destinadas a detectar y manipular datos considerados imperfectos; y por otro lado, se consideran aquellas técnicas cuya finalidad es transformar los datos para hacerlos más manejables. 2 1 Cristóbal Romero, José Raúl Romero, and Sebastián Ventura. A survey on pre-processing educational data. In Alejandro Peña Ayala, editor, Educational Data Mining, volume 524 of Studies in Computational Intelligence, pages 29–64. Springer International Publishing, 2014. ISBN 978-3-319-02737-1. 10.1007/978-3-319-02738-8-2. URL d o i : http://dx.doi.org/10.1007/978-3-319-02738-8-2 Agrupamiento de Datos El agrupamiento de datos es una acción que permite reunir todos los datos disponibles para la resolución del problema. Este agrupamiento permite establecer lo que se suele denominar como instancias. Estas instancias son ejemplos individuales de unos de los conceptos que tienes que ser aprendidos por el algoritmo de minería de datos. En este paso también se agrupan datos provenientes de distintas fuentes. 3 Este documento puede contener imprecisiones o errores. Por favor no lo utilice para citarlo como una fuente fiable. El preprocesado de datos en minería de datos no es diferente que el procesado de datos en otras disciplinas y tareas. Integración de Datos El objetivo de la integración de los datos es agrupar juntos todos los datos provenientes de diferentes fuentes. Los datos que provienen de diferentes fuentes puede tener diferentes formatos. La recopilación de datos tiene que ser coherente. Frecuentemente esta integración de datos se realiza en una base de datos. Agregación e integración de datos son diferentes términos para referirse a la agregación del mismo tipo de datos a través de diferentes plataformas, y la integración de diferentes tipos de datos. 2 m m 4 Limpieza de Datos La limpieza de datos consiste en detectar los datos erróneos o irrelevantes y descartarlos. Una de las actividades dentro de la limpieza de datos es el tratamiento de datos ausentes. Esto sucede cuanto falta el valor de un atributo. Para rellenar este valor se pueden tomar diversas estrategias, algunas de las cuales son: utilizar la media o la moda de los valores del entorno, generar un valor aleatorio basándose en una distribución gausiana, algún tipo de interpolación, etc. Un problema más difícil es la eliminación de los datos ruidosos. Estos casos corresponden con ejemplos que son significativamente diferentes o son inconsistentes con el conjunto de datos. El tratamiento de los datos ruidosos es una de las tareas más difíciles del conjunto de actividades que engloba la minería de datos. Para detectar qué es un dato ruidoso y qué no, pueden utilizarse diversas estrategias, basándose algunas de ellas en umbrales de probabilidad de determinadas distribuciones de probabilidad. Muchos algoritmos de minería de datos tratan de minimizar el impacto de los datos ruidosos en el modelo final, o incluso eliminarlo. Los datos ruidosos pueden provenir de errores en los aparatos de medidas, de medidas reales y correctas pero altamente improbables, o de casos excepcionales. Por lo tanto, el rechazo de este tipo de datos debe realizarse con mucha precaución. 5 Selección de Variables y Atributos 2 Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. ISBN 1-55860-4898 En esta fase del preprocesado de datos, se descartan atributos que no son relevantes para la toma de decisión. En general, el volumen de datos original suele exceder de lo deseable y de lo práctico para su aplicación en la minería de datos. Además está bien estudiado que gran parte de la información es redundante, principalmente debido a que muchas variables están correlacionadas. Por lo tanto, una importante reducción de atributos puede aplicarse a los datos sin pérdida significativa de información. El objetivo de la selección de atributo es encontrar el conjunto mínimo de atributos de forma que la distribución resultante de probabilidad de las clases de datos es tan próxima como sea posible a la distribución original usando todos los atributos 2 . Para N atributos hay 2 N posibles subconjuntos. Por lo tanto una búsqueda exhaustiva del subconjunto óptimo es computacionalmente costoso si N es grande. Por lo tanto, son necesarios métodos heurísticos que exploren el espacio de soluciones. Estas técnicas se denominan attribute subset selection o feature subset selection. p r e p r o e s a d o d e d a t En general, estos métodos suelen ser tipo codicioso (greedy), lo que significa que mientras buscan a través del espacio de atributos, toman la decisión de selección sobre una sola mejor elección. Esta estrategia produce óptimos locales con la idea subyacente de que estos sean soluciones globales. Los mejores y los peores atributos son determinados usando tests de significancia estadística, lo que asume que los atributos son independientes unos de otros. Otra opción es usar medidas de ganancia de la información para construir un árbol de decisión para la clasificación de los atributos. Los métodos más básicos para encontrar un subconjunto de atributos incluyen las siguientes técnicas: Selección hacia adelante: el procedimiento comienza con un conjunto vacío de atributos. A continuación se determina cual es el mejor de los atributos originales y se añade al conjunto reducido. En cada iteración, el mejor atributo entre los restantes es añadido al conjunto. Eliminación: el procedimiento comienza con el conjunto de todos los atributos. En cada paso, se elimina el peor de los atributos que aún quedan en el conjunto. Combinación de selección y eliminación: los dos métodos anteriormente descritos pueden ser combinados de forma que en cada paso, el procedimiento selecciona el mejor atributo para incorporarlo al conjunto reducido, al mismo tiempo que elimina el peor atributo del conjunto original. Inducción de un árbol de decisión. En un árbol de decisión, un nodo interno (sin hojas) representa un test sobre un atributo y cada rama corresponde con el resultado del test. Por el contrario, un nodo externo (con hojas) indica una predicción. En cada nodo el algoritmo escoge el mejor atributo para dividir los datos en clases individuales. Cuando el árbol de decisión es usado para la selección de un subconjunto de atributos, el árbol es construido desde los datos originales. Todos los atributos que no aparecen en el árbol se consideran irrelevantes, mientras que los que sí aparecen se consideran el conjunto de atributos reducidos. El criterio de parada puede ser muy variado, por ejemplo emplear un umbral sobre alguna medida del subconjunto de atributos para determinar cuando parar. o s p a r a m i n e r i a d e d a t o s 3 4 m m 6 Reducción de la Dimensionalidad En la reducción de la dimensionalidad se aplica una transformación para obtener una representación reducida o comprimida de los datos originales. Si los datos datos originales pueden ser reconstruidos desde los datos comprimidos sin pérdida de información, entonces la reducción se denomina sin pérdida de datos. Por el contrario, si se puede reconstruir los datos solo de forma aproximada entonces se denomina lossy. Un ejemplo muy popular de reducción de la dimensionalidad es el análisis de componentes principales. 7 Filtrado de Datos Durante el filtrado de datos un subconjunto de datos son usados para representar un conjunto de datos más amplio y frecuentemente inmanejable. De forma similar a la selección de atributos, el filtrado de datos trata de eliminar información redundante para obtener buenos modelos con un volumen de datos manejable. Un caso diferente, aunque también puede considerarse como un caso de filtrado de datos, es cuando el investigador está interesado en un subconjunto de los mismos. 8 Transformación de Datos El último paso en el procesado de datos es la transformación de los mismos. En este paso se construyen nuevos atributos a partir de los atributos originales. Esta transformación puede facilitar una mejor interpretación de la información. Algunos ejemplos de transformación de datos son: Normalización El atributo es escalado a un rango específico, normalmente de -1 a 1, o de 0 a 1. En la ecuación 1 se presenta el caso más general. ν′ = ν − min A (newmax A − newmin A ) + newmin A max A − min A (1) La normalización es empleada cuando se tienen atributos con órdenes de magnitud muy diferentes. Gracias a la normización se evita que los atributos con valores más altos ganen un peso significativamente más importante en el modelo final que aquellos con valores más bajos. Discretización El atributo es transformado de valores numéricos en valores categóricos. De esta forma se reduce el número de posibles p r e p r o e s a d o d e d a t valores. La discretización suaviza el efecto del ruido y permite modelos más simples; y por lo tanto, menos propensos al sobreajuste. Algunos algoritmos de minería de datos solo trabajan con datos categóricos. Por lo tanto en estos casos es necesario transformar los datos contínuos en categóricos. Derivación La derivación permite crear nuevos atributos partiendo de otros anteriores. Esto se realiza a través de alguna transformación matemática: por ejemplo agrupamiento de valores de tiempo en unidades de orden superior (segundos en minutos), agrupamiento de valores (meses en cuatrimestres), reemplazar valores por medias (suavización), etc. En esta categoría podría incluirse cualquier tipo de codificación de los datos de forma diferente a los datos originales. Esto incluye el cambio de formato de los datos. Referencias [1] Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. ISBN 1-55860-489-8. [2] Cristóbal Romero, José Raúl Romero, and Sebastián Ventura. A survey on pre-processing educational data. In Alejandro Peña Ayala, editor, Educational Data Mining, volume 524 of Studies in Computational Intelligence, pages 29–64. Springer International Publishing, 2014. ISBN 978-3-319-02737-1. 10.1007/978-3-319-02738-8-2. URL http://dx.doi.org/10.1007/978-3-319-02738-8-2. d o i : o s p a r a m i n e r i a d e d a t o s 5
© Copyright 2024