PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA
DE DATOS
Miguel Cárdenas-Montes
Frecuentemente las actividades de minería de datos suelen prestar poca
atención a las actividades de procesado de datos. Sin embargo, una actuación adecuada sobre los datos antes de su inserción en el algoritmo
de minería de datos puEde producir una mejora sobre el rendimiento del
algoritmo. En este documento se presenta una revisión de las técnicas
más usuales para el preprocesado de datos en minería de datos.
Objetivos:
Entender, en líneas generales, las actividades de procesamiento de
datos en minería de datos.
1
Introducción
El preprocesado de datos es el primer paso en muchos procesos de
toma de decisión y de algoritmos de minería de datos 1 . Un correcto
preprocesado de los datos puede ser necesario o simplemente mejorar
el rendimiento del algoritmo. Sin embargo, en muchos ejemplos, el
preprocesado de datos no recibe la atención que requiere.
Las operaciones realizadas durante la fase de preprocesado pueden
agruparse en dos categorías. Por un lado, están aquellas técnicas destinadas a detectar y manipular datos considerados imperfectos; y por
otro lado, se consideran aquellas técnicas cuya finalidad es transformar
los datos para hacerlos más manejables.
2
1
Cristóbal Romero, José Raúl Romero,
and Sebastián Ventura. A survey on
pre-processing educational data.
In
Alejandro Peña Ayala, editor, Educational Data Mining, volume 524 of Studies
in Computational Intelligence, pages
29–64. Springer International Publishing, 2014.
ISBN 978-3-319-02737-1.
10.1007/978-3-319-02738-8-2. URL
d
o
i
:
http://dx.doi.org/10.1007/978-3-319-02738-8-2
Agrupamiento de Datos
El agrupamiento de datos es una acción que permite reunir todos
los datos disponibles para la resolución del problema. Este agrupamiento permite establecer lo que se suele denominar como instancias.
Estas instancias son ejemplos individuales de unos de los conceptos
que tienes que ser aprendidos por el algoritmo de minería de datos.
En este paso también se agrupan datos provenientes de distintas
fuentes.
3
Este documento puede contener imprecisiones o errores. Por favor no lo utilice
para citarlo como una fuente fiable.
El preprocesado de datos en minería de
datos no es diferente que el procesado
de datos en otras disciplinas y tareas.
Integración de Datos
El objetivo de la integración de los datos es agrupar juntos todos
los datos provenientes de diferentes fuentes. Los datos que provienen
de diferentes fuentes puede tener diferentes formatos. La recopilación
de datos tiene que ser coherente. Frecuentemente esta integración de
datos se realiza en una base de datos.
Agregación e integración de datos son
diferentes términos para referirse a la
agregación del mismo tipo de datos a
través de diferentes plataformas, y la integración de diferentes tipos de datos.
2
m
m
4 Limpieza de Datos
La limpieza de datos consiste en detectar los datos erróneos o irrelevantes y descartarlos.
Una de las actividades dentro de la limpieza de datos es el tratamiento de datos ausentes. Esto sucede cuanto falta el valor de un
atributo. Para rellenar este valor se pueden tomar diversas estrategias,
algunas de las cuales son: utilizar la media o la moda de los valores
del entorno, generar un valor aleatorio basándose en una distribución
gausiana, algún tipo de interpolación, etc.
Un problema más difícil es la eliminación de los datos ruidosos.
Estos casos corresponden con ejemplos que son significativamente diferentes o son inconsistentes con el conjunto de datos.
El tratamiento de los datos ruidosos es una de las tareas más difíciles del conjunto de actividades que engloba la minería de datos. Para
detectar qué es un dato ruidoso y qué no, pueden utilizarse diversas
estrategias, basándose algunas de ellas en umbrales de probabilidad
de determinadas distribuciones de probabilidad.
Muchos algoritmos de minería de datos tratan de minimizar el impacto de los datos ruidosos en el modelo final, o incluso eliminarlo.
Los datos ruidosos pueden provenir de errores en los aparatos de medidas, de medidas reales y correctas pero altamente improbables, o de
casos excepcionales. Por lo tanto, el rechazo de este tipo de datos debe
realizarse con mucha precaución.
5 Selección de Variables y Atributos
2
Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. ISBN 1-55860-4898
En esta fase del preprocesado de datos, se descartan atributos que
no son relevantes para la toma de decisión. En general, el volumen
de datos original suele exceder de lo deseable y de lo práctico para
su aplicación en la minería de datos. Además está bien estudiado que
gran parte de la información es redundante, principalmente debido a
que muchas variables están correlacionadas. Por lo tanto, una importante reducción de atributos puede aplicarse a los datos sin pérdida
significativa de información.
El objetivo de la selección de atributo es encontrar el conjunto mínimo de atributos de forma que la distribución resultante de probabilidad de las clases de datos es tan próxima como sea posible a la
distribución original usando todos los atributos 2 .
Para N atributos hay 2 N posibles subconjuntos. Por lo tanto una
búsqueda exhaustiva del subconjunto óptimo es computacionalmente
costoso si N es grande. Por lo tanto, son necesarios métodos heurísticos
que exploren el espacio de soluciones. Estas técnicas se denominan
attribute subset selection o feature subset selection.
p
r
e
p
r
o
e
s
a
d
o
d
e
d
a
t
En general, estos métodos suelen ser tipo codicioso (greedy), lo que
significa que mientras buscan a través del espacio de atributos, toman
la decisión de selección sobre una sola mejor elección. Esta estrategia produce óptimos locales con la idea subyacente de que estos sean
soluciones globales.
Los mejores y los peores atributos son determinados usando tests
de significancia estadística, lo que asume que los atributos son independientes unos de otros. Otra opción es usar medidas de ganancia de
la información para construir un árbol de decisión para la clasificación
de los atributos.
Los métodos más básicos para encontrar un subconjunto de atributos incluyen las siguientes técnicas:
Selección hacia adelante: el procedimiento comienza con un conjunto vacío de atributos. A continuación se determina cual es el mejor
de los atributos originales y se añade al conjunto reducido. En cada
iteración, el mejor atributo entre los restantes es añadido al conjunto.
Eliminación: el procedimiento comienza con el conjunto de todos
los atributos. En cada paso, se elimina el peor de los atributos que
aún quedan en el conjunto.
Combinación de selección y eliminación: los dos métodos anteriormente descritos pueden ser combinados de forma que en cada paso, el procedimiento selecciona el mejor atributo para incorporarlo
al conjunto reducido, al mismo tiempo que elimina el peor atributo
del conjunto original.
Inducción de un árbol de decisión. En un árbol de decisión, un nodo
interno (sin hojas) representa un test sobre un atributo y cada rama
corresponde con el resultado del test. Por el contrario, un nodo externo (con hojas) indica una predicción. En cada nodo el algoritmo
escoge el mejor atributo para dividir los datos en clases individuales.
Cuando el árbol de decisión es usado para la selección de un subconjunto de atributos, el árbol es construido desde los datos originales. Todos los atributos que no aparecen en el árbol se consideran
irrelevantes, mientras que los que sí aparecen se consideran el conjunto de atributos reducidos.
El criterio de parada puede ser muy variado, por ejemplo emplear
un umbral sobre alguna medida del subconjunto de atributos para
determinar cuando parar.
o
s
p
a
r
a
m
i
n
e
r
i
a
d
e
d
a
t
o
s
3
4
m
m
6 Reducción de la Dimensionalidad
En la reducción de la dimensionalidad se aplica una transformación
para obtener una representación reducida o comprimida de los datos
originales. Si los datos datos originales pueden ser reconstruidos desde
los datos comprimidos sin pérdida de información, entonces la reducción se denomina sin pérdida de datos. Por el contrario, si se puede
reconstruir los datos solo de forma aproximada entonces se denomina
lossy.
Un ejemplo muy popular de reducción de la dimensionalidad es el
análisis de componentes principales.
7 Filtrado de Datos
Durante el filtrado de datos un subconjunto de datos son usados
para representar un conjunto de datos más amplio y frecuentemente
inmanejable. De forma similar a la selección de atributos, el filtrado de
datos trata de eliminar información redundante para obtener buenos
modelos con un volumen de datos manejable.
Un caso diferente, aunque también puede considerarse como un
caso de filtrado de datos, es cuando el investigador está interesado en
un subconjunto de los mismos.
8 Transformación de Datos
El último paso en el procesado de datos es la transformación de
los mismos. En este paso se construyen nuevos atributos a partir de
los atributos originales. Esta transformación puede facilitar una mejor
interpretación de la información. Algunos ejemplos de transformación
de datos son:
Normalización El atributo es escalado a un rango específico, normalmente de -1 a 1, o de 0 a 1. En la ecuación 1 se presenta el caso más
general.
ν′ =
ν − min A
(newmax A − newmin A ) + newmin A
max A − min A
(1)
La normalización es empleada cuando se tienen atributos con órdenes de magnitud muy diferentes. Gracias a la normización se evita
que los atributos con valores más altos ganen un peso significativamente más importante en el modelo final que aquellos con valores
más bajos.
Discretización El atributo es transformado de valores numéricos en
valores categóricos. De esta forma se reduce el número de posibles
p
r
e
p
r
o
e
s
a
d
o
d
e
d
a
t
valores. La discretización suaviza el efecto del ruido y permite modelos más simples; y por lo tanto, menos propensos al sobreajuste.
Algunos algoritmos de minería de datos solo trabajan con datos
categóricos. Por lo tanto en estos casos es necesario transformar los
datos contínuos en categóricos.
Derivación La derivación permite crear nuevos atributos partiendo
de otros anteriores. Esto se realiza a través de alguna transformación matemática: por ejemplo agrupamiento de valores de tiempo
en unidades de orden superior (segundos en minutos), agrupamiento de valores (meses en cuatrimestres), reemplazar valores por medias (suavización), etc.
En esta categoría podría incluirse cualquier tipo de codificación de
los datos de forma diferente a los datos originales. Esto incluye el
cambio de formato de los datos.
Referencias
[1] Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. ISBN 1-55860-489-8.
[2] Cristóbal Romero, José Raúl Romero, and Sebastián Ventura. A
survey on pre-processing educational data. In Alejandro Peña Ayala, editor, Educational Data Mining, volume 524 of Studies in Computational Intelligence, pages 29–64. Springer International Publishing,
2014. ISBN 978-3-319-02737-1.
10.1007/978-3-319-02738-8-2.
URL http://dx.doi.org/10.1007/978-3-319-02738-8-2.
d
o
i
:
o
s
p
a
r
a
m
i
n
e
r
i
a
d
e
d
a
t
o
s
5