Minería de Datos - IME-USP

Aprendizaje de Máquina,
Minería de Datos, y
Descubrimiento de
Conocimiento
Prof. Dr. César A. Beltrán Castañón
[email protected]
www.ime.usp.br/~cbeltran
Contenido del Curso
 Aprendizaje de Máquina
 input, representación, árboles de decisión
 Weka
 Ambiente para aprendizaje de máquina
 Minería de Datos
 asociaciones, detección de desviaciones, clustering, visualización
 Casos de Estudio
 marketing dirigido, microarrays genómicos, reconocimiento de
formas biológicas
 Minería de Datos, Privacidad y Seguridad
2
Contenido de la lección
Introducción: Flujo de
información
Minería de Datos: Ejemplos de
Aplicación
Minería de Datos & Descubrimiento de
Conocimiento
Minería de Datos: Tareas
3
Tendencias en el manejo de
flujo de información
 Más información están
siendo generados:
 Banca, telecomunicaciones,
otras transacciones
empresariales ...
 Información científica:
astronomía, biología, etc
 Web, texto, y comercio
electrónico
4
Ejemplos de gran información
 Europe's Very Long Baseline Interferometry
(VLBI) tiene 16 telescopios, cada uno de ellos
produce 1 Gigabit/second de información
astronómica
 Almacenamiento y análisis son un gran problema
 AT&T maneja billones de llamadas por día
 Demasiada información, toda ella no puede ser
almacenada – el análisis tiene que ser hecho
instantáneamente “on the fly” sobre el flujo de
información.
5
Grandes bases de datos del 2003
 Bases de datos comerciales:
 Winter Corp. 2003 Survey: France Telecom tiene la más
grande BD para soporte a la decisión, ~30TB; AT&T ~
26 TB
 Web
 Alexa, archivo internet: 7 años de información, 500 TB
 Google busca en billones de páginas, muchos cientos
de TB
 IBM WebFountain, 160 TB (2003)
 Archivo Internet (www.archive.org),~ 300 TB
6
De terabytes a exabytes a …
 UC Berkeley estimativa 2003: 5 exabytes (5
million terabytes) de nueva información fue
creada en 2002.
www.sims.berkeley.edu/research/projects/how-much-info-2003/
 US produce ~40% de la nueva información
mundial
 Estimado 2006: 161 exabytes (estudio IDC)
 www.usatoday.com/tech/news/2007-03-05-data_N.htm
 Proyección 2010: 988 exabytes
7
Grandes bases de datos del 2005
Winter Corp. 2005 Commercial
Database Survey:
1. Max Planck Inst. for
Meteorology , 222 TB
2. Yahoo ~ 100 TB (Largest Data
Warehouse)
3. AT&T ~ 94 TB
www.wintercorp.com/VLDB/2005_TopTen_Survey/TopTenWinners_2005.asp
8
Crecimiento de la Información
En 2 años, el tamaño de las mayores bases de datos TRIPLICÓ!
9
Tasa de Crecimiento de la Información
 Dos veces más de información fue creada el 2002
en relación a 1999 (~30% tasa de crecimiento)
 Otras estimaciones indican que esta tasa de
crecimiento podría ser mayor
 Muy poca de esa información será buscada por
una persona
Descubrimiento de Conocimiento es NECESARIO
para usar y darle sentido a la información.
10
Contenido de la lección
Introducción: Flujo de Información
Minería de Datos: Ejemplos de
Aplicación
Minería de Datos & Descubrimiento de
Conocimiento
Minería de Datos: Tareas
11
Aprendizaje de Máquina / Minería de
Datos: Áreas de aplicación
 Ciencia
 astronomía, bioinformática, descubrimiento de drogas, …
 Negocios
 CRM (Customer Relationship management), detección de fraudes,
comercio electrónico (e-commerce), manufactura,
deporte/entretenimiento, telecomunicaciones, marketing dirigido,
cuidado de la salud, …
 Web:
 motores de búsqueda, publicidad, minería en la web y texto, …
 Gobierno
 seguimiento (?), detección de crímenes, fraudes, …
12
Áreas de Aplicación
¿Cuáles cree que sean las más
importantes y extendidas aplicaciones
de negocios de Minería de Datos?
13
Minería de Datos en el Modelamiento
de Clientes
 Tareas:
 Predicción de caidas del mercado
 Marketing dirigido:
 Ventas cruzadas, obtención
 de clientes
 Riesgos de crédito
 Detección de fraudes
 Industrias
 banca, telecomunicaciones, ventas directas, …
14
Comercio electrónico
 Una persona compra un libro (producto) en
Amazon.com
Cuál es la tarea?
15
Comercio electrónico – Caso de
estudio
 Tarea: Recomendó otros libros (productos) que
esta persona gustaría comprar
 Amazon realiza la selección de acuerdo a libros
comprados:
 Clientes que compraron “Advances in Knowledge
Discovery and Data Mining”, también compraron
“Data Mining: Practical Machine Learning Tools
and Techniques with Java Implementations”
 Programa de recomendación tiene gran éxito
16
Microarrays Genómicos – Caso de
Estudio
Dada la información de microarray de un número
de ejemplos (pacientes), es posible
 Diagnosticar con precisión la enfermedad?
 Predecir las consecuencias de un determnado
tratamiento?
 Recomendar el mejor tratamiento?
17
Ejemplo: información ALL/AML
 38 casos de entrenamiento, 34 prueba, ~ 7,000
genes
 2 Clases: Acute Lymphoblastic Leukemia (ALL) vs
Acute Myeloid Leukemia (AML)
 Usar datos de entrenamiento para contruir el
modelo de diagnóstico
ALL
AML
Resultados con los datos de prueba:
33/34 correctos, 1 elemento mal clasificado
18
Seguridad y detección de fraudes –
Caso de Estudio
 Detección de tarjetas de crédito
fraudulentas
 Detección de lavado de dinero
 FAIS (Tesoro Público de USA)
 Fraude de Seguridad
 Sistema KDD de NASDAQ
 Fraude en telefonía
 AT&T, Bell Atlantic, British Telecom/MCI
 Bio-terrorismo detección en
Olimpiadas 2002 en Salt Lake
19
Minería de Datos y Privacidad
 En 2006, NSA (National Security Agency) reportó
haber minerado años de información de llamadas,
con el fin de identificar redes terroristas
 El análisis de red social tiene un potencial para
encontrar redes
 Invasión de la privacidad – creería Ud. si su
información de llamadas está en una base de
datos del gobierno?
20
Contenido de la lección
Introducción: Flujo de información
Minería de Datos: Ejemplos de
aplicación
Minería de Datos & Descubrimiento
de Conocimiento
Minería de Datos: Tareas
22
Definición de Descubrimiento de
Conocimiento
Descubrimiento de Conocimiento en
Información es el proceso no trivial de
identificación
 válida
 nueva
 potencialmente útil
 Y finalmente patrones entendibles en la
información.
Ref. Advances in Knowledge Discovery and Data
Mining, Fayyad, Piatetsky-Shapiro, Smyth, and
Uthurusamy, (Capítulo 1), AAAI/MIT Press 1996
23
Áreas Relacionadas
Aprendizaje
de Máquina
Visualización
Minería de Datos y
Descubrimiento de
Conocimiento
Estadística
Base de Datos
24
Estadística, Aprendizaje de Máquina y
Minería de Datos




Estadística:

más base teórica

más centrado en prueba de hipótesis
Apendizaje de Máquina

más heurístico

centrado en el mejoramiento de la performance de un agente de
aprendizaje

también buscar por aprendizaje y robótica en tiempo real – areas
que no son parte de minería de datos
Minería de Datos y Descubrimiento de Conocimiento

integra teoría y heurística

centrado en el proceso entero de descubrimiento de conocimiento,
incluyendo limpieza de datos, aprendizaje, integración y visualización
de resultados
Distinciones son difusas
witten&eibe
25
Flujo del Proceso de Descubrimiento de
Conocimiento, de acuerdo a CRISP-DM
vea
www.crisp-dm.org
para más
información
Monitoring
26
Notas Históricas:
Muchos Nombres de Minería de Datos
 Pesca de datos, Succión de datos: 1960 Usado por Estadístico (como un mal nombre)
 Minería de Datos (Data Mining) :1990 - usado por BD, negocios
 en 2003 – mala imagen debido a TIA
 Descubrimiento de Conocimiento en Base de Datos (1989-)
 usado en IA, Comunidad de Aprendizaje de Máquina
 también Arqueología de Datos, Cosecha de Información,
Descubrimiento de Información, Extracción de Conocimiento, ...
Actualmente: Minería de Datos y Descubrimiento de
Conocimiento son usados indistintamente
27
Contenido de la lección
Introducción: Flujo de Información
Minería de Datos: Ejemplos de
Aplicación
Minería de Datos & Descubrimiento de
Conocimiento
Minería de Datos: Tareas
28
Mayores tareas en Minería de Datos
 Clasificación: predicción de la clase de un item
 Clustering: encontrar clusters en datos
 Asociaciones ej. A,B & C ocurren frecuentemente
 Visualización: para facilitar el descubrimiento
 Sumarización: describiendo un grupo
 Detección de Desviación: encontrando cambios
 Estimación: predicción de valores continuos
 Análisis de Link: encontrando relaciones
 …
29
Tareas de Minería de Datos:
Clasificación
Aprender un método para predecir la clase de un
elemento a partir de instancias pre-definidas
(clasificadas)
Varios enfoques:
Estadístico,
Árboles de Decisión,
Redes Neuronales,
...
30
Tareas de Minería de Datos:
Clustering
Encontrar el “natural” agrupamiento
de instancias dada información no
identificada
31
Resumen:
 La tecnología tiende a guiar el flujo de
información
 minería de datos es necesaria para dar sentido a la
información
 Minería de Datos tiene varias aplicaciones,
exitosas y no
 Proceso de Descubrimiento de Información
 Tareas de la Minería de Datos
 clasificación, clustering, …
32