Aprendizaje de Máquina, Minería de Datos, y Descubrimiento de Conocimiento Prof. Dr. César A. Beltrán Castañón [email protected] www.ime.usp.br/~cbeltran Contenido del Curso Aprendizaje de Máquina input, representación, árboles de decisión Weka Ambiente para aprendizaje de máquina Minería de Datos asociaciones, detección de desviaciones, clustering, visualización Casos de Estudio marketing dirigido, microarrays genómicos, reconocimiento de formas biológicas Minería de Datos, Privacidad y Seguridad 2 Contenido de la lección Introducción: Flujo de información Minería de Datos: Ejemplos de Aplicación Minería de Datos & Descubrimiento de Conocimiento Minería de Datos: Tareas 3 Tendencias en el manejo de flujo de información Más información están siendo generados: Banca, telecomunicaciones, otras transacciones empresariales ... Información científica: astronomía, biología, etc Web, texto, y comercio electrónico 4 Ejemplos de gran información Europe's Very Long Baseline Interferometry (VLBI) tiene 16 telescopios, cada uno de ellos produce 1 Gigabit/second de información astronómica Almacenamiento y análisis son un gran problema AT&T maneja billones de llamadas por día Demasiada información, toda ella no puede ser almacenada – el análisis tiene que ser hecho instantáneamente “on the fly” sobre el flujo de información. 5 Grandes bases de datos del 2003 Bases de datos comerciales: Winter Corp. 2003 Survey: France Telecom tiene la más grande BD para soporte a la decisión, ~30TB; AT&T ~ 26 TB Web Alexa, archivo internet: 7 años de información, 500 TB Google busca en billones de páginas, muchos cientos de TB IBM WebFountain, 160 TB (2003) Archivo Internet (www.archive.org),~ 300 TB 6 De terabytes a exabytes a … UC Berkeley estimativa 2003: 5 exabytes (5 million terabytes) de nueva información fue creada en 2002. www.sims.berkeley.edu/research/projects/how-much-info-2003/ US produce ~40% de la nueva información mundial Estimado 2006: 161 exabytes (estudio IDC) www.usatoday.com/tech/news/2007-03-05-data_N.htm Proyección 2010: 988 exabytes 7 Grandes bases de datos del 2005 Winter Corp. 2005 Commercial Database Survey: 1. Max Planck Inst. for Meteorology , 222 TB 2. Yahoo ~ 100 TB (Largest Data Warehouse) 3. AT&T ~ 94 TB www.wintercorp.com/VLDB/2005_TopTen_Survey/TopTenWinners_2005.asp 8 Crecimiento de la Información En 2 años, el tamaño de las mayores bases de datos TRIPLICÓ! 9 Tasa de Crecimiento de la Información Dos veces más de información fue creada el 2002 en relación a 1999 (~30% tasa de crecimiento) Otras estimaciones indican que esta tasa de crecimiento podría ser mayor Muy poca de esa información será buscada por una persona Descubrimiento de Conocimiento es NECESARIO para usar y darle sentido a la información. 10 Contenido de la lección Introducción: Flujo de Información Minería de Datos: Ejemplos de Aplicación Minería de Datos & Descubrimiento de Conocimiento Minería de Datos: Tareas 11 Aprendizaje de Máquina / Minería de Datos: Áreas de aplicación Ciencia astronomía, bioinformática, descubrimiento de drogas, … Negocios CRM (Customer Relationship management), detección de fraudes, comercio electrónico (e-commerce), manufactura, deporte/entretenimiento, telecomunicaciones, marketing dirigido, cuidado de la salud, … Web: motores de búsqueda, publicidad, minería en la web y texto, … Gobierno seguimiento (?), detección de crímenes, fraudes, … 12 Áreas de Aplicación ¿Cuáles cree que sean las más importantes y extendidas aplicaciones de negocios de Minería de Datos? 13 Minería de Datos en el Modelamiento de Clientes Tareas: Predicción de caidas del mercado Marketing dirigido: Ventas cruzadas, obtención de clientes Riesgos de crédito Detección de fraudes Industrias banca, telecomunicaciones, ventas directas, … 14 Comercio electrónico Una persona compra un libro (producto) en Amazon.com Cuál es la tarea? 15 Comercio electrónico – Caso de estudio Tarea: Recomendó otros libros (productos) que esta persona gustaría comprar Amazon realiza la selección de acuerdo a libros comprados: Clientes que compraron “Advances in Knowledge Discovery and Data Mining”, también compraron “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations” Programa de recomendación tiene gran éxito 16 Microarrays Genómicos – Caso de Estudio Dada la información de microarray de un número de ejemplos (pacientes), es posible Diagnosticar con precisión la enfermedad? Predecir las consecuencias de un determnado tratamiento? Recomendar el mejor tratamiento? 17 Ejemplo: información ALL/AML 38 casos de entrenamiento, 34 prueba, ~ 7,000 genes 2 Clases: Acute Lymphoblastic Leukemia (ALL) vs Acute Myeloid Leukemia (AML) Usar datos de entrenamiento para contruir el modelo de diagnóstico ALL AML Resultados con los datos de prueba: 33/34 correctos, 1 elemento mal clasificado 18 Seguridad y detección de fraudes – Caso de Estudio Detección de tarjetas de crédito fraudulentas Detección de lavado de dinero FAIS (Tesoro Público de USA) Fraude de Seguridad Sistema KDD de NASDAQ Fraude en telefonía AT&T, Bell Atlantic, British Telecom/MCI Bio-terrorismo detección en Olimpiadas 2002 en Salt Lake 19 Minería de Datos y Privacidad En 2006, NSA (National Security Agency) reportó haber minerado años de información de llamadas, con el fin de identificar redes terroristas El análisis de red social tiene un potencial para encontrar redes Invasión de la privacidad – creería Ud. si su información de llamadas está en una base de datos del gobierno? 20 Contenido de la lección Introducción: Flujo de información Minería de Datos: Ejemplos de aplicación Minería de Datos & Descubrimiento de Conocimiento Minería de Datos: Tareas 22 Definición de Descubrimiento de Conocimiento Descubrimiento de Conocimiento en Información es el proceso no trivial de identificación válida nueva potencialmente útil Y finalmente patrones entendibles en la información. Ref. Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Capítulo 1), AAAI/MIT Press 1996 23 Áreas Relacionadas Aprendizaje de Máquina Visualización Minería de Datos y Descubrimiento de Conocimiento Estadística Base de Datos 24 Estadística, Aprendizaje de Máquina y Minería de Datos Estadística: más base teórica más centrado en prueba de hipótesis Apendizaje de Máquina más heurístico centrado en el mejoramiento de la performance de un agente de aprendizaje también buscar por aprendizaje y robótica en tiempo real – areas que no son parte de minería de datos Minería de Datos y Descubrimiento de Conocimiento integra teoría y heurística centrado en el proceso entero de descubrimiento de conocimiento, incluyendo limpieza de datos, aprendizaje, integración y visualización de resultados Distinciones son difusas witten&eibe 25 Flujo del Proceso de Descubrimiento de Conocimiento, de acuerdo a CRISP-DM vea www.crisp-dm.org para más información Monitoring 26 Notas Históricas: Muchos Nombres de Minería de Datos Pesca de datos, Succión de datos: 1960 Usado por Estadístico (como un mal nombre) Minería de Datos (Data Mining) :1990 - usado por BD, negocios en 2003 – mala imagen debido a TIA Descubrimiento de Conocimiento en Base de Datos (1989-) usado en IA, Comunidad de Aprendizaje de Máquina también Arqueología de Datos, Cosecha de Información, Descubrimiento de Información, Extracción de Conocimiento, ... Actualmente: Minería de Datos y Descubrimiento de Conocimiento son usados indistintamente 27 Contenido de la lección Introducción: Flujo de Información Minería de Datos: Ejemplos de Aplicación Minería de Datos & Descubrimiento de Conocimiento Minería de Datos: Tareas 28 Mayores tareas en Minería de Datos Clasificación: predicción de la clase de un item Clustering: encontrar clusters en datos Asociaciones ej. A,B & C ocurren frecuentemente Visualización: para facilitar el descubrimiento Sumarización: describiendo un grupo Detección de Desviación: encontrando cambios Estimación: predicción de valores continuos Análisis de Link: encontrando relaciones … 29 Tareas de Minería de Datos: Clasificación Aprender un método para predecir la clase de un elemento a partir de instancias pre-definidas (clasificadas) Varios enfoques: Estadístico, Árboles de Decisión, Redes Neuronales, ... 30 Tareas de Minería de Datos: Clustering Encontrar el “natural” agrupamiento de instancias dada información no identificada 31 Resumen: La tecnología tiende a guiar el flujo de información minería de datos es necesaria para dar sentido a la información Minería de Datos tiene varias aplicaciones, exitosas y no Proceso de Descubrimiento de Información Tareas de la Minería de Datos clasificación, clustering, … 32
© Copyright 2024