Inteligencia de Negocios Data Mining Cátedra: Ernesto Chinkes Inteligencia de Negocios Esquema de la clase 1. Data Mining – Qué es? 2. Análisis exploratorio y confirmatorio 4. Modelos y Técnicas 3. Proceso 5. Aspectos Éticos Cátedra: Ernesto Chinkes Inteligencia de Negocios Data Mining - Qué es? Datos Exploración y Análisis de grandes volúmenes de Datos Información Dar Sentido Utilización de técnicas y herramientas que automatizan ciertos procesos en la creación y validación de modelos descriptivos y predictivos. Conocimiento Cátedra: Ernesto Chinkes Inteligencia de Negocios Data Mining - Qué es? Proceso de aplicar técnicas automáticas sin intervención humana Proceso iterativo e interactivo en donde los usuarios tienen una participación fundamental Cátedra: Ernesto Chinkes Inteligencia de Negocios Análisis confirmatorio y exploratorio Pregunta (Problema de Investigación) Recolección de Datos Diseño Análisis Diseño Modelado Recolección de Datos Respuestas Validacion Análisis Respuesta Cátedra: Ernesto Chinkes Inteligencia de Negocios Data Mining - Proceso Comprensión de los objetivos de negocios y evaluación de la situación actual Comprensión del Negocio Comprensión de los Datos Evaluación y ejecución de acciones relacionadas con la información obtenida. Verificación del Modelo con los resultados de esas acciones. Preparación de los Datos Ejecución de Acciones Interpretación de los resultados y evaluación del modelo en el contexto de los objetivos de negocio establecidos en la primera fase. Comprensión de los datos y determinación de los requerimientos de información necesarios. Identificación de la información relacionada con el problema. Construcción del Modelo Testeo y Evaluación Datos Selección Limpieza Transformación Construcción del Modelo con técnicas y herramientas de Data Mining: • Elección del tipo de modelo (clasificación, clustering, etc,) • Elección del Algoritmo • Ejecución del Proceso de Mining Cátedra: Ernesto Chinkes Inteligencia de Negocios Modelos de Data Mining Modelos de Clasificación Modelos de Clustering Modelos de Asociación Algoritmos Modelos de Detección de Anomalías Modelos de Análisis de Tendencia Cátedra: Ernesto Chinkes Inteligencia de Negocios Modelos de Clasificación Tiene como objetivo predecir o determinar el valor de una variable a partir del valor de otras previamente seleccionadas. Los valores o categorías deben ser predeterminados y discretos. Modelos Descriptivos (tipos de países según el clima) o Predictivos (pagará/no pagará) Algoritmos: Árboles de Decisión, Redes Neuronales, Clasificador bayesiano ingenuo (Naive Bayes) Cátedra: Ernesto Chinkes Inteligencia de Negocios Algoritmos de Clasificación Árbol de Decisión Cátedra: Ernesto Chinkes Inteligencia de Negocios Modelos de Clustering Tiene como objetivo encontrar agrupaciones naturales Difiere de la clasificación en que no se conocen a priori las categorías Los miembros dentro del cluster se parecen más entre ellos que a los miembros de los otros clusters Modelos Descriptivos (segmentación de clientes) Algoritmos Jerárquicos Construyen una jerarquía de grupos dividiéndolos iterativamente Algoritmos de particionamiento El número de grupos se determina de antemano y las observaciones se van asignando a los grupos en función de su cercanía (distancia euclidiana). Cátedra: Ernesto Chinkes Inteligencia de Negocios Modelos de Asociación Tiene como objetivo buscar correlaciones entre diferentes atributos de un conjunto de datos Análisis de canasta de mercado, cross selling, creación de nuevos productos y promociones, determinación del lugar en góndola Algoritmos: Apriori (busqueda breadth-first ), Eclat (depth-first), OneR (One-attribute-rule) Un caso muy famoso sobre reglas de asociación es el de la "cerveza y los pañales", basado en el comportamiento de los compradores en el supermercado. Se descubrió que muchos hombres acaban comprando pañales por encargo de sus esposas. En la cadena de supermercados Wal-Mart, donde se descubrió este hecho, se adoptó la medida de colocar la cerveza junto a los pañales. De esta manera consiguió aumentar la venta de cerveza. Cátedra: Ernesto Chinkes Inteligencia de Negocios Modelos de Detección de Anomalías Tiene como objetivo identificar casos inusuales o sospechosos basándose en desvíos de la norma Detección de fraude, evasión impositiva, lavado de dinero, terrorismo, detección de intrusiones Cátedra: Ernesto Chinkes Inteligencia de Negocios Modelos de Análisis de Tendencia Tiene como objetivo predecir un valor numérico a partir de los datos históricos Valor futuro total de un cliente, valor futuro de una casa, presupuestación de ventas. Algoritmos: Regresión múltiple Cátedra: Ernesto Chinkes Inteligencia de Negocios Ejemplo Clasificación: Riesgo Crediticio Préstamo No pagado Pagado Salario Cátedra: Ernesto Chinkes Inteligencia de Negocios Ejemplo Clasificación: Riesgo Crediticio Préstamo Si Salario < k entonces No Pagado Salario Cátedra: Ernesto Chinkes Inteligencia de Negocios Características deseables de los patrones descubiertos Es válido? El patrón debería ser válido para un cierto número mínimo de casos. En nuestro ejemplo es válido para el 86% de los casos. Es nuevo? Debería aportar información previamente desconocida y no obvia. Es útil? Debería tener una utilidad definida. En nuestro ejemplo sirve para otorgar préstamos sólo a personas con salarios mayores a k. Es entendible? Debería ser lo suficientemente simple para poder entenderlo y aplicarlo. Cátedra: Ernesto Chinkes Inteligencia de Negocios Problemas a tener en cuenta Muchos patrones descubiertos de manera automática son obvios, o no son interesantes. Muchos son falsos, inexactos o efímeros porque provienen de un set de datos que no representa la realidad (factores contingentes pueden dar lugar a conclusiones falsas). Los set de datos son imperfectos: algunos datos se encontrarán distorsionados, otros faltarán. Cátedra: Ernesto Chinkes Inteligencia de Negocios Cuestiones Éticas Identificación de fraude, corrupción, terrorismo, robo, etc. Falsos Positivos ? Análisis de canasta de mercado, posicionamiento de góndola (aumento de compras inesperadas), marketing político (mensajes dirigidos directamente a los indecisos), etc. Manipulación?
© Copyright 2024