BI_clase 6 datamining v 19

Inteligencia de Negocios
Data Mining
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Esquema de la clase
1. Data Mining – Qué es?
2. Análisis exploratorio y
confirmatorio
4. Modelos y Técnicas
3. Proceso
5. Aspectos Éticos
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Data Mining - Qué es?
Datos
Exploración y Análisis
de grandes volúmenes de Datos
Información
Dar Sentido
Utilización de técnicas y herramientas
que automatizan ciertos procesos en la
creación y validación de modelos
descriptivos y predictivos.
Conocimiento
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Data Mining - Qué es?
Proceso de aplicar técnicas automáticas
sin intervención humana
Proceso iterativo e interactivo en donde
los usuarios tienen una participación
fundamental
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Análisis confirmatorio y exploratorio
Pregunta
(Problema de
Investigación)
Recolección de
Datos
Diseño
Análisis
Diseño
Modelado
Recolección de
Datos
Respuestas
Validacion
Análisis
Respuesta
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Data Mining - Proceso
Comprensión de los
objetivos de negocios
y evaluación de la
situación actual
Comprensión
del Negocio
Comprensión
de los Datos
Evaluación y ejecución de acciones
relacionadas con la información
obtenida. Verificación del Modelo
con los resultados de esas
acciones.
Preparación
de los Datos
Ejecución de
Acciones
Interpretación de los resultados
y evaluación del modelo en el
contexto de los objetivos de
negocio establecidos en la
primera fase.
Comprensión de los datos y
determinación de los requerimientos
de información necesarios.
Identificación de la información
relacionada con el problema.
Construcción
del Modelo
Testeo y
Evaluación
Datos
Selección
Limpieza
Transformación
Construcción del Modelo
con técnicas y
herramientas
de Data Mining:
• Elección del tipo de
modelo (clasificación,
clustering, etc,)
• Elección del Algoritmo
• Ejecución del Proceso
de Mining
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Modelos de Data Mining
Modelos de Clasificación
Modelos de Clustering
Modelos de Asociación
Algoritmos
Modelos de Detección de Anomalías
Modelos de Análisis de Tendencia
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Modelos de Clasificación
Tiene como objetivo predecir o
determinar el valor de una
variable a partir del valor de otras
previamente seleccionadas.
Los valores o categorías deben
ser predeterminados y discretos.
Modelos Descriptivos (tipos de
países según el clima)
o Predictivos (pagará/no pagará)
Algoritmos: Árboles de Decisión,
Redes Neuronales,
Clasificador bayesiano ingenuo
(Naive Bayes)
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Algoritmos de Clasificación
Árbol de Decisión
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Modelos de Clustering
Tiene como objetivo encontrar
agrupaciones naturales
Difiere de la clasificación en que no
se conocen a priori las categorías
Los miembros dentro del cluster se
parecen más entre ellos que a los
miembros de los otros clusters
Modelos Descriptivos (segmentación
de clientes)
Algoritmos Jerárquicos
Construyen una jerarquía de grupos
dividiéndolos iterativamente
Algoritmos de particionamiento
El número de grupos se determina de antemano
y las observaciones se van asignando a los grupos
en función de su cercanía (distancia euclidiana).
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Modelos de Asociación
Tiene como objetivo buscar
correlaciones entre diferentes
atributos de un conjunto de datos
Análisis de canasta de mercado,
cross selling, creación de nuevos
productos y promociones,
determinación del lugar en góndola
Algoritmos: Apriori (busqueda
breadth-first ), Eclat (depth-first),
OneR (One-attribute-rule)
Un caso muy famoso sobre reglas de asociación es el de la "cerveza y
los pañales", basado en el comportamiento de los compradores en el
supermercado. Se descubrió que muchos hombres acaban comprando
pañales por encargo de sus esposas. En la cadena de supermercados
Wal-Mart, donde se descubrió este hecho, se adoptó la medida de
colocar la cerveza junto a los pañales. De esta manera consiguió
aumentar la venta de cerveza.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Modelos de Detección de Anomalías
Tiene como objetivo identificar
casos inusuales o sospechosos
basándose en desvíos de la norma
Detección de fraude, evasión
impositiva, lavado de dinero,
terrorismo, detección de intrusiones
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Modelos de Análisis de Tendencia
Tiene como objetivo predecir un
valor numérico a partir de los datos
históricos
Valor futuro total de un cliente, valor
futuro de una casa, presupuestación
de ventas.
Algoritmos: Regresión múltiple
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Ejemplo Clasificación: Riesgo Crediticio
Préstamo
No pagado
Pagado
Salario
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Ejemplo Clasificación: Riesgo Crediticio
Préstamo
Si Salario < k entonces No Pagado
Salario
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Características deseables de los patrones descubiertos
Es válido? El patrón debería ser válido para un cierto número mínimo de
casos. En nuestro ejemplo es válido para el 86% de los casos.
Es nuevo? Debería aportar información previamente desconocida y no
obvia.
Es útil? Debería tener una utilidad definida. En nuestro ejemplo sirve para
otorgar préstamos sólo a personas con salarios mayores a k.
Es entendible? Debería ser lo suficientemente simple para poder
entenderlo y aplicarlo.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Problemas a tener en cuenta
Muchos patrones descubiertos de manera automática son obvios, o no son
interesantes.
Muchos son falsos, inexactos o efímeros porque provienen de un set de
datos que no representa la realidad (factores contingentes pueden dar lugar a
conclusiones falsas).
Los set de datos son imperfectos: algunos datos se encontrarán
distorsionados, otros faltarán.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Cuestiones Éticas
Identificación de fraude, corrupción,
terrorismo, robo, etc.
Falsos
Positivos ?
Análisis de canasta de mercado,
posicionamiento de góndola
(aumento de compras inesperadas),
marketing político (mensajes dirigidos
directamente a los indecisos), etc.
Manipulación?