Aplicaciones de Minería de Datos Aplicaciones de Minería de Datos Ignacio Pérez Ph.D. Generalidades • Sectores: Sectores: productos de consumo masivo, productos de consumo masivo bancos. • Intereses: Segmentación, pronósticos, scoring. Intereses: Segmentación pronósticos scoring • Bases de datos: 2‐10 GB, (1MM‐10MM registros) x (19 – i ) (19 130 atributos antes de 130 ib d derivados). • Software: SAS, SPS, R, RapidMiner, Knime. Metodología CRISP Metodología CRISP Metodología CRISP Metodología CRISP • Ventajas: Ventajas: – Estructurada. – Simplifica la relación con el cliente. Simplifica la relación con el cliente – Facilita la continuidad del proceso. Dificultades en el desarrollo de los proyectos • Datos!!! • Limpieza de las bases de datos (en ocasiones ha consumido el 75% del tiempo del ha consumido el 75% del tiempo del proyecto). Es recomendable que sea el cliente quien “limpie” quien limpie . • Uniformidad en la comprensión del problema/datos. bl /d Dificultades en el desarrollo de los proyectos • Uso Uso de los resultados: hay que involucrar a las de los resultados: hay que involucrar a las áreas interesadas. • Continuidad de los proyectos. Continuidad de los proyectos Caso 1 Caso 1 • Compañía Compañía productora de artículos de productora de artículos de consumo masivo, distribución a nivel de tienda. tienda • Preocupación: ¿Quiénes son nuestros clientes? ¿Quiénes responden a clientes?, ¿Quiénes responden a promociones?, Técnicas • • • • Estadística Básica Estadística Básica Analisis de Clusters (K‐means). Si Sistemas de Pronósticos (Modelos ARIMA) d ó i ( d l ) Software: SAS, RapidMiner. Resultados • Segmentación de Clientes en tres categorías: Segmentación de Clientes en tres categorías: – Platino – Oro Oro – Plata. • R Reformulación de los esquemas de f l ió d l d promoción. • Formulación de pronósticos. Esquema de Pronósticos Esquema de Pronósticos Pronóstico de Ventas Metodo Arim a 200,000 180,000 160,000 120,000 100,000 80 000 80,000 60,000 40,000 20,000 13 /0 2/ 06 20 /0 2/ 06 27 /0 2/ 06 06 /0 3/ 06 13 /0 3/ 06 20 /0 3/ 06 27 /0 3/ 06 03 /0 4/ 06 10 /0 4/ 06 Ven ntas por día 140,000 Real Pronostico Caso 2 Caso 2 • Institución Institución del sector financiero, requiere del sector financiero requiere cumplir con la normativa de la Superfinanciera con relación a la prevención en el Lavado de con relación a la prevención en el Lavado de Activos, Fraude y Terrorismo (SARLAFT). Caso 2 Caso 2 • Problemática: Problemática: Detectar las operaciones Detectar las operaciones inusuales susceptibles de corresponder a operaciones de lavado operaciones de lavado. • Requerimientos: Segmentación, scoring. Técnicas • Segmentación Segmentación a priori complementada con a priori complementada con segmentación a posteriori de los clientes. • Scoring de clientes. Scoring de clientes • Análisis de clusters (K‐means) • Componentes principales. Resultados • Construcción de un índice de Inusualidad. Construcción de un índice de Inusualidad El cambio en el Índice de inusualidad es el que determina la sospecha en un cliente Clientes Antiguos Mes 1 Mes 2 Calificación del Factor de Riesgo 1 Calificación del Factor de Riesgo 1 100 100 100 Calificación del Factor de Riesgo 2 100 Cualquier cliente antiguo que llegue a la zona de muy alto riesgo, viniendo de otra zona zona, debe ser revisado Información confidencial – Prohibida su reproducción y distribución Calificación del Factor de Riesgo 2 Se analizan todas las variables para determinar si es posible detectar comportamientos inusuales posible detectar comportamientos inusuales CDTs Número de aperturas al Mes Personas Naturales Antiguas Cluster Frecuencia min max centro 3 1 2 6 5 8 7 9 10 4 35,342 35 342 2,664 410 89 89 38 11 10 10 4 3 2 1 2 3 4 5 6 7 8 9 11 Información Confidencial – Prohibida su distribución y reproducción 1 2 3 4 5 6 7 8 10 12 1.0 10 2.0 3.0 4.0 40 5.0 6.0 7.0 70 8.0 9.3 11.5 La calificación de cada cliente se obtiene sumando su calificación en cada factor de riesgo, ponderada por el peso de cada factor Peso de cada por Factor Factor de riesgo 1 28% Factor de riesgo 2 32% F t de Factor d riesgo i 3 17% Factor de riesgo 4 23% nit 51779706 900013866 1086102088 5825443 13013073 74355054 5825443 890901130 52413064 805017025 20886939 16686658 860025519 Factor Riesgo 1 99 61 70 80 79 78 53 33 79 36 30 58 11 Calificación Factor Factor Factor Calificación Riesgo 2 Riesgo 3 Riesgo 4 Total 94 93 46 84.12 91 79 39 68.51 34 94 84 65.80 82 21 50 63.62 65 33 58 61.78 47 61 61 61.33 34 70 95 59.52 55 32 100 55.28 17 12 74 46.55 49 28 64 45.26 35 29 73 41.39 11 44 5 28.32 14 12 27 15.74 Información confidencial – Prohibida su reproducción y distribución A su vez, para calificar cada factor se ponderan los valores de cada indicador o componente principal, por su peso en el respectivo factor Peso de cada indicador Indicador 1 15% Indicador 2 24% Indicador 3 21% Comp Principal 1 17% Comp Principal 2 23% nit 51779706 900013866 1086102088 5825443 13013073 74355054 5825443 890901130 52413064 805017025 20886939 16686658 860025519 Indicador 1 40 50 90 30 90 80 100 100 90 50 40 20 20 Calificación Factor de Riesgo 4 Comp Comp Calificación Indicador 2 Indicador 3 Principal 1 Principal 2 Total 70 60 20 30 46 90 10 30 10 39 90 70 80 90 84 50 0 100 70 50 20 40 60 90 58 40 90 0 90 61 80 100 100 100 95 100 100 100 100 100 80 40 70 90 74 80 80 40 60 64 100 70 60 80 73 0 0 10 0 5 20 30 20 40 27 IQuartil – Información confidencial – Prohibida su reproducción o distribución Gran parte del esfuerzo del proyecto se concentró en limpieza y análisis de las bases de datos Pasos desarrollados en el proyecto: • Obtención de las bases de datos de clientes y transaccionales; • Limpieza de las bases de datos, quitando campos no requeridos, campos sin información, y casos no relevantes; • Definición inicial de variables que podrían ser de interés; • Segmentación a priori de los clientes; para calcular las variables definidas como • Construcción de las bases de datos de análisis p de interés; • Análisis y calificación de las variables de interés que permiten identificar comportamientos inusuales de LA/FT; • Definición de las variables que se utilizarán en los modelos; • Asignar las variables utilizadas a los factores de riesgo; • Calificar cada factor de riesgo; • Ponderar los factores para obtener el índice de inusualidad; • Caracterizar a posteriori el índice de inusualidad para determinar si hay diferencias significativas por factor de riesgo. Información Confidencial – Prohibida su distribución y reproducción Conclusiones • Amplias Amplias posibilidades para el desarrollo de la posibilidades para el desarrollo de la minería de datos en el país. • Involucrarse con el cliente. Involucrarse con el cliente • Comprender el negocio. • Continuidad.
© Copyright 2024