Aplicaciones de la mineria de datos Ignacio Pérez Vélez

Aplicaciones de Minería de Datos
Aplicaciones de Minería de Datos
Ignacio Pérez Ph.D.
Generalidades
• Sectores:
Sectores: productos de consumo masivo, productos de consumo masivo
bancos.
• Intereses: Segmentación, pronósticos, scoring.
Intereses: Segmentación pronósticos scoring
• Bases de datos: 2‐10 GB, (1MM‐10MM registros) x (19 –
i
) (19 130 atributos antes de 130 ib
d
derivados).
• Software: SAS, SPS, R, RapidMiner, Knime.
Metodología CRISP
Metodología CRISP
Metodología CRISP
Metodología CRISP
• Ventajas:
Ventajas: – Estructurada.
– Simplifica la relación con el cliente.
Simplifica la relación con el cliente
– Facilita la continuidad del proceso.
Dificultades en el desarrollo de los proyectos
• Datos!!!
• Limpieza de las bases de datos (en ocasiones ha consumido el 75% del tiempo del
ha consumido el 75% del tiempo del proyecto). Es recomendable que sea el cliente quien “limpie”
quien limpie .
• Uniformidad en la comprensión del problema/datos.
bl
/d
Dificultades en el desarrollo de los proyectos
• Uso
Uso de los resultados: hay que involucrar a las de los resultados: hay que involucrar a las
áreas interesadas.
• Continuidad de los proyectos.
Continuidad de los proyectos
Caso 1
Caso 1
• Compañía
Compañía productora de artículos de productora de artículos de
consumo masivo, distribución a nivel de tienda.
tienda
• Preocupación: ¿Quiénes son nuestros clientes? ¿Quiénes responden a
clientes?, ¿Quiénes responden a promociones?, Técnicas
•
•
•
•
Estadística Básica
Estadística
Básica
Analisis de Clusters (K‐means).
Si
Sistemas de Pronósticos (Modelos ARIMA)
d
ó i
( d l
)
Software: SAS, RapidMiner.
Resultados
• Segmentación de Clientes en tres categorías:
Segmentación de Clientes en tres categorías:
– Platino
– Oro Oro
– Plata.
• R
Reformulación de los esquemas de f
l ió d l
d
promoción.
• Formulación de pronósticos.
Esquema de Pronósticos
Esquema de Pronósticos
Pronóstico de Ventas
Metodo Arim a
200,000
180,000
160,000
120,000
100,000
80 000
80,000
60,000
40,000
20,000
13
/0
2/
06
20
/0
2/
06
27
/0
2/
06
06
/0
3/
06
13
/0
3/
06
20
/0
3/
06
27
/0
3/
06
03
/0
4/
06
10
/0
4/
06
Ven
ntas por día
140,000
Real
Pronostico
Caso 2
Caso 2
• Institución
Institución del sector financiero, requiere del sector financiero requiere
cumplir con la normativa de la Superfinanciera con relación a la prevención en el Lavado de
con relación a la prevención en el Lavado de Activos, Fraude y Terrorismo (SARLAFT).
Caso 2
Caso 2
• Problemática:
Problemática: Detectar las operaciones Detectar las operaciones
inusuales susceptibles de corresponder a operaciones de lavado
operaciones de lavado.
• Requerimientos: Segmentación, scoring.
Técnicas
• Segmentación
Segmentación a priori complementada con a priori complementada con
segmentación a posteriori de los clientes.
• Scoring de clientes.
Scoring de clientes
• Análisis de clusters (K‐means)
• Componentes principales.
Resultados
• Construcción de un índice de Inusualidad.
Construcción de un índice de Inusualidad
El cambio en el Índice de inusualidad es el
que determina la sospecha en un cliente
Clientes Antiguos
Mes 1
Mes 2
Calificación del
Factor de
Riesgo 1
Calificación del
Factor de
Riesgo 1
100
100
100
Calificación
del Factor de
Riesgo 2
100
Cualquier cliente antiguo que llegue a la zona de muy alto riesgo,
viniendo de otra zona
zona, debe ser revisado
Información confidencial – Prohibida su reproducción y distribución Calificación
del Factor de
Riesgo 2
Se analizan todas las variables para determinar si es posible detectar comportamientos inusuales
posible detectar comportamientos inusuales
CDTs Número de aperturas al Mes Personas Naturales Antiguas
Cluster
Frecuencia min max centro
3
1
2
6
5
8
7
9
10
4
35,342 35 342
2,664 410 89 89
38 11 10 10
4 3 2 1
2
3
4
5
6
7
8
9
11
Información Confidencial – Prohibida su distribución y reproducción
1
2
3
4
5
6
7
8
10
12
1.0 10
2.0 3.0 4.0 40
5.0 6.0 7.0 70
8.0 9.3 11.5 La calificación de cada cliente se obtiene sumando su calificación en cada factor de riesgo, ponderada por el peso de cada factor
Peso de cada por Factor
Factor de riesgo 1
28%
Factor de riesgo 2
32%
F t de
Factor
d riesgo
i
3
17%
Factor de riesgo 4
23%
nit
51779706
900013866
1086102088
5825443
13013073
74355054
5825443
890901130
52413064
805017025
20886939
16686658
860025519
Factor
Riesgo 1
99
61
70
80
79
78
53
33
79
36
30
58
11
Calificación
Factor
Factor
Factor Calificación
Riesgo 2 Riesgo 3 Riesgo 4
Total
94
93
46
84.12
91
79
39
68.51
34
94
84
65.80
82
21
50
63.62
65
33
58
61.78
47
61
61
61.33
34
70
95
59.52
55
32
100
55.28
17
12
74
46.55
49
28
64
45.26
35
29
73
41.39
11
44
5
28.32
14
12
27
15.74
Información confidencial – Prohibida su reproducción y distribución A su vez, para calificar cada factor se ponderan los valores de cada indicador o componente principal, por su peso en el respectivo factor
Peso de cada indicador
Indicador 1
15%
Indicador 2
24%
Indicador 3
21%
Comp Principal 1
17%
Comp Principal 2
23%
nit
51779706
900013866
1086102088
5825443
13013073
74355054
5825443
890901130
52413064
805017025
20886939
16686658
860025519
Indicador 1
40
50
90
30
90
80
100
100
90
50
40
20
20
Calificación Factor de Riesgo 4
Comp
Comp
Calificación
Indicador 2 Indicador 3 Principal 1 Principal 2
Total
70
60
20
30
46
90
10
30
10
39
90
70
80
90
84
50
0
100
70
50
20
40
60
90
58
40
90
0
90
61
80
100
100
100
95
100
100
100
100
100
80
40
70
90
74
80
80
40
60
64
100
70
60
80
73
0
0
10
0
5
20
30
20
40
27
IQuartil – Información confidencial –
Prohibida su reproducción o distribución
Gran parte del esfuerzo del proyecto se concentró en limpieza y análisis de las bases de datos
Pasos desarrollados en el proyecto:
• Obtención de las bases de datos de clientes y transaccionales;
• Limpieza de las bases de datos, quitando campos no requeridos, campos sin información, y
casos no relevantes;
• Definición inicial de variables que podrían ser de interés;
• Segmentación a priori de los clientes;
para calcular las variables definidas como
• Construcción de las bases de datos de análisis p
de interés;
• Análisis y calificación de las variables de interés que permiten identificar comportamientos
inusuales de LA/FT;
• Definición de las variables que se utilizarán en los modelos;
• Asignar las variables utilizadas a los factores de riesgo;
• Calificar cada factor de riesgo;
• Ponderar los factores para obtener el índice de inusualidad;
• Caracterizar a posteriori el índice de inusualidad para determinar si hay diferencias
significativas por factor de riesgo.
Información Confidencial – Prohibida su distribución y reproducción
Conclusiones
• Amplias
Amplias posibilidades para el desarrollo de la posibilidades para el desarrollo de la
minería de datos en el país.
• Involucrarse con el cliente.
Involucrarse con el cliente
• Comprender el negocio.
• Continuidad.