LA CAIDA pdf free - PDF eBooks Free | Page 1

Inicio
´ de una cartera de clientes
Segmentacion
´
usando aprendizaje de maquina
Jose´ Luyo
Universidad San Ignacio de Loyola
´ desarrollo y
I encuentro interdisciplinario de investigacion
tecnolog´ıa USIL 2014
Jose´ Luyo
´
Maquina
de Soporte Vectorial
Inicio
Inicio
1
´
Aprendizaje de maquina
Fundamentos
Planteamiento del problema
2
´
Maquina
de soporte vectorial
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial (Caso no lineal)
3
´ computacional
Implementacion
Resultados
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Fundamentos
Planteamiento del problema
Inicio
1
´
Aprendizaje de maquina
Fundamentos
Planteamiento del problema
2
´
Maquina
de soporte vectorial
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial (Caso no lineal)
3
´ computacional
Implementacion
Resultados
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Fundamentos
Planteamiento del problema
´
Aprendizaje y clasificacion
El aprendizaje es el proceso de adquirir o modificar conocimiento, como resultado de
la experiencia.
En nuestro caso buscamos un conjunto de funciones del siguiente tipo
ClienteconRiesgo(Juan) = Si
ClienteconRiesgo(Roxana) = No
y/o
ClienteFiel(Mar´ıa) = No
ClienteFiel(Pedro) = Si
Ambas funciones pueden formar parte del Conocimiento del Cliente.
´
Aprendizaje de maquina
´
´
El aprendizaje de maquina
es una rama de la IA que desarrolla tecnicas
que
permitan a las computadoras aprender.
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Fundamentos
Planteamiento del problema
´
´
Idea geometrica
(Aprendizaje de maquina)
1
Se cuenta con un conjunto de datos
de clientes ya clasificados, que
denominaremos conjunto de
entrenamiento
DNI
1000025
1002945
1017122
.
.
.
1018132
Edad
40
38
35
Renta
2500
3000
8000
Clase
NO
NO
SI
Y
+
+
+
+
+
+
+
+
+
-
38
7000
-
- -
-
-
-
SI
-
2
Se busca a partir de este conjunto
´ f que clasifique
construir una funcion
nuevos clientes.
DNI
1999925
Edad
45
Renta
4500
Clase
f(45, 4500)
Jose´ Luyo
X
Figura: Mapeo del conjunto de
entrenamiento
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Fundamentos
Planteamiento del problema
Inicio
1
´
Aprendizaje de maquina
Fundamentos
Planteamiento del problema
2
´
Maquina
de soporte vectorial
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial (Caso no lineal)
3
´ computacional
Implementacion
Resultados
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Fundamentos
Planteamiento del problema
´ binaria
Problema de clasificacion
´ la idea geometrica
´
Se estructura a continuacion
ya expuesta
´
´
Aprendizaje de maquina
- Estructura matematica
Se tienen lo siguientes elementos
El espacio con producto interno Rn como nuestro conjunto universo de datos.
El conjunto S donde S ⊂ Rn un conjunto de muestra.
´ f : S → {+1, −1} que denominaremos funcion
´ de etiquetado.
Una funcion
Un conjunto D de entrenamiento, donde D = {(x, y) /x ∈ S, y = f (x)}
´ ˆf : Rn → {+1, −1}, a partir de D tal que ˆf = f (x) para
Debemos hallar una funcion
´ de decision.
´
todo x ∈ S. Vamos a denominar a f como la funcion
Cuando el conjunto de entrenamiento D es linealmente separable el problema
´ binaria lineal.
anterior es denominado problema de clasificacion
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Fundamentos
Planteamiento del problema
´ al problema de clasificacion
´ binaria lineal
Solucion
Suponemos que el conjunto de entrenamiento D ⊂ Rn es linealmente separable
g(¯
x) = w
¯·x
¯=0
+
+
w
¯
γ
Si a pertenece a la clase −1,
entonces w · a < 0
+
+
Si a pertenece a la clase +1,
entonces w · a > 0
a
¯
´ de decision
´ de una clasificacion
´ binaria lineal
Funcion
´ de decision
´ ˆf para el problema, cuya superficie de decision
´ es L : w · x = b
La funcion
esta´ dada por
ˆf (x) = sgn(w · x − b)
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Fundamentos
Planteamiento del problema
´ binaria lineal
Algoritmos de Clasificacion
´
´ entre los
Hoy en d´ıa, existen varios metodos
para construir una superficie de decision,
´ reconocidos se mencionan:
mas
Redes Neuronales
´
´
Arboles
de decision
Naive Bayes, etc.
´
La teor´ıa de aprendizaje estad´ıstico postula geometricamente
lo siguiente:
´ es optima
´
Una superficie de decision
si es equidistante a los hiperplanos de soporte y
maximiza el margen entre las clases.
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial
Inicio
1
´
Aprendizaje de maquina
Fundamentos
Planteamiento del problema
2
´
Maquina
de soporte vectorial
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial (Caso no lineal)
3
´ computacional
Implementacion
Resultados
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial
´
Clasificador de maximo
margen
3
+
+
+
+
+
+
1
4
+
2
⊕
1
´
Superficie de decision
2
- -
Hiperplanos de soporte
3
Vectores de soporte
-
4
Margen
⊕
-
-
-
-
Figura: Conjunto de entrenamiento
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial
´
Clasificador de Maximo
Margen
´
Clasificador de Maximo
Margen
Dado un conjunto de entrenamiento linealmente separable:
D = {(x1 , y1 ), (x2 , y2 ), (x3 , y3 ), ..., (xl , yl )} ⊂ Rn × {−1, +1}
´ w ∗ · x = b∗ que maximice el margen
Podemos calcular una superficie de decision
´
resolviendo el siguiente problema de optimizacion
m´ın φ(w, b) = m´ın
w,b
w,b
1
w ·w
2
S.a yi (w · xi − b) − 1 ≥ 0
1
´ objetivo no depende de b
La funcion
2
´
El termino
independiente b aparece en las restricciones
3
Vamos a tener tantas restricciones como puntos de entrenamiento
La alternativa para superarlo es resolver el problema dual
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial
Inicio
1
´
Aprendizaje de maquina
Fundamentos
Planteamiento del problema
2
´
Maquina
de soporte vectorial
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial (Caso no lineal)
3
´ computacional
Implementacion
Resultados
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial
´ no lineal
Clasificacion
φ
φ(xi )
+
+
+
+
+
+
+
+
xi
+
-
+
+
+
+
+
-
-
-
-
-
-
- - -
´ no lineal
Figura: Clasificacion
Podremos usar un clasificador lineal en el espacio de caracter´ısticas
´
´ φ?
¿Como
calculamos la funcion
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial
´ nucleo
´
Luego usando una funcion
reemplazando el producto interno la maquina
de
´
soporte vectorial para el caso no lineal estar´ıa definida como
m
ˆf (x) = sgn
λ∗i yi φ(xi ), φ(x) − b∗
i=1
m
λ∗i yi K (xi , x) − b∗
= sgn
i=1
´
Maquina
de Soporte Vectoria no lineal
´
´ de decision
´
Definimos a la maquina
de soporte vectorial no lineal como la funcion
dada por
m
ˆf (x) = sgn
λ∗i yi K (xi , x) − b∗
i=1
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
Inicio
1
´
Aprendizaje de maquina
Fundamentos
Planteamiento del problema
2
´
Maquina
de soporte vectorial
´
Clasificador de maximo
margen
´
Maquina
de soporte vectorial (Caso no lineal)
3
´ computacional
Implementacion
Resultados
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
Resultados del aprendizaje
´
La biblioteca libsvm tiene implementado el algoritmo de maquina
de soporte
vectorial, esta b es usada por R (en los paquetes e1071 y kernlab) y WEKA.
Los resultados que presentamos fueron salidas del paquete kernlab de R
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
Resultados
Nuestros datos fueron separados en dos grupos: Entrenamiento (1,045 registros) y
Prueba (184 registros). Para las pruebas, utilizamos el nucleo
denominado Radial
´
Basic Function (RBF).
K (xi , xj ) = e−σ(
xi −xj 2 )
´
Con los siguientes valores en los paramentros
con σ = 0,25, Se obtuvo los siguientes
resultados
Afiliado
Traspaso
Afiliado*
526
46
572
Traspaso*
75
398
473
´ SVM.
*Clasificacion
El error de entrenamiento es de 11.57 %.Utilizando el modelo construido, se
verifico´ con los datos de prueba con un 13.5 % de error
Afiliado
Traspaso
Afiliado*
100
16
116
Jose´ Luyo
Traspaso*
9
59
68
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
Segundo ejercicio
Con el mismo conjunto de datos, decidimos escoger otro conjunto de entrenamiento
´
(1,000 registros) y de prueba (229 registros), con el mismo valor en los parametros
´
que el ejercicio anterior, se entreno´ a la maquina
y se obtuvieron los siguientes
resultados
Afiliado
Traspaso
Afiliado*
513
44
557
Traspaso*
66
377
443
Error de entrenamiento 11 %, probamos el modelo con el conjunto de prueba:
Afiliado
Traspaso
Afiliado*
113
19
132
Traspaso*
11
86
97
´
Error de entrenamiento 12.66 %, con esta cifra, damos por valido
al modelo.
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
Puesta en marcha
´
´
´
Una vez hallado los parametros
optimos
se construye la maquina
de soporte vectorial
con la que se va a medir la probabilidad de traspaso de un conjunto de clientes no
empleado para el entrenamiento.
CodigoCte
C001
C002
C003
C004
C005
C006
C007
C008
C009
C010
C011
C012
C013
Clase
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
Afiliado
ClaseSVM
Traspaso
Afiliado
Afiliado
Traspaso
Traspaso
Afiliado
Afiliado
Traspaso
Afiliado
Afiliado
Afiliado
Traspaso
Afiliado
Prob.Traspaso
57.97 %
43.26 %
34.86 %
59.28 %
55.34 %
29.73 %
27.07 %
86.70 %
25.57 %
28.86 %
25.30 %
64.58 %
44.55 %
Cuadro: Probabilidad de traspaso
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
´
´
Graficos
de la clasificacion
Clase Traspaso en Azul
Figura: Permanencia Entidad vs
Permanencia en Sistema
Jose´ Luyo
Figura: Edad vs Renta
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
´
´
Graficos
de la clasificacion
Figura: Permanencia Entidad vs
Permanencia en Sistema
Jose´ Luyo
Figura: Edad vs Renta
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
´
´
Graficos
de la clasificacion
Figura: CuotasPagadas vs
Figura: Renta vs TPHO
MaxCuotasConsecutivas
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
Bibliograf´ıa
Lutz Hamel.
Knowledge Discovery with Support Vector Machines.
John Wiley y Sons Inc, 2009.
Ralf Herbrich.
Learning Kernel Classifiers.
Massachusetts Institute of Tecnology, 2002.
Xindong Wu-Vipin Kumar.
The Top Ten Algorithms in Data Mining.
Chapman y Hall/CRC, 2009.
A.L. Peressini, F.E. Sullivan, J.J. Uhl Jr.
The Mathematics of nonlinear programming.
Springer - Verlag New York INC, 1988.
Nello Cristianini and John Shawe-Taylor.
An Introduction to Support Vector Machines and Other Kernel-based Learning
Methods.
Cambridge University Press 2000.
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
Bibliograf´ıa
Ingo Steinward and Andreas Christmann.
Support Vector Machines.
Springer Science+Business Media, LLC, 2008.
Willi-Hans-Steeb.
The Nonlinear Workbook 3rd Edition.
World Scientific Publishing Co. Pte. Ltd, 2005.
Jose´ Luyo
´
Maquina
de Soporte Vectorial
´
Aprendizaje de maquina
SVM
Resultados
Resultados
´
Muchas gracias por su atencion
Jose´ Luyo
´
Maquina
de Soporte Vectorial