Inicio ´ de una cartera de clientes Segmentacion ´ usando aprendizaje de maquina Jose´ Luyo Universidad San Ignacio de Loyola ´ desarrollo y I encuentro interdisciplinario de investigacion tecnolog´ıa USIL 2014 Jose´ Luyo ´ Maquina de Soporte Vectorial Inicio Inicio 1 ´ Aprendizaje de maquina Fundamentos Planteamiento del problema 2 ´ Maquina de soporte vectorial ´ Clasificador de maximo margen ´ Maquina de soporte vectorial (Caso no lineal) 3 ´ computacional Implementacion Resultados Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Fundamentos Planteamiento del problema Inicio 1 ´ Aprendizaje de maquina Fundamentos Planteamiento del problema 2 ´ Maquina de soporte vectorial ´ Clasificador de maximo margen ´ Maquina de soporte vectorial (Caso no lineal) 3 ´ computacional Implementacion Resultados Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Fundamentos Planteamiento del problema ´ Aprendizaje y clasificacion El aprendizaje es el proceso de adquirir o modificar conocimiento, como resultado de la experiencia. En nuestro caso buscamos un conjunto de funciones del siguiente tipo ClienteconRiesgo(Juan) = Si ClienteconRiesgo(Roxana) = No y/o ClienteFiel(Mar´ıa) = No ClienteFiel(Pedro) = Si Ambas funciones pueden formar parte del Conocimiento del Cliente. ´ Aprendizaje de maquina ´ ´ El aprendizaje de maquina es una rama de la IA que desarrolla tecnicas que permitan a las computadoras aprender. Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Fundamentos Planteamiento del problema ´ ´ Idea geometrica (Aprendizaje de maquina) 1 Se cuenta con un conjunto de datos de clientes ya clasificados, que denominaremos conjunto de entrenamiento DNI 1000025 1002945 1017122 . . . 1018132 Edad 40 38 35 Renta 2500 3000 8000 Clase NO NO SI Y + + + + + + + + + - 38 7000 - - - - - - SI - 2 Se busca a partir de este conjunto ´ f que clasifique construir una funcion nuevos clientes. DNI 1999925 Edad 45 Renta 4500 Clase f(45, 4500) Jose´ Luyo X Figura: Mapeo del conjunto de entrenamiento ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Fundamentos Planteamiento del problema Inicio 1 ´ Aprendizaje de maquina Fundamentos Planteamiento del problema 2 ´ Maquina de soporte vectorial ´ Clasificador de maximo margen ´ Maquina de soporte vectorial (Caso no lineal) 3 ´ computacional Implementacion Resultados Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Fundamentos Planteamiento del problema ´ binaria Problema de clasificacion ´ la idea geometrica ´ Se estructura a continuacion ya expuesta ´ ´ Aprendizaje de maquina - Estructura matematica Se tienen lo siguientes elementos El espacio con producto interno Rn como nuestro conjunto universo de datos. El conjunto S donde S ⊂ Rn un conjunto de muestra. ´ f : S → {+1, −1} que denominaremos funcion ´ de etiquetado. Una funcion Un conjunto D de entrenamiento, donde D = {(x, y) /x ∈ S, y = f (x)} ´ ˆf : Rn → {+1, −1}, a partir de D tal que ˆf = f (x) para Debemos hallar una funcion ´ de decision. ´ todo x ∈ S. Vamos a denominar a f como la funcion Cuando el conjunto de entrenamiento D es linealmente separable el problema ´ binaria lineal. anterior es denominado problema de clasificacion Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Fundamentos Planteamiento del problema ´ al problema de clasificacion ´ binaria lineal Solucion Suponemos que el conjunto de entrenamiento D ⊂ Rn es linealmente separable g(¯ x) = w ¯·x ¯=0 + + w ¯ γ Si a pertenece a la clase −1, entonces w · a < 0 + + Si a pertenece a la clase +1, entonces w · a > 0 a ¯ ´ de decision ´ de una clasificacion ´ binaria lineal Funcion ´ de decision ´ ˆf para el problema, cuya superficie de decision ´ es L : w · x = b La funcion esta´ dada por ˆf (x) = sgn(w · x − b) Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Fundamentos Planteamiento del problema ´ binaria lineal Algoritmos de Clasificacion ´ ´ entre los Hoy en d´ıa, existen varios metodos para construir una superficie de decision, ´ reconocidos se mencionan: mas Redes Neuronales ´ ´ Arboles de decision Naive Bayes, etc. ´ La teor´ıa de aprendizaje estad´ıstico postula geometricamente lo siguiente: ´ es optima ´ Una superficie de decision si es equidistante a los hiperplanos de soporte y maximiza el margen entre las clases. Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados ´ Clasificador de maximo margen ´ Maquina de soporte vectorial Inicio 1 ´ Aprendizaje de maquina Fundamentos Planteamiento del problema 2 ´ Maquina de soporte vectorial ´ Clasificador de maximo margen ´ Maquina de soporte vectorial (Caso no lineal) 3 ´ computacional Implementacion Resultados Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados ´ Clasificador de maximo margen ´ Maquina de soporte vectorial ´ Clasificador de maximo margen 3 + + + + + + 1 4 + 2 ⊕ 1 ´ Superficie de decision 2 - - Hiperplanos de soporte 3 Vectores de soporte - 4 Margen ⊕ - - - - Figura: Conjunto de entrenamiento Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados ´ Clasificador de maximo margen ´ Maquina de soporte vectorial ´ Clasificador de Maximo Margen ´ Clasificador de Maximo Margen Dado un conjunto de entrenamiento linealmente separable: D = {(x1 , y1 ), (x2 , y2 ), (x3 , y3 ), ..., (xl , yl )} ⊂ Rn × {−1, +1} ´ w ∗ · x = b∗ que maximice el margen Podemos calcular una superficie de decision ´ resolviendo el siguiente problema de optimizacion m´ın φ(w, b) = m´ın w,b w,b 1 w ·w 2 S.a yi (w · xi − b) − 1 ≥ 0 1 ´ objetivo no depende de b La funcion 2 ´ El termino independiente b aparece en las restricciones 3 Vamos a tener tantas restricciones como puntos de entrenamiento La alternativa para superarlo es resolver el problema dual Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados ´ Clasificador de maximo margen ´ Maquina de soporte vectorial Inicio 1 ´ Aprendizaje de maquina Fundamentos Planteamiento del problema 2 ´ Maquina de soporte vectorial ´ Clasificador de maximo margen ´ Maquina de soporte vectorial (Caso no lineal) 3 ´ computacional Implementacion Resultados Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados ´ Clasificador de maximo margen ´ Maquina de soporte vectorial ´ no lineal Clasificacion φ φ(xi ) + + + + + + + + xi + - + + + + + - - - - - - - - - ´ no lineal Figura: Clasificacion Podremos usar un clasificador lineal en el espacio de caracter´ısticas ´ ´ φ? ¿Como calculamos la funcion Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados ´ Clasificador de maximo margen ´ Maquina de soporte vectorial ´ nucleo ´ Luego usando una funcion reemplazando el producto interno la maquina de ´ soporte vectorial para el caso no lineal estar´ıa definida como m ˆf (x) = sgn λ∗i yi φ(xi ), φ(x) − b∗ i=1 m λ∗i yi K (xi , x) − b∗ = sgn i=1 ´ Maquina de Soporte Vectoria no lineal ´ ´ de decision ´ Definimos a la maquina de soporte vectorial no lineal como la funcion dada por m ˆf (x) = sgn λ∗i yi K (xi , x) − b∗ i=1 Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados Inicio 1 ´ Aprendizaje de maquina Fundamentos Planteamiento del problema 2 ´ Maquina de soporte vectorial ´ Clasificador de maximo margen ´ Maquina de soporte vectorial (Caso no lineal) 3 ´ computacional Implementacion Resultados Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados Resultados del aprendizaje ´ La biblioteca libsvm tiene implementado el algoritmo de maquina de soporte vectorial, esta b es usada por R (en los paquetes e1071 y kernlab) y WEKA. Los resultados que presentamos fueron salidas del paquete kernlab de R Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados Resultados Nuestros datos fueron separados en dos grupos: Entrenamiento (1,045 registros) y Prueba (184 registros). Para las pruebas, utilizamos el nucleo denominado Radial ´ Basic Function (RBF). K (xi , xj ) = e−σ( xi −xj 2 ) ´ Con los siguientes valores en los paramentros con σ = 0,25, Se obtuvo los siguientes resultados Afiliado Traspaso Afiliado* 526 46 572 Traspaso* 75 398 473 ´ SVM. *Clasificacion El error de entrenamiento es de 11.57 %.Utilizando el modelo construido, se verifico´ con los datos de prueba con un 13.5 % de error Afiliado Traspaso Afiliado* 100 16 116 Jose´ Luyo Traspaso* 9 59 68 ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados Segundo ejercicio Con el mismo conjunto de datos, decidimos escoger otro conjunto de entrenamiento ´ (1,000 registros) y de prueba (229 registros), con el mismo valor en los parametros ´ que el ejercicio anterior, se entreno´ a la maquina y se obtuvieron los siguientes resultados Afiliado Traspaso Afiliado* 513 44 557 Traspaso* 66 377 443 Error de entrenamiento 11 %, probamos el modelo con el conjunto de prueba: Afiliado Traspaso Afiliado* 113 19 132 Traspaso* 11 86 97 ´ Error de entrenamiento 12.66 %, con esta cifra, damos por valido al modelo. Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados Puesta en marcha ´ ´ ´ Una vez hallado los parametros optimos se construye la maquina de soporte vectorial con la que se va a medir la probabilidad de traspaso de un conjunto de clientes no empleado para el entrenamiento. CodigoCte C001 C002 C003 C004 C005 C006 C007 C008 C009 C010 C011 C012 C013 Clase Afiliado Afiliado Afiliado Afiliado Afiliado Afiliado Afiliado Afiliado Afiliado Afiliado Afiliado Afiliado Afiliado ClaseSVM Traspaso Afiliado Afiliado Traspaso Traspaso Afiliado Afiliado Traspaso Afiliado Afiliado Afiliado Traspaso Afiliado Prob.Traspaso 57.97 % 43.26 % 34.86 % 59.28 % 55.34 % 29.73 % 27.07 % 86.70 % 25.57 % 28.86 % 25.30 % 64.58 % 44.55 % Cuadro: Probabilidad de traspaso Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados ´ ´ Graficos de la clasificacion Clase Traspaso en Azul Figura: Permanencia Entidad vs Permanencia en Sistema Jose´ Luyo Figura: Edad vs Renta ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados ´ ´ Graficos de la clasificacion Figura: Permanencia Entidad vs Permanencia en Sistema Jose´ Luyo Figura: Edad vs Renta ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados ´ ´ Graficos de la clasificacion Figura: CuotasPagadas vs Figura: Renta vs TPHO MaxCuotasConsecutivas Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados Bibliograf´ıa Lutz Hamel. Knowledge Discovery with Support Vector Machines. John Wiley y Sons Inc, 2009. Ralf Herbrich. Learning Kernel Classifiers. Massachusetts Institute of Tecnology, 2002. Xindong Wu-Vipin Kumar. The Top Ten Algorithms in Data Mining. Chapman y Hall/CRC, 2009. A.L. Peressini, F.E. Sullivan, J.J. Uhl Jr. The Mathematics of nonlinear programming. Springer - Verlag New York INC, 1988. Nello Cristianini and John Shawe-Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press 2000. Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados Bibliograf´ıa Ingo Steinward and Andreas Christmann. Support Vector Machines. Springer Science+Business Media, LLC, 2008. Willi-Hans-Steeb. The Nonlinear Workbook 3rd Edition. World Scientific Publishing Co. Pte. Ltd, 2005. Jose´ Luyo ´ Maquina de Soporte Vectorial ´ Aprendizaje de maquina SVM Resultados Resultados ´ Muchas gracias por su atencion Jose´ Luyo ´ Maquina de Soporte Vectorial
© Copyright 2025