Técnicas de Minería de Datos Aplicadas en la Detección de Fraude

TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
1
Técnicas de Minería de Datos Aplicadas en la
Detección de Fraude:Estado del Arte
Wilfredy Santamaria Ruiz
Abstract—La tarea de detección de fraude no es un tema
fácil de resolver, teniendo en cuenta las múltiples modalidades
y la evolución rápida que este tema ha tenido. En la actualidad
muchas entidades financieras a nivel mundial, utilizan técnicas de
minería de datos y modelos estadísticos para reconocer patrones
de comportamiento de las transacciones fraudulentas o de la
utilización ”normal” de los clientes para detectar operaciones
”sospechosas”’. Este artículo realiza una introducción al tema y
presenta las principales técnicas de minería de datos utilizadas en
la actualidad para la detección de fraude, así como los principales
estudios adelantados en esta área, adicionalmente se proponen
cuales son los temas de investigación en esta área.
Index Terms—Detección de fraude, técnicas de minería de
datos, patrones de comportamiento, entidades financieras.
I. INTRODUCCIÓN
L Fraude es tan viejo como la humanidad y puede
tomar una variedad de formas ilimitadas. Sin embargo,
en años recientes, el desarrollo de las nuevas tecnologías, ha
proporcionado maneras más extensas en que los delincuentes
pueden cometer fraude. Formas tradicionales, como el lavado
de activos, se han puesto más fácil de perpetuar y se ha unido a
nuevos tipos de fraude como[2]: fraude en telecomunicaciones
móviles, detección de intrusos en redes y fraude en tarjetas de
crédito.
En este artículo se hace una distinción entre la prevención y
detección de fraude. La prevención de fraude, describe las medidas que una entidad toma para impedir el fraude antes de que
ocurra, como por ejemplo, hologramas en billetes, sistemas de
seguridad en Internet para transacciones con tarjetas de crédito,
etc. En contraste, la detección de fraude involucra identificar
patrones de comportamiento de transacciones fraudulentas,
o de la utilización ”normal” de los clientes para detectar
operaciones ”sospechosas”. Una vez que la prevención ha
fallado, entre en escena la detección, para ello la mayoría de
los sistemas de detección actuales ofrecen dos tipos de alerta:
alerta por calificación probabilística y alerta por cumplimiento
de reglas. En el primer tipo de alerta, casi siempre se utilizan
modelos predictivos para arrojar una calificación o ”Score”,
que entre más alta determina mayor probabilidad de fraude;
para el segundo caso se emplean filtros basados en sentencias
SQL.
Los primeros intentos que hicieron las entidades financiera
para detectar fraude, fueron sistemas basados en aplicación
de reglas que alertaban las transacciones, si cumplían con
una o más reglas establecidas, estas reglas eran obtenidas
haciendo análisis histórico sobre los datos, y se configuraban
E
Maestria en Ingeniería de Sistemas y Computación- Universidad Nacional
de Colombia. e-mail: [email protected]
de acuerdo al comportamiento analizado. En la actualidad se
utilizan técnicas de minería de datos como[19]: Redes Neuronales, Árboles de Decisión y Redes de Creencia Bayesiana
en modelos predictivos, que utilizan sistemas de aprendizaje
autónomo para reconocimiento de patrones basados en hechos
históricos; en la gran mayoría de los casos, se utilizan los datos
de las transacciones hechas por los clientes para determinar los
patrones, estos permiten identificar rápidamente circunstancias
ajenas al comportamiento ”cotidiano” de un cliente.
Cualquiera que sea la técnica utilizada para la detección,
es necesario hacer una labor de la mano de los expertos
del negocio. En la construcción de los modelos, es necesario determinar el conjunto de entrenamiento, validación y
prueba con variables significativas, que puedan arrojar un
resultado confiable y no obvio. La detección de reglas esta
más orientada al análisis de cada transacción, mientras que
modelos de minería de datos pueden ser capaces de extraer
patrones, de describir tendencias y regularidades, de predecir
comportamientos, y en general de sacar provecho de la información computarizada que nos rodea hoy en día, generalmente
heterogénea y en grandes cantidades, que permiten a los
individuos y organizaciones comprender, y modelar de una
manera más eficiente para ayudar a la toma de decisiones.
Este documento esta estructurado de la siguiente forma: En
la sección II, se realiza una introducción al problema de la
detección de fraude. En la sección III, se realiza una breve
descripción del proceso de descubrimiento de conocimiento
y las etapas que lo conforman. En la sección IV, se describe
las técnicas para la detección de fraude, realizando un especial
énfasis en las técnicas de minería de datos, ya que esto ayuda a
comprender y contextualizar mejor el tema central del artículo.
La sección V, muestra los trabajos más relevantes realizados
en el área. La sección VI, da una perspectiva de los trabajos
futuros en el área, y la sección VII, concluye con una discusión
sobre este trabajo.
II. EL PROBLEMA DE LA DETECCIÓN DE FRAUDE
El problema en la detección de fraude, radica en el análisis de perfiles de usuario que permitan analizar el comportamiento de un cliente, con el fin de detectar anomalías.
En CRM(Customer Resource Management), el análisis en la
información de un usuario, implica una cadena de datos como
se muestra en la figura 1.
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
2
A continuación se presenta la taxonómica general del proceso KDD, como se ve en la figura 2(tomada de Jiawei
Han[31]) .
Figure 1.
Ilustración cadena de datos CRM
La cadena consiste en cuatro clases de datos[29]:
• Datos de perfil. Datos que representan información
histórica del usuario tal como: nombre, profesión, edad,
etc.
• Datos de Interés. Datos que representan las tendencias de
interés del cliente en los productos de la compañía.
• Datos de Acción. Datos que representan las transacciones
entre el cliente y la compañía.
• Datos de Respuesta. Datos que representan la información
de servicio al cliente.
En la práctica de la contrucción de perfiles de usuario, el
procedimiento incluye cuatro pasos:
1) Limpieza de datos, para eliminar datos redundantes, con
el fin de tener un análisis efectivo de detección de fraude.
2) Selección y Extracción de características, que permitan
descubrir indicadores, correspondientes a cambios en
comportamientos que indiquen fraude.
3) Modelamiento, para determinar patrones de fraude por
un clasificador[13].
4) Monitoreo y predicción de fraude, con el fin de emitir
alarmas.
De los cuatro pasos anteriores , el modelamiento y predicción
de fraude son los más importantes, y tienen amplia discusión
en el campo del aprendizaje de máquinas.
Adicionalmente, una de las dificultades en la detección
de fraude, es que típicamente la mayoría de los datos son
legítimos (99%).
III. MINERÍA DE DATOS Y DESCUBRIMIENTO DE
CONOCIMIENTO EN BASES DE DATOS
Debido a los grandes volúmenes de datos que una organización puede llegar a tener, el obtener conocimiento a partir
de estos no es una tarea fácil. Con este fin investigadores han
dado origen a campos de investigación como el descubrimiento
de conocimiento en bases de datos[30] (Knowledge Discovery
in Database - KDD), y en especial, el proceso de minería de
datos (Data Mining)
El término ‘KDD’ es empleado para describir el proceso
total de descubrimiento y extracción de conocimiento nuevo,
no obvio a partir de un conjunto de datos, el cual esta
conformado por relaciones y patrones entre los elementos que
conforman los datos [27].
El proceso de KDD abarca varias etapas en su realización,
desde la selección de datos que pueden ser necesarios para
descubrir conocimiento, hasta visualizar los resultados de
dicho descubrimiento. El principal proceso dentro del KDD
es la minería de datos ‘Data Mining’, que es la responsable
de buscar, descubrir y extraer el conocimiento desde los
datos[13].
Figure 2.
Etapas del proceso KDD
El proceso comienza con:
1. Preparación[11]. Esta etapa consiste en determinar que
datos de la base de datos, vamos a seleccionar para el proceso
de extracción de conocimiento. Dentro de las tareas que
se deben hacer en esta etapa tenemos: Selección de datos,
Limpieza, Enriquecimiento y Codificación.
2. Extracción o Minería[22]. La minería de datos, es el
proceso que pretende examinar la vasta cantidad de datos
en una base de datos, en busca de patrones recurrentes,
detectando tendencias y desenterrando hechos; intenta hallar
conocimiento con una mínima o ninguna instrucción u orientación de analistas, todo ello en el menor tiempo posible.
Con este conocimiento, el analista empresarial ejercita su
habilidad y experiencia en la materia, para separar los hechos
útiles de los inútiles.
3. Presentación[31]. En esta etapa se reporta los resultados
obtenidos en el proceso de minería de datos. Muchas veces los
usuarios se enamoran de una herramienta por los gráficos que
despliegan. Las mejores gráficas que una herramienta puede
mostrar son aquellas que el usuario entiende. Eso no quiere
decir que las gráficas animadas y con mucho colorido no sean
buenas, simplemente que los usuarios muchas veces no tienen
los conocimientos necesarios sobre el tema al que realizaron
minería, por lo que no pueden interpretar los resultados, y no
pueden definir si los resultados arrojados son buenos o son
malos para la organización.
IV. TÉCNICAS PARA LA DETECCIÓN DE FRAUDE
La detección de Fraude no es un tema trivial, las
metodologías usadas por los “falsificadores” no son las mismas
de hace algunos años; cuando las entidades identifican un
patrón de comportamiento, los “falsificadores” ya están pensando en otras alternativas. Actualmente las herramientas para
la detección de fraude se pueden clasificar en dos categorías:
• Técnicas tradicionales y
• Técnicas de Minería de datos.
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
3
A. TÉCNICAS TRADICIONALES
Los métodos tradicionales de detección de fraude consisten
en una combinación de investigadores y herramientas que
reportan alarmas de posibles sospechosos; para ello se utilizan
técnicas como:
1. Identificación de clientes que coinciden en listas de
control como:OFAC 1 , DATACREDITO2 ,etc , emitidas por
entes internacionales o nacionales.
2. Sistemas basados en la aplicación de reglas que constan
de sentencias SQL, definidas con la ayuda de expertos. Esta
estructura puede detectar sumas acumulativas de dinero, ingresadas a una cuenta en un corto periodo de tiempo, como
un día.
3. Métodos de clasificación estadísticos, como el análisis de
regresión de datos, para detectar comportamientos anómalos
de cambio en una cuenta, dada una serie de transacciones que
efectúa un cliente en un lapso de tiempo[2], [19].
4. Análisis de relaciones. Este análisis permite encontrar
relaciones entre elementos de información como transacciones,
cuentas y participantes. Esta técnica requiere un esquema
supervisado[2].
B. TÉCNICAS DE MINERÍA DE DATOS
La minería de datos ofrece un rango de técnicas que
permiten identificar casos sospechosos, basados en modelos.
Estos modelos se pueden clasificar en:
•
•
•
Modelos de datos inusuales. Estos modelos, pretenden
detectar comportamientos raros en un dato respecto a
su grupo de comparación, o con el mismo, por ejemplo
la consignación de altas sumas de dinero en efectivo.
Para este caso, se puede emplear técnicas de análisis de
Clustering, seguido de un análisis de detección de Outlier
Modelos de relaciones inexplicables. A través de este tipo
de modelos, se desea encontrar relaciones de registros
que tienen iguales valores para determinados campos,
resaltando el hecho que la coincidencia de valores debe
ser auténticamente inesperado, desechando similitudes
obvias como el sexo, la nacionalidad. Por ejemplo la
transferencia de fondos entre dos o más compañías con
la misma dirección de envío. Para este caso se pueden
aplicar técnicas de Clustering para encontrar grupos
sospechosos y reglas de asociación.
Modelos de características generales de Fraude. Con estos
modelo se pretende, una vez detectado ciertos casos,
hacer predicciones de futuros ingresos de transacciones
sospechosas. Para estas predicciones usualmente se emplean técnicas de regresión, árboles de decisión y redes
neuronales.
De igual forma, taxonómicamente la minería de datos se puede
dividir en dos clases: descriptiva y predictiva según[31] como
se presenta en la figura 3.
1 The Office of Foreign Assets Control of the US Department of the
Treasury. Véase http://www.treas.gov/offices/enforcement/ofac.
2 Véase http://www.datacredito.com.co
Figure 3. Taxonomía técnicas de Minería de Datos para detección de Fraude
1) Técnicas de Minería Descriptiva: El objetivo de este
tipo de minería, es encontrar patrones (correlaciones, tendencias, grupos, trayectorias y anomalías) que resuman relaciones
en los datos[7] . Dentro de las principales técnicas descriptivas
encontramos:
a) Detección de Anomalías(Outlier): La meta principal en
la detección de Anomalías, es encontrar objetos que sean
diferentes de los demás. Frecuentemente estos objetos son
conocidos como Outlier[16], [17].
La detección de anomalías también es conocida como
detección de desviaciones[21], porque objetos anómalos tienen
valores de atributos con una desviación significativa respecto
a los valores típicos esperados.
Aunque los Outlier son frecuentemente tratados como ruido
o error en muchas operaciones, tales como clustering, para
propósitos de detección de fraude, son una herramienta valiosa
para encontrar comportamientos atípicos en las operaciones
que un cliente realiza en una entidad financiera
En términos de salida, las técnicas actuales de detección de
Outlier se clasifican en:
• Técnicas basadas en Modelos[10], [23]. Se basan en el
campo de la estadísticas; dada la premisa de conocer la
distribución de los datos. Entre estas técnicas se resalta:
Método de Incertidumbre y Método de ”convex hull” .
• Técnicas basadas en proximidad[6], [24]. Esta técnica se
fundamenta en el manejo de distancias entre objetos, entre mayor sea la distancia del objeto respecto a los demás,
éste es considerado como un Outlier. Entre los principales
métodos se encuentra: la distancia de Mahalanobis y la
distancia Euclidiana.
• Técnicas basadas en densidad. Se hace uso de la estimación de densidad de los objetos, para ello, los objetos localizados en regiones de baja densidad, y que
son relativamente distantes de sus vecinos se consideran
anómalos. Entre los principales métodos se encuentra:
SHV[24] (Smallest half-volume),LOF[17](Local Outlier
Factor).
Este método de minera de datos, generalmente es de apren-
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
dizaje no supervisado, ya que en la mayoría de los casos,
no se conoce la clase, para ello se asigna una calificación a
cada instancia que refleja el grado con el cual la instancia es
anómala.
b) Clustering: El análisis de cluster es un proceso que
divide un grupo de objetos, de tal forma que los miembros
de cada grupo son similares de acuerdo a alguna métrica.
El agrupamiento de acuerdo a la similitud, es una técnica
muy poderosa, la clave para esto es trasladar alguna medida
intuitiva de similitud dentro de una medida cuantitativa[14],
como se ilustra en la figura 4.
Figure 4.
Agrupamiento por Cluster
Las técnicas de clustering son utilizadas comúnmente para
hacer segmentación, y su gran aplicación está en estrategias
de mercadeo, mediante las cuales se determinan conjuntos de
clientes que poseen el mismo comportamiento, para hacer llegar ofertas especialmente diseñadas al perfil de dichos clientes.
Las técnicas de segmentación permiten identificar claramente
el comportamiento de un grupo de casos que difiere de otros
grupos o conjuntos, sin embargo algunos autores[32]plantean
que por lo general, los cluster son resultados difíciles de
entender. Algunas veces, se puede utilizar un árbol de decisión a la salida del cluster, para explicar con precisión el
comportamiento o características de los casos que conforman
el cluster.
Los algoritmos de cluster funcionan con una metodología
basada en la construcción inicial de un gran cluster, y luego
la subdivisión del mismo hasta encontrar grupos de muestras
muy cercanas, otros por el contrario, parten asumiendo que
cada registro es un cluster, y luego empiezan a agrupar
registros hasta que se consolidan cluster no superpuestos más
grandes.
Entre los diferentes tipos de cluster se tienen[22], [31]:
• Clusters bien separados. Esta definición idealista parte
del hecho que todos los objetos de un grupo deben ser
suficientemente similares.
• Clusters basados en el centro. Un cluster es un conjunto
de objetos en el que un objeto está más cerca al centro
del cluster, que al centro de otro cluster.
• Clusters contiguos. Un cluster es un conjunto de puntos,
donde un punto en el cluster está más próximo a otro
punto o puntos del cluster, que a cualquier otro punto
4
que no pertenezca al cluster.
Clusters basados en densidad. Este tipo de agrupamiento,
se basa en el hecho de tener grupos en regiones de alta
densidad, separados por regiones de baja densidad.
• Cluster de propiedad o Conceptual. Son clusters que
tienen propiedad compartida o representan un concepto
particular, es decir, hay puntos en común entre dos
grupos.
Entre los principales algoritmos usados en el análisis de cluster
se encuentra:
• Algoritmo K-means[32]. Este algoritmo se fundamenta en
cluster basados en el centro, en términos de un centroide,
el cual usualmente es la media de un grupo de puntos,
y típicamente aplica a objetos en espacios continuos ndimensionales. En esta técnica se debe especificar el
número de cluster que se desea encontrar.
• Algoritmo DBSCAN[22]. Se basa en cluster de densidad,
en los cuales los grupos se localizan en las regiones
de alta densidad, y son separados por regiones de baja
densidad. Este algoritmo genera de manera automática
el número de cluster. Los puntos en baja densidad son
considerados como ruido y se ignoran.
2) Técnicas De Minería Predictiva: El objetivo de este tipo
de minería, es predecir el valor particular de un atributo basado
en otros atributos. El atributo a predecir es comúnmente
llamado ”clase” o variable dependiente, mientras que los
atributos usados para hacer la predicción se llaman variables
independientes[22]. Dentro de las principales técnicas predictivas encontramos:
a) Árboles de decisión: De las técnicas de aprendizaje, son
el método más fácil de utilizar y entender. Un árbol de decisión
es un conjunto de condiciones organizadas en una estructura
jerárquica, de tal manera que la decisión final a tomar, se puede
determinar siguiendo las condiciones que se cumplen desde la
raíz del árbol hasta sus hojas[30]. Se utilizan comúnmente
cuando se necesitan detectar reglas del negocio que puedan
ser fácilmente traducidas al lenguaje natural o SQL, o en
la construcción de modelos predictivos. Existen dos tipos de
árboles: los de clasificación, mediante los cuales un registro es
asignado a una clase en particular, reportando una probabilidad
de pertenecer a esa clase , y los árboles de regresión, que
permiten estimar el valor de una variable numérica objetivo.
El funcionamiento general de un árbol se basa en la aplicación de premisas que pueden ser cumplidas, o no, por un
registro; el registro pasa a través del árbol de premisa en
premisa hasta que se evalúa totalmente o hasta que encuentra
un nodo terminal, como se aprecia en la figura 5. Las premisas
pueden ser vistas como una serie de preguntas sobre las
variables de entrada al modelo, tales como ingresos mayores
a 500?, sexo masculino o femenino?, etc.,; cada registro, que
contiene dentro de si las variables de entrada, describe un
camino dentro del árbol por el cual pasa hasta obtener una
calificación o una clasificación según sea el caso. Los caminos
que describe el árbol para llegar a los nodos terminales,
representan el conocimiento adquirido y permiten la extracción
de reglas de clasificación de la forma IF-THEN.
Según el tema de estudio, los árboles pueden crecer tanto
que resultan difíciles de interpretar, o muy cortos que arrojan
•
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
5
Figure 6.
Figure 5.
Esquema general de un árbol de decisión
respuestas obvias o insuficientes. La mayoría de los algoritmos
y herramientas en el mercado permiten la configuración de los
parámetros como el tamaño mínimo de nodos, dado que cada
uno de los nodos del árbol corresponden a una pregunta sobre
una variable especifica, los árboles de decisión no pueden
descubrir reglas que impliquen relaciones entre variables
En la literatura han aparecido numerosos algoritmos de
aprendizaje de árboles de decisión, entre los más populares
se encuentran:
• CART[Breiman,1984]. Se basa en el lema ”divide y
vencerás” [31], son métodos que construyen árboles
binarios basados en el criterio de partición GINI y que
sirven para clasificación como para regresión. La poda se
basa en una estimación de la complejidad del error.
• ID3. Propuesto por Quinlan en 1986[12], el ID3 es
considerado el árbol de decisión más simple, usa la
ganancia de información como criterio de separación. El
árbol crece hasta encontrar un nodo final. No emplea
procedimientos de poda, ni manejo de valores perdidos.
• C4.5. Es la evolución del ID3, presentado por Quinlan
en 1993[3]. Usa como criterio de separación el radio de
ganancia.
b) Redes Neuronales: Las redes neuronales consisten en
"neuronas" o nodos interconectados que se organizan en capas.
Por lo regular, los modelos neuronales constan de tres capas:
de entrada, oculta y de salida, como se observa en la figura
6(tomada de Oded Maimon [32]). Cada neurona evalúa los
valores de entrada, calcula el valor total de entrada, compara
el total con el mecanismo de filtrado (valores de umbral),
y en seguida determina su propio valor de salida. El comportamiento complejo se modela conectando un conjunto de
neuronas. El aprendizaje o "capacitación" ocurre modificando
la "fuerza de conexión" o los parámetros que conectan las
capas. Las redes neuronales se acondicionan con muestras
adecuadas de la base de datos.
Las redes neuronales aprenden en forma supervisada o no
supervisada. En la modalidad supervisada, la red neuronal intenta predecir los resultados para ejemplos conocidos, compara
sus predicciones con la respuesta objetivo y aprende de sus
errores. Las redes neuronales supervisadas se emplean para
predicción, clasificación y modelos de series históricas. El
Esquema General de Una Red Neuronal
aprendizaje no supervisado es eficaz para la descripción de
datos, pero no para la predicción de resultados. Las redes
supervisadas crean sus propias descripciones y validaciones
de clase y trabajan exclusivamente a partir de los patrones
de datos. Las redes neuronales se ven afectadas por tiempos
prolongados de aprendizaje. Debido a que actúan como una
caja negra, algunos analistas empresariales no confían en ellas.
Las redes neuronales se utilizan generalmente para identificar patrones de comportamiento, el uso más común que
tienen las redes neuronales es en la detección de fraude[26],
[19]. Esta técnica es altamente utilizada en modelos predictivos basados en análisis históricos.
Entre más grande sea una red, es decir, más capas ocultas
posea o mayor número de nodos, la complejidad de la ecuaciones matemáticas que se deben resolver al interior del nodo
de salida se aumenta excesivamente, lo que hace prácticamente
imposible entender su funcionamiento o explicar el resultado.
Las redes se utilizan en casos en que el resultado es más
importante que el ”como”, dado que constituyen modelos no
lineales que no producen reglas.
Para lograr un buen funcionamiento de las redes es importante realizar un buen entrenamiento, el cual consiste,
de manera general, en la asignación de los pesos que debe
tener cada variable de entrada con el fin de lograr la mejor
aproximación. En la construcción o utilización de una red
se deben preparar cuidadosamente los conjuntos de datos
a utilizar, por ejemplo, en una red no se utilizan valores
categóricos, solo numéricos, por lo que para aquellas variables
categóricas como: país, ciudad, etc., se debe asignar un número
por cada valor posible ”variables Dummy”.
Entre los modelos más utilizados en redes neuronales se
encuentran[31]:
•
•
Feedforward o Perceptrón Multicapa(MLP). Es el modelo
más estudiado y usado en la industria. Un MLP es una red
conformada por una capa de entrada, una o varias capas
ocultas, una salida y una función de transferencia en cada
nivel. Se caracterizan por tener una conexión completa
entre capas sucesivas, es decir, cada nodo en una capa
está totalmente conectado sólo a todos los nodos en las
capas adyacentes.
Hopfield. Son un tipo especial de redes, capaces de
guardar recuerdos o patrones como el cerebro, no tienen
una arquitectura de capas, sino por el contrario, es una
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
sola capa de neuronas completamente interconectadas,
en las cuales hay bucles de retroalimentación entre las
neuronas.
• Kohonen’s Self-organizing Maps(SOM). Son modelos de
redes neuronales para la reducción de dimensiones y
agrupación de datos, con el fin de visualizar similitudes
entre patrones.
c) Redes de Creencia Bayesiana: La clasificación Bayesiana
se basada en el teorema estadístico de Bayes, el cual provee
un cálculo para la probabilidad a posteriori. De acuerdo al
teorema de Bayes, si H es una hipótesis, tal que, el objeto
X pertenece a la clase C, entonces la probabilidad que la
hipótesis ocurra es: P (X|H) = (P (X|H) ∗ P (H)) /P (X).
Una red de Creencia Bayesiana(BBN)[19]provee una representación grafica de las dependencias entre un conjunto
de atributos. Una BBN se compone principalmente de dos
elementos:
• Un grafo acíclico que codifica la dependencia de relaciones entre un conjunto de variables.
• Una tabla de probabilidad asociada a cada nodo para su
nodo padre inmediato.
En una BBN, para cada nodo X , existe una tabla
de probabilidad condicional, en la cual se especifica
la probabilidad condicional de cada valor de X,
para cada posible combinación de los valores se sus
padres(distribución
condicional
P (x|padre (x))).
La
probabilidad de la tupla
(x
,
x
,
...,
x
)teniendo
n
atributos
1
2
n
Q
es: P (x1 , x2 , ..., xn )= P (xi |P adres (xi )).
La estructura de la red puede ser definida o ser inferida
desde los datos. Para propósitos de clasificación uno de los
nodos puede definirse como nodo ”clase”. La red puede
calcular la probabilidad de cada alternativa de ”clase”.
d) Máquinas de soporte Vectorial: Las máquinas de soporte
vectorial (SVM) son un conjunto de algoritmos para clasificación y regresión propuesta por Vapnik y su grupo AT&T
Bell laboratorios[4], [29].
En simples términos, una SVM es un perceptrón (como una
red neuronal) y es idealmente adecuado para la clasificación
binaria de patrones que son linealmente separables[25]. La
idea principal de la SVM es obtener un único separador de
hiperplanos que maximice el margen entre la separación de
dos clases, como se observa en la Figura 7. La característica
de los vectores que se encuentran en la frontera que separa la
definición de este Margen, en la jerga del álgebra lineal, se
denomina "Support Vector".
En el modelamiento de patrones de fraude, las SMV se
pueden trabajar como un modelo de clasificación binaria,
donde ”+1” representa a los clientes sospechosos de fraude
y ”-1” representa a los clientes usuales, para ello se tiene
un modelo[29] en el que dadoF = {a1 , a2 , ..., ak } un conjunto de características de un cierto tipo de comportamiento
de un cliente, obtenidas por algún conocimiento previo, el
comportamiento de todos los clientes describe el comportamiento de los clientes de la Base de Datos definido por
X = {xi |xi ⊆ F, i = 1, ..., N },Donde X se divide en un
Na
conjunto de entrenamiento Xa = {xi }i=1
y un conjunto de
Nb
pruebas Xb = {xj }j=1 .
6
Figure 7.
Ejemplo de un separador lineal de SVM
Así
la
correspondiente
función
de
monitoreo
de fraude
se
puede
implementar
como:
f
(x)
=
P
Na
Donde yi ∈ {+1, −1} ,
sign
i=1 yi λi (x.xi ) + b
λi es el multiplicador de Lagrange y b corresponde al
parámetro de decisión de vecindad.
C. RESUMEN DE TÉCNICAS DE MINERÍA DE DATOS
PARA LA DETECCIÓN DE FRAUDE
En la tabla 1, se presenta un breve resumen de las tareas,
metas y técnicas de Minería más utilizadas en la detección de
Fraude.
Table I
T ÉCNICAS DE M INERÍA DE DATOS PARA LA D ETECCIÓN DE F RAUDE
Tarea
Encontrar
datos Inusuales
Identificar
Relaciones
Inesplicables
Características
Generales de
Fraude
Meta
Detectar registros con valores
anormales.
Detectar múltiples ocurrencias
de valores.
Detectar relaciones entre registros.
Determinar perfiles.
Determinar registros duplicados.
Detección de registros con
referencias de valores anormales.
Detectar relaciones indirectas.
entre registros
Detectar registros con
combinaciones de valores
anormales.
Encontrar criterios, tales como
reglas.
Calificación de transacciones
sospechosas.
Técnica de Minería
Análisis de
Anomalías
Análisis de Cluster
Análisis de Cluster
y Anomalías
Análisis de
Relaciones
Asociación
Modelos
Predictivos
V. TRABAJOS REALIZADOS
A continuación se presenta una revisión de los trabajos
realizados, los cuales se pueden clasificar en dos categorías:
1. Las investigaciones realizadas en torno a la detección de
fraude y
2. Las investigaciones de técnicas de Minería que pueden
aplicarse al problema detección de Fraude.
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
A. TRABAJOS ENTORNO A LA DETECCIÓN DE FRAUDE
El fraude es la actividad más vieja de la humanidad, y
puede tomar una variedad de formas diferentes. Las áreas más
vulnerables se centran en las tarjetas de crédito, el lavado de
activos, el sector de las telecomunicaciones y el sector médico.
Referente al fraude con tarjetas de crédito, Bolton Richard y
David Hand[2]han desarrollado una técnica basada en modelos
estadísticos concernientes a detectar el comportamiento de
fraude, a través del análisis longitudinal de los datos, para ello
emplean un método no supervisado que les permite detectar
el cambio en el comportamiento de un objeto o detectar
transacciones inusuales. El método propuesto por estos autores
se llama PGA (Peer Group Analysis, 2001), es una nueva
herramienta para monitorear el comportamiento individual de
objetos respecto a diferentes objetos, que tiene previamente
alguna caracteristica similar. Cada objeto es seleccionado
como una clase, y es comparado con todos los objetos en
la base de datos, usando criterios de comparación internos y
externos de patrones de comportamiento de cada objeto. Esta
herramienta intenta ser parte de la minería de datos, en el
sentido que tiene un ciclo que detecta objetos anómalos y
trata de aislarlo de los demás. Igualmente Jon T.S Quah y M.
Sringanesh (2007) desarrollaron una investigación sobre fraude
con tarjetas de crédito por Internet[34], para ello emplearon
el modelo de redes neuronales SOM(Selt Organizing Maps),
la cual consta de tres capas:
• Una capa de inicial de autenticación PIN (Personal Identification Number),
• Una capa de análisis de comportamiento, la cual tiene un
método de clasificación en cluster de los datos de entrada,
seguido de la aplicación del algoritmo Feed-Forward de una
red neuronal.
• Una capa de salida, que presenta si la transacción es
sospechoso o no.
De otro lado, Efstathios Kirkos[19] presenta un estudio
de métodos basados en técnicas de clasificación de Minería
de datos, para identificar firmas que emiten estamentos financieros fraudulentos conocido como FFS (Fraudulent Financial Statements). Esta técnica emplea modelos de minería
de datos como: Árboles de decisión (ID3), Redes Neuronales
(Feed-Forward) y Redes de Creencia Bayesiana. Los métodos
son comparados en términos de su exactitud de predicción.
La muestra sobre la cual se trabajo corresponde a datos
de 76 compañías de Grecia. Los datos se dividieron en
dos conjuntos: uno de entrenamiento y otro de validación.
En el modelo de entrenamiento, el desempeño de las redes
neuronales fue del 100%, seguido de los árboles de decisión
con un 96% y por último las redes Bayesianas con un
94.7%, como se ilustra en la tabla 2. De igual forma en el
modelo de validación, los resultados fueron diferentes, las
redes Bayesianas tuvieron mejor desempeño con un 90.3%,
seguido de las redes neuronales con un 80 % y por último los
árboles de decisión con un 73.6%, como se aprecia en la tabla
3.
7
Table II
M ODELO DE ENTRENAMIENTO PARA DETECCIÓN DE F RAUDE EN FFS
Modelo
ID3
NN
BBN
Fraude(%)
92.1
100
97.4
No- Fraude(%)
100
100
92.1
Total(%)
96.2
100
94.7
Table III
M ODELO DE VALIDACIÓN PARA DETECCIÓN DE F RAUDE EN FFS
Modelo
ID3
NN
BBN
Fraude(%)
75
82.5
91.7
No- Fraude(%)
72.5
77.5
88.9
Total(%)
73.6
80
90.3
De otra parte, Clifton Phua [8], presenta un compendio de
los trabajos realizados en la aplicación de técnicas de minería,
para la detección de fraude, para ello dividió su estudio en dos
ramas:
• Algoritmos predictivos con aprendizaje supervisado, en
esta área se resalta los trabajos realizados por Ghost y
Reilly(1994) que proponen un modelo de redes neuronales
usando tres capas con una función radial Feed-Forward denominado RBF(Function Basis Radial). Syeda (2002) propuso
una red neuronal con lógica difusa. Ezawa y Norton (1996)
desarrollaron un modelo de red Bayesiana de cuatro estados
y dos parámetros para detección de fraude en telecomunicaciones.
• Algoritmos con aprendizaje no supervisado, en esta área
se resalta los trabajos realizados por Williams y Hung (1997)
aplicando tres pasos del algoritmo k-means para la detección
de cluster. Brocket (1998) presenta un estudio basado en el
modelo de red neuronal SOM (Self Organizing Maps) para
la detección de cluster, antes de lanzar el algoritmo BackPropagation para la detección de fraude medico. S. Viaene
(2005) presenta un estudio del aprendizaje Bayesiano para
redes neuronales de Perceptrón Multicapa(MLP) con el fin de
detectar fraude en las reclamaciones privadas de los accidentes
que se produjeron en Massachusetts US en 1993[20].
Con otro enfoque, R. wheeler (2000) presenta una
metodología para la detección de Fraude basada en CBR
(case-based reasoning) que se basa en métodos de vecindad, y
que desarrolla los algoritmos de mejor coincidencia, selección
negativa y selección de densidad[33].
De otro lado, referente al fraude médico, Hongxing He y
Jincheng Wang (1997), emplearon la técnica de Perceptrón
Multicapa(MLP) para clasificar perfiles profesionales médicos,
que fueron clasificados por expertos en cuatro categorías[35].
La red neuronal consta de 28 neuronas en la capa de entrada
,15 neuronas en la capa oculta y 4 neuronas en la capa de
salida. El porcentaje de exactitud de clasificación de la red
fue del 59.8%.
En contraste a los autores anteriores, que manejaban técnicas de redes neuronales, redes bayesianas, árboles de decisión,
S.N. Pang (2001) presenta un estudio sobre la implementación
de las máquinas de soporte vectorial, como alternativa de
solución al problema de detección de fraude. Para ello el
autor presenta una función de monitoreo binaria que permite
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
crear modelos de detección de fraude para las comunicaciones
móviles[29].
En oposición a los autores anteriores Bonnie
Buchanan(2005) presenta un mapa conceptual de una
modalidad de fraude, como lo es el lavado de activos a
nivel mundial, presentando las técnicas usadas comúnmente
como: sistemas paralelos, compañías fachadas, pitufeo,
transferencias electrónicas. De igual forma presenta las
medidas y regulaciones que se han venido tomando a nivel
mundial[5].
B. TRABAJOS ENTORNO A TÉCNICAS DE MINERÍA DE
DATOS
Dentro de las técnicas de minería que pueden ser de gran
ayuda a la detección de Fraude, están:
1) Detección de anomalías(Outlier): Esta técnica es de
valioso aporte para el desarrollo de sistemas en la detección de
fraude, ya que trata de encontrar valores raros en un conjunto
de datos, lo cual se alinea con el objetivo de la detección de
Fraude. En los últimos años se han diseñado varios métodos
para la detección de Outlier, entre los autores más destacados
se encuentran:
• Zengyou He, quien desarrollo dos métodos: El primero es
un algoritmo denominado Greedy(2005) que pretende resolver
problemas de optimización, en la detección de Outlier de datos
categóricos[15]. El esquema básico del algoritmo se basa en
dos fases: en la primera cada registro es etiquetado como noOutlier, y se tiene una tabla hash para hacer las actualizaciones; en la segunda fase, se lee los datos hasta encontrar un
registro que maximice la entropía, en este punto el registro es
etiquetado como Outlier. El segundo método presentado por
este autor, hace referencia al problema de detección de Outlier
de Clases [16] y su aplicación en CRM (customer relationship
management). Para ello el autor introduce dos tipos de clases
de Outlier: local class Outlier y reference class Outlier.
• Kaustav Das(2007)[9]. El autor aborda el problema de
detectar anomalías en grandes conjuntos de datos categóricos,
para ello emplea redes Bayesianas, que se basan en tener
definido una estructura y un algoritmo de aprendizaje.
• Tianming Hu(2003)[17]. Este autor aborda el tema de la
detección de Outlier, a partir de la identificación de patrones
obtenidos a través de técnicas de clustering.
• C. Caroni and P. Prescott(1995)[6]. Los autores hacen uso
del método de O’Rohlf, que examina la distancias entre puntos
en un espacio vectorial para construir un MTS (minimun
spanning tree) usando la medida de distancia más apropiada.
• J. A. Fernandez Pierna(2001)[24]. Este autor hace un compendio de las principales técnicas utilizadas para la detección
de Outlier, entre las que se destacan: Método de la incertidumbre, Método de ”convex full”, Distancia de Mahalanobis, XResidual, Potencial Functions, RHM (Resampling by the halfmeans method), SVM (Smallest half-volume method).
2) Análisis de Cluster: Son muy variadas las técnicas
empleadas en el agrupamiento, a continuación se cita el
estudio realizado por A.C. Atkinson(2007), el cual se basa
en un procedimiento robusto conocido como la distancia de
Mahalanobis, que permite identificar cluster en datos normales
multivariados[1].
8
VI. PERSPECTIVAS DE TRABAJOS FUTUROS
Se deben estudiar estrategias que permitan optimizar la
aplicación de técnicas de Minería de Datos, analizando las
siguientes premisas:
1. El gran volumen de información que presenta el sector
Financiero demanda la utilización de un sistema altamente
eficiente y escalable.
2. Datos altamente sesgados, sólo un porcentaje muy bajo de
las transacciones resultan sospechosas, alrededor de 1%; por
lo que aplicar modelos de minería de datos a la información
para la detección de Fraude, se podrían obtener respuestas
muy obvias como que ”todas las transacciones son normales
o tienen una baja probabilidad de ser sospechosas”.
3. Manejo de información incompleta y en algunos casos
incoherentes, producto de la migración en los sistemas de
información de las organizaciones.
Se recomienda que se adelanten estudios en la búsqueda
de estrategias para explorar métodos híbridos que combinen
diferentes técnicas de Minería de Datos que ayuden a mejorar
el desempeño y obtener nuevos resultados.
VII. CONCLUSIONES
Como se comento en la introducción, la detección de fraude
es una estrategia aplicada después que la prevención a fallado,
para ello en la actualidad se usan herramientas tradicionales
como la estadística y técnicas de Minería de datos, en especial las referentes a Redes Neuronales, Redes de Creencia
Bayesiana y Árboles de Decisión, que han ayudado a encontrar
modelos más complejos que las herramientas tradicionales.
Dado que los patrones de Fraude cambian frecuentemente,
es importante contar con la participación de expertos en la
formulación de reglas; los analistas que están diariamente
monitoreando posibles comportamientos de fraude, encuentran
casos a diario. Dado lo anterior, se debe tener en cuenta que
los modelos que proveen las técnicas de Minería de Datos
deben ser re-entrenados con cierta frecuencia, con el fin de
actualizar los modelos con los nuevos datos.
La Minería de datos aporta diferentes tecnologías en la
identificación de operaciones fraudulentas. Por lo general es
necesario el uso de varias de estas tecnologías, con el fin tener
un mejor éxito en la solución del problema. La elección exacta
y la combinación de estas tecnologías, depende en gran medida
de las características de los datos disponibles.
R EFERENCES
[1]
[2]
[3]
[4]
[5]
[6]
A.C. Atkinson and M. Riani. Exploratory tools for clustering multivariate data. Computational Statistics and Data Analysis , Vol 52, pp
272-285, Sep 2007.
Bolton, Richard J and Hand, David J. Statistical Fraud Detection: A
Review.Statistical Science,Vol 17, pp 235-249, Jan 2002.
Bradford, J. P. and Fortes, J. A. B. Characterization and Parallelization of
Decision-Tree Induction. Journal of Parallel and Distributed Computing,
Vol 61, pp 322–349, Jan 2001.
Bradley, P. S. and Fayyad, U. M. and Mangasarian, O. L. Mathematical
programming for data mining: Formulations and challenges. INFORMS
Journal on Computing, Vol 11, pp 217-238, Jan 1999.
Bonnie Buchanan. Money laundering-a global obstacle. Research in
International Business and Finance, Vol 18, pp 115-127, Apr 2004.
C. Caroni and P. Prescott. On Rohlf’s Method for the Detection of
Outliers in Multivariate Data. Journal of Multivariate Analysis, Vol 52,
pp 295-307, feb 1995.
TÉCNICAS DE MINERÍA DE DATOS APLICADAS EN LA DETECCIÓN DE FRAUDE
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
[25]
[26]
[27]
[28]
[29]
[30]
[31]
[32]
[33]
[34]
Chen, M. S. and Han, J. and Yu, P. S. Data mining: an overview
from a database perspective. IEEE Transactions on Knowledge and Data
Engineering, Vol 8, pp 866-883, Jan 1996.
Clifton Phua, Vincent Lee, Kate Smith and Ross Gayler. A Comprehensive Survey of Data Mining-based Fraud Detection Research. School of
Business Systems, Monash University, 2005
Kaustav Das and Jeff Schneider. Detecting anomalous records in categorical datasets. Proceedings of the 13th ACM SIGKDD international
conference on Knowledge discovery and data mining, pp 220-229, New
York 2007.
Laurie Davies and Ursula Gather. The Identification of Multiple Outliers.
Journal of the American Statistical Association, Vol 88, pp 782-792, Sep
1993.
Devedzic, V. Knowledge discovery and data mining in databases.
Handbook of Software Engineering and Knowledge Engineering Fundamentals, World Scientific Publishing Co., Singapore, pp 615-637, Jan
2001.
J.R. Quinlan. Induction of Decision Trees. Machine Learning, pp 81106, 1986..
Hand, David J and Blunt, Gordon and Kelly, Mark G and Adams, Niall
M. Data Mining for Fun and Profit. Data Mining for Fun and Profit, Vol
15, pp 111-126, May 2000.
Zengyou He and Xiaofei Xu and Shengchun Deng. Data Mining for
Actionable Knowledge: A Survey. Computer Science, 2001.
Zengyou He and Xiaofei Xu and Shengchun Deng. A Fast Greedy
Algorithm for Outlier Mining. Computer Science, 2005.
Zengyou He and Xiaofei Xu and Joshua Zhexue Huang and Shengchun
Deng. Mining class outliers: concepts, algorithms and applications in
CRM. Expert Systems with Applications, Vol 27, pp 681-697, Nov 2004.
Tianming Hu and Sam Y. Sung. Detecting pattern-based outliers. Pattern
Recognition Letters, Vol 24, pp3059-3068,Dec 2003.
Kyoung-jae Kim.Artificial neural networks with evolutionary instance
selection for financial forecasting. Expert Systems with Applications,
Vol 30, pp 519-526, Apr 2006.
Efstathios Kirkos and Charalambos Spathis and Yannis Manolopoulos.
Data Mining techniques for the detection of fraudulent financial statements. Expert Systems with Applications, Vol 32, pp 995-1003, May
2007.
S. Viaene,G. Dedene and R.A. Derrig. Auto claim fraud detection using
Bayesian learning neural networks. Expert Systems with Applications,
Vol 29,pp 653-666, 2005.
Jian-Xin Pan and Wing-Kam Fung and Kai-Tai Fang. Multiple outlier
detection in multivariate data using projection pursuit techniques. Journal
of Statistical Planning and Inference, Vol 83, pp 153-167, 2000.
Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data
Mining. Addison Wesley,2005.
Daniel Pena and Francisco J Prieto. Multivariate Outlier Detection and
Robust Covariance Matrix Estimation. Technometrics, Vol 43, pp 286300,2001.
J. A. Fernandez Pierna and F. Wahl and O. E. de Noord and D. L.
Massart. Methods for outlier detection in prediction. Chemometrics and
Intelligent Laboratory Systems, Vol 63, pp 27-39, Aug 2002.
Hyun-Chul Kim , Shaoning Pang, Hong-Mo Je, Daijin Kim and Sung
Yang Bang. Constructing support vector machine ensemble. Pattern
Recognition, Vol 36, pp 2757-2767, 2003.
R. Brause, T. Langsdorf and M. Hepp. Credit Card Fraud Detection
by Adaptive Neural Data Mining. Johann Wolfgang Goethe-Universität
Frankfurt am Main,1999.
U Fayyad, R Uthurusamy. From Data Mining to Knowledge Discovery
in Databases.ACM ,1996.
Ningning Wu and Jing Zhang. Factor-analysis based anomaly detection
and clustering. Decision Support Systems, Vol 42, pp 375-389, Oct 2006.
S. N. Pang and D. Kim and S. Y. Bang. Fraud detection using support
vector machine ensemble. Pohang University of Science and Technology
(POSTECH), 2001.
Zhao, Q. and Bhowmick, S. S. Association Rule Mining: A Survey.
Nanyang Technological University, Singapore, 2006.
Jiawei Han. Data Mining:Concepts and Techniques. Morgan Kaufmann,2006.
Oded Maimon and Lior Rokach. Data Mining And Knowledge Discovery Handbook. Speinger 2005.
R. Wheeler and S. Aitken. Multiple algorithms for fraud detection.
Knowledge-Based Systems, Vol 13, pp 93-99, 2000.
Jon T.S. Quah and M. Sriganesh. Real-time credit card fraud detection
using computational intelligence. Expert Systems with Applications,
2007.
9
[35] Hongxing He, Jincheng Wang, Warwick Graco and Simon Hawkins.
Application of neural networks to detection of medical fraud. Expert
Systems with Applications, Vol 13, pp 329-336, 1997.