IBM SPSS Analytics para Big Data

Nuevas Tendencias Analítica en la Industria
Financiera
Roger Molina Salvador
Gerente de Proyectos
Informese Ltda. Suc. Perú
#ExperienciaAnalítica2015
Agenda
• Big Data
• Big Data Analytics
• El Análisis de Entidades
• La propuesta de IBM
• IBM SPSS Analytics
¿Qué entendemos por Big Data?
BigData
Gestión Inteligente con Analítica
8
Gestión Inteligente con Analítica
10
#ExperienciaAnalítica2015
Muchas áreas de oportunidad
Servicios
financieros
Transporte
Salud y Ciencia
Telecomunicaciones
Servicios
públicos
TI
Comercio al detalle
Aplicación de
la ley
#ExperienciaAnalítica2015
Muchas áreas de oportunidad
Predecir comportamiento
de cliente.
 PLA, identificar fraudes
 360° vista del Cliente
Servicios
Financieros
 Estudio de las colas largas
de actividad de
transacciones.
 Análisis de los logs de
datos para auditoría interna
y cumplimiento.
Sistemas de
recomendación
Análisis de Entidades
¿Qué entendemos por Big Data?
#ExperienciaAnalítica2015
BIG DATA
Big Data se define como el conjunto de
herramientas informáticas destinadas a la
manipulación, gestión y análisis de grandes
volúmenes de datos de todo tipo los cuales no
pueden ser gestionados por las herramientas
informáticas tradicionales.
#ExperienciaAnalítica2015
¿Las 3 V’s del Big Data?
Gestión Inteligente con Analítica
15
Gestión Inteligente con Analítica
16
#ExperienciaAnalítica2015
¿Qué es HADOOP?
Hadoop es un sistema de
código abierto que se utiliza
para almacenar, procesar y
analizar grandes volúmenes
de datos
Hadoop es capaz de
almacenar toda clase de
datos: estructurados, no
estructurados,
semiestructurados; archivos
de registro, imágenes, video,
audio, comunicación, etc.
Gestión Inteligente con Analítica
17
#ExperienciaAnalítica2015
Arquitectura:
Sistema de fichero
distribuido, escalabilidad
y disponibilidad debido a
la replicación de los
datos y tolerancia a
fallos.
Gestión Inteligente con Analítica
Proceso batch creado
para el proceso distribuido
de los datos. Permite
paralelizar el trabajo sobre
los grandes volúmenes de
datos.
18
#ExperienciaAnalítica2015
Arquitectura de Hadoop
Name Node &
Job Tracker
(master)
Social
Feeds
GIS Data
Imagenes
Social
Feeds
World
Events
Query es enviado
al nodo master
Nodo Master usa el
proceso “Map” para
asignar los sub-job a los
nodos esclavos
Document
s, XML
Email,
otros noestr.
Web logs
Nodos Esclavos pueden
aun asignar a otros nodos
esclavos
Data
Fields,
RFID
Los sub-job son ejecutados
en paralelo en cada nodo en
los cluster contra los datos en
los nodos locales
Logs
Auditoria
Market
Events
Los esclavos completan su
trabajo y devuelven los
resultados al nodo maestro
CCTV
Footage
El nodo maestro
“ensambla” los resultados
usan el proceso “Reduce”
Datos en HDFS
Datos es dividido
es distribuido en
numerosos
y almacenado en
Gestión
Inteligente
con
Analítica
nodos
(sistema
HDFS
tolerante a fallos)
HDFS tiene un
nodo maestro y
numerosos
nodos esclavos
Nodo Maestro
almacena el meta
dato y nodos
esclavos los
bloques de datos
Nodo Maestro y
nodos esclavos/datos
residen en sevidores
19
commodity
Cada nodo/servidor
ofrece
almacenamiento y
procesamiento local
Usuario envía un
query via una
interface/aplicación
#ExperienciaAnalítica2015
Gestión Inteligente con Analítica
20
¿Qué es Big Data Analytics?
Gestión Inteligente con Analítica
21
#ExperienciaAnalítica2015
Big Data Analytics
Big data analytics is the process of examining big data to uncover
hidden patterns, unknown correlations and other useful
information that can be used to make better decisions.
With big data analytics, data scientists and others can analyze
huge volumes of data that conventional analytics and business
intelligence solutions can't touch.
Gestión Inteligente con Analítica
22
#ExperienciaAnalítica2015
Las 3 V’s del Big Data
Gestión Inteligente con Analítica
23
#ExperienciaAnalítica2015
La cuarta “V”: La Veracidad
• Nivel de fiabilidad
• Requisito y reto importante
• La imprevisibilidad no se puede eliminar
#ExperienciaAnalítica2015
Un problema…
¿Cómo toma esa
decisión?
¿Es posible cuantificar
ese riesgo?
¿Qué fuentes dispone?
¿Cuán confiables son?
#ExperienciaAnalítica2015
Un problema…
Unificación y
consistencia de datos
#ExperienciaAnalítica2015
Información en contexto…y acumulado
Bases de
datos
judiciales
[email protected]
Perfil Redes
Sociales
Base de datos
clientes
Centrales de
Riesgo
Bases de datos
migraciones
#ExperienciaAnalítica2015
Retos
• Información faltante
• Coherencia
• Análisis de datos
El Análisis de Entidades
Entity Analytics
#ExperienciaAnalítica2015
Entity Analytics
El análisis de entidades se centra en mejorar la coherencia de los datos
actuales mediante la resolución de conflictos de identidades dentro de los
propios registros.
#ExperienciaAnalítica2015
¿Cómo se puede aplicar?
• Fraude
• Reclamaciones de seguros
• Solicitud de prestamos
• Cobro de cheque en ventanillas
• Reclutamiento e investigación
• Contratación de funcionarios.
• Investigación de declaraciones.
• Calidad de datos
• Unificación de la cartera de clientes
#ExperienciaAnalítica2015
De esa forma…
Registros
Civiles Dep.
Mr. Joseph Carbella
55 Church Street
New York, NY 10007
Tel#: 212-693-5312
DOB: 07/08/66
SID#: 068588345
DL#: 544 210 836
ACCT # 2310322
DDA
#ExperienciaAnalítica2015
De esa forma…
Registros
Civiles Dep.
Mr. Joseph Carbella
55 Church Street
New York, NY 10007
Tel#: 212-693-5312
DOB: 07/08/66
SID#: 068588345
DL#: 544 210 836
ACCT # 2310322
DDA
Registros
Públicos
Mr. Joey Carbello
555 Church Ave
New York, NY 10070
Tel#: 212-693-5312
DL#: 544 210 836
PPN#: 086588345
ACCT #494202
MORTGAGE
Ente
Recaudador
Mr. Joe Carbello
1 Bourne St
Clinton MA 01510
TEL#: 978-365-6631
DL#: 544 210 836
DOB: 07/09/66
ACCT #3292322
CREDIT CARDS
Seguro Social
Mr. Joe Jones
APT 4909
Bethesda, MD 20814
Tel#: 978-365-6631
DOB: 09/07/66
TRUST FUND
Coincidencia Cercana
Coincidencia Exacta
#ExperienciaAnalítica2015
#ExperienciaAnalítica2015
En Resumen…
 EA les permitirá…
 Personas, Asociaciones
políticas, empresas.
 Se pueden agregar nuevas
entidades y características
 IBM SPSS Única tecnología
comercial de este tipo que
se puede desplegar el
mismo día que se instala.
La propuesta de IBM
#ExperienciaAnalítica2015
Estrategia de IBM Big Data
Visibility
Understand, find, and
navigate federated big
data
Volume, Variety
Cost-effectively
process and analyze
any type of data
Analytic Applications
Analytics
BI /
Exploration / Functional Industry Predictive Content
BI /
Reporting Visualization
App
App
Analytics Analytics
Reporting
Analyze, predict and
automate for more
accurate answers
IBM Big Data Platform
Visualization
& Discovery
Application
Development
Systems
Management
Purpose-built offerings
High-performance
appliances and software
Accelerators
Hadoop
System
Stream
Computing
Data
Warehouse
Velocity
Analyze data-in-motion
to produce insights in
micro-seconds
Volume
Veracity
Trusted information
Information Integration, Data Quality &
Governance
Parallel processing for
high-volume integration
#ExperienciaAnalítica2015
IBM proporciona una plataforma complete para soportar esta evolución.
Visibility
InfoSphere Data Explorer
Analytic Applications
Analytics
BI /
BI /
Exploration / Functional Industry Predictive Content
Reporting Visualization
App
App
Analytics Reporting
Analytics
•
•
•
•
•
IBM Big Data Platform
Volume, Variety
•
InfoSphere BigInsights
•
Pure Data for Hadoop
Visualization
& Discovery
Application
Development
Systems
Management
Stream
Computing
Volume
• Pure Data for Analytics
Accelerators
Hadoop
System
• DB2 BLU
Data
Data
Warehouse
Warehouse
• InfoSphere Warehouse
Veracity
Velocity
•
InfoSphere Streams
Information Integration, Data Quality &
Governance
Master Data Management
Databases & Tools
Cognos BI (in-memory)
Cognos Real-Time
SPSS Modeler
SPSS Analytic Server
Social Media Analytics
•
IBM InfoSphere
Information Server
•
Data Quality
IBM SPSS Analytics para Big Data
Gestión Inteligente con Analítica
39
#ExperienciaAnalítica2015
Plataforma IBM SPSS: Integran a Big Data
• SPSS Modeler
• SPSS C&D Services
• SPSS Analytic Server
• SPSS Analytic Catalyst (*)
#ExperienciaAnalítica2015
IBM SPSS Modeler
Gestión Inteligente con Analítica
41
#ExperienciaAnalítica2015
IBM SPSS Collaboration & Deployment
(C&D)
▪
Colaborativo
– Comparte y almacene rutas,
modelos o resultados.
– Trabajar con multiples fuentes
de datos (históricas y en
tiempo real)

Automatizado
– Programe modelos analíticos
basado en tiempo o eventos
– Controle procesos analiticos y
auditelos.
– Actualice y reconstruya
modelos para asegurar el
rendimiento.

Despligue
– Implemente analitica con sus
procesos de negocios
– Calificación en tiempo real o
por lotes
Gestión Inteligente con Analítica
42
#ExperienciaAnalítica2015
IBM SPSS Analytic Server
• Permite aprovechar los datos almacenados en Hadoop
mediante el uso de IBM SPSS Modeler, permitiendo
capacidades de Big Data Analytics.
• Proporciona:
• Soporte para las diversas distribuciones de Hadoop
(InfoSphereBigInsigths, Cloudera, Hortonsworks y Apache)
• Interface que permite incorporar algoritmos estadísticos
diseñados para ir a los datos.
• Una interface familiar que oculta el entorno de big data para
que el analista se enfoque en analizar los datos.
• Una solución escalable a problemas de casi cualquier tamaño.
#ExperienciaAnalítica2015
IBM SPSS Analytic Server
SQL / UDF
IBM SPSS Modeler
Stream File
Big Data
Request
Modeler Client
Relational Database
IBM SPSS
Analytic Server
Modeler Server
Hadoop Job
IBM SPSS Analytic Catalyst
Analytic Catalyst
Tablet Client
Gestión Inteligente con Analítica
Analytics
IBM InfoSphere BigInsights
& Other Hadoop Distributions
Analytic Catalyst
Browser Client
44
#ExperienciaAnalítica2015
IBM SPSS Modeler y Analytic Server
• Proporciona una plataforma analítica predictiva integrada
y accesible que fue diseñada para big data.
• Distribución de procesamiento analítico en ambientes de
Hadoop con soporte para IBM InfoSphere BigInsights,
Cloudera, Hortonworks y Apache
• Permite a los usuarios acceder a data estructurada y no
estructurada (RDBMS, Hadoop, social media, etc).
Gestión Inteligente con Analítica
45
#ExperienciaAnalítica2015
Ejemplo de IBM SPSS Modeler con IBM SPSS
Analytic Server mostrando la integración con R.
Casos de Éxito: Big Data Analytics
#ExperienciaAnalítica2015
• Necesidad:
• Evitar los casos de fraude mediante
una aplicación que pueda hacerlo en
tiempo real.
• Manejan información a través de PC,
teléfonos como medios de pago en
miles de sitios web.
• Poder predecir donde podría suceder
fraude antes que…en alguno de los
90MM de navegadores conectados al
sitio en un día dado.
• Situación Actual:
• PayPal maneja filtros de administración de
fraudes: revisión por su monto, origen u
otros factores.
• PayPal (y Amazon) desarrollaron
herramientas que dependen de grandes
conjuntos de datos (IP, información del
navegador, y demás datos técnicos para
refinar los modelos para predecir, identificar
y prevenir actividades fraudulentas.
#ExperienciaAnalítica2015
• Firma global de servicios
financieros
estadounidense, sede New
York.
• 42 países, + 1300 oficinas,
+ 60K empleados.
• Corporaciones
multinacionales,
gobiernos, instituciones
financieras y particulares.
• + US$ 300MM en activos
• Hadoop desde 2010
• Usan Hadoop para rastrear toda su
web y bases de datos en busca de
registros que indiquen la posibilidad
de que aparezca cualquier
problema…Los problemas se
descubren en tiempo real y se
dispone de la trazabilidad completa
sobre: quien hizo que, cómo, cuándo
y qué causo el problema.
• Morgan Stanley Smith Barney
(MSSB), creada 2009 y gestiona 1.7
trillones de dólares en activos para
los 4M de clientes.
• Recomienda sus inversiones en
acciones, bonos, y renta fija.
• Informes de analistas, datos públicos y
sociales.
• Todo se emplea en recomendaciones
de comprar y vender accione sobre la
base de las posiciones en tiempo real y
las condiciones del mercado.