El Poder del Conocimiento - Knowledge and Systems Peru SAC

El Poder del Conocimiento
BROCHURE CURSO DE CAPACITACION
Curso Básico de Análisis Predictivo - Minería de Datos y Minería de Textos (DM051)
2015
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
1
TABLA DE CONTENIDO
1
PRESENTACION KASPERU .................................................................................................................................4
1.1
MISIÓN......................................................................................................................................................4
1.2
VISIÓN .......................................................................................................................................................4
1.3
QUÉ HACEMOS .........................................................................................................................................4
2
PLANTEL TECNICO – EQUIPO SENIOR. ..............................................................................................................5
3
NUESTROS CLIENTES.........................................................................................................................................6
4
CURSO BÁSICO DE ANÁLISIS PREDICTIVO.........................................................................................................7
SUMILLA................................................................................................................................................................7
OBJETIVOS DEL CURSO .........................................................................................................................................7
METODOLOGIA .....................................................................................................................................................8
DOMINIOS DE APLICACIÓN ..................................................................................................................................8
REQUISITOS ..........................................................................................................................................................8
QUIENES PUEDEN ASISTIR ....................................................................................................................................8
EVALUACIONES .....................................................................................................................................................8
CERTIFICADO ........................................................................................................................................................9
DURACION ............................................................................................................................................................9
HORARIO...............................................................................................................................................................9
MATERIAL DE CLASES ...........................................................................................................................................9
SOFTWARE PARA EL DESARROLLO DEL CURSO ....................................................................................................9
INSTRUCTOR .........................................................................................................................................................9
TEMARIO............................................................................................................................................................ 10
5
INVERSION. .................................................................................................................................................... 11
6
PROCEDIMIENTO DE INSCRIPCION. ............................................................................................................... 11
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
2
El Poder del Conocimiento
Estimado Sr.
Presente.-
Referencia: Desarrollo del Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)
Sea la presente para saludarlo y hacerle llegar el brochure para el desarrollo del Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051), el Curso Básico de Análisis Predictivo - Minería de Datos y Minería de
Textos, pretende exponer los siguientes temas: Introducción a la minería de datos, preparación de datos, modelos de
clasificación, modelos de regresión, modelos de agrupamiento, modelos de asociación y una introducción a la minería de
textos, se orienta a profesionales interesados en desarrollar nuevos modelos de predicción en tareas tales como
determinar los métodos de muestreo y seleccionar características, preparar y transformar los datos, identificar qué tipos
de modelos son apropiados para abordar determinados problemas, desarrollar los modelos y evaluarlos. El curso se
enfoca en plantear los conceptos y exponer una metodología de trabajo y de análisis, cada concepto expuesto en el curso
es reforzado mediante ejercicios.
Nuestra experiencia en el desarrollo de modelos predictivos con grandes bases de datos nos da la confianza para
manifestarle que estamos calificados para desarrollar este curso de capacitación de acuerdo al syllabus que se propone
más adelante.
El instructor es un profesional de amplia experiencia en el desarrollo de modelos predictivos, en la administración de base
de datos relacionales que pondrá todo de su parte para cumplir el desarrollo de este curso.
Cualquier consulta con respecto a esta propuesta no dude en comunicarse con nosotros a los teléfonos indicados o al
email [email protected].
Esperando poder iniciar una estrecha relación comercial, quedamos de Usted.
Atentamente,
Gestión de Formación de Capacidades
KASPERU
Telf. 697-8227, 725-7509
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
3
1 PRESENTACION KASPERU
KAS es una empresa creada para brindar servicios de consultoría, desarrollar investigación tecnológica y formar
capacidades en análisis predictivo. KAS se desempeña en las siguientes áreas de conocimiento: gestión de
datos, análisis de datos estructurados, análisis de datos no estructurados, así como en el desarrollo y
optimización de modelos matemáticos. KAS fue fundada en el Perú en el año 2008 con el compromiso de
brindar soluciones de análisis predictivo a sus clientes derivando el conocimiento adquirido por sus fundadores
en múltiples proyectos de investigación académica. KAS se orienta al desarrollo de soluciones donde el
software debe de aprender patrones de comportamiento de experiencias pasadas, para ser aplicadas a nuevos
casos; los patrones se pueden encontrar en datos transaccionales, en textos, en imágenes, en señales de voz,
en datos geo-espaciales y en toda señal que se puede almacenar. La formación académica y profesional de
nuestros colaboradores respaldan el resultado de los servicios brindados, lo cual se traduce en nuestra amplia
cartera de clientes.
1.1 MISIÓN
Brindar soluciones innovadoras aplicando tecnología de punta en análisis predictivo y sistemas inteligentes
para la generación de valor en las organizaciones.
1.2 VISIÓN
Brinda a sus clientes soluciones integrales basadas técnicas de análisis predictivo y sistemas inteligentes
mediante la investigación constante, el uso de procesos reconocidos de desarrollo y la mejora continua de
nuestros colaboradores.
1.3
QUÉ HACEMOS
INVESTIGACIÓN TECNOLÓGICA
ASESORÍA Y CONSULTORÍA
FORMACIÓN DE CAPACIDADES
KAS conceptualiza, formula y
desarrolla
proyectos
de
investigación tecnológica para el
estudio y la evaluación de nuevas
soluciones a problemas que no
tienen un método definido. Se
plantea la construcción de
modelos de simulación en
computadora de la realidad donde
se presenta el problema, tal que
permita su abstracción y la prueba
de soluciones sin afectar la
realidad.
KAS brinda asesoría y consultoría
en la gestión de datos, el análisis
de datos estructurados, el análisis
de datos no estructurados (texto,
imágenes, voz, grafos) y en la
optimización
de
modelos
matemáticos para la generación
de conocimiento que apoye en la
toma de decisiones automáticas
basadas en evidencias.
KAS ofrece un conjunto de
programas de formación de
capacidades profesionales en
análisis predictivo, en técnicas y
herramientas para la extracción
de patrones de comportamiento
desde datos estructurados y no
estructurados.
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
4
2
PLANTEL TECNICO – EQUIPO SENIOR.
Dr. Samuel, Oporto Díaz (c)
• Doctorado en Ingeniería de Sistemas por la UNI, Perú ( c ).
• Magíster en Inteligencia Artificial por el ITESM, México.
• Ingeniero de Sistema por la UNI, Perú.
• Docente en Inteligencia Artificial, UNI, UPC, UPAO
• Docente en Simulación de Sistema Discretos, UPC, KASPERU
• Docente toma de decisiones en operaciones CENTRUM
• Publicaciones en Ciencia de la Computación en los congresos:
CLEI, ICIAR, LNCS y IJCNN.
• Gerente de KASPeru.
• Investigador del Centro de Tecnologías de Información y
Comunicaciones (CTIC) de la Universidad Nacional de Ingeniería.
• Consultor de la Presidencia del consejo de Ministros - Programa
de Modernización del Estado Peruano.
• Consultor MINEDU – Secretaría de Planificación Estratégica.
• Consultor OSCE, Devida
• Experto en el desarrollo de modelos predictivos y modelos
estocásticos.
Dr. Luis Navarro Huamaní
• Doctor y Magíster en Ciencias, DEE Área Teoría de Control y
Estadística – Pontificia Universidad Católica de Río de Janeiro,
Brasil.
• Licenciado y Bachiller en Estadística, Universidad Nacional de
Ingeniería.
• Experiencia docente y de investigación en temas de Estadística
Aplicada.
• Conferencista en congresos nacionales e internacionales,
• Consultor en el Programa JUNTOS y en la Secretaría de Gestión
Pública de la PCM para el proyecto “Simplificación del
Macroproceso de Aprovisionamiento en las Entidades Públicas”.
• Investigador del Centro de Tecnologías de Información y
Comunicaciones (CTIC) de la Universidad Nacional de Ingeniería.
• Consultor de la Secretaria de Planificación Estratégica del
Ministerio de Educación del Perú.
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
5
3
NUESTROS CLIENTES
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
6
4
CURSO BÁSICO DE A NÁLIS IS PREDICTIVO
CURSO BÁSICO DE ANÁLISIS PREDICTIVO
MINERÍA DE DATOS Y MINERÍA DE TEXTOS (DM051)
SUMILLA
El análisis predictivo relaciona los datos con las acciones efectuadas por las organizaciones tal que permitan
llegar a conclusiones fiables sobre eventos actuales y futuros, permite mejorar el conocimiento del negocio tal
como el comportamiento de los clientes, empleados, pacientes, estudiantes y ciudadanos. Los dominios de
aplicación pueden estar en empresas comercializadoras, de producción, finanzas, energía, gobierno, etc.
La minería de datos es el proceso de descubrir conocimiento desde bases de datos, mediante un proceso de
extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Descubrir
conocimiento implica buscar patrones de comportamiento aún no conocidos en los datos. El conocimiento se
puede manifestar como: patrones, reglas de conocimiento, asociaciones, grupos, restricciones, tendencias, etc.
La minería de textos es el proceso para descubrir conocimiento almacenado en documentos (datos no
estructurados). Comprende las siguientes actividades fundamentales: Clasificación de documentos para la
asignación automática a clases pre-definidas; Agrupamiento de documentos para la identificación de
documentos similares; Recuperación de información (similar a un buscador); Extracción de la información
incluida en esos textos (hechos); y Extracción de asociaciones entre los hechos extraídos.
OBJETIVOS DEL CURSO
Al final del curso los alumnos estarán en capacidad de:
 Comprender y usar las técnicas para el muestreo, descripción, limpieza y transformación de datos
mediante la identificación y eliminación de datos extremos, valores nulos y datos mal clasificados, la
selección de características y el balanceo de datos.
 Comprender el proceso de la minería de datos para extraer patrones de comportamiento haciendo uso de
la metodología CRISP-DM.
 Diseñar, desarrollar, evaluar y comprender los modelo descriptivos – reglas de asociación y agrupamiento y
los modelos predictivos – clasificación y regresión, con la finalidad de identificar patrones de
comportamiento (conocimiento oculto).
 Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los modelos basado en su
efectividad haciendo uso de la matriz de clasificación y del MAPE
 Comprender, usar y entender los resultados entregados por los programas de software.
 Entender y aplicar los algoritmos de redes neuronales, árboles de decisión, modelo naive bayes, regresión
logística, k-means, maximización de expectativas y algoritmo a priori.
 Conocer y entender los fundamentos y problemáticas actuales de Minería de Textos en comparación a
Data Mining tradicional.
 Comprender y usar las técnicas para el análisis y la preparación de documentos.
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
7
METODOLOGIA
 En cada sesión se desarrolla un grupo de conceptos que luego son reforzados mediante el desarrollo de un
caso de aplicación práctica.
 Tareas domiciliarias para desarrollar casos que integran los conceptos previamente aprendidos.
 Uso de medios audiovisuales (proyectores)
 Materiales de clase impresos y en CD.
DOMINIOS DE APLICACIÓN
 Riesgos Financieros
 Riesgos de Fraudes
 Riesgos de Accidentes de Trabajo
 Deserción de clientes
 Detección de fraudes
 Segmentación de Clientes
 Ventas Cruzadas
 Patrones Secuenciales








Análisis de opiniones subjetivas
Similaridad de documentos
Búsqueda e indexación de documentos
Análisis de mensajes en redes sociales
Análisis de encuestas abiertas.
Análisis de post en blogs.
Análisis de correos electrónicos (spam).
Estructuración de base de datos.
REQUISITOS
 Cada estudiante debe disponer de una computadora personal.
 Es deseable que los alumnos tengan experiencia en (no indispensable):
o
Base de datos relacionales (MS SQL, mySQL, Oracle, Sybase, etc.)
o
Estadística y probabilidades
o
Hoja de cálculo.
QUIENES PUEDEN ASISTIR
 Analistas de riesgos.
 Analistas de marketing en la web.
 Analistas de marketing, mercadeo o de pronóstico.
 Investigadores de mercado que desean analizar encuestas abiertas.
 Personal involucrado en proyectos de Business Intelligence.
 Personal involucrado en proyectos de pronóstico y predicción.
 Profesionales de estadísticos y economía.
 Profesionales en estadística interesados en analizar el contenido de textos no estructurados (formularios,
encuestas, etc.).
 Administradores de Bases de Datos.
EVALUACIONES
 Se plantea el desarrollo de casos de aplicación que deben ser entregado durante el desarrollo del curso.
 El enunciado de los casos de aplicación se entregan al finalizar cada sesión.
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
8
CERTIFICADO
 Para recibir el certificado de aprobación del curso, los alumnos deben asistir al 100% de las sesiones y
desarrollar un conjunto de ejercicios que demuestran su aprendizaje.
 Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una constancia de
asistencia por 16 horas.
DURACION
16 horas
HORARIO
 Sábado 07 de Marzo de 09:00 a.m. a 18:00 p.m.
 Sábado 14 de Marzo de 09:00 a.m. a 18:00 p.m.
MATERIAL DE CLASES
El alumno recibe como parte de su capacitación
 Un CD conteniendo el material del curso, ejercicios prácticos, software libre y documentos relacionados.
 Material impreso
SOFTWARE PARA EL DESARROLLO DEL CURSO
 Para el desarrollo del curso se hace uso del software libre Rapidminer.
INSTRUCTOR
Ing. Samuel Oporto Díaz. Doctorado en Ingeniería de Sistemas por la UNI,
Perú ( c ). Especialista en el desarrollo de modelos predictivos. Magíster en
Inteligencia Artificial – ITESM-México. Ingeniero de Sistemas – UNI-Perú.
Estudios de Especialización en robótica aplicada-CNAD-México DF. Política
Educativa Virtual-UAH-Chile. Docente del curso de Inteligencia Artificial en la
UNI, UPAO, USMP y UPC. Docente del Curso de Minería de Datos en el IIFIIS,
CTIC-UNI y la UPC. Jefe del Proyectos en el CTIC-UNI. Investigador Principal
del Instituto de Investigación de la FIIS (IIFIIS). Especialista en Visión Artificial,
Reconocimiento de Patrones y Redes Neuronales. Investigador en Ciencias de
Computación con publicaciones en: IJCNN2007, ICAIPR2007, ICIAR2005,
LNCS2005, CLEI2004, CLEI2006. Consultor en Sistemas Inteligentes y Sistemas
Autónomos. Consultor del programa de Modernización del Estado Peruano.
Consultor de la Secretaría de Planificación Estratégica del Ministerio de
Educación del Perú. Consultor Organismo Supervisor de Contrataciones del
Estado
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
9
TEMARIO
1. INTRODUCCIÓN A LOS FUNDAMENTOS DE MINERÍA DE DATOS (2h)
Fundamentos de análisis de datos. Conceptos y conocimientos previos. Definición de la Minería de Datos.
Herramientas de software disponibles. Modelo de minería de datos. Evaluación del desempeño. Matriz de
confusión. Lift charts. Curva ROC. El proceso de la minería de datos. Metodologías para la minería de datos.
CRISP-DM. SEMMA. El proceso de la minería de datos (CRISP).
2. ENTENDIMIENTO Y PREPARACIÓN DE DATOS (2 h)
Entendimiento de los datos. Recolección de datos iníciales. Descripción de los datos. Estadísticas descriptiva
univariada y multivariada. Relaciones entre series de datos. Exploración de los datos. Verificación de la calidad
de los datos. Preparación de datos. Limpieza de datos. Datos perdidos. Valores extremos. Datos con ruido.
Datos mal clasificados. Datos inconsistentes. Integración de datos. Transformación de datos. Reducción de
datos. Reducción de datos. Reducción de instancias.
3. MODELOS DE CLASIFICACIÓN – ARBOLES DE DECISION (4 h)
Métodos de Clasificación. Inducción. Atributos y clase. Evaluación de modelos de clasificación. Probabilidad de
una clasificación. Clasificador Naive Bayes. Probabilidades. Clasificador Naive Bayes. Arboles de Decisión. Árbol
de decisión. Información y entropía. Generación del árbol de decisión. Poda del árbol. Regresión Logística.
Discretización y numerización.
4. MODELOS DE REGRESIÓN – REDES NEURONALES (4 h)
Modelos de Regresión. Evaluación de modelos de regresión. MAPE. Neuronas naturales y artificiales. Épocas,
función de transferencia. Aprendizaje de la red neuronal. Preparación de datos. Red Perceptrón. Red de retro
propagación. Análisis de las Redes Neuronales. Sub-ajuste y sobre-ajuste. Normalización de datos. Neuronas
de la capa intermedia.
5. MODELOS DE AGRUPAMIENTO – K-MEANS Y ALGORITMO EM (1 h)
Modelos de agrupamiento. Conceptos de agrupamiento. Conceptos de agrupamiento. Medidas de distancias.
Tipos de agrupamiento. Componentes Principales. Modelos de Agrupamiento. K-means. Jerárquico. Modelos
de agrupamiento y modelos de clasificación.
6. MODELOS DE ASOCIACIÓN – ALGORITMO A PRIORI (1 h)
Conceptos acerca de modelos de asociación, entendiendo conceptos como: soporte, confianza, itemset.
Buscando itemsets frecuentes. Graficando las reglas de asociación. Generando reglas de asociación. Predicción.
Ventas cruzadas, Canasta de mercado.
7. INTRODUCCIÓN A LA MINERIA DE TEXTOS (TEXT MINING) (2 h)
¿Qué es la minería de textos?. Colecciones de documentos corpus. Datos semi-estructurados y datos no
estructurados. Técnicas de minería de textos. El proceso de la minería de textos. Herramientas.
Lingüística, Morfología, Sintaxis, Semántica. Conceptos básicos, Gramática, Léxico, Sintaxis. Tokenización. Stop
words. Stemming. Vector de Indices.
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
10
5
INVERSION.
La inversión total para el desarrollo del Curso Básico de Análisis Predictivo con un total de 1 Asistentes es de
S/. 1,200.00 nuevos soles incluidos el IGV (mil doscientos y 00/100 nuevos soles).
Recurso
Curso Básico de Análisis Predictivo.
6
Costo x Persona
IGV
1,016.95
183.05
Total (S/.)
1,200.00
PROCEDIMIENTO DE INSCRIPCION.
Para inscribirse en el curso, debe de ejecutar dos pasos:
1. Efectuar el depósito en la cuenta de Knowledge and Systems Peru SAC
 Interbank ahorro soles: 082-303108124-0
 Interbank ahorro soles (CCI): 003-082-013031081240-54
2. Enviar el voucher de depósito a [email protected]
 A la vuelta usted recibirá un mensaje confirmando su matrícula.
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
11
Ca. Raúl Vera Nº 131 Urb. Humboldt, Miraflores – Lima Perú
Telf.: (051) 01 697-8227 / (051) 01 725-7209
[email protected]
12