"Año de la Verdad y la Reconciliación Nacional" - Inictel-UNI

CURSO DE ESPECIALIZACIÓN
MACHINE LEARNING Y PROCESAMIENTO DE LENGUAJE NATURAL
Descripción del curso:
Este curso proporcionara al perfil del participante el logro de capacidades para evaluar, diseñar e
implementar modelos inteligentes para el análisis de patrones en datos a pequeña, mediana y gran
escala, haciendo uso de las técnicas más avanzadas de aprendizaje automático y minería de datos.
Además, el curso profundiza en modelos inteligentes de entendimiento y generación de lenguaje
natural (texto).
Objetivo del curso:
Al finalizar el curso, el participante estará en capacidad de realizar el diseño, optimización y
evaluación de modelos de aprendizaje automático, haciendo uso de datos estructurados y noestructurados. Este curso proporciona la base matemática y algorítmica necesaria para diseñar
soluciones de minería de datos, con un enfoque en patrones de texto.
Dirigido a: Profesionales en el sector de Tecnologías de Información (Informática, Sistemas o afines),
Analistas de Datos.
Estructura del curso: Los temas serán presentados en el aula haciendo uso de diapositivas. Cada
clase contará con una sesión de laboratorio en la que se implementarán los conceptos presentados.
Se evaluará de forma permanente la participación activa en clase así como la implementación de dos
proyectos (parcial y final) de predicción de patrones.
Fecha de Inicio:
Mes 1: 14 de agosto al 04 de Septiembre
Mes 2: 04 de Setiembre al 02 de Octubre
Duración: 32 horas
Costo: S/600 al mes.
Separa tu vacante depositando o haciendo una transferencia a:
Cuenta BCP Ahorro Soles N°: 193-31394366-0-79
A nombre de: Alvaro Rodrigo Concha Uriol (Presidente Asociación Hack Space Perú)
DNI 70037652
Y envía una foto del voucher o la constancia de transferencia a [email protected]
Evaluación:
 50% un proyecto parcial.
 50% un proyecto final.
Requisitos para la Certificación:
 Aprobar el curso con una nota mínima de 14 (catorce).
 Tener el 70% de asistencia al curso.
Av. San Luis 1771 Lima 41 – Perú
Teléfono: (511)626-1400 anexos 7251-7335, Fax: 626-1429
www.inictel-uni.edu.pe
Temario:
Semana 1 (Inicio de sección de Machine Learning)
Introducción
 Definiciones de Machine Learning
 Principales tipos de aprendizaje
 Campos de Aplicación
Aprendizaje Supervisado
 Regresión Lineal, Logística
 Support Vector Machines
 Optimización por gradiente (gradient descent, backpropagation)
 Redes Neuronales
 Métricas de Evaluación
Laboratorio
 Comparación de modelos supervisados para reconocimiento de dígitos manuscritos.
Semana 2
Aprendizaje No Supervisado
 Clustering:
o Principales tipos de clustering
o Métricas de evaluación
o Algoritmo KMeans
 Reducción de Dimensionalidad
o Principal Component Analysis
o Singular Value Decomposition
Laboratorio
 Clustering de reportes de noticias
o Preprocesado standard de texto
o Vectorización de documentos
o Clusterización por proximidad en espacio vectorial
Semana 3
Validación y Evaluación
 División standard de data para entrenar y evaluar
 Análisis de Varianza y Bias del modelo de aprendizaje
 Curvas de aprendizaje
 Sintonización de parámetros óptimos por validación cruzada
Laboratorio
 Análisis de curvas de aprendizaje para clasificador de dígitos
 Optimización de modelos usando cross-validation
Semana 4
Detección de Anomalías
 Modelos Gaussianos
 Métricas de evaluación
Machine Learning a gran escala
 Aprendizaje en paralelo: Batch Gradient Descent
Av. San Luis 1771 Lima 41 – Perú
Teléfono: (511)626-1400 anexos 7251-7335, Fax: 626-1429
www.inictel-uni.edu.pe

Enfoque Map-Reduce
Laboratorio
 Programación paralela en Python
 Paralel Batch Gradient Descent
 Presentación de Proyecto Parcial
Semana 5 (Inicio de sección de Procesamiento de Lenguaje Natural)
Modelos Generativos
 Recordatorio de Probabilidades y Estadística
 Distribuciones probabilísticas usadas en tareas de NLP
 Modelo Naive Bayes
Modelos Discriminativos
 Tipos de características (features) más usadas en NLP
 Modelos Online y Batch
 Caso de Optimización: Perceptron
Laboratorio
 Clasificación sentimental (opinión positiva o negativa) de documentos
o Comparación de modelos generativos y discriminativos
Semana 6
Modelos Secuenciales Generativos
 Modelado de Lenguaje
 Hidden Markov Models (HMM)
 Etiquetado (Tagging) de Entidades (NER)
 Tagging de categorías gramaticales (Part-of-Speech)
Modelos Secuenciales Discriminativos
 Características más usadas
 Perceptron Estructurado Promediado
Laboratorio
 Modelado de Lenguaje Español para generación de texto
 Implementación de HMM para NER
 Implementación de Perceptron Estructurado para NER
Semana 7
Análisis Sintáctico y Gramatical (Parsing)
 Modelos de gramática
 Generación de árboles sintácticos
 Inferencia probabilística: algoritmo CKY
 Condiciones de convergencia: Context Free Grammars
Análisis de dependencia semántica (Dependency Parsing)
 Roles semánticos a modelar
 Generación de árboles de dependencia semántica
 Técnicas de inferencia
Av. San Luis 1771 Lima 41 – Perú
Teléfono: (511)626-1400 anexos 7251-7335, Fax: 626-1429
www.inictel-uni.edu.pe
Laboratorio
 Implementación de algoritmo CKY para Parsing
 Análisis de ambigüedades
Semana 8
Natural Language Processing a gran escala
 Recursos léxicos a gran escala
 Uso de data no anotada (texto raso) como prior de probabilidad
 Enfoque Map-Reduce para texto e inferencia
Laboratorio
 Map-Reduce para conteo de palabras
 Naive Bayes como detector de lenguaje usado en texto
 Presentación de Proyecto Final
Av. San Luis 1771 Lima 41 – Perú
Teléfono: (511)626-1400 anexos 7251-7335, Fax: 626-1429
www.inictel-uni.edu.pe