Propuesta - Facultad de Ciencias - Universidad Central de Venezuela

UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS
COORDINACIÓN DE EXTENSIÓN
DIPLOMADO EN CIENCIA DE DATOS – Marzo 2015
RESUMEN
El Diplomado en Ciencias de Datos está dirigido a profesionales que participen o tengan a cargo
dentro de su organización, la gestión, control, desarrollo o implementación de procesos técnicos que
requieran de experticia en el análisis de datos para la generación de conocimiento que permita llevar
a cabo los procesos de toma de decisiones. A través de este diplomado, los participantes obtendrán
una comprensión teórico/práctica de los conceptos y principios de la Ciencia de Datos que podrán
aplicar en su organización para mejorar los procesos relacionados con el manejo y análisis de grandes
volúmenes de datos utilizando técnicas tanto predictivas como descriptivas de análisis científico. Este
diplomado enfatiza el empleo de herramientas de software libre que permiten la aplicación de la
teoría en casos prácticos, de interés para el participante, que favorecen el proceso de aprendizaje.
1
1.
FUNDAMENTACIÓN
Los seres humanos estamos creando y almacenando datos constantemente (estructurados, no
estructurados y semi-estructurados) en cantidades astronómicas lo cual tomaría demasiado tiempo
y sería muy costoso cargarlos a una base de datos relacional para su análisis. Tampoco pueden ser
procesados y analizados utilizando procesos o herramientas tradicionales.
Esta explosión de
"Grandes Volúmenes de Datos" está transformando la manera en que se conduce una investigación,
dado que plantea una nueva forma de abordarlos mediante el uso de técnicas, habilidades y recursos
adecuados para su procesamiento, esto debido a la complejidad e intensidad del cómputo necesario.
En este contexto, la Ciencia de Datos es un área interdisciplinaria y tecnológica que utiliza
herramientas, métodos y técnicas de solución y optimización, tanto en hardware como en software,
que permiten el manejo y procesamiento de Grandes Volúmenes de Datos. Esto se lleva a cabo
mediante cómputo intensivo (algoritmos y programas), y manipulando los datos de forma distribuida
en nodos de un clúster logrando así un alto paralelismo en el procesamiento. Como consecuencia se
obtienen drásticas reducciones de los tiempos de solución sin sacrificar la confiabilidad, integridad
y seguridad de los datos.
De allí que el dominio y comprensión de sus fundamentos y técnicas, así como la adquisición de
destrezas prácticas permitirán la explotación eficiente de los recursos computacionales para obtener
soluciones de software de alto desempeño como objetivo fundamental en la formación de un
especialista en Ciencias de Datos. Es propósito de esta diplomado el familiarizar al estudiante con
conceptos, técnicas, métodos y herramientas específicas en el área de la Ciencia de Datos y su
optimización para acelerar la solución de problemas complejos explotando eficientemente los
sistemas computacionales disponibles.
2
2.
OBJETIVOS:
Al finalizar el diplomado el estudiante será capaz de:
1. Describir los aspectos teóricos y tecnológicos de los sistemas de cómputo de grandes
volúmenes de datos.
2. Conocer los fundamentos teóricos y aspectos tecnológicos asociados al procesamiento de
grandes volúmenes de datos.
3. Utilizar métodos y herramientas para el análisis y procesamiento de grandes volúmenes de
datos.
3
3.
CONTENIDO (146 horas)
TEMAS
PROGRAMA O CONTENIDO
DURACIÓN
1. Introducción a la
32 horas
Científica en R
Introducción a R: Orígenes, evolución y comunidad. Entorno de
Programación RStudio. Fundamentos de programación: Aspectos
básico de R. Vectores. Matrices. Factores. Data Frame. Listas. Lectura
y escritura de datos. Estructuras de control. Funciones. Operaciones
vectorizadas. Manejo de fechas.
2. Introducción a la
Definiciones y conceptos básicos: Ciencia de Datos (Data Science).
6 horas
Programación
ciencia de datos
Grandes Volúmenes de Datos (Big Data). Campos de aplicación de la
computación de Grandes Volúmenes de Datos. Áreas afines.
3. Grandes volúmenes
de datos
Evolución de los grandes volúmenes de datos: Proceso de toma de
20 horas
decisiones. Almacenes de datos. Inteligencia de Negocios.
Definiciones y conceptos básicos: Fuentes de Grandes Volúmenes
de Datos: Fuentes de datos privadas. Fuentes de datos públicas
(Open Data). Tipos de Fuentes datos: estructuradas, semiestructuradas, no estructuradas. Integración de grandes volúmenes
de datos: Técnicas de extracción, transformación, carga y limpieza de
datos
4
4.
Algoritmos
Introducción a la Minería de datos (Data Mining): Conceptos
científicos para el
básicos de aprendizaje estadístico. Tipos de aplicaciones de minería
análisis de para
grandes volúmenes
de datos
32 horas
de datos. Aprendizaje supervisado: regresión y clasificación.
Aprendizaje no supervisado: reglas de asociación (análisis de
canasta), agrupación. Minería de texto. Casos de estudio:
Herramientas de R para la minería de datos. Metodología de minería
de
datos:
Modelo
CRISP-DM.
Conocimiento
del
negocio.
Conocimiento de los datos. Preparación de los datos. Modelado.
Evaluación y Despliegue.
5. Calidad de datos
Conceptos básicos: Validez, confiabilidad, consistencia e integridad
16 horas
de data. Completitud, manejo de data faltante, agregación de data.
Creación de índices: Manejo cuantitativo y cualitativo de calidad de
datos. Técnicas de análisis de datos atípicos: Técnicas de valores
extremos. Técnicas estadísticas clásicas. Técnicas basadas en minería
de datos: clasificación y clasificación semi-supervisada, medidas de
atipicidad.
6. Sistemas de
Computación para
grandes volúmenes
de datos
7. Sistemas para el
Procesamiento de
Grandes Volúmenes
de Datos
Definiciones y conceptos básicos de paralelismo. Algunos modelos
4 horas
de Computación Paralela: Repartir y Reducir (Map and Reduce).
Sistemas de Computación Paralela como plataforma de hardware
para el procesamiento de Grandes Volúmenes de Datos: Caso de
estudio: Clúster de Computación.
Sistema de archivos distribuidos: HDFS. Fundamentos del Modelo
32 horas
de Cómputo: MapReduce. Herramientas para la computación de
grandes volúmenes de datos: Características. Caso de estudio:
Herramienta Hadoop. Arquitectura Hadoop. Funcionamiento de
Hadoop. Adaptación de algoritmos analíticos para plataformas de
grandes volúmenes de datos. Ejemplos prácticos.
5
8. Tendencias en
Ciencia de Datos
Revisión de las tendencias en el uso de tecnologías de grandes
4 horas
volúmenes de datos en áreas como centros de cómputo de alto
rendimiento, centros de datos (Datacenter), computación en la nube
(Cloud Computing), análisis de datos en la Web (WebMining), Redes
Sociales (Social Network) entre otros.
6
4.
ESTATEGIA DE ENSEÑANZA
Las clases de teoría podrían dividirse en varias clases magistrales colegiadas dictadas por varios
profesores especialista en cada tema o área, y una clase de exposición, lecturas de artículos y
trabajos en grupo por parte de los estudiantes.
Actividades teóricas: centradas en la adquisición de conocimientos teóricos como análisis y
discusión de artículos científicos con preparación por parte de los alumnos de lecturas dirigidas
(lectura de artículos/informes); y presentaciones orales en función de los conceptos teóricos
estudiados en clase.
Actividades prácticas y de laboratorio: centradas en el laboratorio para adquirir conocimientos
y destrezas mediante la experimentación: poner en marcha sistemas, medir y comparar
rendimiento y realizar modificaciones y desarrollar/configurar pequeñas aplicaciones para
adquirir las habilidades básicas. Preparación de los alumnos con lectura del enunciado y
documentación adicional, trabajo de laboratorio en grupo y trabajo posterior para concluir
(informe de evaluación del sistema y/o producto).
Otras actividades de trabajo en grupo: Parte presencial (profesor y alumnos) y no presencial
(cada alumno por su cuenta) con el uso de algunas herramientas.
7
5.
COSTOS

El monto del diplomado por participante es de Bs. 50.000,00 (Cincuenta mil bolívares
exactos).

El alquiler de las instalaciones para el dictado de las clases teóricas y prácticas del
diplomado es de Bs. 65.000,00 (Sesenta y cinco mil bolívares exactos)

Las actividades de docencias del programa del diplomado se realizarán en las
instalaciones de la Escuela de Computación de la Facultad de Ciencias – UCV. Caracas,
Venezuela.

Los costos no incluyen el impuesto de valor agregado (IVA).

Los costos son aproximados por persona y sujetos a cambios según la inflación.
6.
PREMISAS

Este diplomado está dirigido a profesionales titulados en pregrado en Computación,
Ingeniería, Matemática, Física, Estadísticas o afín, con nociones básicas de programación
computacional.

La modalidad del diplomado es presencial.

La cantidad de participantes para el dictado del diplomado es de un mínimo 10 personas
y un máximo 15 personas

El contenido del diplomado está sujeto a cambios según lo determine el grupo docente y
con previa información al cliente.

El contenido, la duración en horas y los temas del diplomado podrán ser ajustados según
las habilidades profesionales y conocimientos de los participantes, esto previo
conocimiento del cliente y con el aval correspondiente del grupo docente.

Esta propuesta tiene una validez de 15 días consecutivos.
8
7.
HORARIOS TENTATIVOS

Martes y jueves de 2 p.m. a 5 p.m.

Sábados de 8 a.m. a 3 p.m.
8.
INFORMACIÓN DE CONTACTO

Nombre de la empresa: Fundación Amigos de la Facultad de Ciencias – UCV

RIF: J-30967561-3.

Cuenta Corriente Banesco: 0134-0861-11-8613000292

Teléfono: 0212-4245970

Dirección: Universidad Central de Venezuela- Facultad de Ciencias, Paseo Los Ilustres Urb.
NIT: 0265201857
Valle Abajo. Apartado Postal 20513. Caracas 1020-A. Venezuela.

Correo Electrónico: [email protected]

Sitio web: http://www.ciens.ucv.ve/ciens/coordinacion-de-extension

Profesor contacto:
o Msc. Lic. Jesús Lares
o Telefono: 0414-331.43.99
o Correo Electrónico: [email protected]
9