UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS COORDINACIÓN DE EXTENSIÓN DIPLOMADO EN CIENCIA DE DATOS – Marzo 2015 RESUMEN El Diplomado en Ciencias de Datos está dirigido a profesionales que participen o tengan a cargo dentro de su organización, la gestión, control, desarrollo o implementación de procesos técnicos que requieran de experticia en el análisis de datos para la generación de conocimiento que permita llevar a cabo los procesos de toma de decisiones. A través de este diplomado, los participantes obtendrán una comprensión teórico/práctica de los conceptos y principios de la Ciencia de Datos que podrán aplicar en su organización para mejorar los procesos relacionados con el manejo y análisis de grandes volúmenes de datos utilizando técnicas tanto predictivas como descriptivas de análisis científico. Este diplomado enfatiza el empleo de herramientas de software libre que permiten la aplicación de la teoría en casos prácticos, de interés para el participante, que favorecen el proceso de aprendizaje. 1 1. FUNDAMENTACIÓN Los seres humanos estamos creando y almacenando datos constantemente (estructurados, no estructurados y semi-estructurados) en cantidades astronómicas lo cual tomaría demasiado tiempo y sería muy costoso cargarlos a una base de datos relacional para su análisis. Tampoco pueden ser procesados y analizados utilizando procesos o herramientas tradicionales. Esta explosión de "Grandes Volúmenes de Datos" está transformando la manera en que se conduce una investigación, dado que plantea una nueva forma de abordarlos mediante el uso de técnicas, habilidades y recursos adecuados para su procesamiento, esto debido a la complejidad e intensidad del cómputo necesario. En este contexto, la Ciencia de Datos es un área interdisciplinaria y tecnológica que utiliza herramientas, métodos y técnicas de solución y optimización, tanto en hardware como en software, que permiten el manejo y procesamiento de Grandes Volúmenes de Datos. Esto se lleva a cabo mediante cómputo intensivo (algoritmos y programas), y manipulando los datos de forma distribuida en nodos de un clúster logrando así un alto paralelismo en el procesamiento. Como consecuencia se obtienen drásticas reducciones de los tiempos de solución sin sacrificar la confiabilidad, integridad y seguridad de los datos. De allí que el dominio y comprensión de sus fundamentos y técnicas, así como la adquisición de destrezas prácticas permitirán la explotación eficiente de los recursos computacionales para obtener soluciones de software de alto desempeño como objetivo fundamental en la formación de un especialista en Ciencias de Datos. Es propósito de esta diplomado el familiarizar al estudiante con conceptos, técnicas, métodos y herramientas específicas en el área de la Ciencia de Datos y su optimización para acelerar la solución de problemas complejos explotando eficientemente los sistemas computacionales disponibles. 2 2. OBJETIVOS: Al finalizar el diplomado el estudiante será capaz de: 1. Describir los aspectos teóricos y tecnológicos de los sistemas de cómputo de grandes volúmenes de datos. 2. Conocer los fundamentos teóricos y aspectos tecnológicos asociados al procesamiento de grandes volúmenes de datos. 3. Utilizar métodos y herramientas para el análisis y procesamiento de grandes volúmenes de datos. 3 3. CONTENIDO (146 horas) TEMAS PROGRAMA O CONTENIDO DURACIÓN 1. Introducción a la 32 horas Científica en R Introducción a R: Orígenes, evolución y comunidad. Entorno de Programación RStudio. Fundamentos de programación: Aspectos básico de R. Vectores. Matrices. Factores. Data Frame. Listas. Lectura y escritura de datos. Estructuras de control. Funciones. Operaciones vectorizadas. Manejo de fechas. 2. Introducción a la Definiciones y conceptos básicos: Ciencia de Datos (Data Science). 6 horas Programación ciencia de datos Grandes Volúmenes de Datos (Big Data). Campos de aplicación de la computación de Grandes Volúmenes de Datos. Áreas afines. 3. Grandes volúmenes de datos Evolución de los grandes volúmenes de datos: Proceso de toma de 20 horas decisiones. Almacenes de datos. Inteligencia de Negocios. Definiciones y conceptos básicos: Fuentes de Grandes Volúmenes de Datos: Fuentes de datos privadas. Fuentes de datos públicas (Open Data). Tipos de Fuentes datos: estructuradas, semiestructuradas, no estructuradas. Integración de grandes volúmenes de datos: Técnicas de extracción, transformación, carga y limpieza de datos 4 4. Algoritmos Introducción a la Minería de datos (Data Mining): Conceptos científicos para el básicos de aprendizaje estadístico. Tipos de aplicaciones de minería análisis de para grandes volúmenes de datos 32 horas de datos. Aprendizaje supervisado: regresión y clasificación. Aprendizaje no supervisado: reglas de asociación (análisis de canasta), agrupación. Minería de texto. Casos de estudio: Herramientas de R para la minería de datos. Metodología de minería de datos: Modelo CRISP-DM. Conocimiento del negocio. Conocimiento de los datos. Preparación de los datos. Modelado. Evaluación y Despliegue. 5. Calidad de datos Conceptos básicos: Validez, confiabilidad, consistencia e integridad 16 horas de data. Completitud, manejo de data faltante, agregación de data. Creación de índices: Manejo cuantitativo y cualitativo de calidad de datos. Técnicas de análisis de datos atípicos: Técnicas de valores extremos. Técnicas estadísticas clásicas. Técnicas basadas en minería de datos: clasificación y clasificación semi-supervisada, medidas de atipicidad. 6. Sistemas de Computación para grandes volúmenes de datos 7. Sistemas para el Procesamiento de Grandes Volúmenes de Datos Definiciones y conceptos básicos de paralelismo. Algunos modelos 4 horas de Computación Paralela: Repartir y Reducir (Map and Reduce). Sistemas de Computación Paralela como plataforma de hardware para el procesamiento de Grandes Volúmenes de Datos: Caso de estudio: Clúster de Computación. Sistema de archivos distribuidos: HDFS. Fundamentos del Modelo 32 horas de Cómputo: MapReduce. Herramientas para la computación de grandes volúmenes de datos: Características. Caso de estudio: Herramienta Hadoop. Arquitectura Hadoop. Funcionamiento de Hadoop. Adaptación de algoritmos analíticos para plataformas de grandes volúmenes de datos. Ejemplos prácticos. 5 8. Tendencias en Ciencia de Datos Revisión de las tendencias en el uso de tecnologías de grandes 4 horas volúmenes de datos en áreas como centros de cómputo de alto rendimiento, centros de datos (Datacenter), computación en la nube (Cloud Computing), análisis de datos en la Web (WebMining), Redes Sociales (Social Network) entre otros. 6 4. ESTATEGIA DE ENSEÑANZA Las clases de teoría podrían dividirse en varias clases magistrales colegiadas dictadas por varios profesores especialista en cada tema o área, y una clase de exposición, lecturas de artículos y trabajos en grupo por parte de los estudiantes. Actividades teóricas: centradas en la adquisición de conocimientos teóricos como análisis y discusión de artículos científicos con preparación por parte de los alumnos de lecturas dirigidas (lectura de artículos/informes); y presentaciones orales en función de los conceptos teóricos estudiados en clase. Actividades prácticas y de laboratorio: centradas en el laboratorio para adquirir conocimientos y destrezas mediante la experimentación: poner en marcha sistemas, medir y comparar rendimiento y realizar modificaciones y desarrollar/configurar pequeñas aplicaciones para adquirir las habilidades básicas. Preparación de los alumnos con lectura del enunciado y documentación adicional, trabajo de laboratorio en grupo y trabajo posterior para concluir (informe de evaluación del sistema y/o producto). Otras actividades de trabajo en grupo: Parte presencial (profesor y alumnos) y no presencial (cada alumno por su cuenta) con el uso de algunas herramientas. 7 5. COSTOS El monto del diplomado por participante es de Bs. 50.000,00 (Cincuenta mil bolívares exactos). El alquiler de las instalaciones para el dictado de las clases teóricas y prácticas del diplomado es de Bs. 65.000,00 (Sesenta y cinco mil bolívares exactos) Las actividades de docencias del programa del diplomado se realizarán en las instalaciones de la Escuela de Computación de la Facultad de Ciencias – UCV. Caracas, Venezuela. Los costos no incluyen el impuesto de valor agregado (IVA). Los costos son aproximados por persona y sujetos a cambios según la inflación. 6. PREMISAS Este diplomado está dirigido a profesionales titulados en pregrado en Computación, Ingeniería, Matemática, Física, Estadísticas o afín, con nociones básicas de programación computacional. La modalidad del diplomado es presencial. La cantidad de participantes para el dictado del diplomado es de un mínimo 10 personas y un máximo 15 personas El contenido del diplomado está sujeto a cambios según lo determine el grupo docente y con previa información al cliente. El contenido, la duración en horas y los temas del diplomado podrán ser ajustados según las habilidades profesionales y conocimientos de los participantes, esto previo conocimiento del cliente y con el aval correspondiente del grupo docente. Esta propuesta tiene una validez de 15 días consecutivos. 8 7. HORARIOS TENTATIVOS Martes y jueves de 2 p.m. a 5 p.m. Sábados de 8 a.m. a 3 p.m. 8. INFORMACIÓN DE CONTACTO Nombre de la empresa: Fundación Amigos de la Facultad de Ciencias – UCV RIF: J-30967561-3. Cuenta Corriente Banesco: 0134-0861-11-8613000292 Teléfono: 0212-4245970 Dirección: Universidad Central de Venezuela- Facultad de Ciencias, Paseo Los Ilustres Urb. NIT: 0265201857 Valle Abajo. Apartado Postal 20513. Caracas 1020-A. Venezuela. Correo Electrónico: [email protected] Sitio web: http://www.ciens.ucv.ve/ciens/coordinacion-de-extension Profesor contacto: o Msc. Lic. Jesús Lares o Telefono: 0414-331.43.99 o Correo Electrónico: [email protected] 9
© Copyright 2025