Big Data y Data Analytics

Curso práctico
Big Data y
Data Analytics
¿QUE ES BIG DATA?
En la actual era digital, hay una explosión de datos por todas partes. Google
procesa más de 24 PetaBytes de datos por día, casi 300 billones de emails y una
cantidad similar de tweets se envían diariamente. Trillones de sensores se
comunican cada día alimentando el Internet de las Cosas (IoT) con datos en
tiempo real. ¿Cómo se están utilizando estos datos? Big Data ha llegado como el
siguiente boom tecnológico y es considerado el mayor desarrollo desde el
advenimiento de Internet, con la promesa de revolucionar el mundo de las
Tecnologías de la Información y nuestro diario vivir.
Big Data es un término que describe un gran volumen de datos - tanto
estructurados como no estructurados - que inundan diariamente un negocio.
Pero no es la cantidad de datos lo que es importante. Es lo que hacen las
organizaciones con los datos lo que importa. Grandes volúmenes de datos
pueden ser analizados para obtener resultados que conducen a mejores
decisiones y movimientos estratégicos de negocio.
Entender el concepto y saber cómo almacenar, procesar,
analizar y visualizar grandes cantidades de datos, es clave como
primer paso hacia la evolución de ciudades inteligentes. El
objetivo de este curso es proveer una visión global de Big Data y
las herramientas que permitirán a profesionales y a las
empresas, dar sus primeros pasos hacia la adopción y el
desarrollo de las tecnologías y las aplicaciones del futuro.
Objetivo del curso
El curso tiene como objetivo introducir a los participantes a los
conceptos y fundamentos de Big Data mediante el uso de
herramientas y técnicas para almacenar, procesar, analizar y
finalmente visualizar grandes volúmenes de datos.
2
Objetivos específicos
Entender los conceptos y fundamentos de Big Data
mediante un análisis global de las motivaciones,
procedimientos, problemáticas y soluciones tecnológicas
aplicables a casos de uso reales en todo su ciclo de vida.
Adquirir un conocimiento y manejo general de
herramientas para el análisis y procesamiento de
datos de manera sencilla, por medio de lenguajes
de programación comúnmente utilizados en
Ciencias de Datos como Python, R, C++ y
herramientas de procesamiento distribuido como
Apache Hadoop y Elasticsearch.
Explorar y utilizar herramientas para el almacenamiento,
procesamiento, análisis y visualización de grandes volúmenes de
datos a través de talleres prácticos, discusiones, tutoriales y
showcases (demostraciones en vivo) con casos de uso y ejemplos de
la vida real.
Tener una visión global de las técnicas de optimización de algoritmos típicamente
utilizados como parte de una solución de Big Data, por medio de ejemplos y ejercicios
prácticos que demuestran su usabilidad.
Desarrollar un proyecto (caso de uso real) en el que pondrá en práctica los
conocimientos adquiridos en el curso, mediante la construcción de una solución
de BigData aplicada a una problemática propuesta por el participante.
3
Requerimientos del participante
Certificación:
Este curso servirá como
preparación para la
Certificación como Big
Data Professional o Big
Data Science
Professional a través
del Big Data Science
School.
www.bigdatascienceschool.com
› Conceptos básicos de programación
› Conceptos básicos de Bases de Datos
› Actitud para aprender a utilizar nuevas
herramientas tecnológicas y usar herramientas
de vanguardia.
Público objetivo
› Estudiantes y Profesionales de las siguientes
áreas:
- Tecnologías de la Información y Comunicación
- Ing. De Sistemas
- Ing. Civil
- Ing. Eléctrica y Electrónica
- Ing. en Telecomunicaciones
- Ing. Comercial y Negocios
- Científicos de Datos
- Matemáticos y/o Estadísticos
- Periodismo
- Inteligencia de Negocios
› Empresas Privadas o Públicas.
› Personas desarrollando proyectos de tipo
Startups
4
Contenido
1. PARTE I: Introducción
En esta parte, hablaremos sobre generalidades y la importancia
de Big Data en las organizaciones y en las Tecnologías de
Información en la Actualidad.
2. PARTE II: Los Fundamentos de Big Data.
CAPITULO 1: Entendiendo Big Data
Proporciona una idea de los conceptos clave y la terminología
que definen la esencia misma de grandes volúmenes de datos
y la promesa que tiene para ofrecer ideas de negocios
sofisticados.
Se abordarán los siguientes temas:
- Conceptos y terminología
- Datasets (conjunto de datos)
- Análisis y Analítica de datos
- Inteligencia de negocios (BI)
- Características de Big Data
- Las 5 V’s de Big Data: Volumen, Velocidad,
Variedad, Veracidad y Valor.
- Diferentes tipos de datos
5
CAPITULO 2: Motivación para el uso de Big Data
Trata de responder a la pregunta de por qué las empresas deben estar motivadas a adoptar
Big Data como consecuencia a los cambios que subyacen en el mundo del mercado y de
negocios.
Se abordarán los siguientes temas:
- Data Analytics y Data Science
- Redes sociales
- Comunidades y dispositivos Hyper-conectados
- Computación en la nube
- Internet de las cosas (IoT)
CAPITULO 3: Consideraciones para la adopción y planificación
de Big Data
Muestra que la decisión de adoptar Big Data, debe tener en cuenta
muchas consideraciones tecnológicas y de negocio. Del mismo modo, el
análisis de ciclo de vida de grandes volúmenes de datos impone
requisitos de procesamiento distintas.
Se abordarán los siguientes temas:
- Prerrequisitos de organización
- Captura de datos
- Privacidad y Seguridad
- Asistencia en tiempo real
- Distintos retos en performance
- Nubes
- El Ciclo de vida de Big Data
6
CAPITULO 4: Tecnologías de la Empresa y Big Data
Business Intelligence
Examina los enfoques actuales de almacenamiento de datos
empresariales e inteligencia de negocios. A continuación, se amplía
esta noción para demostrar que los recursos de almacenamiento y
análisis de Big Data se pueden utilizar en combinación con
herramientas de supervisión del rendimiento corporativo para
ampliar las capacidades analíticas de la empresa y profundizar los
conocimientos entregados por la inteligencia de negocios.
3. PARTE III: Almacenando y Analizando Big Data
En esta parte se analizarán conceptos fundamentales y aspectos que
deben tomarse en cuenta para el almacenaje, procesamiento, análisis
y uso de herramientas tecnológicas que nos ayudarán a trabajar con
Big Data. Se realizarán demostraciones prácticas y se revisarán casos
de uso de ejemplo para entender cada uno de los siguientes temas:
CAPITULO 5 y 7: Conceptos y Tecnologías de Almacenaje
El capítulo 5 aborda los fundamentos técnicos y metodologías para almacenar grandes
volúmenes de datos. En esta parte el estudiante llevará a cabo prácticas en las que será capaz
de empezar a trabajar con herramientas noSQL (Not only SQL), típicas de ambientes y
soluciones de Big Data.
CAPITULO 6: Conceptos de Procesamiento
En esta parte el estudiante podrá comprender las técnicas y conceptos básicos que deben se
reconsiderados cuando se empieza a procesar grandes cantidades de Datos. Esto típicamente
se resuelve a través de un procesamiento de tipo distribuido. En la práctica el estudiante
explorará algunos algoritmos y frameworks de programación como MapReduce, así como
también ejecutará talleres prácticos utilizando herramientas muy conocidas en el área de Data
Analytics como Apache Hadoop.
7
CAPITULO 8: Técnicas de Análisis y Visualización
El estudiante en este punto adquirirá destreza en el manejo de herramientas como
ElasticSearch y Kibana, mismas que sirven de apoyo en el análisis de datos en sistemas
distribuidos, de igual manera se exploran algunas técnicas de análisis de texto utilizando
algoritmos de Machine Learning, análisis cualitativo y cuantitativo y muchos más.
4. PARTE IV: Aspectos de Optimización
En esta parte del curso nos enfocaremos en analizar aspectos de
optimización, que son muy importantes al momento de procesar grandes
datasets. Se pueden aprovechar las capacidades computacionales de los
computadores (o supercomutadores) para procesar y analizar grandes
volúmenes de datos en tiempos óptimos, a través de la paralelización de
nuestros algortimos generalmente en ambientes distribuidos configurados
en la Nube.
8
CAPITULO 9: Computación Paralela y Computación
de Alto rendimiento (HPC)
El capítulo 9 trata acerca de dos temas fundamentales en
el desarrollo de aplicaciones científicas. Muchas de ellas
relacionadas con las Ciencias de la Vida (Molecular
Dynamics, Drug Docking, Image Processing, etc). Se
abordan aspectos de optimización que permitirán que
nuestros algoritmos de análisis y procesamiento puedan
ejecutarse en tiempos más cortos aprovechando al
máximo nuestros recursos computacionales a través de la
computación Paralela y la computación de Alto
rendimiento.
CAPITULO 10: Computación en la Nube
En este capítulo el estudiante será capaz de introducirse en el mundo de
la Computación en la Nube. Se analizan los distintos modelos de Nubes
que se ofrecen y se exploran las alternativas Comerciales que
actualmente son más utilizadas como: Microsoft Azure, Google Cloud,
Amazon y NeCTAR.
9
5.
PARTE V: Mejores Prácticas y Open Data (Datos Abiertos)
La parte final, trata acerca de las mejores prácticas para Big Data. Se analizan los factores que
influyen en el fracaso y el éxito en la implementación de proyectos que a su vez involucran un
cambio de mentalidad con miras hacia el procesamiento y análisis de grandes volúmenes de
datos. Además se aborda un tema trascendental que es el habilitador de este tipo de proyectos,
esto es Datos Abiertos (Open Data). Analizaremos la importancia que tiene poner datos a
disposición del público libremente, con un beneficio a nivel organizacional, gubernamental y social.
Metodología
La parte teórica del curso está enfocada mayormente en la preparación
para los exámenes de Certificación avalados por Pearson Vue, de la
academia Big Data Science School. Actualmente este curso es el único
dictado y preparado en español en el país y a nivel de Latinoamérica, sin
embargo el participante deberá repasar el contenido en inglés, para que
posteriormente pueda acceder a los exámenes en este mismo idioma.
Adicionalmente, durante el curso el participante será capaz de poner en
práctica sus conocimientos a través de talleres grupales en donde
analizarán casos de uso generalmente aplicados a la realidad de su
ambiente profesional y laboral. Conforme se avanza en los capítulos, se
realizarán talleres prácticos de lenguajes de programación científicos
como: Python, R y C++, que servirán como herramientas para analizar y
procesar Big Data más adelante. Finalmente, los estudiantes propondrán
un tema de proyecto grupal en el que aplicarán todo el ciclo de vida de
Big Data y en el que serán capaces de abordar y solucionar las
problemáticas implicadas en la adopción e implementación de una
solución de Big Data y Data Analytics.
10
Material para los participantes
› Máquina virtual (Ubuntu 14.04) con todas las
herramientas configuradas y ejemplos listos para ser
probados.
› Presentaciones en PDF
› Material audiovisual (videos, entrevistas, etc.)
› Libro en PDF (Traducción de Libro Big Data
Fundamentals y material recopilado de diversas
fuentes)
› Tutoriales en PDF (Parte práctica del curso)
› Scripts, programas e instaladores correspondientes
a la parte práctica del curso.
› Datasets y archivos de texto a ser analizados. (Parte
práctica)
› Acceso a publicaciones e información adicional de
diversas fuentes.
Detalles del curso
Duración: 70hrs.
Modalidades:
1. Lunes a Viernes (7 semanas), desde el 25 de Abril (7:00 a 9:00)
2. Sábados (12 sesiones), desde el 23 de Abril (8:00 a 14:00)
Evaluación:
Se evaluarán casos de uso en clase y la ejecución de un proyecto final que se realizará
en la parte final del curso, bajo la supervisión de los Instructores.
Aprobación del Curso: Asistencia mínima: 80% y proyecto final: 80%
Lugar: Facultad de Sistemas - EPN
11
Inversión
La inversión en el curso es de $450 (incluido impuestos).
Instructores
Ing. Diego Montúfar, MiT
Co-fundador y Director Ejecutivo de Handytec S.A, Ing. de Sistemas graduado
en la Universidad de Cuenca quién luego obtuvo el grado de Master of
Information Technology en la Universidad de Melbourne, Australia. Experto en
computación de alto rendimiento (HPC), computación distribuida y en la Nube.
Posee experiencia en el desarrollo de aplicaciones móviles multiplataforma y la
implementación de arquitecturas en Sistemas distribuidos. Su principal objetivo
es liderar los proyectos de innovación a nivel Nacional e Internacional, así mismo
introducir y fomentar el uso de nuevas tecnologías dentro y fuera del país.
Ing. Juan Pablo Zaldumbide, MsC
Ing. de Sistemas, con Maestría en Gerencia de Sistemas de la
Información, con amplia exeriencia laboral en empresas privadas y
públicas dentro del País. Obtuvo el grado de Master of Science en
la Universidad de Melbourne, Australia. Experto en análisis y
procesamiento de BigData, Ciencia de Datos, Análisis de Big Data,
Aplicaciones para E-health y Computación en la Nube.
Inscripciones
Las inscripciones se realizan a traves de este Formulario
12
Certificación
Al final del curso el Participante recibirá un certificado
de aprobación, avalado por la Escuela Politécnica
Nacional, en conjunto con la empresa pública EPN
TECH EP, la Facultad de Sistemas (FIS-EPN) y
Handytec S.A.
Formas de pago
La forma de pago es a través de depósito o
transferencia bancaria.
Por favor, realice la transacción a la cuenta:
1.- Empresa pública EPN-TECH EP.
Ruc. 1768179760001
Cuenta corriente. Nº. 7624034
Banco Pacifico
Sublinea: 130108
2.- Para Instituciones Públicas
Cuenta corriente Nº. 1127558
Banco Central del Ecuador
Políticas de inscripciones y cancelaciones
*Una vez realizado el pago, solicitamos nos envíen una copia de la transacción al correo [email protected] para formalizar el
trámite de inscripción.
** En caso de que el participante deponga su participación luego de iniciado el curso, no existirá devolución del valor cancelado.
*** En caso de que el participante deponga de su participación antes del inicio del curso, se realizará la devolución con un cargo del 10%
por gastos administrativos.
**** El cupo mínimo para cada modalidad del curso son 18 participantes, en caso de que no se llenen los cupos, las fechas estarán
sujetas a un cambio de acuerdo a lo que resuelva la parte de la organización del curso, misma que será notificada a los participantes con
anticipación.
13
Contacto
Lic. Carla Cisneros
Gerente Comercial, Handytecmobi S.A
Email: [email protected]
Cel. 0995168566
Ing. Diego Montúfar, MiT
Director Ejecutivo, Handytecmobi S.A
Email: [email protected]
Cel. 0995030269
Handytecmobi S.A
www.handytec.mobi
[email protected]
Inscripciones y pagos
Nadia Mena
Jefe Financiero, EPN Tech EP
Email: [email protected]
Telf. 2976300, ext. 6101
Organizan
14
Handytecmobi S.A, Todos los derechos reservados ® 2016
www.handytec.mobi