INSTITUTO DE CIENCIAS MATEMÁTICAS STATS, PROBS & OR BBVA-spor winter day Data Science & Statistical Learning MARCH 9th 2016 Facultad de Ciencias Físicas UCM. Plaza de las Ciencias, 1 28040 Madrid. Seminario Física Teórica II. SEMINARS BY: 10:00-11:00 Emilio Carrizosa (U. Sevilla) Mathematical optimization tools for data visualization. 11:30-12:30 Alberto Suárez (UAM) Aprendizaje automático mediante conjuntos de clasificadores. 12:30-13:30 Esteban Moro (UC3M) Cities and Social Media: applications to mobility, economy and unemployment. ORGANIZERS: Antonio Gómez Corral (UCM-ICMAT) David Gómez-Ullate (UCM-ICMAT) BBVA-SPOR Winter Day on Data Science & Statistical Learning Wednesday March 9th 2016. Seminario Física Teórica II Facultad de Ciencias Físicas - UCM 10.00 - 11.00 Emilio Carrizosa (Universidad de Sevilla) Mathematical optimization tools for data visualization Complex data call for the use of specialized techniques for data handling, data analysis and data visualization. Whereas traditional representations via 2-D plots of data has been routinely done for decades, it remains as a challenge to properly and meaningfully represent more complex data (e.g. dynamic, or with mixed types of attributes) and relations between their features. One key tool for visualization techniques is Mathematical Optimization. A mountain of algorithms, either of exact or heuristic, gradient-based or of combinatorial nature, are/can be used to properly address visualization problems. In this talk we will revisit the use of some of such algorithmic ideas applied to visualization problems, including the representation of dynamic data or features visualization. 11.00 – 11.30 Coffee Break 11.30 – 12.30 Alberto Suárez (Universidad Autónoma de Madrid) Aprendizaje automático mediante conjuntos de clasificadores Una de las estrategias más eficaces para diseñar sistemas de clasificación precisos y robustos es combinar las predicciones de distintos clasificadores inducidos de manera automática a partir del conjunto de datos de entrenamiento. Si los clasificadores del conjunto son complementarios, es decir, si sus errores no están correlacionados, el proceso de combinación permite mejorar la precisión respecto a los clasificadores individuales. Los clasificadores pueden ser de distinto tipo (conjuntos heterogéneos) o un mismo tipo (conjuntos homogéneos). Las estrategias para generar conjuntos homogéneos aprovechan inestabilidades del algoritmo de aprendizaje utilizado (por ejemplo, dependencia de los valores iniciales de los pesos en red neuronales), fomentan la variabilidad mediante la inyección de ruido independiente del problema (remuestreo en bagging, modificación de las etiquetas de clase en class-switching, o aleatorización de las decisiones en los nodos internos de los árboles de decisión en random forest) o incorporan mecanismos explícitos para fomentar la diversidad (por ejemplo, incorporando un término de diversidad al objetivo de la optimización global que se lleva a cabo en Negative Correlation Learning o el énfasis progresivo en ejemplos mal clasificados en boosting). En esta charla analizaremos el proceso de votación en conjuntos homogéneos en los que los clasificadores individuales son generados mediante aplicaciones independientes de un algoritmo que incorpore aleatoriedad en la inducción. Este análisis nos permitirá hacer inferencia sobre las predicciones de tamaños de conjunto infinito, determinar el tamaño óptimo del conjunto, realizar podar dinámica y diseñar algoritmos de boosting cuyo objetivo es reducir la incertidumbre en la predicción del conjunto. 12.30 - 13.30 Esteban Moro Egido (U. Carlos III de Madrid) Cities and Social Media: applications to mobility, economy and unemployment. Recent wide-spread adoption of electronic and pervasive technologies has enabled the study of human behavior at an unprecedented level, uncovering universal patterns underlying human activity, mobility, and inter-personal communication. A particular venue in which this amount of information could be of most value is that of cities. In this contribution we will present a number of research works in which we have used Big Data and Data Science techniques to analyze millions of tweets to unveil the mobility, social and neighborhood patterns that appear in the major Spain cities. We found that the quantification of individual behavior features extracted from Social Media can be use to produce accurate, easily interpretable reconstruction of city unemployment, socio-economical status, transport and/or neighborhood characterization. Our results show that cost-effective economical and societal indicators can be built on publicly-available social media. Organizers: Antonio Gómez Corral (UCM-ICMAT) David Gómez-Ullate (UCM-ICMAT) SPOR Group
© Copyright 2024