BBVA-spor winter day

INSTITUTO DE CIENCIAS MATEMÁTICAS
STATS, PROBS & OR
BBVA-spor winter day
Data Science & Statistical Learning
MARCH 9th 2016
Facultad de Ciencias Físicas UCM.
Plaza de las Ciencias, 1 28040 Madrid.
Seminario Física Teórica II.
SEMINARS BY:
10:00-11:00 Emilio Carrizosa (U. Sevilla)
Mathematical optimization tools for data
visualization.
11:30-12:30 Alberto Suárez (UAM)
Aprendizaje automático mediante conjuntos de
clasificadores.
12:30-13:30 Esteban Moro (UC3M)
Cities and Social Media: applications to mobility,
economy and unemployment.
ORGANIZERS:
Antonio Gómez Corral (UCM-ICMAT)
David Gómez-Ullate (UCM-ICMAT)
BBVA-SPOR Winter Day on
Data Science & Statistical Learning
Wednesday March 9th 2016.
Seminario Física Teórica II
Facultad de Ciencias Físicas - UCM
10.00 - 11.00 Emilio Carrizosa (Universidad de Sevilla)
Mathematical optimization tools for data visualization
Complex data call for the use of specialized techniques for data handling, data analysis and
data visualization.
Whereas traditional representations via 2-D plots of data has been routinely done for decades,
it remains as a challenge to properly and meaningfully represent more complex data (e.g.
dynamic, or with mixed types of attributes) and relations between their features.
One key tool for visualization techniques is Mathematical Optimization. A mountain of
algorithms, either of exact or heuristic, gradient-based or of combinatorial nature, are/can be
used to properly address visualization problems. In this talk we will revisit the use of some of
such algorithmic ideas applied to visualization problems, including the representation of
dynamic data or features visualization.
11.00 – 11.30 Coffee Break
11.30 – 12.30 Alberto Suárez (Universidad Autónoma de Madrid)
Aprendizaje automático mediante conjuntos de clasificadores
Una de las estrategias más eficaces para diseñar sistemas de clasificación precisos y
robustos es combinar las predicciones de distintos clasificadores inducidos de manera
automática a partir del conjunto de datos de entrenamiento. Si los clasificadores del conjunto
son complementarios, es decir, si sus errores no están correlacionados, el proceso de
combinación permite mejorar la precisión respecto a los clasificadores individuales. Los
clasificadores pueden ser de distinto tipo (conjuntos heterogéneos) o un mismo tipo
(conjuntos homogéneos).
Las estrategias para generar conjuntos homogéneos aprovechan inestabilidades del
algoritmo de aprendizaje utilizado (por ejemplo, dependencia de los valores iniciales de los
pesos en red neuronales), fomentan la variabilidad mediante la inyección de ruido
independiente del problema (remuestreo en bagging, modificación de las etiquetas de clase
en class-switching, o aleatorización de las decisiones en los nodos internos de los árboles de
decisión en random forest) o incorporan mecanismos explícitos para fomentar la diversidad
(por ejemplo, incorporando un término de diversidad al objetivo de la optimización global que
se lleva a cabo en Negative Correlation Learning o el énfasis progresivo en ejemplos mal
clasificados en boosting).
En esta charla analizaremos el proceso de votación en conjuntos homogéneos en los que los
clasificadores individuales son generados mediante aplicaciones independientes de un
algoritmo que incorpore aleatoriedad en la inducción. Este análisis nos permitirá hacer
inferencia sobre las predicciones de tamaños de conjunto infinito, determinar el tamaño
óptimo del conjunto, realizar podar dinámica y diseñar algoritmos de boosting cuyo objetivo
es reducir la incertidumbre en la predicción del conjunto.
12.30 - 13.30 Esteban Moro Egido (U. Carlos III de Madrid)
Cities and Social Media: applications to mobility, economy and
unemployment.
Recent wide-spread adoption of electronic and pervasive technologies has enabled
the study of human behavior at an unprecedented level, uncovering universal patterns
underlying human activity, mobility, and inter-personal communication.
A particular venue in which this amount of information could be of most value is that
of cities. In this contribution we will present a number of research works in which we
have used Big Data and Data Science techniques to analyze millions of tweets to
unveil the mobility, social and neighborhood patterns that appear in the major Spain
cities. We found that the quantification of individual behavior features extracted from
Social Media can be use to produce accurate, easily interpretable reconstruction of city
unemployment, socio-economical status, transport and/or neighborhood
characterization.
Our results show that cost-effective economical and societal indicators can be built on
publicly-available social media.
Organizers:
Antonio Gómez Corral (UCM-ICMAT)
David Gómez-Ullate (UCM-ICMAT)
SPOR Group