Los Desafíos de Big Data en la Web

11/5/15
Los Desafíos de
Big Data
en la Web
Ricardo Baeza-Yates
VP of Research
Yahoo Labs
Big Data Barcelona, Nov 2015
1
11/5/15
La Web es Infinita …..
4
La Anatomía de la Web
5
2
11/5/15
Fácil
Metadatos
RDF
Wikipedia ODP
Y! Answers
Difícil
Blogs,
Groups
Text
Tamaño
<a> + enlaces
Logs (Clicks+Consultas)
Privado
Flickr
¿Calidad?
UGC
¿Qué hay de bueno en la Web?
Cantidad
Web 2.0
Proveedores
de
información
Calidad
3
11/5/15
8
La Sabiduría de la Gente
4
11/5/15
11
5
11/5/15
12
La Sabiduría Colectiva en la Web
6
11/5/15
Todos los Datos tienen algún Sesgo
§  Tecnológico
§  Educacional
§  Económico
§  Geográfico
§  Social
§  Cultural
§  Lingüístico
§  Religioso
§  Político
•  de Género
•  de Ruido Natural o
Artificial Malicioso (spam)
•  de Validez (errores)
•  de Completitud
•  del Proceso de Recolección
•  ….
Sesgo Económico
Baeza-Yates, Castillo, López. Características de la Web de España.
El profesional de la información, 2006, vol. 15, n. 1, pp. 6-17.
15
7
11/5/15
Sesgo de Género
[E. Graells-Garrido et al,. “First Women, Second Sex: Gender Bias in Wikipedia”. ACM Hypertext’15]
Sesgo Geográfico
[E. Graells-Garrido and M. Lalmas.
“Balancing diversity to counter-measure
geographical centralization in microblogging
platforms”, ACM Hypertext’14]
8
11/5/15
Sesgos de Redundancia y Confianza
Sesgo de orden
Redundancia: aumenta
Consulta
Buscador
El contenido en la Web
es redundante y
los clicks en los resultados
están sesgados por el orden
y por la interfaz
[Geneological Trees in the Web. Baeza-Yates,
Pereira & Ziviani, WWW 2008]
Podríamos sugerir etiquetas, pero …
9
11/5/15
La Cola de la Sabiduría
–  Diversidad
–  Calidad
–  Cobertura
alargada
y pesada
We all have a long tail!
[Anatomy of the long tail: Ordinary People with Extraordinary Tastes,
Goel, Broder, Gabrilovich, Pang; WSDM 2010]
21
21
10
11/5/15
22
23
11
11/5/15
26
12
11/5/15
27
Intereses
Personas
Diversidad
Novedad
Sorpresa
13
11/5/15
[De Choudhury et al, ACM HT 2010]
29
[Thomee et al, Demo at CHI 2014]
14
11/5/15
Sesgo de Actividad: La Sabiduría de Pocos?
Sample: Small, 2009
Medium, 2013
Large, 2011
Medium, 2014
[Baeza-Yates & Saez-Trumper, ACM Hypertext 2015]
Digital Desert
(Lower bound)
33
[Baeza-Yates & Saez-Trumper, ACM Hypertext 2015]
Yahoo Confidential & Proprietary
15
11/5/15
La Sabiduría de Todos
36
Escalabilidad
§  Duplicar los datos en el mejor caso duplica el tiempo
de procesamiento
§  La restricción es el tiempo: podemos intercambiar
calidad del resultado por rapidez algorítmica
§  Esto también es crucial en aprendizaje automático
§  Limpie bien los datos, la redundancia y los valores
anómalos pueden engañar
§  Más datos puede no mejorar los resultados
§  Más datos puede aumentar los efectos del ruido y del
sesgo, entre otros.
16
11/5/15
Los Desafíos de
Big Data
en la Web
§ 
§ 
§ 
§ 
Diciembre 12-15, 2016
World Trade Center, Barcelona
Web: http://icdm2016.eurecat.org/
Mail: ICDM2016Sponsors@eurecat.org
¿Preguntas?
2015
rbaeza@acm.org
17