11/5/15 Los Desafíos de Big Data en la Web Ricardo Baeza-Yates VP of Research Yahoo Labs Big Data Barcelona, Nov 2015 1 11/5/15 La Web es Infinita ….. 4 La Anatomía de la Web 5 2 11/5/15 Fácil Metadatos RDF Wikipedia ODP Y! Answers Difícil Blogs, Groups Text Tamaño <a> + enlaces Logs (Clicks+Consultas) Privado Flickr ¿Calidad? UGC ¿Qué hay de bueno en la Web? Cantidad Web 2.0 Proveedores de información Calidad 3 11/5/15 8 La Sabiduría de la Gente 4 11/5/15 11 5 11/5/15 12 La Sabiduría Colectiva en la Web 6 11/5/15 Todos los Datos tienen algún Sesgo § Tecnológico § Educacional § Económico § Geográfico § Social § Cultural § Lingüístico § Religioso § Político • de Género • de Ruido Natural o Artificial Malicioso (spam) • de Validez (errores) • de Completitud • del Proceso de Recolección • …. Sesgo Económico Baeza-Yates, Castillo, López. Características de la Web de España. El profesional de la información, 2006, vol. 15, n. 1, pp. 6-17. 15 7 11/5/15 Sesgo de Género [E. Graells-Garrido et al,. “First Women, Second Sex: Gender Bias in Wikipedia”. ACM Hypertext’15] Sesgo Geográfico [E. Graells-Garrido and M. Lalmas. “Balancing diversity to counter-measure geographical centralization in microblogging platforms”, ACM Hypertext’14] 8 11/5/15 Sesgos de Redundancia y Confianza Sesgo de orden Redundancia: aumenta Consulta Buscador El contenido en la Web es redundante y los clicks en los resultados están sesgados por el orden y por la interfaz [Geneological Trees in the Web. Baeza-Yates, Pereira & Ziviani, WWW 2008] Podríamos sugerir etiquetas, pero … 9 11/5/15 La Cola de la Sabiduría – Diversidad – Calidad – Cobertura alargada y pesada We all have a long tail! [Anatomy of the long tail: Ordinary People with Extraordinary Tastes, Goel, Broder, Gabrilovich, Pang; WSDM 2010] 21 21 10 11/5/15 22 23 11 11/5/15 26 12 11/5/15 27 Intereses Personas Diversidad Novedad Sorpresa 13 11/5/15 [De Choudhury et al, ACM HT 2010] 29 [Thomee et al, Demo at CHI 2014] 14 11/5/15 Sesgo de Actividad: La Sabiduría de Pocos? Sample: Small, 2009 Medium, 2013 Large, 2011 Medium, 2014 [Baeza-Yates & Saez-Trumper, ACM Hypertext 2015] Digital Desert (Lower bound) 33 [Baeza-Yates & Saez-Trumper, ACM Hypertext 2015] Yahoo Confidential & Proprietary 15 11/5/15 La Sabiduría de Todos 36 Escalabilidad § Duplicar los datos en el mejor caso duplica el tiempo de procesamiento § La restricción es el tiempo: podemos intercambiar calidad del resultado por rapidez algorítmica § Esto también es crucial en aprendizaje automático § Limpie bien los datos, la redundancia y los valores anómalos pueden engañar § Más datos puede no mejorar los resultados § Más datos puede aumentar los efectos del ruido y del sesgo, entre otros. 16 11/5/15 Los Desafíos de Big Data en la Web § § § § Diciembre 12-15, 2016 World Trade Center, Barcelona Web: http://icdm2016.eurecat.org/ Mail: [email protected] ¿Preguntas? 2015 [email protected] 17
© Copyright 2024