SOLUCIÓN DEL EXAMEN 1. ¿Qué es la Recuperación de Información? La ciencia de búsqueda de material (normalmente documentos) de una naturaleza no estructurados para satisfacer un necesidad de información de dentro de una colección grande (normalmente en computadoras).” 2. De dos ejemplos de sistemas de recuperación de información y 2 que no lo son. Sistemas; sistemas de archivos y sistemas para correo electrónico No sistemas: La biblioteca de una universidad y documentos internos de una corporación 3. Un documento es relevante si es que el usuario percibe que contiene información de valor con respecto de: Necesidad de información 4. ¿Qué es la precisión? La fracción de los resultados devueltos que son relevantes para las necesidades de información. 5. ¿Qué es Recall? La fracción de los documentos relevantes de la colección devueltos por el sistema. 6. ¿Qué haría para optimizar las operaciones del algoritmo merge con mas de dos listas? Procesamos las mas pequeñas listas primero o Procesamos las operaciones AND primero 7. ¿En que idioma los diferentes usos de apóstrofos y guiones pueden ser problemáticos para la tokenización? Francés 8. ¿Cuál es el uso de una lista “stop”? Excluye las palabras mas común del diccionario 9. De las tres características de los índices posicionales. • Son La solución mas popular para consultas con frases • Permiten consultas de proximidad • Aumentar el tamaño de la lista posting sustancialmente 10. Los principales tipos de estructuras de datos que la gente usa para los diccionarios de sistemas (de recuperación de la información) son: Las Tablas hash (hash-tables) y Árboles de búsqueda. 11. ¿Qué es la distancia de edición y de tres ejemplos? Es un método de corrección de palabras aisladas La distancia de edición de dof a dog es uno, un replaco La distancia de edición de cat a act es dos, dos substituciones La distancia de edición de cat a dog es tres, ya que todos los caracteres necesitan ser reemplazados 12. Defina y de características del coeficiente de Jaccard. Es un método de corrección de palabras aisladas Es una medida común de sobreposicionamiento Produce un resultado es entre 0 y 1 13. diga que son y de características de las consultas booleanas. Son buenos para usuarios expertos con un claro entendimiento de sus necesidades y de su colección. Son útiles para aplicaciones computacionales las cuales pueden fácilmente consumir miles de resultados. Son menos útiles para usuarios típicos. Consultas OR tienden a darnos muchísimos resultados Consultas AND nos dan pocos resultados 14. De tres usos de la clasificación de textos: Consultas standing Filtrar spam Clasificación de correo personal Motores de búsqueda verticales 15. Diga para usted que son las maquinas de aprendizaje y de una definición formal además de ejemplos de ellas. A computer program is said to learn from experience E with respect to some task T and some performance measure P if its performance on T, as measured by P, improves with experience E. Suppose we feed a learning algorithm a lot of historical weather data, and have it learn to predict weather. What would be a reasonable choice for P? 16. Diga que tipo de maquina de aprendizaje utiliza el hiperplano separador óptimo. SVM 17. Diga cual es la diferencia entre un problema linealmente separable y uno que no es linealmente separable y muestre gráficamente. Linealmente separable: las nubes de datos están separadas. Linealmente no separables: las nubes de datos están entremezcladas. 18. Diga cual de los siguientes enunciados corresponde a problemas de aprendizaje supervisado: A. Dado un conjunto de datos de records médicos de pacientes que sufren una enfermedad del corazón, se trata de aprender si hay diferentes clusters para tales pacientes para poder separar tratamientos. B. Dada una colección de 1000 ensayos de Economía, encontrar alguna forma de agruparlos automáticamente en un pequeño numero de grupos de ensayos que sean similares o estén relacionados. ninguno 19. La prueba chi cuadrada estima la dependencia de la coincidencia del término y de la clase como eventos. Usa la estadística Chi cuadrada para calcular el valor P para el término Santiago y la clase Chile en el ejemplo siguiente: Clase = Chile Class ≠ Chile Término = Santiago 1.00 2.00 Término ≠ Santiago 100.00 500.00 E(ew,ec) 0.50 E(!ew,ec) 100.50 E(!ew,ec) 2.50 E(!ew,ec) 499.50 0.49
© Copyright 2024