Cambia Comunicado de la FED.

SOLUCIÓN DEL EXAMEN
1. ¿Qué es la Recuperación de Información?
La ciencia de búsqueda de material (normalmente documentos) de una naturaleza
no estructurados para satisfacer un necesidad de información de dentro de una
colección grande (normalmente en computadoras).”
2. De dos ejemplos de sistemas de recuperación de información y 2 que no lo son.
Sistemas; sistemas de archivos y sistemas para correo electrónico
No sistemas: La biblioteca de una universidad y documentos internos de una
corporación
3. Un documento es relevante si es que el usuario percibe que contiene
información de valor con respecto de:
Necesidad de información
4. ¿Qué es la precisión?
La fracción de los resultados devueltos que son relevantes para las necesidades de
información.
5. ¿Qué es Recall?
La fracción de los documentos relevantes de la colección devueltos por el sistema.
6. ¿Qué haría para optimizar las operaciones del algoritmo merge con mas de dos
listas?
Procesamos las mas pequeñas listas primero o Procesamos las operaciones AND
primero
7. ¿En que idioma los diferentes usos de apóstrofos y guiones pueden ser
problemáticos para la tokenización?
Francés
8. ¿Cuál es el uso de una lista “stop”?
Excluye las palabras mas común del diccionario
9. De las tres características de los índices posicionales.
•
Son La solución mas popular para consultas con frases
•
Permiten consultas de proximidad
•
Aumentar el tamaño de la lista posting sustancialmente
10. Los principales tipos de estructuras de datos que la gente usa para los
diccionarios de sistemas (de recuperación de la información) son:
Las Tablas hash (hash-tables) y Árboles de búsqueda.
11. ¿Qué es la distancia de edición y de tres ejemplos?
Es un método de corrección de palabras aisladas
La distancia de edición de dof a dog es uno, un replaco
La distancia de edición de cat a act es dos, dos substituciones
La distancia de edición de cat a dog es tres, ya que todos los caracteres necesitan
ser reemplazados
12. Defina y de características del coeficiente de Jaccard.
Es un método de corrección de palabras aisladas
Es una medida común de sobreposicionamiento
Produce un resultado es entre 0 y 1
13. diga que son y de características de las consultas booleanas.
Son buenos para usuarios expertos con un claro entendimiento de sus
necesidades y de su colección.
Son útiles para aplicaciones computacionales las cuales pueden fácilmente
consumir miles de resultados.
Son menos útiles para usuarios típicos.
Consultas OR tienden a darnos muchísimos resultados
Consultas AND nos dan pocos resultados
14. De tres usos de la clasificación de textos:
Consultas standing
Filtrar spam
Clasificación de correo personal
Motores de búsqueda verticales
15. Diga para usted que son las maquinas de aprendizaje y de una definición formal
además de ejemplos de ellas.
A computer program is said to learn from experience E with respect to some task T
and some performance measure P if its performance on T, as measured by P,
improves with experience E. Suppose we feed a learning algorithm a lot of historical
weather data, and have it learn to predict weather. What would be a reasonable
choice for P?
16. Diga que tipo de maquina de aprendizaje utiliza el hiperplano separador óptimo.
SVM
17. Diga cual es la diferencia entre un problema linealmente separable y uno que
no es linealmente separable y muestre gráficamente.
Linealmente separable: las nubes de datos están separadas.
Linealmente no separables: las nubes de datos están entremezcladas.
18. Diga cual de los siguientes enunciados corresponde a problemas de
aprendizaje supervisado:
A. Dado un conjunto de datos de records médicos de pacientes que sufren
una enfermedad del corazón, se trata de aprender si hay diferentes
clusters para tales pacientes para poder separar tratamientos.
B. Dada una colección de 1000 ensayos de Economía, encontrar alguna
forma de agruparlos automáticamente en un pequeño numero de grupos
de ensayos que sean similares o estén relacionados.
ninguno
19. La prueba chi cuadrada estima la dependencia de la coincidencia del término y de la
clase como eventos. Usa la estadística Chi cuadrada para calcular el valor P para el
término Santiago y la clase Chile en el ejemplo siguiente:
Clase = Chile
Class ≠ Chile
Término = Santiago
1.00
2.00
Término ≠ Santiago
100.00
500.00
E(ew,ec)
0.50 E(!ew,ec)
100.50
E(!ew,ec)
2.50 E(!ew,ec)
499.50
0.49