Algoritmo Word2Vec para la representación vectorial de oraciones

Algoritmo Word2Vec para la representación vectorial de
oraciones en Generación de Resúmenes
Msc. Yanet Fors Isalguez*, Dr. Jorge Hermosillo Valadez*
*Departamento de Computación, Facultad de Ciencias, Universidad Autónoma del Estado de Morelos
Modelo Word2Vec
Resumen
La Generación Automática de Resúmenes es una tarea en el área del
Procesamiento de Leguaje Natural, que constituye una alternativa muy útil
para procesar abundante información en el menor tiempo posible. Se han
realizado varias propuestas en la generación de resúmenes abstractivos,
pero aún se está muy lejos de capturar todas las regularidades lingüísticas
necesarias para una representación semántica tal, que permita capturar el
nivel de abstracción presente en el lenguaje natural. Nuestra propuesta
consiste en el uso de las representaciones continuas de palabras como
vectores, para representaciones semánticas de los textos a resumir.
Exploramos el modelo Word2Vec con el objetivo de comprobar la similitud
semántica entre las diferentes palabras de los documentos, así como la
presencia de regularidades tanto semánticas como sintácticas. Se realiza
una propuesta para la Generación Automática de resúmenes, basada
fundamentalmente en la representación vectorial de oraciones con el
modelo antes mencionado.
Word2Vec es un modelo no supervisado basado en una red neuronal
recurrente que aprende representaciones de vectores por palabras a partir de
un corpus de entrada. Se ha demostrado que los vectores aprendidos
explícitamente codifican patrones y regularidades lingüísticas. Así por ejemplo si se
realiza la siguiente operación entre vectores es posible percatarnos de estas
relaciones: vec(“king”) – vec(“man”) + vec(“woman”) = vec(“queen”). Los creadores
de este método también demostraron la existencia de las regularidades lingüísticas
mediante pruebas por analogía y similitud de palabras.
Table 1:Examples of five types of semantic and nine types of syntactic questions in the SemanticSyntactic Word Relationship test set
Figura 2:Country and Capitals Vectors
Propuesta
Introducción
Los trabajos dentro de la Generación de Resúmenes se pueden dividir en
generación de resúmenes extractivos y generación de resúmenes
abstractivos, siendo estos últimos más similares a la forma en que un
humano elabora un resumen. En ambos casos aún se presentan
problemas típicos como la falta de coherencia, cohesión textual y
ambigüedad semántica.
Las propuestas en la generación de resúmenes abstractivos son menores
y aún no alcanzan un nivel de madurez adecuado, debido al todavía
insuficiente estado de las técnicas de representación del conocimiento y
de generación del lenguaje natural, que reduce la aplicación de estos
enfoques a dominios muy restringidos.
Se distinguen 3 etapas en el proceso de generación de un resumen por
abstracción:
1. Construcción de una representación semántica de las oraciones del
documento.
2. Realización de operaciones de selección, agregación y generalización
sobre estas representaciones.
3. Traducción al lenguaje natural.
Representación
Semántica
- Plantillas
- Reglas
- Árboles S.
- Grafos
- Ontologías
Transformación
- Selección
- Agregación
- Generalización
Generación de texto
al lenguaje natural
Como se ha demostrado el modelo Word2Vec captura rasgos lingüísticos
entre palabras. Nuestra propuesta está encaminada en la creación de los
vectores por oraciones, a partir de los propios vectores de palabras. Para
ello proponemos los siguientes pasos:
 Representación de oraciones usando el modelo word2vec, por la suma
de los vectores de palabras que conforman la oración.
 Descubrir las regularidades lingüísticas presentes en dichas
representaciones.
 Determinar si vectores de oraciones cercanos están relacionados con
oraciones similares.
 Definir un algoritmo para generar el resumen teniendo en cuenta las
regularidades lingüísticas y la similitud entre oraciones.
Conclusiones
En la presente investigación fue posible determinar que los vectores de
palabras aprendidos por el modelo Word2Vec presentan regularidades
lingüísticas que aportan determinada semántica sobre los textos entrenados. A
partir de dicho análisis se realizó una propuesta para la generación automática
de resúmenes abstractivos, mediante la representación vectorial de oraciones.
Se propone una nueva forma de representación semántica de los textos a
resumir que hasta el momento, según nuestro conocimiento, no ha sido
aplicada en la generación de resúmenes abstractivos.