Algoritmo Word2Vec para la representación vectorial de oraciones en Generación de Resúmenes Msc. Yanet Fors Isalguez*, Dr. Jorge Hermosillo Valadez* *Departamento de Computación, Facultad de Ciencias, Universidad Autónoma del Estado de Morelos Modelo Word2Vec Resumen La Generación Automática de Resúmenes es una tarea en el área del Procesamiento de Leguaje Natural, que constituye una alternativa muy útil para procesar abundante información en el menor tiempo posible. Se han realizado varias propuestas en la generación de resúmenes abstractivos, pero aún se está muy lejos de capturar todas las regularidades lingüísticas necesarias para una representación semántica tal, que permita capturar el nivel de abstracción presente en el lenguaje natural. Nuestra propuesta consiste en el uso de las representaciones continuas de palabras como vectores, para representaciones semánticas de los textos a resumir. Exploramos el modelo Word2Vec con el objetivo de comprobar la similitud semántica entre las diferentes palabras de los documentos, así como la presencia de regularidades tanto semánticas como sintácticas. Se realiza una propuesta para la Generación Automática de resúmenes, basada fundamentalmente en la representación vectorial de oraciones con el modelo antes mencionado. Word2Vec es un modelo no supervisado basado en una red neuronal recurrente que aprende representaciones de vectores por palabras a partir de un corpus de entrada. Se ha demostrado que los vectores aprendidos explícitamente codifican patrones y regularidades lingüísticas. Así por ejemplo si se realiza la siguiente operación entre vectores es posible percatarnos de estas relaciones: vec(“king”) – vec(“man”) + vec(“woman”) = vec(“queen”). Los creadores de este método también demostraron la existencia de las regularidades lingüísticas mediante pruebas por analogía y similitud de palabras. Table 1:Examples of five types of semantic and nine types of syntactic questions in the SemanticSyntactic Word Relationship test set Figura 2:Country and Capitals Vectors Propuesta Introducción Los trabajos dentro de la Generación de Resúmenes se pueden dividir en generación de resúmenes extractivos y generación de resúmenes abstractivos, siendo estos últimos más similares a la forma en que un humano elabora un resumen. En ambos casos aún se presentan problemas típicos como la falta de coherencia, cohesión textual y ambigüedad semántica. Las propuestas en la generación de resúmenes abstractivos son menores y aún no alcanzan un nivel de madurez adecuado, debido al todavía insuficiente estado de las técnicas de representación del conocimiento y de generación del lenguaje natural, que reduce la aplicación de estos enfoques a dominios muy restringidos. Se distinguen 3 etapas en el proceso de generación de un resumen por abstracción: 1. Construcción de una representación semántica de las oraciones del documento. 2. Realización de operaciones de selección, agregación y generalización sobre estas representaciones. 3. Traducción al lenguaje natural. Representación Semántica - Plantillas - Reglas - Árboles S. - Grafos - Ontologías Transformación - Selección - Agregación - Generalización Generación de texto al lenguaje natural Como se ha demostrado el modelo Word2Vec captura rasgos lingüísticos entre palabras. Nuestra propuesta está encaminada en la creación de los vectores por oraciones, a partir de los propios vectores de palabras. Para ello proponemos los siguientes pasos: Representación de oraciones usando el modelo word2vec, por la suma de los vectores de palabras que conforman la oración. Descubrir las regularidades lingüísticas presentes en dichas representaciones. Determinar si vectores de oraciones cercanos están relacionados con oraciones similares. Definir un algoritmo para generar el resumen teniendo en cuenta las regularidades lingüísticas y la similitud entre oraciones. Conclusiones En la presente investigación fue posible determinar que los vectores de palabras aprendidos por el modelo Word2Vec presentan regularidades lingüísticas que aportan determinada semántica sobre los textos entrenados. A partir de dicho análisis se realizó una propuesta para la generación automática de resúmenes abstractivos, mediante la representación vectorial de oraciones. Se propone una nueva forma de representación semántica de los textos a resumir que hasta el momento, según nuestro conocimiento, no ha sido aplicada en la generación de resúmenes abstractivos.
© Copyright 2024