Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

El contenido de este apartado es:

Tabla de contenidos

1 Descripción de módulo de identificación de ROs similares

El objetivo del módulo de identificación de ROs similares es identificar relaciones de similitud semántica entre distintos ROs. Dado un RO determinado, el sistema podrá identificar ROs de contenido semántico similar a petición del usuario. Los ROs implicados en las relaciones de similitud podrán corresponder a distintos tipos de RO e incluso estar escritos en distintos idiomas. Además, el sistema ofrecerá al usuario descriptores relevantes a la relación de similitud identificada entre dos ROs. De esta forma, el usuario podrá interpretar con más facilidad la similitud establecida entre dos ROs.

...

  1. Estimación de similitud semántica entre dos contenidos textuales.
  2. Identificación de descriptores relevantes a una relación de similitud semántica entre dos contenidos textuales.

2. Estimación de similitud semántica entre contenidos textuales

La tarea canónica de PLN para la detección de textos semánticamente similares se conoce como STS (Semantic Textual Similarity). Uno de los aspectos clave para abordar la tarea reside en el paradigma utilizado  para la representación textual. Podemos distinguir dos paradigmas principales; a) representaciones basadas en bolsa-de-palabra y b) representaciones densas basada en embeddings. Una vez hecha la representación vectorial de dos textos, se puede proceder a calcular su similitud mutua mediante una media de similitud como, por ejemplo, el coseno.

...

También, se analizará la escalabilidad de cada enfoque prestando atención a los consumos de memoria y CPU o GPU. El enfoque que mejor compromiso muestre entre el requerimiento de recursos y la calidad de resultados será el que se integré en el sistema.

3 Identificación de descriptores relevantes a relación de similitud entre dos contenidos textuales

Una tarea adicional a la identificación de textos similares es la identificación de descriptores relevantes a la relación de similitud entre dos documentos D1 y D2. Se trata de mostrar al usuario conceptos lexicalizados (descriptores ) que tienen un papel activo en la relación de similitud entre dos textos, de forma que el usuario pueda comprender de forma rápida los elementos comunes.

...

  • Intersección de descriptores identificados (y vinculadas a una única taxonomía) por el módulo de extracción de tópicos para los documentos D1 y D2.
  • A partir de los descriptores del documento D1 seleccionar las más similares a cada una de ellas de entre los descriptores del documento D1. Para el cálculo de la similitud entre descriptores se analizará el uso de representaciones basadas en embeddings estáticos combinadas con medidas de similitud y distancia calculada según la estructura de la ontología.

4 Trabajos a realizar y planificación

Se describen, a continuación, los trabajos que se realizarán para implementar el módulo de identificación de ROs similares.

Implementación de enfoques para similitud semántica

Se van a implementar los enfoques mencionados en el capítulo 4.2. Para implementar los enfoques basados en bolsa-de-palabra se hará uso del paquete Scikit-learn, y para los enfoques basados en embeddings se utilizará el paquete Flair. Se analizará el uso de embeddings estáticos monolingües y multilingües. Para el caso de los embeddings contextuales se analizarán RNNs y modelos de lenguaje pre-entrenados basados en autoencoders (BERT, roBERT...).

Los enfoques implementados para la detección de ROs similares se evaluarán sobre una colección de ROs que incluirá distintos tipos. De esta colección se seleccionará un subconjunto de ROs para los cuales se identificarán los similares. Cada enfoque proporcionará un ranking de similares que se evaluará con métricas de recuperación de información tales como P@10. Para el cálculo de estas métricas se preparará un gold-standard compuesto por juicios humanos de relevancia que se elaborarán de forma manual.

Implementación de extracción de descriptores relevantes en relación de similitud

Se implementarán los enfoques descritos en el capítulo 4.3. Se implantará un método baseline basado en selección los descriptores fruto de la intersección de los sendos conjuntos de descriptores correspondientes a los dos contenidos similares. Los descriptores serán las identificadas por el módulo de extracción de tópicos. El segundo método no se limitará a seleccionar los descriptores resultado de la intersección, sino que también tendrá en cuenta la distancia semántica entre los descriptores de los dos contenidos. Para el cálculo de esa distancia semántica se estudiarán dos estrategias: a) representación de palabras mediante embeddings estáticos y cálculo de distancia mediante coseno, b) cálculo de distancia en base a ontología.

Evaluación cualitativa de descriptores relevantes en relaciones de similitud 

La evaluación de los enfoques implementados para la extracción de palabras relevantes a relaciones de similitud se abordará de forma manual, mediante una inspección comparativa de los resultados y valoración cualitativa de los mismos. La valoración cualitativa se hará de acuerdo a la relevancia de los descriptores seleccionados en la relación de similitud correspondiente a un par de documentos similares. La evaluación se hará sobre el mismo dataset construido para la evaluación de los sistemas de detección de documentos similares. Se explorarán los resultados (descriptores relevantes a la relación de similitud) correspondientes a los pares de documentos similares detectados.

...