Ranking de investigadores a partir de una query de búsqueda:

Descripción:

Esta funcionalidad, a partir de una query de búsqueda, devolverá un listado de los investigadores de una institución ordenados según la importancia de los términos de búsqueda en su perfil investigador.

Fuente de datos:

El texto no estructurado es una de las mayores fuentes de información en nuestra vida diaria, tener dicho texto bien organizado puede ser de gran ayuda para ser humano. Debido a ello, los problemas modelización y estructuración matemática de texto han recibido mucha atención en los últimos años ya que permiten hacer analítica sobre esta fuente de información.

El principal de la inteligencia artificial a la hora de trabajar con texto, es que requiere de grandes volúmenes de datos así como de procesos para su estructuración matemática. Por todo esto, la tarea más críticas de este tipo de plataformas es la correcta modelización del texto. Otra de las principales limitaciones de este tipo de funcionalidades, es que están acotadas a un idioma concreto.

Para esta funcionalidad, será necesario disponer previamente de la información asociada a los investigadores de una institución (descripción del CV, listado de publicaciones, etc...). Además dicha información (tanto la información de los investigadores como las queries de búsqueda) deben estar en un único idioma (por ejemplo, inglés).

Modelado del texto:

En problemas de naturaleza tan compleja como los de este proyecto, los datos se transforman en un conjunto de características que resulten útiles para su comparación con la query de búsqueda, dichas características deben contener información relevante.

Para ello se realizarán los siguientes procesos:

Preprocesado de texto:

El preprocesdo del texto se compone de los siguientes procesos:

Tokenización:

Tokenizar es el proceso de segmentar un texto en sus elementos semánticos básicos, es decir, dividir las frases en palabras. Para ellos eliminaremos los caracteres no alfanuméricos y utilizaremos el espacio como elemento separador.

Ejemplo:

Texto de entrada: 'DisPFL: Towards a Communication-Efficient Federated Learning'

Texto de salida: ‘DISPLF’ ‘TOWARDS’ ‘COMMUNICATION’ ‘EFFICIENT’ 'FEDERATED' 'LEARNING'

Stemming:

Es un proceso para reducir una palabra a su raíz (‘stem’ in inglés). Se utiliza para agrupar palabras con la misma información útil para la clasificación.

Por ejemplo, las palabras ‘Venta’, ‘Vender’, ‘Vendido’ y ‘Vendiendo’ pasan a ser ‘Vend’.

Para el proyecto se probarán diferentes algoritmos de stemming (Porter, Lancaster, …) y se seleccionará el que obtenga mejores prestaciones.

Eliminación de palabras frecuentes e infrecuentes:

Eliminación de palabras frecuentes: Son palabras sin significado semántico y que aportan poca información útil la temática del texto, que son filtradas antes del procesamiento del lenguaje natural de texto. Ejemplos de stopwords en español: ‘un’, ‘una’, ‘de’, ‘es’,…

Eliminación de palabras infrecuentes: Son palabras que aparecen con tan poco frecuencia que probablemente sea debido a que contienen una errata.

Modelazo matemático del texto - Vectorización:

Tanto la información de la query como la información relativa a cada investigador, se modelará como un vector numérico. Para ello se barajarán diferentes alternativas:

Metrica TF-IDF (frecuencia de término – frecuencia de documento inversa): TF*IDF o tf-idf es el acrónimo de “Term Frequency times Inverse Document Frequency”, que podemos traducir como “frecuencia del término por frecuencia inversa de documento”. Es una métrica desarrollada dentro de la disciplina conocida como IR o Information Retrieval (Recuperación de la información) para encontrar el documento más relevante para cierto término dentro de una colección de documentos. Antes de internet se usaba para rankear documentos dentro de una biblioteca o red de bibliotecas. ¿Cómo funciona? Mide con qué frecuencia aparece un término o frase dentro de un documento determinado, y lo compara con el número de documentos que mencionan ese término dentro de una colección entera de documentos.

Hércules > PRE - Análisis predictivo > image2022-6-14_12-33-39.png

Doc2Vec: Su objetivo es crear una representación vectorial de un documento, independientemente de su longitud. Estos vectores de párrafo heredan una propiedad importante de los vectores de palabras: la semántica. De manera que vectores de párrafos cercanos se asocian con documentos que, semánticamente, tienen un contenido similar.

Hércules > PRE - Análisis predictivo > image2022-6-14_12-34-35.png

Resultados de la búsqueda:

A la hora de devolver resultados, el vector modelado por la query, se comparará con los vectores obtenidos de cada investigador. A menor distancia, mayor afinidad de un investigador con el texto introducido.

El sistema devolverá los investigadores ordenados por distancia con la query de búsqueda.

Hércules > PRE - Análisis predictivo > image2022-6-14_12-35-46.png