Historial de página

...

Lo que se pretende con este sistema es facilitar al gestor de la investigación, e incluso al propio investigador, la búsqueda de resultados idóneos, incluso en forma de grafo con la relación de las entidades y su cercanía, para uno o varios argumentos de búsqueda. De esta manera, se facilita la interrogación a la amplia base de datos investigadora, ofreciendo resultados ordenados por idoneidad sin necesidad de una navegaciòn exhaustiva.

Fases del proyecto

FASE 1:

...

RANKING DE

...

INVESTIGADORES A PARTIR DE UNA

...

QUERY DE

...

BÚSQUEDA

Info

title	NOTA @Marcelino Cortina

Esta fase es la que cubrirá la necesidad de IA del Hito 3 del SGI. Hay que solventarla entre el 1 y el 31-JUL de 2022.

Plazo de desarrollo

1 mes

Objetivo de la fase

A partir de los datos introducidos en el SGI para una determinada convocatoria, proporcionar un scoring de idoneidad de la convocatoria para la universidad que se gestiona.

Descripción

Una vez que se carga una convocatoria, se toman los términos introducidos en el campo título y en el campo área temática y se calcula un scoring de idoneidad de que esa convocatoria sea interesante para la universidad y se devuelve al usuario el valor (informando de dónde cae el valor; por ejemplo, un scoring entre 0 y 10, siendo un valor entre 7-10 muy idóneo, entre 5-7 relativamente idóneo, entre 3-5 poco idóneo y menos de 3 nada idóneo). Para calcular ese scoring se chequean los datos de investigaciòn global de la base de datos del SGI y se comparan con los términos de búsqueda (que vienen del título y del área temática).

Hay que generar ese valor de scoring y meterlo en un campo de la convocatoria que se llame ÍNDICE DE IDONEIDAD (Usuario desconocido (covadonga.garcia) y Usuario desconocido (jesus.alvarez), si lo veis oportuno así).

FASE 2: RANKING DE INVESTIGADORES A PARTIR DE UNA QUERY DE BÚSQUEDA

Info

title	NOTA @Marcelino Cortina

Las fases 2 y 3 durarán 9 meses más, hasta un total de 10 meses.

Plazo de desarrollo

2 meses

Objetivo de la fase

Se trata de que el sistema inteligente ayude en la búsqueda de investigadores idóneos para una determinada búsqueda introducida manualmente.

Descripción

A partir de una query de búsqueda, devolverá un listado de los investigadores de una institución ordenados según la importancia de los términos de búsqueda en su perfil investigador.

Fuente de datos

El texto no estructurado es una de las mayores fuentes de información en nuestra vida diaria, tener dicho texto bien organizado puede ser de gran ayuda para ser humano. Debido a ello, los problemas modelización y estructuración matemática de texto han recibido mucha atención en los últimos años ya que permiten hacer analítica sobre esta fuente de información.

...

COMPLETAR CON AYUDA DE Covadonga García Fernández Y Jesús Álvarez Monjardín PARA SABER CON QUÉ INFORMACIÓN SE CUENTA DENTRO DEL SGI.

Modelado del texto

En problemas de naturaleza tan compleja como los de este proyecto, los datos se transforman en un conjunto de características que resulten útiles para su comparación con la query de búsqueda, dichas características deben contener información relevante.

...

- - - Doc2Vec: Su objetivo es crear una representación vectorial de un documento, independientemente de su longitud. Estos vectores de párrafo heredan una propiedad importante de los vectores de palabras: la semántica. De manera que vectores de párrafos cercanos se asocian con documentos que, semánticamente, tienen un contenido similar.

Resultados de la búsqueda

A la hora de devolver resultados, el vector modelado por la query, se comparará con los vectores obtenidos de cada investigador. A menor distancia, mayor afinidad de un investigador con el texto introducido.

El sistema devolverá los investigadores ordenados por distancia con la query de búsqueda.

Para ello se evaluarán distintas métricas de distancia (euclidea, de coseno, ...) y se utiliará la que devuelva mejores resultados.

Image Added

FASE 2: ÍNDICE DE IDONEIDAD DE UNA CONVOCATORIA DE FINANCIACIÓN INVESTIGADORA

Info

title	NOTA @Marcelino Cortina

Las fases 2 y 3 durarán 9 meses más, hasta un total de 10 meses.

Objetivo de la fase

A partir de los datos introducidos en el SGI para una determinada convocatoria, proporcionar un scoring de idoneidad de la convocatoria para la universidad que se gestiona.

Descripción

Una vez que se carga una convocatoria, se toman los términos introducidos en el campo título y en el campo área temática y se calcula un scoring de idoneidad de que esa convocatoria sea interesante para la universidad y se devuelve al usuario el valor (informando de dónde cae el valor; por ejemplo, un scoring entre 0 y 10, siendo un valor entre 7-10 muy idóneo, entre 5-7 relativamente idóneo, entre 3-5 poco idóneo y menos de 3 nada idóneo). Para calcular ese scoring se chequean los datos de investigaciòn global de la base de datos del SGI y se comparan con los términos de búsqueda (que vienen del título y del área temática).

Fuente de datos

Para esta funcionalidad, será necesario disponer previamente de diferentes fuentes de información:

- - Información relativa a los investigadores de una institución: (descripción del CV, listado de publicaciones, etc...). Además dicha información (tanto la información de los investigadores como las queries de búsqueda) deben estar en un único idioma (por ejemplo, inglés).
  - Información de las diferentes convocatorias. Donde se recoja el texto de convocatorias presentes y pasadas. El texto de lo que busca una convocatoria así como el presupuesto de la financiación y condiciones.
  - Información sobre qué convocatorias pasadas han interesado a los investigadores de una institución.

COMPLETAR CON AYUDA DE Covadonga García Fernández Y Jesús Álvarez Monjardín PARA SABER CON QUÉ INFORMACIÓN SE CUENTA DENTRO DEL SGI.

Modelado del texto

Para el modelado del texto, se seguirá el mismo procedimiento seguido en la fase 1 del proyecto relativa a preprocesado y vectorización del texto. Este proceso se seguirá para modelar en forma de vector cada investigador y cada convocatoria.

Roberto Díaz Morales COMPLETAR.

Resultados de la búsqueda

Roberto Díaz Morales COMPLETAR (con ayuda de Covadonga García Fernández y Jesús Álvarez Monjardín).

Los resultados de la búsqueda se basarán en dos criterios diferentes:

- - Distancia entre los vectores de un investigador y una convocatoria (ver sección resultados de búsqueda de la fase 1).
  - Modelo predictivo: Basado en aprendizaje supervisado, donde se entrenarán modelos predicitvos creando un dataset basado en el histórico de convocatorias pasadas.
    - Dataset: Se creará un conjunto de datos de entrenamiento en el que las variables estarán basadas en diferentes métricas de los vectores de cada combinación de investigadores y convocatorias y etiquetado como '1' si le interesó esa convocatoria al investigador o '0' si no fue de su interés.
    - Algoritmos de aprendizaje: Se utilizarán para ello algoritmos de aprendizaje supervisado para clasificación binaria. Se compararán las prestaciones de algoritmos lineales (regresión logística), árboles de decisión y redes neuronales y se seleccionarán los que mejores prestaciones obtengan. El output de un modelo permitirá dar una probabilidad de que dado un investigador y una convocatoria, esta pueda interesar al investigador.

Como salida final, cada vez que aparezca una convocatoria nueva, se obtendrá tanto la distancia como la probabilidad de interés de dicha convocatoria con cada uno de los investigadores, y se devolverá el listado de investigadores para los que dicha convocatoria pueda ser de mayor interés.

Info

title	NOTA @Marcelino Cortina

Para las fases 2 y 3 sí que haremos interface. En el proyecto de AIE con la ayuda de PROUN. En el proyecto de IDEPA nosotros solos.

...

Roberto Díaz Morales ¿COMPLETAR?

Fuente de datos

Para esta funcionalidad, será necesario disponer previamente de diferentes fuentes de información:

- - Información relativa a los investigadores:
    - Descripción del CV, listado de publicaciones, etc...
    - Grupo de investigación al que pertenecen.
    - Proyectos de investigación en los que ha participado.

Roberto Díaz Morales COMPLETAR (si es necesario con ayuda de Covadonga García Fernández y Jesús Álvarez Monjardín).

Modelado del texto

La información de cada investigador, se modelará siguientdo el proceso definido en la fase 1 del proyecto.

Roberto Díaz Morales COMPLETAR.

Resultados de la búsqueda

El sistema se compondrá de las diferentes entidades:

- - Investigadores
  - Grupos de investigación
  - Proyectos

Existen diferentes tipos de relación entre las diferentes entidades:

- - Pertenencia de un investigador a un grupo de investigación.
  - Pertenencia de un investigador a un proyecto.
  - Pertenencia de un grupo de investigación a un proyecto.
  - Similitud entre dos investigadores (para lo que se pueden utilizar las metricas de similitud entre los vectores de dos investigadores descritas en la sección "Modelado de datos" y "Resultados de búsqueda de la fase 1").

El sistema permitirá al usuario seleccionar qué entidades y tipos de relación de los listados anteriores quiere visualizar y el sistema devolverá un grafo por el que se puede navegar. En el grafo, cada nodo serán las diferentes entidades y cada arista una relación entre nodos. El color de la arista representará el tipo de relación y el grosor cómo de fuerte es dicha relación.

Image Added

Roberto Díaz Morales COMPLETAR (si es necesario con ayuda de Covadonga García Fernández y Jesús Álvarez Monjardín).

...

Árbol de páginas

Versiones comparadas

Versión anterior 9

Nueva versión 10

Clave

Fases del proyecto

FASE 1:

RANKING DE

INVESTIGADORES A PARTIR DE UNA

QUERY DE

BÚSQUEDA

Plazo de desarrollo

Objetivo de la fase

Descripción

Fuente de datos

Modelado del texto

Resultados de la búsqueda

FASE 2: RANKING DE INVESTIGADORES A PARTIR DE UNA QUERY DE BÚSQUEDA

Plazo de desarrollo

Objetivo de la fase

Descripción

Fuente de datos

Modelado del texto

Resultados de la búsqueda

FASE 2: ÍNDICE DE IDONEIDAD DE UNA CONVOCATORIA DE FINANCIACIÓN INVESTIGADORA

Objetivo de la fase

Descripción

Fuente de datos

Modelado del texto

Resultados de la búsqueda

Fuente de datos

Modelado del texto

Resultados de la búsqueda