...

El módulo cognitivo estará dotado de una librería que será capaz de encontrar relaciones entre los distintos investigadores y entre una o varias áreas temáticas. Para ello, se usará la herramienta de creación de clustering del proyecto EDMA, proporcionada por GNOSS. Su uso facilitará la comunicación/notificación a investigadores que puedan tener relaciones con un área de interés, para así mostrarle convocatorias, noticias u otro tipo de anuncios. Esta librería, la cual será un wrapper de la herramienta de EDMA, nos proporcionará el poder desarrollar procesos mucho más completos y detallados. Por ejemplo, en el caso de encaje entre convocatorias e investigadores del Módulo B, este proceso se apoyará en el uso de esta librería.

Esto ha cambiado, en la reunión del 31/01/2022 se propuso la reutilización de la herramienta de clustering del proyecto EDMA, de esta forma no estamos duplicando funcionalidad en el mismo proyecto HÉRCULES.

El módulo cognitivo estará dotado de una librería que será capaz de encontrar relaciones entre los distintos grupos de investigación. Para ello, se valdrá de la información obtenida del resto de subsistemas HÉRCULES. Su uso facilitará la intercomunicación entre grupos de investigación entre los que se puedan establecer relaciones. Esta librería proporcionará herramientas para poder desarrollar procesos mucho más completos y detallados. Por ejemplo, en el caso de encaje entre convocatorias del Módulo B, se podrán ofertar convocatorias u otro tipo de anuncios a los que algún grupo relacionado haya hecho una solicitud a pesar de que el grupo actual no la haya hecho.

~~Esta librería deberá ser capaz de:~~

~~Extraer los datos de los subsistemas HÉRCULES.~~
~~Normalizar los datos.~~
~~Usar técnicas de aprendizaje automático:~~
- ~~Reducción de la dimensión.~~
- ~~Agrupamiento.~~

Siguiendo la propuesta realizada por el personal investigador de la Universidad de Murcia, se hará uso de técnicas de reducción de dimensión UMAP. La herramienta Reducción de dimensión se utiliza normalmente para explorar relaciones multivariantes entre variables y para reducir el coste de cálculo de algoritmos de aprendizaje automático en los que la memoria requerida y el tiempo de procesamiento dependen del número de dimensiones de los datos. Posteriormente, se podrá intentar aplicar técnicas de clústering, ya que estas son compatibles con el pre-procesamiento de UMAP, el objetivo es ver como se comporta estas técnicas y comprobar que nos puedan ayudar a reunir los distintos grupos de investigación.

En la imagen inferior, se muestra una representación gráfica del objetivo que se quiere conseguir. Se pretende obtener la relación-distancia existente entre cada uno de los grupos de investigación.

~~Image Removed~~

...

El funcionamiento de esta librería será el siguiente:

Extracción de datos de los subsistemas HÉRCULES.

La extracción de datos que se busca es aquella donde se relacione: investigador, área temáticas y descriptor. Para ello, haremos uso del lenguaje SPARQL, realizando la siguiente query:

Bloque de código

theme	RDark
title	Query SPARQL

select ?person ?tag  ?nombreCategoria ?nombrePersona ?email count(distinct ?doc) as ?num from <http://gnoss.com/document.owl> from <http://gnoss.com/person.owl> from <http://gnoss.com/taxonomy.owl> where {
?doc a <http://purl.org/ontology/bibo/Document>.
?doc <http://purl.org/ontology/bibo/authorList> ?autor.
?autor <http://www.w3.org/1999/02/22-rdf-syntax-ns#member> ?person.
?person <http://xmlns.com/foaf/0.1/name> ?nombrePersona.
?person <https://www.w3.org/2006/vcard/ns#email> ?email.
?doc <http://vivoweb.org/ontology/core#freeTextKeyword> ?tag.
?doc <http://w3id.org/roh/hasKnowledgeArea> ?area.
?area <http://w3id.org/roh/categoryNode> ?nodo.
?nodo <http://www.w3.org/2008/05/skos#prefLabel> ?nombreCategoria.
}order by desc(?num)

Esta query nos devolverá la siguiente información:

Nombre	Descripción
tag	Descriptor/palabra clave
área temática	área temática relacionada
nombrePersona	Nombre completo del investigador
Email	email del investigador

Una vez obtenemos los datos, el orden natural en el análisis de datos es hacer un preprocesado, donde limpiamos aquellos datos que pueden entorpecer el entendimiento de los mismos. En este caso, los datos ya están tratados pues vienen de los subsistemas HÉRCULES donde ya se hace un preprocesamiento, por tanto, el siguiente paso más próximo será la clasificación y agrupación, el objetivo es poder obtener una colección de investigadores a través del descriptor y el área temática. En las siguientes secciones se detallará como se llevará esto a cabo.

Clasificación y agrupación

Árbol de páginas

Versiones comparadas

Versión anterior 4

Nueva versión 5

Clave

Extracción de datos de los subsistemas HÉRCULES.

Clasificación y agrupación

Árbol de páginas

Historial de página

Versiones comparadas

Versión anterior 4

Nueva versión 5

Clave

Extracción de datos de los subsistemas HÉRCULES.

Clasificación y agrupación