Este módulo cognitivo es la parte innovadora de este subproyecto de HÉRCULES. Esta librería proporcionará el poder desarrollar procesos mucho más completos y detallados. Un ejemplo claro es el caso del Proceso 4: Sistemas inteligentes de encaje entre convocatorios e investigadores el cual se apoyará en el uso del módulo cognitivo, ya que seremos capaces de obtener una colección de investigadores a quienes ofrecer convocatorias, únicamente pasando como parámetro la palabra clave y el área temática de dicha convocatoria, o solamente uno de los dos, para que sea más efectiva es recomendado que se pasen ambos parámetros.

A continuación, se detallará el funcionamiento de esta librería, que se divide en:

Extracción de datos de los subsistemas HÉRCULES.
Tratamiento de datos.
Agrupación.
Datos de salida.
Planificación.

Extracción de datos de los subsistemas HÉRCULES.

La extracción de datos que se busca es aquella donde se relacione: investigador, área temáticas y descriptor. Para ello, se hará uso del lenguaje SPARQL, realizando la siguiente consulta:

Query SPARQL

select ?person ?tag  ?nombreCategoria ?nombrePersona ?email from <http://gnoss.com/document.owl> from <http://gnoss.com/person.owl> from <http://gnoss.com/taxonomy.owl> where {
?doc a <http://purl.org/ontology/bibo/Document>.
?doc <http://purl.org/ontology/bibo/authorList> ?autor.
?autor <http://www.w3.org/1999/02/22-rdf-syntax-ns#member> ?person.
?person <http://xmlns.com/foaf/0.1/name> ?nombrePersona.
?person <https://www.w3.org/2006/vcard/ns#email> ?email.
?doc <http://vivoweb.org/ontology/core#freeTextKeyword> ?tag.
?doc <http://w3id.org/roh/hasKnowledgeArea> ?area.
?area <http://w3id.org/roh/categoryNode> ?nodo.
?nodo <http://www.w3.org/2008/05/skos#prefLabel> ?nombreCategoria.
}

Esta consulta devolverá la siguiente información:

Nombre	Descripción
Tag	Descriptor/palabra clave
NombreCategoria	Área temática relacionada
NombrePersona	Nombre completo del investigador
Email	Email del investigador

Una vez obtenidos los datos, el orden natural en el análisis de datos es hacer un pre-procesado, donde se limpiarán aquellos datos que pueden entorpecer el entendimiento de los mismos.

Tratamiento de los datos

Los datos principalmente se encuentran ya tratados, pues vienen de los subsistemas HÉRCULES donde ya se hace un preprocesamiento, únicamente debemos borrar columnas que no nos interesen analizar (por ejemplo: nombre), categorizar aquellos datos que sean strings y agrupar por investigador, tag y área temática. El siguiente paso será la agrupación, el objetivo es poder obtener una colección de investigadores a través del descriptor y el área temática, por lo que, los datos que se pasarán a los algoritmos de agrupación son: tag, nombreCategoria y email. En las siguientes secciones se detallará como se llevará esto a cabo.

Agrupación

La clusterización se utilizará para encontrar aspectos en común entre los investigadores y encontrar grupos. Así, si un porcentaje significativo de los investigadores tiene ciertos aspectos en común (áreas temáticas o tag/descriptores) se agruparán, con el objetivo de enfocar y justificar la entrega de anuncios que puedan ser de interés, por ejemplo las convocatorias.

El objetivo principal es conseguir N clústeres donde podamos agrupar a los investigadores. Para ello, se utilizará el algoritmo UMAP, el cual es un algoritmo de reducción de dimensión que se utiliza normalmente para explorar relaciones multivariantes entre variables y para reducir el coste de cálculo de algoritmos de aprendizaje automático en los que la memoria requerida y el tiempo de procesamiento dependen del número de dimensiones de los datos. Posteriormente, se intentará aplicar técnicas de clustering, ya que estas son compatibles con el pre-procesamiento de UMAP, en concreto, haremos uso de HDBSCAN. La decisión de utilizar HDBSCAN frente a otros algoritmos de clustering, es debido a que HDBSCAN puede trabajar con grandes conjuntos de datos y no necesita de la especificación del número de clústeres, existen más ventajas al igual que desventajas que no se van a e enumerar en este apartado, pues se entiende que no es necesario.

Por último, la salida del algoritmos HDBSCAN proporcionará N clústeres, por lo que el conjunto de datos quedaría de la siguiente forma: tag, nombreCategoria, email, hdbscan_label_cluster.

De esta forma, se agrupará a los investigadores por sus áreas temáticas y tags.

Datos de salida

Los datos de salida podrán ser consultados vía API REST, con el objetivo de que cualquiera pueda obtener un conjunto de investigadores, que estén agrupados en un área temática, tag o ambas. Por otro lado, también se trabaja en la posibilidad de obtener los diferentes clústeres junto con los investigadores pertenecientes.

Planificación

El algoritmo de clustering, no es un algoritmo que se deba estar ejecutando constantemente, debido a que puede demorarse su ejecución mucho tiempo impidiendo al robot que lo ejecute realizar otra tarea, ya que estos algoritmos son dependientes de los datos y de la capacidad de computo. Por tanto, este algoritmo se debe ejecutar únicamente una vez al día, a la semana o al mes, ya que una vez ejecutado podremos almacenar los datos de salida para poder consultarlos en cualquier momento.

Árbol de páginas

Minería de datos

Extracción de datos de los subsistemas HÉRCULES.

Tratamiento de los datos

Agrupación

Datos de salida

Planificación