Introducción

Este documento describe el flujo e interfaces del proceso de enriquecimiento de ED, que añade áreas temáticas (descriptores temáticos) y tópicos específicos (descriptores específicos) a los ROs, sean estos recuperados desde fuentes externas o introducidos a mano por el investigador.

Se pueden consultar los siguientes documentos con los trabajos preliminares y aproximaciones iniciales en el desarrollo de este módulo:

Los objetivos del proceso son:

El proceso de enriquecimiento tiene los siguientes pasos:

El flujo del proceso corresponde al siguiente diagrama:

Extracción de descriptores

El proceso de extracción de descriptores trabaja sobre los ROs obtenidos desde fuentes externas, que cuentan con sus metadatos, referencias y citas, descriptores de las fuentes externas (palabras clave y categorías) y el enlace al documento, en el caso de que lo tengan.

Como salida obtenemos un RO enriquecido con áreas temáticas (descriptores temáticos) y tópicos específicos (descriptores específicos), generados con los algoritmos de enriquecimiento.

Taxonomías para descriptores temáticos

Los descriptores temáticos extraídos para los ROs se corresponderán con los ítems de la taxonomía unificada para Hércules

Extracción en ROs de fuentes externas

El proceso de extracción de descriptores comienza tras recuperar la información de ROs desde fuentes externas de información. Se describe a continuación el caso de recuperación de publicaciones científicas, que será similar de otros ROs, como los de código, bio-protocolos, datasets, etc.

Al usuario se le mostrarán los tópicos recuperados en gris, sin opción a su eliminación, y los descriptores adicionales, que podrá descartar, en naranja.

También podrá añadir otros descriptores adicionales, tanto áreas temáticas como tópicos específicos, según se muestra en los siguientes ejemplos.

ROs introducidos por el usuario

Este sería un caso un poco diferente al descrito en el flujo presentado al principio del documento, en el que el primer paso, de Recuperación de ROs, no existe y la información del RO introducido por el usuario se envía directamente al paso de Extracción de descriptores.

El proceso se invocará automáticamente en la edición del RO, cuando el usuario haya introducido información suficiente, que será: título, documento (opcional) y resumen-abstract. Como resultado, el usuario obtendrá unos descriptores temáticos y específicos (en naranja), que podrá rechazar, y también podrá añadir otros mediante las acciones de añadir área y añadir tópico.

ROs procesados masivamente

El proceso de carga inicial más habitual incluirá habitualmente la Recuperación de ROs. En algún caso podría suceder que esta carga contase ya con información suficiente de los ROs y sólo hiciera falta su enriquecimiento desde el paso de “Extracción de descriptores”. Este proceso también sería posible.

Otro supuesto de procesamiento masivo sería el que se produciría tras la importación de un CV en formato CVN. En este caso los ROs importados pasarían por el paso de “Recuperación de ROs”, para completar su información antes de continuar con la “Extracción de descriptores”.


Matching

El proceso de matching actúa sobre los descriptores específicos propuestos por el Enriquecimiento, no sobre el RO. Las características generales del proceso son:

Configuración y Funcionamiento

Cada fuente de entidades externas tendrá un microservicio que se encargará de los procesos de interrogación y de presentar una propuesta de match para un descriptor, en el caso de que la encuentre.

Para el caso de una fuente Linked Data con punto de interrogación SPARQL se configurará del siguiente modo (con el ejemplo de MESH):

Esta sería una solución escalable a otras fuentes externas SPARQL mediante configuración.

Con independencia de la fuente externa, el proceso de matching se encarga de localizar las entidades externas con las que enlazar, con los siguientes pasos:

Posibles fuentes de matching:

https://id.nlm.nih.gov/mesh/query

SELECT ?d ?label
FROM <http://id.nlm.nih.gov/mesh>
WHERE {
{?d a meshv:Descriptor} UNION {?d a meshv:Concept} .
?d rdfs:label ?label .
FILTER(REGEX(?label,'anti-bacterial','i'))
}
ORDER BY ?d

https://apps.usgs.gov/thesaurus/tab-term.html

https://apps.usgs.gov/thesaurus/search-pattern.php?text=structural%20geology

http://concepts.sagepub.com:6081/dataset.html?tab=query&ds=/skosmos

https://concepts.sagepub.com/social-science/concept/welfare_reform

https://agrovoc.fao.org/sparql

http://aims.fao.org/aos/agrovoc/c_765.html (Bacteria)

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
SELECT distinct ?sub ?label WHERE {
?sub ?pred ?obj .
?sub <http://www.w3.org/2004/02/skos/core#prefLabel> ?label .
FILTER(REGEX(?label,'mammal','i'))
} LIMIT 100

Presentación y uso del matching

El usuario podrá eliminar los enlaces propuestos en la edición del CV y en la Gestión de FAIR RO, como se muestra en la siguiente imagen.

Las entidades resultantes del matching se presentan y usan del siguiente modo:

Implementación de Matching (entity linking)