La información se puede consultar también en el documento Word adjunto:

View file

name	20211215 Hércules EDMA Flujo e interfaces del enriquecimiento.docx
height	250

Tabla de contenidos

Introducción

Este documento describe el flujo e interfaces del proceso de enriquecimiento de ED, que añade áreas temáticas (descriptores temáticos) y tópicos específicos (descriptores específicos) a los ROs, sean estos recuperados desde fuentes externas o introducidos a mano por el investigador.

Se pueden consultar los siguientes documentos con los trabajos preliminares y aproximaciones iniciales en el desarrollo de este módulo:

Los objetivos del proceso son:

...

Extracción de descriptores temáticos, alineados con la taxonomía unificada
Extracción de descriptores específicos
Matching de los descriptores específicos con entidades definidas en fuentes externas.
Presentación de descriptores al usuario para su gestión, en 2 interfaces distintos:
- Edición CV para los ROs correspondientes a la norma CVN (contenidos en el apartado de publicaciones científicas)
- Gestión FAIR RO (sprint 3), para todos los tipos de ROs.

El flujo del proceso corresponde al siguiente diagrama:

Extracción de descriptores

El proceso de extracción de descriptores trabaja sobre los ROs obtenidos desde fuentes externas, que cuentan con sus metadatos, referencias y citas, descriptores de las fuentes externas (palabras clave y categorías) y el enlace al documento, en el caso de que lo tengan.

Como salida obtenemos un RO enriquecido con áreas temáticas (descriptores temáticos) y tópicos específicos (descriptores específicos), generados con los algoritmos de enriquecimiento.

Taxonomías para descriptores temáticos

Los descriptores temáticos extraídos para los ROs se corresponderán con los ítems de la taxonomía unificada para Hércules

Las fuentes consultadas en la elaboración de la taxonomía están descritas en el Análisis de taxonomías (Confluence ).
El proceso de unificación y su resultado se puede consultar en Taxonomía unificada de descriptores temáticos para Hércules (Confluence ).
La taxonomía unificada está alineada con otras taxonomías:
- Para los papers y ROs genéricos: ASJC-Scopus + arXiv + MESH-Pubmed + WoS-JCR.
- Para usarse en procesos de exportación y/o carga (alineación en curso): UNESCO, CVN-FECYT y UMU.
- Para bio-protocolos: Bio-protocol.org
- Para proyectos código: Sourceforge.

Extracción en ROs de fuentes externas

El proceso de extracción de descriptores comienza tras recuperar la información de ROs desde fuentes externas de información. Se describe a continuación el caso de recuperación de publicaciones científicas, que será similar de otros ROs, como los de código, bio-protocolos, datasets, etc.

...

También podrá añadir otros descriptores adicionales, tanto áreas temáticas como tópicos específicos, según se muestra en los siguientes ejemplos.

ROs introducidos por el usuario

Este sería un caso un poco diferente al descrito en el flujo presentado al principio del documento, en el que el primer paso, de Recuperación de ROs, no existe y la información del RO introducido por el usuario se envía directamente al paso de Extracción de descriptores.

El proceso se invocará automáticamente en la edición del RO, cuando el usuario haya introducido información suficiente, que será: título, documento (opcional) y resumen-abstract. Como resultado, el usuario obtendrá unos descriptores temáticos y específicos (en naranja), que podrá rechazar, y también podrá añadir otros mediante las acciones de añadir área y añadir tópico.

ROs procesados masivamente

El proceso de carga inicial más habitual incluirá habitualmente la Recuperación de ROs. En algún caso podría suceder que esta carga contase ya con información suficiente de los ROs y sólo hiciera falta su enriquecimiento desde el paso de “Extracción de descriptores”. Este proceso también sería posible.

Otro supuesto de procesamiento masivo sería el que se produciría tras la importación de un CV en formato CVN. En este caso los ROs importados pasarían por el paso de “Recuperación de ROs”, para completar su información antes de continuar con la “Extracción de descriptores”.

Matching

El proceso de matching actúa sobre los descriptores específicos propuestos por el Enriquecimiento, no sobre el RO. Las características generales del proceso son:

El administrador define las fuentes externas de entidades con las que intentar el matching de descriptores específicos.
Entre las posibles fuentes de entidades podemos tener:
- Fuentes Linked Open Data con punto SPARQL de consulta (p.e. MESH)
- Fuentes con API de búsqueda.
- Datasets descargables.
El usuario investigador selecciona las fuentes de entidades que quiere utilizar para hacer el matching.
El sistema propone una o más entidades externas con las que enlazar cada descriptor que tenga un matching.

Configuración y Funcionamiento

Cada fuente de entidades externas tendrá un microservicio que se encargará de los procesos de interrogación y de presentar una propuesta de match para un descriptor, en el caso de que la encuentre.

...

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
SELECT distinct ?sub ?label WHERE {
  ?sub ?pred ?obj .
  ?sub <http://www.w3.org/2004/02/skos/core#prefLabel> ?label .
  FILTER(REGEX(?label,'mammal','i'))
} LIMIT 100

Presentación y uso del matching

El usuario podrá eliminar los enlaces propuestos en la edición del CV y en la Gestión de FAIR RO, como se muestra en la siguiente imagen.

...

Descriptores temáticos visualmente enlazados hacia la entidad externa
- Enlace hacia la web externa
- Presentación integrada de información del repositorio externo (p.e. pharmacologicalAction, indexerConsiderAlso)
Explotación de contextos utilizando las relaciones de la entidad externa
- Mejora de la divulgación en MA con información contextualizada.
Enlace(s) en los datos de la entidad (Linked Data).
Priorización en el orden de descriptores propuestos por el Enriquecimiento (tras validación con los usuarios).
Posible uso en la explicabilidad del algoritmo de similitud.

Implementación de Matching (entity linking)

No es un proceso crítico, por lo que se desarrollará como un proceso offline con cola de procesamiento y reintentos para que no bloquee ni ralentice el funcionamiento online del sistema (gestión de CV y de ROs).
Enlazado de descriptores específicos de ámbito biomédico con MESH, según lo descrito en el apartado anterior de Configuración y Funcionamiento.
- P.e.: https://id.nlm.nih.gov/mesh/D012343.html
- Recuperación de información de padres e hijos del concepto conectado.
Uso del API de UMLS para conectar los términos MESH con la terminología SNOMED CT (pendiente de probar).
- Ver en https://documentation.uts.nlm.nih.gov/rest/source-asserted-identifiers/
- Recuperación de información de padres e hijos del concepto SNOMED conectado.

...

Árbol de páginas

Versiones comparadas

Versión anterior 2

Nueva versión Actual

Clave

Introducción

Extracción de descriptores

Taxonomías para descriptores temáticos

Extracción en ROs de fuentes externas

ROs introducidos por el usuario

ROs procesados masivamente

Matching

Configuración y Funcionamiento

Presentación y uso del matching

Implementación de Matching (entity linking)

Árbol de páginas

Historial de página

Versiones comparadas

Versión anterior 2

Nueva versión Actual

Clave

Introducción

Extracción de descriptores

Taxonomías para descriptores temáticos

Extracción en ROs de fuentes externas

ROs introducidos por el usuario

ROs procesados masivamente

Matching

Configuración y Funcionamiento

Presentación y uso del matching

Implementación de Matching (entity linking)