Tabla de contenidos |
---|
Introducción
Este documento describe el flujo e interfaces del proceso de enriquecimiento de ED, que añade áreas temáticas (descriptores temáticos) y tópicos específicos (descriptores específicos) a los ROs, sean estos recuperados desde fuentes externas o introducidos a mano por el investigador.
...
El flujo del proceso corresponde al siguiente diagrama:
Extracción de descriptores
El proceso de extracción de descriptores trabaja sobre los ROs obtenidos desde fuentes externas, que cuentan con sus metadatos, referencias y citas, descriptores de las fuentes externas (palabras clave y categorías) y el enlace al documento, en el caso de que lo tengan.
Como salida obtenemos un RO enriquecido con áreas temáticas (descriptores temáticos) y tópicos específicos (descriptores específicos), generados con los algoritmos de enriquecimiento.
Taxonomías para descriptores temáticos
Los descriptores temáticos extraídos para los ROs se corresponderán con los ítems de la taxonomía unificada para Hércules
- Las fuentes consultadas en la elaboración de la taxonomía están descritas en el Análisis de taxonomías (Confluence).
- El proceso de unificación y su resultado se puede consultar en Taxonomía unificada de descriptores temáticos para Hércules (Confluence).
- La taxonomía unificada está alineada con otras taxonomías:
- Para los papers y ROs genéricos: ASJC-Scopus + arXiv + MESH-Pubmed + WoS-JCR.
- Para usarse en procesos de exportación y/o carga (alineación en curso): UNESCO, CVN-FECYT y UMU.
- Para bio-protocolos: Bio-protocol.org
- Para proyectos código: Sourceforge.
Extracción en ROs de fuentes externas
El proceso de extracción de descriptores comienza tras recuperar la información de ROs desde fuentes externas de información. Se describe a continuación el caso de recuperación de publicaciones científicas, que será similar de otros ROs, como los de código, bio-protocolos, datasets, etc.
...
También podrá añadir otros descriptores adicionales, tanto áreas temáticas como tópicos específicos, según se muestra en los siguientes ejemplos.
ROs introducidos por el usuario
Este sería un caso un poco diferente al descrito en el flujo presentado al principio del documento, en el que el primer paso, de Recuperación de ROs, no existe y la información del RO introducido por el usuario se envía directamente al paso de Extracción de descriptores.
El proceso se invocará automáticamente en la edición del RO, cuando el usuario haya introducido información suficiente, que será: título, documento (opcional) y resumen-abstract. Como resultado, el usuario obtendrá unos descriptores temáticos y específicos (en naranja), que podrá rechazar, y también podrá añadir otros mediante las acciones de añadir área y añadir tópico.
ROs procesados masivamente
El proceso de carga inicial más habitual incluirá habitualmente la Recuperación de ROs. En algún caso podría suceder que esta carga contase ya con información suficiente de los ROs y sólo hiciera falta su enriquecimiento desde el paso de “Extracción de descriptores”. Este proceso también sería posible.
Otro supuesto de procesamiento masivo sería el que se produciría tras la importación de un CV en formato CVN. En este caso los ROs importados pasarían por el paso de “Recuperación de ROs”, para completar su información antes de continuar con la “Extracción de descriptores”.
Matching
El proceso de matching actúa sobre los descriptores específicos propuestos por el Enriquecimiento, no sobre el RO. Las características generales del proceso son:
- El administrador define las fuentes externas de entidades con las que intentar el matching de descriptores específicos.
- Entre las posibles fuentes de entidades podemos tener:
- Fuentes Linked Open Data con punto SPARQL de consulta (p.e. MESH)
- Fuentes con API de búsqueda.
- Datasets descargables.
- El usuario investigador selecciona las fuentes de entidades que quiere utilizar para hacer el matching.
- El sistema propone una o más entidades externas con las que enlazar cada descriptor que tenga un matching.
Configuración y Funcionamiento
Cada fuente de entidades externas tendrá un microservicio que se encargará de los procesos de interrogación y de presentar una propuesta de match para un descriptor, en el caso de que la encuentre.
...
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
SELECT distinct ?sub ?label WHERE {
?sub ?pred ?obj .
?sub <http://www.w3.org/2004/02/skos/core#prefLabel> ?label .
FILTER(REGEX(?label,'mammal','i'))
} LIMIT 100
Presentación y uso del matching
El usuario podrá eliminar los enlaces propuestos en la edición del CV y en la Gestión de FAIR RO, como se muestra en la siguiente imagen.
...
- Descriptores temáticos visualmente enlazados hacia la entidad externa
- Enlace hacia la web externa
- Presentación integrada de información del repositorio externo (p.e. pharmacologicalAction, indexerConsiderAlso)
- Explotación de contextos utilizando las relaciones de la entidad externa
- Mejora de la divulgación en MA con información contextualizada.
- Enlace(s) en los datos de la entidad (Linked Data).
- Priorización en el orden de descriptores propuestos por el Enriquecimiento (tras validación con los usuarios).
- Posible uso en la explicabilidad del algoritmo de similitud.
Implementación de Matching (entity linking)
- No es un proceso crítico, por lo que se desarrollará como un proceso offline con cola de procesamiento y reintentos para que no bloquee ni ralentice el funcionamiento online del sistema (gestión de CV y de ROs).
- Enlazado de descriptores específicos de ámbito biomédico con MESH, según lo descrito en el apartado anterior de Configuración y Funcionamiento.
- P.e.: https://id.nlm.nih.gov/mesh/D012343.html
- Recuperación de información de padres e hijos del concepto conectado.
- Uso del API de UMLS para conectar los términos MESH con la terminología SNOMED CT.
- Ver en https://documentation.uts.nlm.nih.gov/rest/source-asserted-identifiers/
- Recuperación de información de padres e hijos del concepto SNOMED conectado.
...