La carga inicial de datos va a consistir en obtener obtiene todos los datos posibles disponibles de los investigadores que estén en la universidad con el fin de unificarlos y centralizarlos en el grafo.

. La carga tiene 3 pasos:

Carga de datos de los sistemas de la UMU o del SGI.
Carga de datos de fuentes externas de publicaciones científicas.
Carga de datos de CVs del PDI.

1. Carga de datos - UMU / SGI

Los datos que se cargan son los siguiente:

Organizaciones: Datos relacionados con la organizaciones.
Investigadores: Datos relacionados con el investigador.
Grupos: Datos relacionados con el grupo de investigación.
Proyectos: Datos relacionados con proyectos.

En estos datos no se aplica desambiguación ya que va a ser el primer paso y asumimos que son correctos.

De momento, estos datos se cargan desde unos archivos proporcionados en formato XMLs, si bien en un futuro llegarán desde Hércules SGI. En estos datos no se aplica desambiguación ya que va a ser el primer paso y asumimos que dichos datos sean correctos., junto con otras información del personal investigador, como puesto de trabajo, formación académica, actividad docente, etc.

Este código provisional está en HerculesMA/src/Hercules.MA.Load at main · HerculesCRUE/HerculesMA (github.com)

2. Carga de datos - Fuentes externas

La incorporación de publicaciones de fuentes externas tiene 2 pasos:

...

A su vez, se comprueba en Zenodo (mediante DOI) si hay algún recurso de tipo pdf. En el caso de encontrar alguno, traerá el enlace de descarga.

Posteriormente, se enriquecen los descriptores temáticos y específicos de la publicación en cuestión, con la finalidad de ofrecer más información al usuario.

...

Para los datos de fuentes externas se diferencia entre publicaciones, research objects (ro) y personas. El proceso de carga leerá los datos de los JSON recibidos y tratará los datos incluidos en el mismo. El código de este programa de carga está en HerculesED/src/Hercules.ED.ResearcherObjectLoad at main · HerculesCRUE/HerculesED (github.com)

Para que algún recurso cargado se pueda llegar a considerar igual a otro, y por ello modificar el almacenado, se siguen diversos criterios para diferenciarlos. En el caso de que se consideren iguales en la desambiguación se cargarán los datos del último, los datos recibidos en el JSON, cambiando los almacenados en base de datos (ver más abajo el proceso de desambiguación de los objetos, en el aparatado apartado de Deduplicación).

Se diferencian los valores comprobados entre cada recurso:

...

Personas
Propiedad	Tipodesambiguación	Score positivo	Score negativo
Nombre Completo	Nombres	1
ORCID	Identifier
Identificador FigShare	Identifier
Identificador GitHub	Identifier
Identificador Zenodo	Identifier
Coautores	ItemList	0.5
Documentos	ItemList	0.5
Organizacion	ItemList	0.5
Departamento	ItemList	0.5
Grupos	ItemList	0.5
Proyectos	ItemList	0.5

3. Carga de datos - CV

A partir El resto de datos de los investigadores provendrán de un CV conjunto de CVs en el formato PDF-CVN definido por la norma CVN de FECYT.

A partir de cada PDF-CVN se obtiene un XML con los datos del personal investigador. Tanto el PDF-CVN como el archivo XML siguen la norma CVN de FECYT.

El servicio ofrecido por FECYT para transformar el formato PDF de los CV a XML es el siguiente: https://integraciones.cvnet.es/cvn2RootBean_v1_4_3/services/Cvn2RootBean?wsdl

, también expresado en el formato CVN de FECYT.

De cada fichero XML obtenido Del fichero XML se extraen los datos de los diferentes ítems del CV de la persona y se almacenan en el grafo. Si los datos del XML coincidieran con los existentes en el sistema tras los 2 pasos anteriores, se actuaría del siguiente modo, según estén o no validados los datos previos:

...

Para la desambiguación de los datos, se compararán diferentes atributos en cada ítem diferentes atributos, para comprobar si presentan la suficiente semejanza como para considerar que los recibidos en el XML y los almacenados previamente en BBDD son iguales.

...

El proceso de deduplicación de datos actúa sobre los datos recuperados de los documentos y los existentes en BBDD, comparando las similitudes entre ellos para posteriormente actualizarlos o descartarlos y limitar la inserción de datos duplicados.

El código correspondiente a este proceso está en HerculesED/src/Hercules.ED.DisambiguationEngine at main · HerculesCRUE/HerculesED (github.com)

Este apartado describe la versión actual de la deduplicación automática para la carga inicial.

...

Árbol de páginas

Versiones comparadas

Versión anterior 11

Nueva versión Actual

Clave

1. Carga de datos - UMU / SGI

2. Carga de datos - Fuentes externas

3. Carga de datos - CV

Árbol de páginas

Historial de página

Versiones comparadas

Versión anterior 11

Nueva versión Actual

Clave

1. Carga de datos - UMU / SGI

2. Carga de datos - Fuentes externas

3. Carga de datos - CV