Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

Tabla de contenidos

La carga inicial de datos va a consistir en obtener todos los datos relevantes para todos aquellos posibles de los investigadores que estén en la universidad con el fin de unificarlos y centralizarlos en la base de datosel grafo. 

Carga de datos - UMU /

...

SGI

...

Los datos que se cargan son los siguiente:

  • Organizaciones: Datos relacionados con la organizaciones.
  • Investigadores: Datos relacionados con el investigador.
  • Grupos: Datos relacionados con el grupo de investigación.
  • Proyectos: Datos relacionados con proyectos.

De momento, estos datos se cargan desde unos archivos proporcionados en formato XMLs, si bien en un futuro llegarán desde Hércules SGI. En estos datos no se aplica desambiguación ya que va a ser el primer paso y asumimos que dichos datos sean correctos.

Carga de datos - Fuentes externas 

...


Obtención de los datos de fuentes externas.

Se obtienen los datos de tres fuentes principales: WoS, Scopus y OpenAire. Se ha dado prioridad en dicho orden, ya que consideramos que WoS es más fiable que Scopus, y a su vez, Scopus de OpenAire. 

...

Una vez obtenida toda la información, se guarda en formato JSON y se le envía al programa de carga.

Image Modified

...

Carga de datos

Para los datos de fuentes externas se diferencia entre publicaciones, research objects (ro) y personas. El proceso de carga leerá los datos de los JSON recibidos y tratará los datos incluidos en el mismo.  

...

Se diferencian los valores comprobados entre cada recurso: 

Publicación 

 

 

 

Propiedad 

Tipodesambiguación 

Score positivo 

Score negativo 

Título 

Title 

0.8 

 

DOI 

Identifier 

 

 

Autores 

ItemList 

0.5 

 


ResearchObject 

 

 

 

Propiedad 

Tipodesambiguación 

Score positivo 

Score negativo 

Título 

Title 

0.8 

 

DOI 

Identifier 

 

 

Identificador FigShare 

Identifier 

 

 

Identificador GitHub 

Identifier 

 

 

Identificador Zenodo 

Identifier 

 

 

Autores 

ItemList 

0.5 

 


Personas 

 

 

 

Propiedad 

Tipodesambiguación 

Score positivo 

Score negativo 

Nombre Completo 

Nombres 

1 

 

ORCID 

Identifier 

 

 

Identificador FigShare 

Identifier 

 

 

Identificador GitHub 

Identifier 

 

 

Identificador Zenodo 

Identifier 

 

 

Coautores 

ItemList 

0.5 

 

Documentos 

ItemList 

0.5 

 

Organizacion 

ItemList 

0.5 

 

Departamento 

ItemList 

0.5 

 

Grupos 

ItemList 

0.5 

 

Proyectos 

ItemList 

0.5 

 

*El proceso de desambiguación de los objetos, el tipo de desambiguación de los mismos y los Scores, se detallan en el aparatado de Deduplicación.

Carga de datos -

...

CV 

Se obtiene por medio del CV en formato PDF, un XML con el cual trabajar, siguiendo la norma de FECYT.

...

Para la desambiguación de los datos, se compararán en cada recurso diferentes atributos del mismo, para comprobar si presentan la suficiente semejanza para considerarlos iguales el recibido en el XML y los almacenados en BBDD. 

Deduplicación

...

Ancla
CargaInicial_Deduplicacion
CargaInicial_Deduplicacion

...