Tabla de contenidos
La carga inicial de datos va a consistir en obtener todos los datos relevantes para todos aquellos posibles de los investigadores que estén en la universidad con el fin de unificarlos y centralizarlos en la base de datosel grafo.
Carga de datos - UMU /
...
SGI
...
Los datos que se cargan son los siguiente:
- Organizaciones: Datos relacionados con la organizaciones.
- Investigadores: Datos relacionados con el investigador.
- Grupos: Datos relacionados con el grupo de investigación.
- Proyectos: Datos relacionados con proyectos.
De momento, estos datos se cargan desde unos archivos proporcionados en formato XMLs, si bien en un futuro llegarán desde Hércules SGI. En estos datos no se aplica desambiguación ya que va a ser el primer paso y asumimos que dichos datos sean correctos.
Carga de datos - Fuentes externas
...
Obtención de los datos de fuentes externas.
Se obtienen los datos de tres fuentes principales: WoS, Scopus y OpenAire. Se ha dado prioridad en dicho orden, ya que consideramos que WoS es más fiable que Scopus, y a su vez, Scopus de OpenAire.
...
Una vez obtenida toda la información, se guarda en formato JSON y se le envía al programa de carga.
...
Carga de datos
Para los datos de fuentes externas se diferencia entre publicaciones, research objects (ro) y personas. El proceso de carga leerá los datos de los JSON recibidos y tratará los datos incluidos en el mismo.
...
Se diferencian los valores comprobados entre cada recurso:
Publicación |
|
|
|
---|---|---|---|
Propiedad | Tipodesambiguación | Score positivo | Score negativo |
Título | Title | 0.8 |
|
DOI | Identifier |
|
|
Autores | ItemList | 0.5 |
|
ResearchObject |
|
|
|
---|---|---|---|
Propiedad | Tipodesambiguación | Score positivo | Score negativo |
Título | Title | 0.8 |
|
DOI | Identifier |
|
|
Identificador FigShare | Identifier |
|
|
Identificador GitHub | Identifier |
|
|
Identificador Zenodo | Identifier |
|
|
Autores | ItemList | 0.5 |
|
Personas |
|
|
|
---|---|---|---|
Propiedad | Tipodesambiguación | Score positivo | Score negativo |
Nombre Completo | Nombres | 1 |
|
ORCID | Identifier |
|
|
Identificador FigShare | Identifier |
|
|
Identificador GitHub | Identifier |
|
|
Identificador Zenodo | Identifier |
|
|
Coautores | ItemList | 0.5 |
|
Documentos | ItemList | 0.5 |
|
Organizacion | ItemList | 0.5 |
|
Departamento | ItemList | 0.5 |
|
Grupos | ItemList | 0.5 |
|
Proyectos | ItemList | 0.5 |
|
*El proceso de desambiguación de los objetos, el tipo de desambiguación de los mismos y los Scores, se detallan en el aparatado de Deduplicación.
Carga de datos -
...
CV
Se obtiene por medio del CV en formato PDF, un XML con el cual trabajar, siguiendo la norma de FECYT.
...
Para la desambiguación de los datos, se compararán en cada recurso diferentes atributos del mismo, para comprobar si presentan la suficiente semejanza para considerarlos iguales el recibido en el XML y los almacenados en BBDD.
Deduplicación
...
Ancla CargaInicial_Deduplicacion CargaInicial_Deduplicacion
...