Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

  • Organizaciones: Datos relacionados con la organizaciones.
  • Investigadores: Datos relacionados con el investigador.
  • Grupos: Datos relacionados con el grupo de investigación.
  • Proyectos: Datos relacionados con proyectos.

En estos datos no se aplica desambiguación ya que va a ser el primer paso y asumimos que son correctos.

De momento, estos datos se cargan desde unos archivos proporcionados en formato XMLs, si bien en un futuro llegarán desde Hércules SGI, junto con otras información del personal investigador, como puesto de trabajo, formación académica, actividad docente, etc.En estos datos no se aplica desambiguación ya que va a ser el primer paso y asumimos que son correctos.

Este código provisional está en HerculesMA/src/Hercules.MA.Load at main · HerculesCRUE/HerculesMA (github.com)

2. Carga de datos - Fuentes externas 

...

A su vez, se comprueba en Zenodo (mediante DOI) si hay algún recurso de tipo pdf. En el caso de encontrar alguno, traerá el enlace de descarga.

Posteriormente, se enriquecen los descriptores temáticos y específicos de la publicación en cuestión, con la finalidad de ofrecer más información al usuario. 

...

Para los datos de fuentes externas se diferencia entre publicaciones, research objects (ro) y personas. El proceso de carga leerá los datos de los JSON recibidos y tratará los datos incluidos en el mismo.  .  El código de este programa de carga está en HerculesED/src/Hercules.ED.ResearcherObjectLoad at main · HerculesCRUE/HerculesED (github.com)

Para que algún recurso cargado se pueda llegar a considerar igual a otro, y por ello modificar el almacenado, se siguen diversos criterios para diferenciarlos. En el caso de que se consideren iguales en la desambiguación se cargarán los datos del último, los datos recibidos en el JSON, cambiando los almacenados en base de datos (ver más abajo el proceso de desambiguación de los objetos, en el aparatado apartado de Deduplicación).

Se diferencian los valores comprobados entre cada recurso: 

...

El proceso de deduplicación de datos actúa sobre los datos recuperados de los documentos y los existentes en BBDD, comparando las similitudes entre ellos para posteriormente actualizarlos o descartarlos y limitar la inserción de datos duplicados. 

El código correspondiente a este proceso está en HerculesED/src/Hercules.ED.DisambiguationEngine at main · HerculesCRUE/HerculesED (github.com)

Este apartado describe la versión actual de la deduplicación automática para la carga inicial.

...