Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

En esta nota se describirá los posibles tratamientos de de-duplicación de datos relacionados con la incorporación de datos desde fuentes externas.

En el proceso de carga de fuentes externas se realizan los siguientes procesos de deduplicación:

  • En primer lugar, se deduplican los documentos/personas que obtenemos de las fuentes externas. 
    • Consideramos que para las publicaciones, el DOI es único, y para las personas el ORCID también. Es decir, si dos sujetos coinciden en alguno de los IDs mencionados, serán los mismos. 
    • Por cada documento obtenido, miramos los autores que nos trae las diversas fuentes externas. Aplicamos el proceso de desambiguación de datos y en aquellos autores que son iguales, fusionamos la información.
    • La preferencia de las fuentes es: WoS, Scopus y OpenAire.
    • En el programa de carga de datos de fuente externa, es dónde se va a aplicar el proceso de desambiguación entre publicaciones/personas de distintas publicaciones.
      • Para ello, estamos construyendo un motor de desambiguación lo más genérico, configurable y eficiente posible para que en el caso que se tenga que utilizar en distintos puntos del desarrollo, sea lo más fácil y rápido de integrar.
  • En segundo lugar, aplicamos la deduplicación contra el grafo de datos cargados, según lo comentado en