Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

En esta nota se describirá los posibles tratamientos de de-duplicación de datos relacionados con la incorporación de datos desde fuentes externas.

(18/10/2021) Comentario recibido tras la presentación del estado del desarrollo:

  • En cuanto a los problemas comentados durante la búsqueda, entre ellos que algunos APIs podrían no utilizar IDs estandarizados, os recordamos que se puede contar con las funcionalidades de de-duplicación que de hecho ya estaban en ASIO. Por favor, comentadnos la viabilidad de esta solución.

(02-02-2022)

En el proceso de carga de fuentes externas se realizan los siguientes procesos de deduplicación:

  • En primer lugar, se deduplican Principalmente, la idea sería deduplicar los documentos/personas que obtenemos de la recuperación de datos de las fuentes externas. 
    • Consideramos que para las publicaciones, el DOI es único, y para las personas el ORCID también. Es decir, si dos sujetos coinciden en alguno de los IDs mencionados, serán los mismomismos
    • Por cada documento obtenido, miramos los autores que nos trae las diversas fuentes externas. Aplicamos el proceso de desambiguación de datos y en aquellos autores que son iguales, fusionamos la información. Para fusionar dicha información, tomamos como fuente externa principal WoS, es decir, en el caso de información ambigua que sea distinta entre dos datos, priorizamos los datos obtenidos de WoS. Este proceso se lleva a cabo en el programa de obtención de datos de fuentes externas
    • La preferencia de las fuentes es: WoS, Scopus y OpenAire.
    • En el programa de carga de datos de fuente externa, es dónde se va a aplicar el proceso de desambiguación entre publicaciones/personas de distintas publicaciones.
      • Para ello, estamos construyendo un motor de desambiguación lo más genérico, configurable y eficiente posible para que en el caso que se tenga que utilizar en distintos puntos del desarrollo, sea lo más fácil y rápido de integrar.
  • Una vez deduplicada la información de las fuentes externas, hay que aplicar En segundo lugar, aplicamos la deduplicación contra el grafo de datos cargados., según lo comentado en