En esta nota se describirá los posibles tratamientos de de-duplicación de datos relacionados con la incorporación de datos desde fuentes externas.
En el proceso de carga de fuentes externas se realizan los siguientes procesos de deduplicación:
- En primer lugar, se deduplican los documentos/personas que obtenemos de las fuentes externas.
- Consideramos que para las publicaciones, el DOI es único, y para las personas el ORCID también. Es decir, si dos sujetos coinciden en alguno de los IDs mencionados, serán los mismos.
- Por cada documento obtenido, miramos los autores que nos trae las diversas fuentes externas. Aplicamos el proceso de desambiguación de datos y en aquellos autores que son iguales, fusionamos la información.
- La preferencia de las fuentes es: WoS, Scopus y OpenAire.
- En el programa de carga de datos de fuente externa, es dónde se va a aplicar el proceso de desambiguación entre publicaciones/personas de distintas publicaciones.
- Para ello, estamos construyendo un motor de desambiguación lo más genérico, configurable y eficiente posible para que en el caso que se tenga que utilizar en distintos puntos del desarrollo, sea lo más fácil y rápido de integrar.
- En segundo lugar, aplicamos la deduplicación contra el grafo de datos cargados, según lo comentado en