Árbol de páginas

Estás viendo una versión antigua de esta página. Ve a la versión actual.

Comparar con el actual Ver el historial de la página

Versión 1 Siguiente »

En esta nota se describirá los posibles tratamientos de de-duplicación de datos relacionados con la incorporación de datos desde fuentes externas.

(18/10/2021) Comentario recibido tras la presentación del estado del desarrollo:

  • En cuanto a los problemas comentados durante la búsqueda, entre ellos que algunos APIs podrían no utilizar IDs estandarizados, os recordamos que se puede contar con las funcionalidades de de-duplicación que de hecho ya estaban en ASIO. Por favor, comentadnos la viabilidad de esta solución.

(02-02-2022)

  • Principalmente, la idea sería deduplicar los documentos/personas que obtenemos de la recuperación de datos de las fuentes externas. 
    • Consideramos que para las publicaciones, el DOI es único, y para las personas el ORCID también. Es decir, si dos sujetos coinciden en alguno de los IDs mencionados, serán los mismo. 
      • Por cada documento obtenido, miramos los autores que nos trae las diversas fuentes externas. Aplicamos el proceso de desambiguación de datos y en aquellos autores que son iguales, fusionamos la información. Para fusionar dicha información, tomamos como fuente externa principal WoS, es decir, en el caso de información ambigua que sea distinta entre dos datos, priorizamos los datos obtenidos de WoS. Este proceso se lleva a cabo en el programa de obtención de datos de fuentes externas
    • En el programa de carga de datos de fuente externa, es dónde se va a aplicar el proceso de desambiguación entre publicaciones/personas de distintas publicaciones.
      • Para ello, estamos construyendo un motor de desambiguación lo más genérico, configurable y eficiente posible para que en el caso que se tenga que utilizar en distintos puntos del desarrollo, sea lo más fácil y rápido de integrar.
  • Una vez deduplicada la información de las fuentes externas, hay que aplicar la deduplicación contra el grafo de datos cargados.
  • Sin etiquetas