Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

En esta nota se describirá los posibles tratamientos de de-duplicación de datos relacionados con la incorporación de datos desde fuentes externas.

(18/10/2021) Comentario recibido tras la presentación del estado del desarrollo:

  • En cuanto a los problemas comentados durante la búsqueda, entre ellos que algunos APIs podrían no utilizar IDs estandarizados, os recordamos que se puede contar con las funcionalidades de de-duplicación que de hecho ya estaban en ASIO. Por favor, comentadnos la viabilidad de esta solución.

(02-02-2022)

En el proceso de carga de fuentes externas se realizan los siguientes procesos de deduplicación:

  • En primer lugar, se deduplican Principalmente, la idea sería deduplicar los documentos/personas que obtenemos de la recuperación de datos de las fuentes externas. Ver Hercules.ED.Publication en HerculesED/src/Hercules.ED.ExternalSources at main · HerculesCRUE/HerculesED (github.com). 
    • Consideramos que para las publicaciones, el DOI es único, y para las personas el ORCID también. Es decir, si dos sujetos coinciden en alguno de los IDs mencionados, serán los mismomismos
    • Por cada documento obtenido, miramos los autores que nos trae las diversas fuentes externas. Aplicamos el proceso de desambiguación de datos y en aquellos autores que son iguales, fusionamos la información. Para fusionar dicha información, tomamos como fuente externa principal WoS, es decir, en el caso de información ambigua que sea distinta entre dos datos, priorizamos los datos obtenidos de WoS. Este proceso se lleva a cabo en el programa de obtención de datos de fuentes externas
    • La preferencia de las fuentes es: WoS, Scopus y OpenAire.
    • En el programa de carga de datos de fuente externa, es dónde se va a aplicar el proceso de desambiguación entre publicaciones/personas de distintas publicaciones.
  • Para ello, estamos construyendo un motor de desambiguación lo más genérico, configurable y eficiente posible para que en el caso que se tenga que utilizar en distintos puntos del desarrollo, sea lo más fácil y rápido de integrar.
      • Consideramos publicaciones válidas aquellas que tengan título y en el que en la lista de autores esté la persona preguntada.
      • Se obtienen publicaciones de las diversas fuentes. Únicamente consideramos que dos publicaciones son la misma si tienen el mismo DOI.
      • En el caso de que obtengamos dos publicaciones con el mismo DOI y con distinta información, se prioriza WoS > Scopus > OpenAire.
      • En el caso de que obtengamos dos publicaciones con el mismo DOI y en WoS no venga un dato y en otra fuente si, se le asigna el dato de la otra fuente a la publicación final.
      • Para unir personas de dos publicaciones que consideramos que son iguales:
        • Si tienen el mismo ORCID, es la misma. Aplicamos lo mismo que hacemos en el apartado de publicaciones (prioridad y fusión).
        • Si una tiene ORCID y la otra no, comparamos el nombre completo de la persona con un sistema de scores. Si supera un cierto umbral designado, consideramos que es la misma y hacemos el proceso de fusión explicado anteriormente.
  • En segundo lugar, aplicamos Una vez deduplicada la información de las fuentes externas, hay que aplicar la deduplicación contra el grafo de datos cargados, según lo comentado en el apartado Deduplicación descrito en de la carga inicial.