Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

Se obtienen los datos de tres fuentes principales: WoS, Scopus y OpenAire. Se ha dado prioridad en dicho orden, ya que consideramos que WoS es más fiable que Scopus, y a su vez, Scopus de OpenAire. 

Para cada una de las fuentes, se ha creado un microservicio encargado de hacer la tarea. Estos servicios van a hacer las peticiones al endpoint correspondiente mediante el código ORCID del usuario para traer toda la información disponible. En el caso de que falten publicaciones o algún dato, el investigador tendría que ir a la fuente y modificarlo allí. Para una información más detallada, visitar el repositorio de GitHub: https://github.com/HerculesCRUE/HerculesED/tree/main/src/Hercules.ED.ExternalSources

Si una misma publicación llega de diversas fuentes, se unifica la información de los autores como de las publicaciones. Es decir, si se encuentra dos o varios publicaciones con el mismo identificador, se rellenarán los datos faltantes. En el caso que haya datos distintos en un mismo campo, se dará prioridad al orden establecido explicado en el párrafo anterior. 

La bibliografía se obtiene de SemanticScholar y nos quedamos con el título Para la obtención de la bibliografía utilizada en una publicación se hace uso del API ofrecida por SemanticScholar. Se pregunta por el DOI de la publicación, año de publicación, nombre de la revista, autores (firma e identificador), enlace de SemanticScholar y el DOI. Ejemploy si tiene información, nos la devuelve de la siguiente forma: 

"doi": "10.1023/A:1012801612483", 

"url": "https://www.semanticscholar.org/paper/8df4c5bceac65b2dae684551ff6c747c04ebbcef", 

"anyoPublicacion": 2001, 

"titulo": "On Clustering Validation Techniques", 

"revista": "Journal of Intelligent Information Systems", 

"autores": {  "M. Halkidi": "2949720",  "Yannis Batistakis": "2042553",  "M. Vazirgiannis": "1690383" }

A su vez, se comprueba en Zenodo (mediante DOI) si hay algún recurso de tipo pdf. En el caso de encontrar alguno, traerá el enlace de descarga.

Posteriormente, se enriquece los descriptores temáticos y específicos de la publicación en cuestión, con la finalidad de ofrecer más información al usuario. 

...

Para los datos de fuentes externas se diferencia entre publicaciones, ResearchObject research objects (ROro) y personas. El proceso de carga leerá los datos de los JSON recibidos y tratará los datos incluidos en el mismo.  

...

Se obtiene por medio del CV en formato PDF, un XML con el cual trabajar, siguiendo la norma de FECYT (.

El servicio ofrecido por el FECYT para transformar el formato PDF de los CV a XML es el siguiente: https://integraciones.cvnet.es/cvn2RootBean_v1_4_3/services/Cvn2RootBean?wsdl).

Del fichero XML se extraen los datos de los diferentes apartados de la persona y se almacenan en BBDD. En el caso de que se encuentren datos en el XML y en BBDD que sean iguales, en el caso de que no estén si no están validados se actualizara actualizará el recurso con los datos recibidos del XML, si están validados no se podrán editar y se priorizará los almacenados. 

Para la desambiguación de los datos, se compararán en cada recurso diferentes atributos del mismo, para comprobar si presentan la suficiente semejanza para considerarlos iguales el recibido en el XML y los almacenados en BBDD. 


Deduplicación  Deduplicación  

El proceso de deduplicación de datos actúa sobre los datos recuperados de los documentos y los pertenecientes a base de datos (BBDD), comparando las similitudes entre ellos para posteriormente actualizar los datos y limitar la inserción de datos duplicados. 

...