Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

Implementado en HerculesED/src/Hercules.ED.ExternalSources at main · HerculesCRUE/HerculesED (github.com)

Ver detalle del uso de cada tiipo de RO en Gestión FAIR RO.

El objetivo de este entregable es realizar un análisis inicial de otras fuentes externas de ROs de tipo publicación que puedan ser una alternativa a Scopus-Elsevier, fuente externa para la que ya se ha desarrollado un microservicio en Hércules y que posee una serie de restricciones de cuotas o número de llamadas a la misma que obligan a realizar este estudio. Para ello, se analizarán las diversas fuentes externas, sus cuotas, sus restricciones de uso, los metadatos devueltos por cada publicación y otras características determinantes en la elección de la próxima fuente externa.

...

A continuación, se listan los metadatos a obtener de cada publicación. Aquellos que están coloreados no podrán ser modificados por el usuario:

  • Tipo de publicación[1]
  • Título
  • Abstract
  • Idioma
  • DOI
  • Fecha
  • Link
  • Palabras clave
  • Autor correspondiente
    • Nombre (lista)
    • ORCID
    • Identifier (ID en caso de no tener ORCID)
    • link
  • Conjunto de autores (por cada uno):
    • Nombre (lista)
    • ORCID
    • Identifier (ID en caso de no tener ORCID)
    • link
  • Página inicio
  • Página fin
  • Revista
    • Nombre
    • ISSN
    • ¿métrica?Métrica
  • Métrica de publicación
    • Nombre de red
    • Número de citas.


Por otro lado, todos los artículos citan y referencian a otros. Dada una publicación principal como la de arriba tenemos que poder enlazarla con los artículos citados y referenciados, que serán considerados ROs de tipo referencia o bibliografía. Estos artículos citados y referenciados pueden ser caracterizados con los mismos metadatos que un RO de tipo publicación, pero la importancia de estos es diferente, ya que no se necesita obtener tanta información de estos. En el siguiente listado se indican con colores los metadatos mínimos necesarios para caracterizar un RO de tipo referencia o bibliografía.

  • Tipo de publicación
  • Título
  • Abstract
  • ID
  • Idioma
  • DOI
  • Fecha
  • Link
  • Autor correspondiente:
    • Nombre (lista)
    • ORCID
    • Identifier (ID en caso de no tener ORCID)
    • link
  • Conjunto de autores (por cada uno):
    • Nombre (lista)
    • ORCID
    • Identifier (ID en caso de no tener ORCID)
    • link
  • Página inicio
  • Página fin
  • Revista
    • Nombre
    • ISSN
    • ¿Métrica?
  • Métrica de publicación
    • Nombre de la fuente externa
    • Número de citas

...

Al igual que con las anteriores fuentes externas, en la tabla adjunta a esta sección puede encontrarse información de las diversas APIs a utilizar, los metadatos obtenidos con ellas y los pros y contras de esta fuente externa.


Fuente Externa

Pros y Contras

APIs interesantes/necesarias

Metadatos

Web of Science

[Contra] Hay que declarar específicamente qué APIs se van a usar porque cada una tiene una API-key diferente.

API para saber las publicaciones de un autor:

Web of Science API Expanded


DOI

Título

Abstract

Tipo

Fecha

Autores /autor principal -> Names

Nombre

Id

Knowledge Area

Etiquetas

Número de artículos en la bibliografía

Número de citas (refs)

Palabras clave

Links

Página de inicio y fin

Revista ID

ID, (a confirmar)

nombre

Metadatos de revista (¿)

Bibliografía ->

Metadatos de cada artículo

[PRO] Los metadatos obtenidos son muy extensos

[Contra] El número de ítems devuelto en la API es limitado.

API para obtener información de las métricas de una revista:

Web of Science Journals API

[Contra] Son de pago. Hay que registrarse, pedir permiso y realizar una suscripción.

[PRO] WoS tiene muchas publicaciones y es una red muy enriquecida y muy usada.

Web of Science: Como organización hay que mirar si es posible/aceptable, dadas las condiciones del proyecto, solicitar estas APIs. Los metadatos obtenidos son muy completos, obteniendo IDs generales, así como una gran gama de metadatos.


ORCID

[Contra] Pocos metadatos de las publicaciones.


 Solo tienen una API que es la que se usaría para saber los artículos de un autor (la primera a realizar).


Doi

Título

Abstract

Tipo

Fecha

Autores /autor principal ->

 Nombre,

Id  

Knowledge Area

Etiquetas

Número de artículos en la bibliografía

Número de citas

Links

Página de inicio. Página fin

Revista ->

ID,

 nombre,

 Metadatos de revista (¿)

Bibliografía ->

Metadata de cada artículo

[Contra] No tiene diferentes APIs para poder completar la información obtenida.

[PRO] Conseguir el Token de acceso es fácil y además este dura un largo periodo de tiempo. 

[--] Hay que considerar que no todos los usuarios declaran en esta fuente sus artículos.

ORCID: Devuelve pocos metadatos y los usuarios han de tenerlo al día. En general la información devuelta es muy escasa y por tanto se necesitaría extraer información adicional de otras fuentes para completar la información. Sin embargo, la información devuelta está compuesta de identificadores genéricos, lo cual permite completar la información con otras fuentes.


PubMed

[Contra] Es de un dominio de la ciencia en específico.


Dadas las restricciones y los contras tan grandes se ha decidido no verificar qué metadatos se pueden extraer de esta fuente externa.


Doi

Título

Abstract

Tipo

Fecha

Autores /autor principal ->

Nombre

Id

Knowledge Area

Etiquetas

Número de artículos en la bibliografía

Número de citas

Links

Página de inicio Página fin

Revista ->

ID,

nombre

Metadatos de revista (¿)

Bibliografía

Metadata de cada artículo

[Contra] Formato en el que devuelve la información es XML y no JSON.

[Contra] Cuota excesivamente restrictiva que no permite el volumen de consultas necesario en Hércules y que bloquea al usuario que sobrepasa los límites.





PubMed:  No parece una fuente externa viable, dadas sus restricciones, aunque se podrían completar los datos de una publicación obtenida de la fuente Scopus-Elsevier, ya que esta devuelve el id de PubMed asociado a una publicación.


Semantics Scholar

(link)

[--] Tiene cuota de cantidad requests por segundo, pero se puede aumentar rellenando un formulario (no se ha podido comprobar aún si es de pago).

La primera API es la que daría información sobre los papers de un autor dado su id.

https://api.semanticscholar.org/graph/v1/author/{author_id}/papers


Doi

Título

Abstract

Tipo

Fecha year

Autores /autor principal

Nombre

Id -En su red

Homepage

Aliases

externalIds

Knowledge Area

Etiquetas

Número de artículos en la bibliografía

Número de citas

Links

Página de inicio Página fin

Revista ID 🡪 venue

ID,

nombre

Metadatos de revista (¿)

Bibliografía

ID Semantic Scholar

url

title

year

authors

número de citas

[PRO] No se necesita ninguna API-Key ni token para reclamar la información.

[Contra] No tiene el id identificativo de una revista. Por lo que esta información ha de ser completada con otras fuentes externas.

También tiene otras APIs para saber más información sobre un autor.

https://api.semanticscholar.org/

graph/v1/author/{author_id}?fields=…

Esta API es necesaria para obtener el id del autor del que queremos la información (la llamada de arriba).

[Contra] Los IDs devueltos son de su propia red.  Al menos devuelve un identificador.

[PRO] Los metadatos de la bibliográfica son igual de extensos que los de la publicación principal.

Opinión: el sistema de llamadas es muy fácil y cómodo. La información que devuelve no es muy extensa pero sí mínima y suficiente. La mejor opción es usarla para obtener los metadatos de una publicación de tipo referencia.


Crossref

(se les ha caído el servidor)

[Contra] Tiene un límite de requests por segundo. Creo que se puede aumentar, pero hay que declararlo.

La Api que obtiene las publicaciones de un autor. Esta petición proporciona demasiada información incluyendo artículos ajenos a dicho autor

Doi

Título

Abstract

Tipo

Fecha

Autores /autor principal (orden)->

Nombre

Id

Knowledge Area

Etiquetas (un poco raras…)

Número de artículos en la bibliografía -> dudoso porque pone 0. 

Número de citas (is-referenced-by-count)

Links

Página de inicio Página fin

Revista ID

ID,

Nombre

Metadatos de revista (¿)

Bibliografía

Metadata de cada artículo

[Contra] No sirve para obtener los artículos de un autor en concreto.

[contra] Hay casos en los que sí se devuelve el ORCID, pero solo en algunas personas.

[contra] Tampoco devuelve demasiada información de la bibliografía.

API para la obtención de metadatos asociados a un autor

/Works/{DOI}



[PRO] En algunos artículos da información sobre el doi de los artículos bibliográficos, incluyendo el doi.

Crossref. Devuelve una cantidad interesantes de metadatos, aunque no se le puede preguntar directamente por los artículos de un autor proporcionando el ORCID de este. Por tanto, es una fuente que se deberá usar para complementar la información de un artículo dado.


Google Scholar

 

[Contra] La llamada de autor articles da muy poca información sobre los artículos que ha publicado un investigador. Parámetro inicial: author_id

Si el autor no sabe su author_id hay que usar Google Scholar Profiles API, para lo cual se busca con el nombre y se debe filtrar el resultado hasta dar con el autor deseado.

Doi

Título

Abstract

Tipo

Fecha year

Autores /autor principal (orden)->

Nombre

Id

Knowledge Area

Etiquetas (un poco raras…)

Número de artículos en la bibliografía

Número de citas 

Links

Página de inicio Página fin

Revista ID

ID,

Nombre

Metadatos de revista (¿)

Bibliografía

Metadatos de cada artículo

[Contra] No se puede obtener información sobre la revista, su DOI, bibliografía o autores. Y lo obtenido no es genérico por lo que no permite búsquedas en otras fuentes.

 Google Scholar Author Articles API -- Información sobre los artículos que ha publicado un autor en concreto.


[Contra] Si el usuario no sabe su author_id entonces es difícil que con la API “profiles” se obtenga este valor.

La segunda llamada con el id de la primera obtendremos

 (https://serpapi.com/google-scholar-author-citation)

Google Scholar: La obtención de metadatos es bastante limitada y hay que hacer uso de muchas APIs para tener la información deseada. Además, las publicaciones no son devueltas con IDs genéricos por lo que dificulta completar estos metadatos con otras fuentes.


OpenAire

 

[Contra] No tiene métrica de publicaciones

La API nos permite obtener la información señalada sobre todos los artículos en los que un autor ha colaborado.  El input de la petición debe ser el orcid de dicho autor. https://api.openaire.eu/search/publications?orcid=

Doi

Título

Abstract

Tipo

Fecha year

Autores /autor principal (orden)->

Nombre

Id

Knowledge Area

Etiquetas

Número de artículos en la bibliografía

Número de citas 

Links

Página de inicio Página fin

Revista ID

ID,

Nombre

Metadatos de revista (¿)

Bibliografía

Metadatos de cada artículo

[Contra] No contiene información sobre las citas y referencias..

[PRO] No tiene límite de peticiones a realizar ni se necesita una clave para obtener la información.

 También dispone de una petición para preguntar por un doi concreto, permitiéndonos obtener toda la información sobre un artículo

https://api.openaire.eu/search/publications?doi=

[PRO] Fuente externa con mucha información.

OpenAire; Esta fuente externa contiene mucha información, aunque no permite relacionar estos artículos con otros de esta misma base de datos. Esto dificulta también obtener las medidas de evaluación de cada publicación (número de citas).


3.11.     Conclusiones sobre las fuentes analizadas

...

En las siguientes secciones se exponen diversas fuentes externas y se comentará si se va a usar o no, así como qué tipo de fuente complementaria es cada una de ellas.

...

3.12.1.

...

PubMed

Esta fuente externa no puede ser principal porque su API no permite la consulta de publicaciones de un autor a través de ningún tipo de identificador estándar del autor (p.ej. ORCID). No existe un identificador interno para cada investigador en esta fuente externa por lo que no permite buscar por un autor a excepción de cuando se busca por su nombre. Además, los metadatos obtenidos de cada publicación son mínimos y no genéricos, por lo que no aportan información que pueda complementar a la que ya se dispone por una reclamación previa en una fuente principal que ya ha permitido obtener los metadatos mínimos de una publicación.

...

Además, la mayoría de los artículos que se encuentran en esta plataforma se pueden encontrar en otras fuentes externas como Scopus.

...

3.12.2. Semantic Scholar

Esta fuente externa no puede ser una fuente principal porque no permite pedir información de publicaciones de un usuario a través de su ORCID, si bien permite realizar dicha consulta a través de un “author_id” interno que cada investigador tiene asociado en esta fuente externa. Sin embargo, cuando devuelve información de las publicaciones de un autor, esta no incluye el DOI (identificativo estándar), lo que imposibilita complementar la información de la misma con otras fuentes externas. Por lo tanto, esta fuente externa solamente podría ser complementaria y deberá ser usada para obtener los metadatos necesarios de un artículo de tipo referencia. 

...

3.12.3. CrossRef

Esta fuente externa tampoco permite realizar peticiones con el ORCID de un autor. Además, tampoco se ha encontrado un identificativo interno de cada usuario en esta fuente externa. Por lo tanto, tampoco se podría considerar como principal.

...


3.12.4. Open Citations

Esta fuente de datos tiene la gran limitación de que solo ofrece la conexión con el DOI de los artículos que cita o referencia uno dado. Sin embargo, este metadato, como se verá en posteriores análisis, es difícil de encontrar por lo que esta fuente es primordial para conseguir esta relación entre documentos. Además, al devolvernos el DOI de un artículo nos permite completar los metadatos de esta publicación con otra fuente externa.

...


3.12.5. European PMC

Al igual que ocurre con Open Citations esta fuente está diseñada para obtener metadatos de los ROs de tipo referencia o cita. En este caso la búsqueda es un poco más enrevesada ya que en primer lugar se debe obtener el ID en la página de esta fuente externa.  Posteriormente preguntar tanto por las citas como por las referencias de este ID.

...

Tal y como se ha analizado previamente, las fuentes complementarias que se utilizarán serán Semantic Scholar, PubMed y Crossref. Scopus y WoS, OpenAIre, también se podrán usar como complementarias ya sea mediante APIs que ofrecen información de otro tipo sobre los artículos (como por ejemplo de la métrica de una revista p. ej. Web of Science Journals API) o cuando después de la llamada a las fuentes secundarias no se haya obtenido la información necesaria.

...

3.13.1 Análisis de la compatibilidad entre fuentes externas

Esta invocación ha de hacerse de forma automática teniendo en cuenta diferentes compatibilidades para determinar qué fuentes complementarias se podrán usar en cada caso:

...

  • El proceso de registrarse para acceder a la API de ORCID es complejo y hay varias opciones (Registering a Member API Client o Registering a Public API client). Estamos analizando los requisitos de cada una de las opciones y recabando la información que solicitan en su web.
    • [ACTUALIZACIÓN] Ya estamos registrados y haciendo pruebas.
  • WoS aún no ha contestado a la solicitud de registro y no tenemos acceso programático vía API-key, por lo que no se ha podido probar realmente si los resultados que se obtienen coinciden con los ejemplos de su documentación y la interfaz web de la misma. Hay muchos metadatos mínimos necesarios para una publicación que debemos comprobar si son devueltos o no, como por ejemplo los relativos a la bibliografía del artículo.
    • [ACTUALIZACIÓN] Ya estamos registrados y haciendo pruebas.
  • Determinar si las severas restricciones respecto al reducido número de consultas que permite PubMed la hacen candidata a fuente externa utilizable en Hércules.

...

3.13.2 Análisis de la compatibilidad de la fuente principal y complementaria

En la siguiente tabla se muestran en las filas las fuentes externas principales y en las columnas las fuentes externas complementarias, indicando para cada una de ellas el nombre del metadato identificativo necesario para realizar búsquedas (en las principales ID de usuario y en las complementarias IDs de publicaciones).

...

Si la fuente principal proporciona el metadato identificativo necesario para obtener más información sobre una publicación en la fuente externa complementaria, entonces el fondo del cuadrante que une dichas fuentes será verde indicando compatibilidad. Si no, será rojo.



Crossref

(DOI)

PudMed

(PudMedID)

Semantic Scholar (DOI)

Scopus (2ª llamada) (Scopus_ID)

(DOI)

WoS revista

(ISSN)

Open Citation

(DOI)

European PMC

(DOI)

Scopus (1ª llamada) (ORCID)




Scopus_ID




WoS (ORCID)




DOI




ORCID (ORCID)




DOI




OpenAire

ORCID

...









3.13.3   Compatibilidad de metadatos

En este análisis se han examinado los metadatos que se pueden obtener en las fuentes externas principales y complementarias, con el fin de ver que fuente complementaria es más adecuada para completar la información que devuelve cada fuente principal.

...

Dado que estas tablas ofrecen gran cantidad de información, se documentan en ficheros Excel aparte. 

...

3.13.4  Gestión de publicaciones incompletas

En caso de que con la combinación de fuentes principales y fuentes complementarias no se llegue a cubrir la información necesaria para registrar una publicación en el grafo de conocimiento de Hércules, se analizará la posibilidad de utilizar varias fuentes complementarias a la fuente principal. Por ejemplo, si la información de la bibliografía de una publicación no está completa, se podrían invocar a microservicios de fuentes externas complementarias a través de los DOIs de los artículos presentes en la bibliografía.

...

Se recorre cada una de las publicaciones obtenidas en WoS. Por cada una de ellas:

Se almacena el DOI en una lista para saber qué artículos ya hemos completado del investigador en cuestión.

Se llama al servicio de Semantic Scholar y se fusiona la información obtenida por este microservicio y la publicación que estamos examinando (función de combinar dos publicaciones). El resultado de esta unificación será la publicación que estamos observando. Esta fuente externa nos devuelve la información de los documentos referenciados. Estas publicaciones tendrán únicamente unos pocos metadatos básicos que no serán completados con ninguna red externa adicional.

Se llama a la fuente externa Zenodo y en caso de encontrarse un fichero PDF con la publicación se añadirá como metadato.

Se llama al enriquecimiento de áreas temáticas y de palabras clave para completar la publicación.

Se añaden las métricas de las revistas.

Se recorren todos los documentos obtenidos por Scopus y para cada uno de ellos:

Si el DOI de esta publicación coincide con la publicación que estamos examinando entonces se combina la información (función de combinar dos publicaciones).

En caso contrario no se hace nada.

Se recorren todos los documentos obtenidos en OpenAire y para cada uno de ellos:

Si el DOI de esta publicación coincide con la publicación que estamos examinando entonces se combina la información (función de combinar dos publicaciones).

En caso contrario no se hace nada.

Llegados a este punto la publicación central está completa, así como todas las bibliográficas y citas que la componen. Se guarda para devolverse.

Recorremos la lista de publicaciones de Scopus con el fin de completar aquellas que no se han obtenido de WoS. Por tanto, por cada una de las publicaciones:

Si ya ha sido completada y almacenada antes, no hace nada con ella.

En caso contrario:

Se llama al servicio de Semantic Scholar y se fusiona la información obtenida por este microservicio y la publicación que estamos examinando (función de combinar dos publicaciones). El resultado de esta unificación será la publicación que estamos observando. Esta fuente externa nos devuelve la información de los documentos referenciados. Estas publicaciones tendrán únicamente unos pocos metadatos básicos que no serán completados con ninguna red externa adicional.

Se llama a la fuente externa Zenodo y en caso de encontrarse un fichero PDF con la publicación se añadirá como metadato.

Se llama al enriquecimiento de áreas temáticas y de palabras clave para completar la publicación.

Se añaden las métricas de las revistas.

Recorrimos Recorremos la lista de publicaciones de OpenAire con el fin de completar aquellas que no se han obtenido de WoS y Scopus. Por tanto, por cada una de las publicaciones:

Si ya ha sido completada y almacenada antes, no hace nada con ella.

En caso contrario:

Se llama al servicio de Semantic Scholar y se fusiona la información obtenida por este microservicio y la publicación que estamos examinando (función de combinar dos publicaciones). El resultado de esta unificación será la publicación que estamos observando. Esta fuente externa nos devuelve la información de los documentos referenciados. Estas publicaciones tendrán únicamente unos pocos metadatos básicos que no serán completados con ninguna red externa adicional.

Se llama a la fuente externa Zenodo y en caso de encontrarse un fichero PDF con la publicación se añadirá como metadato.

Se llama al enriquecimiento de áreas temáticas y de palabras clave para completar la publicación.

Se añaden las métricas de las revistas.

Llegados a este punto ya tenemos completas todas las publicaciones de este autor.

...