Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

Se ha creado un dataset que incluye descripciones de proyectos de código enlazados con los correspondientes descriptores temáticos (21) a partir de sourceforge.net. En un primer paso, se han descargado los nombres de los proyectos alojados en sourceforge mediante scraping a partir del directorio https://sourceforge.net/directory. Posteriormente, se han obtenido los metadatos (que incluyen los descriptores temáticos) de cada nombre utilizando el API sourceforge.net/projects/codeblocks.). Se muestra, a continuación, las estadísticas para los descriptores de primer nivel:

...

ASJC de Scopus y arXiv utilizan descriptores diferentes en sus clasificaciones, por lo que ha sido necesario hacer una fusión entre los dos sistemas de clasificación. También se ha realizado el mismo proceso de integración con los descriptores de la clasificación MESH de PubMed que cuelgan de la entrada “Medicine”, dado que investigadores consultados en dicho dominio así lo han sugerido. Por lo tanto, la taxonomía fusionada es la resultante de la única aproximación factible encontrada. La taxonomía resultante tiene tres niveles de granularidad:

  • Nivel 1 (L1): 27 5 descriptores
  • Nivel 2 (L2): 392 27 descriptores
  • Nivel 3 (L3): 167 344 descriptores

Category

Total in dataset

Train

Dev

Test

Agricultural and Biological Sciences

13,128

9106

2007

2015

Arts and Humanities

6,857

4804

1060

992

Biochemistry, Genetics and Molecular Biology

15,506

10880

2303

2323

Business, Management and Accounting

6,896

4789

1050

1057

Chemical Engineering

8,277

5790

1195

1292

Chemistry

13,180

9204

1925

2051

Computer Science

13,637

9573

2036

2028

Decision Sciences

5,344

3742

798

804

Dentistry

2,970

2087

454

429

Earth and Planetary Sciences

6,429

4493

974

962

Economics, Econometrics and Finance

6,771

4776

994

1001

Energy

6,476

4552

923

1001

Engineering

14,885

10379

2191

2315

Environmental Science

10,350

7206

1541

1603

Health Professions

5,107

3608

786

713

Immunology and Microbiology

7,494

5237

1164

1093

Materials Science

9,531

6717

1367

1447

Mathematics

12,415

8699

1873

1843

Medicine

24,845

17442

3731

3671

Multidisciplinary

4,344

3059

633

652

Neuroscience

6,391

4480

971

940

Nursing

5,365

3725

812

828

Pharmacology, Toxicology and Pharmaceutics

6,122

4257

946

918

Physics and Astronomy

14,277

9992

2181

2104

Psychology

6,412

4495

968

948

Social Sciences

11,434

8054

1701

1678

Veterinary

5,043

3569

771

703

Total 

123,965

86,775

18,594

18,594

Total examples

249,486

174,715

37,355

37,411

Tabla 3. Dataset de papers (nivel 1 de granularidadL2=27 descriptores).

Entrenamiento y evaluación de clasificadores multi-etiqueta para identificación de descriptores temáticos

...

Tabla 4: Resultados para bioprotocolos (13 descriptores).



Overall results (macro avg)

P

R

F

LR

0.49

0.60

0.53

SVM

0.53

0.52

0.51

Bert-base Binary Classifiers (oversample)

0.65

0.49

0.55

Bert-base (512) - (Transformers-Pytorch) - oversample max

0.68

0.55

0.61

RoBerta-base - (Transformers-Pytorch) - oversample max

0.66

0.56

0.60

RoBerta-large - (Transformers-Pytorch) - oversample max

0.67

0.59

0.62

Bert-large-cased (256) - (Transformers-Pytorch) - oversample max

0.66

0.57

0.61

Tabla 5: Resultados para proyectos de código (21 descriptores).


Granularity

System

P

R

F

L0 (5 label)

LR

0.82

0.82

0.82

SVM

0.77

0.86

0.81

BERT

0.92

0.92

0.92

L1 (27 label)

LR

0.61

0.86

0.72

SVM

0.75

0.79

0.77

BERT

0.93

0.92

0.92

L2 (344 label)

LR

0.41

0.86

0.55

SVM

0.68

0.72

0.7

BERT

0.89

0.84

0.86

mBERT (test on Spanish papers)

0.94

0.93

0.94

...

Tabla 7: Resultados para extracción de descriptores específicos sobre papers (dataset Krapivin). Métrica de evaluación, recall at X.


Próximos trabajos:

Tabla 1: Resultados (Precision at 5) para rankings de paper similares

Se listan, a continuación, los próximos trabajos a abordar (aspectos comentados en la reunión de presentación del sprint):

  • Evaluación de representación textual basada en selección de descriptores y uso de grafos.
  • Evaluación translingüe.
  • Evaluación de protocolos y proyectos de código.
  • Experimentación sobre selección de descriptores relevantes a relación de similitud:
  • Enfoque 1: Intersección de descriptores de textos A y B.
  • Enfoque 2: Descriptores más cercanos al embedding promedio de textos A y B
  • Integración Evaluación de descriptores específicos sobre proyectos de código, e integración de matching (enlazado de entidades) en el proceso de extracción de descriptores específicos. Ver apartado de Matching en Flujo e interfaces del enriquecimiento. Descriptores y Matching.

Enriquecimiento. Identificación de ROs similares

Experimentos y resultados

Se han creado los siguientes datasets a partir de los datasets descritos en el anterior capítulo:

  • Papers: 300.000 abstracts.
  • Protocolos: 3.489 protocolos.
  • Proyectos código: 57.687 fichas.

La evaluación de los diferentes sistemas estudiados ha consistido en analizar manualmente los rankings de documentos similares devueltos por cada sistema para un grupo de 20 documentos test determinado inicialmente para cada tipo de RO (papers, protocolos, proyectos de código). Se han anotado manualmente los cinco documentos más similares de cada ranking determinando si son similares o no, para así calcular la precisión en ese corte.

Para la extracción de los rankings de documentos similares, a partir de los datasets, para cada documento test, se han analizado dos enfoques.

  1. Similitud basada en representación Bag-of-Words, ponderación tf-idf, y distancia coseno:
    • Filtrado de vocabulario muy frecuente (> 10% docs) y poco frecuente (df<4).
  2. Similitud basada en representación densa (embeddings) y ajustada a la tarea STS (Semantic Text Similarity), y distancia coseno:
    • Embeddings estimados por Bi-encoders neuronales basados en BERT y ajustados a tarea STS con más de 1000 M de tuplas de ejemplos.

Se muestran en la siguiente tabla los resultados obtenidos:

...

BoW

...

Bi-encoder MiniLM

...

P@5

...

0.55

...

0.93

  • .