...
Se ha creado un dataset que incluye descripciones de proyectos de código enlazados con los correspondientes descriptores temáticos (21) a partir de sourceforge.net. En un primer paso, se han descargado los nombres de los proyectos alojados en sourceforge mediante scraping a partir del directorio https://sourceforge.net/directory. Posteriormente, se han obtenido los metadatos (que incluyen los descriptores temáticos) de cada nombre utilizando el API sourceforge.net/projects/codeblocks.). Se muestra, a continuación, las estadísticas para los descriptores de primer nivel:
...
ASJC de Scopus y arXiv utilizan descriptores diferentes en sus clasificaciones, por lo que ha sido necesario hacer una fusión entre los dos sistemas de clasificación. También se ha realizado el mismo proceso de integración con los descriptores de la clasificación MESH de PubMed que cuelgan de la entrada “Medicine”, dado que investigadores consultados en dicho dominio así lo han sugerido. Por lo tanto, la taxonomía fusionada es la resultante de la única aproximación factible encontrada. La taxonomía resultante tiene tres niveles de granularidad:
- Nivel 1 (L1): 27 5 descriptores
- Nivel 2 (L2): 392 27 descriptores
- Nivel 3 (L3): 167 344 descriptores
Category | Total in dataset | Train | Dev | Test |
Agricultural and Biological Sciences | 13,128 | 9106 | 2007 | 2015 |
Arts and Humanities | 6,857 | 4804 | 1060 | 992 |
Biochemistry, Genetics and Molecular Biology | 15,506 | 10880 | 2303 | 2323 |
Business, Management and Accounting | 6,896 | 4789 | 1050 | 1057 |
Chemical Engineering | 8,277 | 5790 | 1195 | 1292 |
Chemistry | 13,180 | 9204 | 1925 | 2051 |
Computer Science | 13,637 | 9573 | 2036 | 2028 |
Decision Sciences | 5,344 | 3742 | 798 | 804 |
Dentistry | 2,970 | 2087 | 454 | 429 |
Earth and Planetary Sciences | 6,429 | 4493 | 974 | 962 |
Economics, Econometrics and Finance | 6,771 | 4776 | 994 | 1001 |
Energy | 6,476 | 4552 | 923 | 1001 |
Engineering | 14,885 | 10379 | 2191 | 2315 |
Environmental Science | 10,350 | 7206 | 1541 | 1603 |
Health Professions | 5,107 | 3608 | 786 | 713 |
Immunology and Microbiology | 7,494 | 5237 | 1164 | 1093 |
Materials Science | 9,531 | 6717 | 1367 | 1447 |
Mathematics | 12,415 | 8699 | 1873 | 1843 |
Medicine | 24,845 | 17442 | 3731 | 3671 |
Multidisciplinary | 4,344 | 3059 | 633 | 652 |
Neuroscience | 6,391 | 4480 | 971 | 940 |
Nursing | 5,365 | 3725 | 812 | 828 |
Pharmacology, Toxicology and Pharmaceutics | 6,122 | 4257 | 946 | 918 |
Physics and Astronomy | 14,277 | 9992 | 2181 | 2104 |
Psychology | 6,412 | 4495 | 968 | 948 |
Social Sciences | 11,434 | 8054 | 1701 | 1678 |
Veterinary | 5,043 | 3569 | 771 | 703 |
Total | 123,965 | 86,775 | 18,594 | 18,594 |
Total examples | 249,486 | 174,715 | 37,355 | 37,411 |
Tabla 3. Dataset de papers (nivel 1 de granularidadL2=27 descriptores).
Entrenamiento y evaluación de clasificadores multi-etiqueta para identificación de descriptores temáticos
...
Tabla 4: Resultados para bioprotocolos (13 descriptores).
Overall results (macro avg) | P | R | F |
LR | 0.49 | 0.60 | 0.53 |
SVM | 0.53 | 0.52 | 0.51 |
Bert-base Binary Classifiers (oversample) | 0.65 | 0.49 | 0.55 |
Bert-base (512) - (Transformers-Pytorch) - oversample max | 0.68 | 0.55 | 0.61 |
RoBerta-base - (Transformers-Pytorch) - oversample max | 0.66 | 0.56 | 0.60 |
RoBerta-large - (Transformers-Pytorch) - oversample max | 0.67 | 0.59 | 0.62 |
Bert-large-cased (256) - (Transformers-Pytorch) - oversample max | 0.66 | 0.57 | 0.61 |
Tabla 5: Resultados para proyectos de código (21 descriptores).
Granularity | System | P | R | F |
L0 (5 label) | LR | 0.82 | 0.82 | 0.82 |
SVM | 0.77 | 0.86 | 0.81 | |
BERT | 0.92 | 0.92 | 0.92 | |
L1 (27 label) | LR | 0.61 | 0.86 | 0.72 |
SVM | 0.75 | 0.79 | 0.77 | |
BERT | 0.93 | 0.92 | 0.92 | |
L2 (344 label) | LR | 0.41 | 0.86 | 0.55 |
SVM | 0.68 | 0.72 | 0.7 | |
BERT | 0.89 | 0.84 | 0.86 | |
mBERT (test on Spanish papers) | 0.94 | 0.93 | 0.94 |
...
Tabla 7: Resultados para extracción de descriptores específicos sobre papers (dataset Krapivin). Métrica de evaluación, recall at X.
Próximos trabajos:
Tabla 1: Resultados (Precision at 5) para rankings de paper similares
Se listan, a continuación, los próximos trabajos a abordar (aspectos comentados en la reunión de presentación del sprint):
- Evaluación de representación textual basada en selección de descriptores y uso de grafos.
- Evaluación translingüe.
- Evaluación de protocolos y proyectos de código.
- Experimentación sobre selección de descriptores relevantes a relación de similitud:
- Enfoque 1: Intersección de descriptores de textos A y B. Enfoque 2: Descriptores más cercanos al embedding promedio de textos A y B
- Integración Evaluación de descriptores específicos sobre proyectos de código, e integración de matching (enlazado de entidades) en el proceso de extracción de descriptores específicos. Ver apartado de Matching en Flujo e interfaces del enriquecimiento. Descriptores y Matching.
Enriquecimiento. Identificación de ROs similares
Experimentos y resultados
Se han creado los siguientes datasets a partir de los datasets descritos en el anterior capítulo:
- Papers: 300.000 abstracts.
- Protocolos: 3.489 protocolos.
- Proyectos código: 57.687 fichas.
La evaluación de los diferentes sistemas estudiados ha consistido en analizar manualmente los rankings de documentos similares devueltos por cada sistema para un grupo de 20 documentos test determinado inicialmente para cada tipo de RO (papers, protocolos, proyectos de código). Se han anotado manualmente los cinco documentos más similares de cada ranking determinando si son similares o no, para así calcular la precisión en ese corte.
Para la extracción de los rankings de documentos similares, a partir de los datasets, para cada documento test, se han analizado dos enfoques.
- Similitud basada en representación Bag-of-Words, ponderación tf-idf, y distancia coseno:
- Filtrado de vocabulario muy frecuente (> 10% docs) y poco frecuente (df<4).
- Similitud basada en representación densa (embeddings) y ajustada a la tarea STS (Semantic Text Similarity), y distancia coseno:
- Embeddings estimados por Bi-encoders neuronales basados en BERT y ajustados a tarea STS con más de 1000 M de tuplas de ejemplos.
Se muestran en la siguiente tabla los resultados obtenidos:
...
BoW
...
Bi-encoder MiniLM
...
P@5
...
0.55
...
0.93
- .