Tabla de contenidos
Preparación de datasets
Se ha definido una taxonomía unificada que cubre las diferentes áreas de conocimiento y los diferentes tipos de de RO:
...
- Protocolos: Bio-protocol.
- Proyectos código: Sourceforge.
- Papers: Arxiv + dataset interno (autores españoles).
Dataset de ROs de bioprotocolos
Se ha creado un dataset mediante scraping de las páginas de bio-protocol.org. Hemos recuperado 6.473 protocolos, obteniendo los siguientes metadatos para cada uno de ellos: título, autores, DOI, publicación, resumen, palabras clave, background, materiales, equipamiento, software, procedimiento, análisis de datos, notas, recetas, reconocimientos, declaración de intereses, ética, referencias y categorías.
Category | Total in dataset | Train | Dev | test |
Biochemistry | 1009 | 705 | 154 | 150 |
Biophysics | 43 | 32 | 4 | 7 |
Cancer_Biology | 320 | 226 | 49 | 45 |
Cell_Biology | 1401 | 972 | 213 | 216 |
Developmental_Biology | 172 | 130 | 14 | 28 |
Environmental_science | 11 | 7 | 2 | 2 |
Immunology | 435 | 297 | 71 | 67 |
Microbiology | 895 | 601 | 153 | 141 |
Molecular_Biology | 733 | 498 | 103 | 132 |
Neuroscience | 441 | 296 | 78 | 67 |
Plant_Science | 754 | 542 | 98 | 114 |
Stem_Cell | 162 | 113 | 24 | 25 |
Systems_Biology | 97 | 67 | 18 | 12 |
Total | 6473 | 4486 | 981 | 1006 |
Total examples | 3489 | 2435 | 525 | 529 |
Tabla 1: Dataset de bioprotocolos.
Dataset de descripciones de proyectos de código
Se ha creado un dataset que incluye descripciones de proyectos de código enlazados con los correspondientes descriptores temáticos a partir de sourceforge.net. En un primer paso, se han descargado los nombres de los proyectos alojados en sourceforge mediante scraping a partir del directorio https://sourceforge.net/directory. Posteriormente, se han obtenido los metadatos (que incluyen los descriptores temáticos) de cada nombre utilizando el API sourceforge.net/projects/codeblocks.). Se muestra, a continuación, las estadísticas para los descriptores de primer nivel:
Category | Total in dataset | Train | Dev | test |
Multimedia | 7112 | 4970 | 1080 | 1062 |
Desktop Environment | 4539 | 3180 | 684 | 675 |
Social sciences | 393 | 273 | 62 | 58 |
Mobile | 1356 | 956 | 205 | 195 |
Sociology | 309 | 232 | 33 | 44 |
Blockchain | 120 | 81 | 19 | 20 |
Scientific/Engineering | 6977 | 4912 | 982 | 1083 |
Software Development | 9055 | 6352 | 1343 | 1360 |
Internet | 7993 | 5566 | 1223 | 1204 |
Formats and Protocols | 4713 | 3344 | 666 | 703 |
Religion and Philosophy | 553 | 389 | 85 | 79 |
Database | 4900 | 3442 | 738 | 720 |
Security | 4684 | 3300 | 692 | 692 |
Communications | 6047 | 4191 | 928 | 928 |
Games/Entertainment | 5482 | 3860 | 812 | 810 |
Office/Business | 5623 | 3984 | 808 | 831 |
System | 7888 | 5500 | 1176 | 1212 |
Education | 4719 | 3292 | 726 | 701 |
Terminals | 1061 | 737 | 162 | 162 |
Text Editors | 4504 | 3180 | 661 | 663 |
Printing | 830 | 567 | 135 | 128 |
Total | 88858 | 62308 | 13220 | 13330 |
Total examples | 57687 | 40381 | 8653 | 8653 |
Tabla 2: Dataset de proyectos de código.
Dataset de artículos científicos
Se está creando un dataset de artículos científicos con un doble objetivo: servir de entrenamiento para la extracción de descriptores y utilizarlo para obtener datos que permitan realizar pruebas de carga. Para la elaboración del dataset nos hemos encontrado con múltiples problemas legales y restricciones en el uso de fuentes de datos como WoS, Dialnet y otras. Por ello, se están utilizando las siguientes fuentes de datos disponibles para ello y que igualmente condicionan la elaboración de una taxonomía unificada de descriptores temáticos:
...
- Nivel 1: 27 descriptores
- Nivel 2: 392 descriptores
- Nivel 3: 167 descriptores
Category | Total in dataset | Train | Dev | Test |
Agricultural and Biological Sciences | 13,128 | 9106 | 2007 | 2015 |
Arts and Humanities | 6,857 | 4804 | 1060 | 992 |
Biochemistry, Genetics and Molecular Biology | 15,506 | 10880 | 2303 | 2323 |
Business, Management and Accounting | 6,896 | 4789 | 1050 | 1057 |
Chemical Engineering | 8,277 | 5790 | 1195 | 1292 |
Chemistry | 13,180 | 9204 | 1925 | 2051 |
Computer Science | 13,637 | 9573 | 2036 | 2028 |
Decision Sciences | 5,344 | 3742 | 798 | 804 |
Dentistry | 2,970 | 2087 | 454 | 429 |
Earth and Planetary Sciences | 6,429 | 4493 | 974 | 962 |
Economics, Econometrics and Finance | 6,771 | 4776 | 994 | 1001 |
Energy | 6,476 | 4552 | 923 | 1001 |
Engineering | 14,885 | 10379 | 2191 | 2315 |
Environmental Science | 10,350 | 7206 | 1541 | 1603 |
Health Professions | 5,107 | 3608 | 786 | 713 |
Immunology and Microbiology | 7,494 | 5237 | 1164 | 1093 |
Materials Science | 9,531 | 6717 | 1367 | 1447 |
Mathematics | 12,415 | 8699 | 1873 | 1843 |
Medicine | 24,845 | 17442 | 3731 | 3671 |
Multidisciplinary | 4,344 | 3059 | 633 | 652 |
Neuroscience | 6,391 | 4480 | 971 | 940 |
Nursing | 5,365 | 3725 | 812 | 828 |
Pharmacology, Toxicology and Pharmaceutics | 6,122 | 4257 | 946 | 918 |
Physics and Astronomy | 14,277 | 9992 | 2181 | 2104 |
Psychology | 6,412 | 4495 | 968 | 948 |
Social Sciences | 11,434 | 8054 | 1701 | 1678 |
Veterinary | 5,043 | 3569 | 771 | 703 |
Total | 123,965 | 86,775 | 18,594 | 18,594 |
Total examples | 249,486 | 174,715 | 37,355 | 37,411 |
Tabla 3. Dataset de papers (nivel 1 de granularidad).
Entrenamiento y evaluación de clasificadores multi-etiqueta para identificación de descriptores temáticos
A partir del dataset presentado anteriormente se han entrenado clasificadores multi-etiqueta utilizando diferentes estrategias de representación textual y diferentes algoritmos. Por un lado, se ha analizado una representación textual no densa basada en bolsa-de-palabras, y por otro, una representación densa basada en embeddings contextuales.
...
Se muestran, a continuación, los resultados (según las métricas de Precision, Recall, y F-score) obtenidos en los experimentos:
Overall results (macro avg) | P | R | F |
LR | 0.66 | 0.59 | 0.62 |
SVM | 0.59 | 0.46 | 0.52 |
Bert-base Binary Classifiers (oversample) | |||
Bert-base - (Zuhaitz-TF) - oversample max | 0.67 | 0.56 | 0.60 |
Bert-base - (Transformers-Pytorch) - oversample max | 0.68 | 0.56 | 0.61 |
Electra-base - (Transformers-Pytorch) - oversample max | 0.69 | 0.54 | 0.58 |
RoBerta-base - (Transformers-Pytorch) - oversample max | 0.68 | 0.61 | 0.64 |
RoBerta-large - (Transformers-Pytorch) - oversample max | 0.65 | 0.65 | 0.65 |
Bert-large-cased - (Transformers-Pytorch) - oversample max | 0.63 | 0.59 | 0.60 |
Electra-large - (Transformers-Pytorch) - oversample max | 0.65 | 0.48 | 0.53 |
BigBird-base-(2048) - (Transformers-Pytorch) - oversample max | 0.66 | 0.58 | 0.61 |
Tabla 4: Resultados para bioprotocolos.
Overall results (macro avg) | P | R | F |
LR | 0.49 | 0.60 | 0.53 |
SVM | 0.53 | 0.52 | 0.51 |
Bert-base Binary Classifiers (oversample) | 0.65 | 0.49 | 0.55 |
Bert-base (512) - (Transformers-Pytorch) - oversample max | 0.68 | 0.55 | 0.61 |
RoBerta-base - (Transformers-Pytorch) - oversample max | 0.66 | 0.56 | 0.60 |
RoBerta-large - (Transformers-Pytorch) - oversample max | 0.67 | 0.59 | 0.62 |
Bert-large-cased (256) - (Transformers-Pytorch) - oversample max | 0.66 | 0.57 | 0.61 |
Tabla 5: Resultados para proyectos de código.
Granularity | System | P | R | F |
L0 (5 label) | LR | 0.82 | 0.82 | 0.82 |
SVM | 0.77 | 0.86 | 0.81 | |
BERT | 0.92 | 0.92 | 0.92 | |
L1 (27 label) | LR | 0.61 | 0.86 | 0.72 |
SVM | 0.75 | 0.79 | 0.77 | |
BERT | 0.93 | 0.92 | 0.92 | |
L2 (344 label) | LR | 0.41 | 0.86 | 0.55 |
SVM | 0.68 | 0.72 | 0.7 | |
BERT | 0.89 | 0.84 | 0.86 | |
mBERT (test on Spanish papers) | 0.94 | 0.93 | 0.94 |
Tabla 6: Resultados para papers con distintas granularidades de la taxonomía. También se incluyen resultados de evaluación multilingüe mostrando resultados para papers en castellano (mBERT).
Entrenamiento y evaluación de sistema para identificación de descriptores específicos
Se ha experimentado con un enfoque de extracción consistente de dos componentes: extractor de sintagmas nominales para identificar los candidatos a descriptor específico, y clasificador supervisado para cribar los candidatos. Para implementar el clasificador supervisado se han analizado dos enfoques. La estructura del sistema estudiado sería la siguiente:
...
Se muestran, a continuación, los resultados obtenidos sobre el dataset de papers Krapivin descrito en el capítulo 2.
Gradient Boosting | Bert (pair-sentence classification) | |||||
Score type | All | Single-word | Multi-word | All | Single-word | Multi-word |
R@5 | 0.35 | 0.50 | 0.62 | 0.31 | 0.43 | 0.38 |
R@10 | 0.53 | 0.65 | 0.77 | 0.44 | 0.52 | 0.54 |
R@15 | 0.62 | 0.75 | 0.83 | 0.52 | 0.58 | 0.62 |
R@20 | 0.70 | 0.82 | 0.89 | 0.57 | 0.62 | 0.67 |
Tabla 7: Resultados para extracción de descriptores específicos sobre papers (dataset Krapivin). Métrica de evaluación, recall at X.
...
- Integración de matching (enlazado de entidades) en el proceso de extracción de descriptores específicos. Ver apartado de Matching en Flujo e interfaces del enriquecimiento. Descriptores y Matching.
Enriquecimiento. Identificación de ROs similares (en elaboración)
Experimentos y resultados
Se han creado los siguientes datasets a partir de los datasets descritos en el anterior capítulo:
...
Se muestran en la siguiente tabla los resultados obtenidos:
BoW | Bi-encoder MiniLM | |
P@5 | 0.55 | 0.93 |
Tabla 1: Resultados (Precision at 5) para rankings de paper similares
...