...

Se ha creado un dataset que incluye descripciones de proyectos de código enlazados con los correspondientes descriptores temáticos (21) a partir de sourceforge.net. En un primer paso, se han descargado los nombres de los proyectos alojados en sourceforge mediante scraping a partir del directorio https://sourceforge.net/directory. Posteriormente, se han obtenido los metadatos (que incluyen los descriptores temáticos) de cada nombre utilizando el API sourceforge.net/projects/codeblocks.). Se muestra, a continuación, las estadísticas para los descriptores de primer nivel:

ASJC de Scopus y arXiv utilizan descriptores diferentes en sus clasificaciones, por lo que ha sido necesario hacer una fusión entre los dos sistemas de clasificación. También se ha realizado el mismo proceso de integración con los descriptores de la clasificación MESH de PubMed que cuelgan de la entrada “Medicine”, dado que investigadores consultados en dicho dominio así lo han sugerido. Por lo tanto, la taxonomía fusionada es la resultante de la única aproximación factible encontrada. La taxonomía resultante tiene tres niveles de granularidad:

Nivel 1 (L1): 27 5 descriptores
Nivel 2 (L2): 392 27 descriptores
Nivel 3 (L3): 167 344 descriptores

Category	Total in dataset	Train	Dev	Test
Agricultural and Biological Sciences	13,128	9106	2007	2015
Arts and Humanities	6,857	4804	1060	992
Biochemistry, Genetics and Molecular Biology	15,506	10880	2303	2323
Business, Management and Accounting	6,896	4789	1050	1057
Chemical Engineering	8,277	5790	1195	1292
Chemistry	13,180	9204	1925	2051
Computer Science	13,637	9573	2036	2028
Decision Sciences	5,344	3742	798	804
Dentistry	2,970	2087	454	429
Earth and Planetary Sciences	6,429	4493	974	962
Economics, Econometrics and Finance	6,771	4776	994	1001
Energy	6,476	4552	923	1001
Engineering	14,885	10379	2191	2315
Environmental Science	10,350	7206	1541	1603
Health Professions	5,107	3608	786	713
Immunology and Microbiology	7,494	5237	1164	1093
Materials Science	9,531	6717	1367	1447
Mathematics	12,415	8699	1873	1843
Medicine	24,845	17442	3731	3671
Multidisciplinary	4,344	3059	633	652
Neuroscience	6,391	4480	971	940
Nursing	5,365	3725	812	828
Pharmacology, Toxicology and Pharmaceutics	6,122	4257	946	918
Physics and Astronomy	14,277	9992	2181	2104
Psychology	6,412	4495	968	948
Social Sciences	11,434	8054	1701	1678
Veterinary	5,043	3569	771	703
Total	123,965	86,775	18,594	18,594
Total examples	249,486	174,715	37,355	37,411

Tabla 3. Dataset de papers (nivel 1 de granularidadL2=27 descriptores).

Entrenamiento y evaluación de clasificadores multi-etiqueta para identificación de descriptores temáticos

...

Tabla 4: Resultados para bioprotocolos (13 descriptores).

Overall results (macro avg)	P	R	F
LR	0.49	0.60	0.53
SVM	0.53	0.52	0.51
Bert-base Binary Classifiers (oversample)	0.65	0.49	0.55
Bert-base (512) - (Transformers-Pytorch) - oversample max	0.68	0.55	0.61
RoBerta-base - (Transformers-Pytorch) - oversample max	0.66	0.56	0.60
RoBerta-large - (Transformers-Pytorch) - oversample max	0.67	0.59	0.62
Bert-large-cased (256) - (Transformers-Pytorch) - oversample max	0.66	0.57	0.61

Tabla 5: Resultados para proyectos de código (21 descriptores).

Granularity	System	P	R	F
L0 (5 label)	LR	0.82	0.82	0.82
	SVM	0.77	0.86	0.81
	BERT	0.92	0.92	0.92
L1 (27 label)	LR	0.61	0.86	0.72
	SVM	0.75	0.79	0.77
	BERT	0.93	0.92	0.92
L2 (344 label)	LR	0.41	0.86	0.55
	SVM	0.68	0.72	0.7
	BERT	0.89	0.84	0.86
	mBERT (test on Spanish papers)	0.94	0.93	0.94

...

Tabla 7: Resultados para extracción de descriptores específicos sobre papers (dataset Krapivin). Métrica de evaluación, recall at X.

Próximos trabajos:

Tabla 1: Resultados (Precision at 5) para rankings de paper similares

Se listan, a continuación, los próximos trabajos a abordar (aspectos comentados en la reunión de presentación del sprint):

Evaluación de representación textual basada en selección de descriptores y uso de grafos.
Evaluación translingüe.
Evaluación de protocolos y proyectos de código.
Experimentación sobre selección de descriptores relevantes a relación de similitud:
Enfoque 1: Intersección de descriptores de textos A y B.

Enfoque 2: Descriptores más cercanos al embedding promedio de textos A y B

Integración Evaluación de descriptores específicos sobre proyectos de código, e integración de matching (enlazado de entidades) en el proceso de extracción de descriptores específicos. Ver apartado de Matching en Flujo e interfaces del enriquecimiento. Descriptores y Matching.

Enriquecimiento. Identificación de ROs similares

Experimentos y resultados

Se han creado los siguientes datasets a partir de los datasets descritos en el anterior capítulo:

Papers: 300.000 abstracts.
Protocolos: 3.489 protocolos.
Proyectos código: 57.687 fichas.

La evaluación de los diferentes sistemas estudiados ha consistido en analizar manualmente los rankings de documentos similares devueltos por cada sistema para un grupo de 20 documentos test determinado inicialmente para cada tipo de RO (papers, protocolos, proyectos de código). Se han anotado manualmente los cinco documentos más similares de cada ranking determinando si son similares o no, para así calcular la precisión en ese corte.

Para la extracción de los rankings de documentos similares, a partir de los datasets, para cada documento test, se han analizado dos enfoques.

Similitud basada en representación Bag-of-Words, ponderación tf-idf, y distancia coseno:

Filtrado de vocabulario muy frecuente (> 10% docs) y poco frecuente (df<4).

Similitud basada en representación densa (embeddings) y ajustada a la tarea STS (Semantic Text Similarity), y distancia coseno:

Embeddings estimados por Bi-encoders neuronales basados en BERT y ajustados a tarea STS con más de 1000 M de tuplas de ejemplos.

Se muestran en la siguiente tabla los resultados obtenidos:

...

BoW

...

Bi-encoder MiniLM

...

P@5

...

0.55

...

0.93

.

Árbol de páginas

Versiones comparadas

Versión anterior 4

Nueva versión 5

Clave

Entrenamiento y evaluación de clasificadores multi-etiqueta para identificación de descriptores temáticos

Enriquecimiento. Identificación de ROs similares

Experimentos y resultados

Árbol de páginas

Historial de página

Versiones comparadas

Versión anterior 4

Nueva versión 5

Clave

Entrenamiento y evaluación de clasificadores multi-etiqueta para identificación de descriptores temáticos

Enriquecimiento. Identificación de ROs similares

Experimentos y resultados