Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

Agrupación

La clusterización se usará utilizará para encontrar aspectos en común entre los investigadores para y encontrar grupos. Así, si un porcentaje significativo de los investigadores tiene ciertos aspectos en común (áreas temáticas o tag/descriptores) los podremos agruparse agruparán, con el objetivo de enfocar y justificar la entrega de anuncios que puedan ser de interés, por ejemplo: convocatorias.

El objetivo principal es conseguir n N clusters , donde podamos agrupar a los investigadores. Para ello, haremos uso del se utilizará el algoritmo UMAP, el cual es un algoritmo de reducción de dimensión que se utiliza normalmente para explorar relaciones multivariantes entre variables , y para reducir el coste de cálculo de algoritmos de aprendizaje automático en los que la memoria requerida y el tiempo de procesamiento dependen del número de dimensiones de los datos. Posteriormente, se podrá intentar intentará aplicar técnicas de clústering, ya que estas son compatibles con el pre-procesamiento de UMAP, en concreto, haremos uso de HDBSCAN. La decisión de utilizar HDBSCAN frentre a otros algoritmos de clustering, es porque HDBSCAN puede trabajar con grandes conjuntos de datos y no necesita de la especificación del número de clusters, existen más ventajas al igual que desventajas que no se van a e enumerar en este apartado, pues se entiende que no es necesario.

Por último, la salida del algoritmos HDBSCAN nos HDBSCAN  proporcionará n N clusters, por lo que nuestro el conjunto de datos quedaría de la siguiente forma: tag, nombreCategoria, email, hdbscan_label_cluster.

De esta forma, ya tenemos agrupados se agrupará a los investigadores por sus áreas temáticas y tags.

...

Los datos de salida podrán ser consultados vía API REST, con el objetivo de que cualquiera pueda obtener un conjunto de investigadores, que esten agrupados en cierta un área temática, tag o ambas. Por otro lado, también se trabaja en la posibilidad de obtener los diferentes clusters junto con los investigadores pertenecientes.

...