Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

Este módulo cognitivo es la parte innovadora de este subproyecto de HÉRCULES. Esta librería proporcionará el poder desarrollar procesos mucho más completos y detallados. Por ejemplo, en el caso de encaje entre convocatorias del Módulo B, este proceso se apoyará en el uso del módulo cognitivo, ya que seremos capaces de obtener una colección de investigadores a quienes ofrecer convocatorias, únicamente pasando como parámetro el palabras la palabra clave y el área temática de dicha convocatoria, o solamente uno de los dos, para que sea más efectiva es recomendado que se pasen ambos parámetros.

...

  1. Extracción de datos de los subsistemas HÉRCULES.
  2. Tratamiento de datos.
  3. Agrupación.
  4. Datos de salida.
  5. Planificación.

Extracción de datos de los subsistemas HÉRCULES.

...

Una vez obtenidos los datos, el orden natural en el análisis de datos es hacer un preprocesadopre-procesado, donde se limpiarán aquellos datos que pueden entorpecer el entendimiento de los mismos.

...

La clusterización se utilizará para encontrar aspectos en común entre los investigadores y encontrar grupos. Así, si un porcentaje significativo de los investigadores tiene ciertos aspectos en común (áreas temáticas o tag/descriptores) se agruparán, con el objetivo de enfocar y justificar la entrega de anuncios que puedan ser de interés, por ejemplo : las convocatorias.

El objetivo principal es conseguir N clusters clústeres donde podamos agrupar a los investigadores. Para ello, se utilizará el algoritmo UMAP, el cual es un algoritmo de reducción de dimensión que se utiliza normalmente para explorar relaciones multivariantes entre variables y para reducir el coste de cálculo de algoritmos de aprendizaje automático en los que la memoria requerida y el tiempo de procesamiento dependen del número de dimensiones de los datos. Posteriormente, se intentará aplicar técnicas de clústeringclustering, ya que estas son compatibles con el pre-procesamiento de UMAP, en concreto, haremos uso de HDBSCAN. La decisión de utilizar HDBSCAN frentre frente a otros algoritmos de clustering, es porque debido a que HDBSCAN puede trabajar con grandes conjuntos de datos y no necesita de la especificación del número de clustersclústeres, existen más ventajas al igual que desventajas que no se van a e enumerar en este apartado, pues se entiende que no es necesario.

Por último, la salida del algoritmos HDBSCAN  HDBSCAN proporcionará N clustersclústeres, por lo que el conjunto de datos quedaría de la siguiente forma: tag, nombreCategoria, email, hdbscan_label_cluster.

...

Los datos de salida podrán ser consultados vía API REST, con el objetivo de que cualquiera pueda obtener un conjunto de investigadores, que esten estén agrupados en un área temática, tag o ambas. Por otro lado, también se trabaja en la posibilidad de obtener los diferentes clusters clústeres junto con los investigadores pertenecientes.

...

El algoritmo de clustering, no es un algoritmo que se deba estar ejecutando constantemente, debido a que puede demorarse su ejecución mucho tiempo impidiendo al robot que lo ejecute realizar otra tarea, ya que estos algoritmos son dependientes de los datos y de la capacidad de computo. Por tanto, este algoritmo se debe ejecutar únicamente una vez al diadía, a la semana o mensualal mes, ya que una vez ejecutado podremos almacenar los datos de salida para poder consultarlos en cualquier momento.

...