Árbol de páginas

Versiones comparadas

Clave

  • Se ha añadido esta línea.
  • Se ha eliminado esta línea.
  • El formato se ha cambiado.

...

La clusterización se utilizará para encontrar aspectos en común entre los investigadores y encontrar grupos entre ellos, pero antes de generar N clúster, se procederá a utilizar algoritmos de Machine Learning para la reducción de la dimensionalidad en los vectores generados por el vocabulario (NLP) . Una vez usando el algoritmo UMAP, el cual es el elegido para la reducción de dimensión ya que se utiliza normalmente para explorar relaciones multivariantes entre variables y para reducir el coste de cálculo de algoritmos de aprendizaje automático en los que la memoria requerida y el tiempo de procesamiento dependen del número de dimensiones de los datos. Posteriormente, se aplicarán técnicas de clustering, ya que estas son compatibles con el pre-procesamiento de UMAP, en concreto, haremos uso de HDBSCAN. La decisión de utilizar HDBSCAN frente a otros algoritmos de clustering, es debido a que HDBSCAN puede trabajar con grandes conjuntos de datos y no necesita de la especificación del número de clústeres.

...