4.2 Módulo de recomendaciones

El módulo de recomendación de cursos utiliza tecnología de procesamiento de lenguaje natural a través de la API de embeddings de OpenAI para generar recomendaciones personalizadas a los usuarios basadas en su historial de cursos. Este proceso comienza cuando un curso pasa al estado de inscripción, momento en el cual se envía su información relevante (título, descripción y etiquetas) a la API de búsqueda. Esta API procesa la información y obtiene vectores semánticos o embeddings que luego son almacenados para su uso en las recomendaciones.

Proceso de Tokenización y Generación de Embeddings

Cuando un curso se registra o actualiza su estado a "Inscripción", la siguiente información es enviada a la API de búsqueda:

Título del curso
Descripción del curso
Etiquetas asociadas

Esta información se transmite a la API de embeddings de OpenAI, que convierte el texto en una serie de tokens. Los tokens son representaciones numéricas que capturan el significado y la semántica del contenido del curso. Cada palabra o frase se convierte en un vector en un espacio dimensional donde los textos con significados similares están próximos entre sí.

Costos Asociados

La tokenización tiene un costo asociado que se calcula en función del número de tokens generados. La API de OpenAI tiene un coste de $0.02 por cada millón de tokens procesados. Por ejemplo, procesar la descripción de un curso como el siguiente:

MOOC Machine Learning y Big Data para la Bioinformática. 4ª Edición

“La bioinformática es un campo de estudio interdisciplinar que utiliza las tecnologías de la información y de las ciencias de la computación para estudiar, analizar y extraer conocimiento útil a partir de la información recopilada desde distintas áreas de las Bio-Ciencias y Bio-Salud. Esto y mucho más lo veremos en el transcurso del MOOC La revolución digital que hemos experimentado en los últimos años ha permitido recopilar una gran cantidad de información desde distintas áreas de la Bio-Ciencia y la Bio-Salud. Esto ha provocado que la bioinformática se haya convertido en una de las áreas más emergentes para estudiar, analizar y extraer conocimiento útil de esta información haciendo uso de técnicas de las ciencias de la computación. Por ejemplo, estas técnicas permiten abrir nuevas fronteras en la ingeniería biomédica al mejorar nuestra comprensión sobre enfermedades complejas como el cáncer o los trastornos neurodegenerativos y psiquiátricos. Estos avances pueden conducir al desarrollo de herramientas que realicen un diagnóstico automatizado de los pacientes, permitiendo proporcionar tratamientos médicos personalizados que tengan en cuenta la variabilidad individual, el estilo de vida y el entorno de cada paciente. Al mismo tiempo permite, de una forma más rápida y eficaz, el desarrollo de nuevos fármacos y vacunas más eficaces. Sin embargo, la cantidad de información ha llegado a ser tan grande que es muy difícil analizarla mediante las tecnologías tradicionales. Esto ha provocado que en la actualidad las técnicas de la I.A. y Machine Learning hayan experimentado un notable impulso debido a su capacidad para obtener de forma automática conocimiento útil, realizar predicciones y ayudar a la toma de decisiones. En algunos casos, debido a que la cantidad de información ha llegado a ser enorme, conocido como Big Data, es incluso necesario la utilización de técnicas especiales que permitan tratar con esa cantidad masiva de datos. En este MOOC queremos presentar una visión práctica y aplicada sobre las tareas relativas al Machine Learning y sus principales técnicas. Para ello, el curso esta dividido en 8 módulos en los que contaremos con más de 10 profesores, investigadores y especialistas en cada una de las áreas. Nuestra intención es proporcionar un aprendizaje fácil y sencillo, pero con todo el rigor científico sobre la Bioinformática y el Machine Learning sin necesidad de tener unos elevados conocimientos en un lenguaje de programación (Python). El curso se desarrollará a través de la plataforma de la universidad de Granada 'AbiertaUGR', con enlaces directos a la plataforma Google Colaboratory que permitirá tener constancia de la actividad del alumno para una posterior evaluación y reconocimiento a través de insignias. Para ello se utilizarán materiales audio visuales, notebooks, recursos didácticos complementarios, testimonios de personas relevantes, actividades, y cuestionarios. Además, dispondremos de asistencia directa a través de la plataforma. De esta forma, ponemos a vuestra disposición un MOOC de abierta UGR para uno de los campos de mayor proyección en la actualidad.”

Supondría un total de 748 tokens. Por lo tanto, el coste sería de 0,00001496$.

Se pueden hacer estimaciones de tokens desde el tokenizador de OpenAI: https://platform.openai.com/tokenizer

Almacenamiento de Vectores

Los vectores obtenidos de la tokenización se almacenan en una base de datos vectorial junto con un identificador único (uid) para cada curso. Esta base de datos está optimizada para realizar búsquedas semánticas eficientes, permitiendo encontrar cursos con contenido semánticamente similar.

Recomendación de Cursos y Programas Formativos

Cuando un usuario solicita recomendaciones, el sistema realiza los siguientes pasos:

Recopilación de cursos y programas formativos previos: Se obtienen los UIDs de los cursos y programas formativos en los que el usuario se ha inscrito previamente.
Búsqueda de vectores: La API de búsqueda recupera los vectores almacenados correspondientes a estos cursos.
Búsqueda semántica: Utilizando estos vectores, la API realiza una búsqueda para identificar otros cursos con vectores similares en la base de datos.
Generación de recomendaciones: Se devuelve al usuario una lista de cursos recomendados basada en las similitudes encontradas en los vectores.

Árbol de páginas

Proceso de Tokenización y Generación de Embeddings

Costos Asociados

Almacenamiento de Vectores

Recomendación de Cursos y Programas Formativos

Diagrama de flujo al obtener recomendaciones

Diagrama de flujo para la tokenización