La tecnología de embeddings nos permite abordar la tarea de recomendación de cursos de una manera sofisticada y semánticamente rica. Al convertir el texto de los títulos y descripciones de los cursos, así como las consultas de los usuarios, en vectores numéricos, podemos comparar efectivamente qué tan relevantes son los cursos para la consulta de un usuario. Esta comparación no se basa en una coincidencia exacta de palabras clave, sino en la similitud del significado.

Cuando un usuario ingresa una frase como "Necesito un curso de inglés", los embeddings nos permiten entender la intención detrás de la búsqueda más allá de las palabras individuales. La tecnología de OpenAI evalúa el contexto completo de la frase para generar un vector que captura su esencia semántica. De forma similar, los cursos disponibles en la plataforma son convertidos en embeddings cuando se crean, capturando la esencia de lo que enseñan y lo que un estudiante puede aprender de ellos.

El sistema analiza el embedding de la consulta del usuario y lo compara con los embeddings previamente generados de todos los cursos disponibles. Este proceso evalúa qué tan cercanos son los temas de los cursos de los que el usuario quiere aprender. Luego, organiza y muestra los cursos al usuario, empezando por aquellos que tienen mayor coincidencia en contenido y temática con la consulta realizada, asegurando así una recomendación personalizada y precisa.

Estimación de precio

A día de hoy, la tecnología de embeddings tiene un coste de $0.0001 por cada 1,000 tokens procesados. OpenAI utiliza un sistema de facturación basado en la cantidad de tokens que se utilizan para generar estos embeddings. Es importante entender que un 'token' en este contexto puede ser una palabra, una parte de ella o incluso un signo de puntuación, y no equivale directamente a un carácter. Para tener una idea precisa de cuántos tokens se están utilizando en un texto, se puede utilizar la herramienta proporcionada por OpenAI en su plataforma: https://platform.openai.com/tokenizer .

Ahora, pongamos un caso práctico con los costes asociados al uso de embeddings en una plataforma de cursos en línea:

Supongamos que cada curso en la plataforma tiene un título y una descripción que, en conjunto, promedian 150 tokens después de ser procesados por el tokenizador de OpenAI. Además, cada consulta de búsqueda que realiza un usuario tiene un promedio de 20 tokens.

Costos de Generación de Embeddings para Cursos:

Costos de Procesamiento de Consultas de Usuario:

Por tanto, para poner en marcha el sistema de recomendación de cursos con estos parámetros, necesitaríamos una inversión inicial de $2.25 para procesar los embeddings de los cursos existentes. A esto, le sumaríamos un coste recurrente de $0.30 mensuales para atender las consultas de búsqueda de los usuarios, siempre y cuando se mantenga el promedio de tokens.