La tecnología de embeddings nos permite abordar la tarea de recomendación de cursos de una manera sofisticada y semánticamente rica. Al convertir el texto de los títulos y descripciones de los cursos, así como las consultas de los usuarios, en vectores numéricos, podemos comparar efectivamente qué tan relevantes son los cursos para la consulta de un usuario. Esta comparación no se basa en una coincidencia exacta de palabras clave, sino en la similitud del significado.

Cuando un usuario ingresa una frase como "Necesito un curso de inglés", los embeddings nos permiten entender la intención detrás de la búsqueda más allá de las palabras individuales. La tecnología de OpenAI evalúa el contexto completo de la frase para generar un vector que captura su esencia semántica. De forma similar, los cursos disponibles en la plataforma son convertidos en embeddings cuando se crean, capturando la esencia de lo que enseñan y lo que un estudiante puede aprender de ellos.

El sistema analiza el embedding de la consulta del usuario y lo compara con los embeddings previamente generados de todos los cursos disponibles. Este proceso evalúa qué tan cercanos son los temas de los cursos de los que el usuario quiere aprender. Luego, organiza y muestra los cursos al usuario, empezando por aquellos que tienen mayor coincidencia en contenido y temática con la consulta realizada, asegurando así una recomendación personalizada y precisa.

Estimación de precio

A día de hoy, la tecnología de embeddings tiene un coste de $0.0001 por cada 1,000 tokens procesados. OpenAI utiliza un sistema de facturación basado en la cantidad de tokens que se utilizan para generar estos embeddings. Es importante entender que un 'token' en este contexto puede ser una palabra, una parte de ella o incluso un signo de puntuación, y no equivale directamente a un carácter. Para tener una idea precisa de cuántos tokens se están utilizando en un texto, se puede utilizar la herramienta proporcionada por OpenAI en su plataforma: https://platform.openai.com/tokenizer .

Ahora, pongamos un caso práctico con los costes asociados al uso de embeddings en una plataforma de cursos en línea:

Supongamos que cada curso en la plataforma tiene un título y una descripción que, en conjunto, promedian 150 tokens después de ser procesados por el tokenizador de OpenAI. Además, cada consulta de búsqueda que realiza un usuario tiene un promedio de 20 tokens.

Costos de Generación de Embeddings para Cursos:

Con 150 tokens por curso y un precio de $0.0001 por cada 1,000 tokens, el coste por curso para generar sus embeddings sería de $0.000015.
Si tuviéramos, por ejemplo, 1,000 cursos en nuestra plataforma, estaríamos hablando de 150,000 tokens, lo que resultaría en un coste total de $2.25 para procesar todos los cursos una sola vez.

Costos de Procesamiento de Consultas de Usuario:

Cada consulta de usuario, con un promedio de 20 tokens, tendría un coste de $0.0003.
Si tenemos en cuenta que podríamos recibir 1,000 consultas en un mes, estaríamos procesando 20,000 tokens, lo que tendría un coste mensual de $0.30.

Por tanto, para poner en marcha el sistema de recomendación de cursos con estos parámetros, necesitaríamos una inversión inicial de $2.25 para procesar los embeddings de los cursos existentes. A esto, le sumaríamos un coste recurrente de $0.30 mensuales para atender las consultas de búsqueda de los usuarios, siempre y cuando se mantenga el promedio de tokens.

Árbol de páginas

Inteligencia Artificial - Embeddings OpenAI

Estimación de precio