Tejas Chopra, ingeniero sénior de Netflix, ha lanzado una herramienta de código abierto diseñada para reducir drásticamente los costos de uso de IA, eliminando datos redundantes de las instrucciones (prompts) antes de que se envíen a los grandes modelos de lenguaje. El proyecto, llamado Headroom, busca hacer frente a los costos desorbitados asociados con la tarificación por tokens, una carga que recientemente ha afectado a empresas como Uber y Microsoft.
Según The Register, Chopra desarrolló esta herramienta tras recibir una factura de 287 dólares por un proyecto personal que utilizaba Claude Sonnet. Al investigar, descubrió que la mayor parte de su consumo de tokens se debía a metadatos de la máquina, esquemas JSON anidados y columnas de bases de datos repetitivas, y no a la entrada creativa real. The Register informa que Chopra estima que hasta el 90% de los tokens enviados a los LLM son redundantes.
Optimización de la ventana de contexto
Headroom funciona como un proxy en la máquina local del desarrollador, comprimiendo el historial de conversaciones, los registros y los resultados de las herramientas antes de que lleguen al LLM. Aunque los proveedores de modelos ofrecen sus propias configuraciones de caché de tokens, Chopra señaló que suelen ser difíciles de gestionar para el usuario final y pueden resultar prohibitivamente caras. "Pagamos el doble por las escrituras para obtener un 90% de ahorro en las lecturas", comentó Chopra a los asistentes durante el Open Source Summit la semana pasada.
Aunque el proyecto no es una iniciativa oficial de Netflix, ha sido adoptado por varios equipos dentro de la compañía y ha ganado fuerza en la comunidad de desarrolladores. Desde su lanzamiento en enero, el proyecto ha acumulado 2.000 estrellas en GitHub y más de 120 bifurcaciones (forks). Chopra enfatizó que la principal motivación detrás de la herramienta es el impacto financiero que sufren los desarrolladores individuales.
"Muchos de nuestros usuarios son personas que se han visto realmente afectadas por los costos de los tokens, más que por cualquier otra cosa", afirmó Chopra durante su presentación. The Register señaló que los usuarios de la herramienta han recuperado colectivamente unos 200.000 millones de tokens que ahora pueden utilizarse para otras tareas.