Los LLMs funcionan como cajas negras, lo que dificulta determinar sus comportamientos. La observabilidad es crucial para abrir esta caja negra y comprender c¨®mo las aplicaciones LLM operan en producci¨®n. Nuestros equipos han tenido experiencias positivas con observando, monitoreando y evaluando aplicaciones basadas en LLMs. Su trazabilidad, an¨¢lisis y capacidades de evaluaci¨®n nos permiten analizar el rendimiento y precisi¨®n, administrar costos y latencia, y comprender patrones usados en producci¨®n, como por ejemplo, facilitando continuas mejoras basadas en datos. Los datos de instrumentaci¨®n proporcionan una trazabilidad completa del flujo de petici¨®n-respuesta y de los pasos intermedios, la cual puede ser usada para datos de prueba, validando la aplicaci¨®n antes de desplegar los cambios. Nosotros hemos utilizado Langfuse con RAG (generacion mejorada por recuperacion), entre otras arquitecturas de LLM, y agentes aut¨®nomos impulsados por LLMs.
En una aplicaci¨®n basada en RAG, por ejemplo, analizar trazas de conversaciones con puntuaci¨®n baja, ayuda a identificar qu¨¦ partes de la arquitectura - pre-entrenado, entrenado o generaci¨®n - necesitan refinamiento. Otra opci¨®n que merece la pena considerar en este ¨¢mbito es .
es una plataforma de ingenier¨ªa para observabilidad, testabilidad y monitorizaci¨®n de aplicaciones que utilizan Modelos de Lenguaje de Gran Tama?o (LLM). Su SDK permite utilizar Python, JavaScript y TypeScript, OpenAI, LangChain y LiteLLM entre otros lenguajes y frameworks. Puedes auto-hospedar la versi¨®n abierta o utilizarla como un servicio de pago en la nube. Nuestros equipos han tenido una experiencia positiva, particularmente depurando cadenas LLM complejas, analizando la completitud y monitorizando m¨¦tricas clave como coste y latencia entre usuarios, sesiones, geograf¨ªas, prestaciones y versiones del modelo. Si est¨¢s considerando construir aplicaciones LLM dirigidas por datos, Langfuse es una buena opci¨®n a tener en cuenta.