Najczęściej pomijana decyzja na wczesnym etapie. Bez observability AI w produkcji jest czarną skrzynką: nie wiecie kiedy model halucynował, jakie były koszty per request, dlaczego określone zapytania nie działały, gdzie są performance bottlenecks. Dodanie observability po roku produkcji wymaga przeprojektowania znacznej części systemu.
Stack 2026: LangSmith (od LangChain, dobry dla LangChain stacka), Helicone (open-source, model-agnostic), Datadog APM dla traditional metrics, Grafana + OpenTelemetry dla custom dashboards. Minimum viable observability: każde wywołanie LLM logowane z (input, output, latency, cost, model version, user_id, session_id).
Krytyczne metryki do trackowania od dnia 1: latency p50/p95/p99, cost per request, model accuracy (gdzie da się zmierzyć), hallucination rate (gdzie da się wykryć), token usage trend. Bez tych metryk nie zoptymalizujecie ani jakości, ani kosztów.