AI без вимірювань — це ризик
Після кожної зміни промпта/ретріверу/моделі якість може “поїхати”. Тому потрібні тести і спостережуваність.
1) Gold set
Набір реальних питань з очікуваними відповідями/критеріями.
2) Метрики
Correctness, groundedness, refusal rate, latency, cost, user satisfaction.
3) Логи
Зберігаємо: питання, retrieval, відповідь, версії компонентів, щоб розбирати інциденти.
Підсумок
Якість AI — це інженерія. Її можна і треба вимірювати.