RAG — це контрольований спосіб додати знання
Замість “доучувати модель”, ми даємо їй релевантні фрагменти як контекст і просимо відповідати з посиланнями на джерела.
1) Chunking
Надто великі чанки погіршують retrieval, надто малі — втрачають сенс. Потрібне тестування на реальних питаннях.
2) Векторна БД
Обираємо схему індексації і фільтрів (тенант, версія документу, права доступу).
3) Оцінка
Міряємо: groundedness (чи є опора на джерело), correctness, coverage, latency, cost.
Підсумок
RAG працює, коли є дисципліна даних, retrieval і метрик.