RAG a halucinace – Proč RAG problém nevyřeší (a co funguje lépe)

RAG (Retrieval-Augmented Generation) halucinace u AI nevyřeší. Sníží je, ale nevymýtí. RAG řeší jiný problém - dá AI přístup k tvým datům. Halucinace ale zůstávají, protože pramení ze samotné architektury jazykových modelů. Tady je, co reálně funguje a s jakými čísly počítat.

Mluv s kýmkoliv z oblasti AI a dřív nebo později to přijde: „Nasadíme RAG, takže problém s halucinacemi bude vyřešený." Ehm. Ne úplně.

Co jsou halucinace a proč vznikají?

Halucinace je situace, kdy si AI vymyslí informaci, která není pravdivá - a řekne ti ji s naprostou jistotou. Žádné „nevím", žádné váhání. Jen sebejistý výstup postavený na nesprávných datech.

Klasické příklady: AI si vymyslí citaci vědeckého článku, který neexistuje. Uvede chybné datum. Popíše produkt s vlastnostmi, které nemá.

Proč? LLM (velké jazykové modely) generují text statisticky. Předpovídají další token podle toho, co je v jejich trénovacích datech nejpravděpodobnější. Nejsou to databáze faktů, jsou to modely distribuce jazyka. Když nemají jednoznačnou odpověď, vygenerují to, co zní věrohodně - ne nutně to, co je pravda.

A jak moc modely halucinují? Podle Vectara Hallucination Leaderboard (nezávislý žebříček, který měří, jak často model při sumarizaci přidá smyšlenou informaci) se míra pohybuje v rozpětí 1,8 % až 24,2 %. Nejlepší v testu byl Gemini 2.5 Flash Lite s 3,3 % halucinací, zatímco Claude Opus 4 skončil kolem 12 %. Rozdíl mezi modely je tedy klidně sedminásobný.

Co je RAG a jak funguje?

RAG (Retrieval-Augmented Generation) je architektonický vzor, který řeší jeden konkrétní problém: AI nemá přístup k tvým datům a dokumentaci. RAG jí je dodá do kontextu.

Jak to běží:

Uživatel položí otázku
Systém prohledá vektorovou databázi a najde relevantní dokumenty
Relevantní části dokumentů se přidají do kontextu AI
AI odpoví na základě dodaného kontextu i vlastních znalostí

Příklad z praxe: česká firma má interní wiki s 500 dokumenty. Bez RAG by AI nevěděla nic o interních procesech. S RAG prohledá wiki a odpoví na základě aktuálních interních dat. V tomhle RAG funguje výborně.

Snižuje RAG halucinace, nebo ne?

Snižuje, ale zdaleka je neodstraní. Data to ukazují z obou stran.

Dobrá zpráva: v jedné medicínské studii zvedlo přidání RAG přesnost GPT-4 z 80,1 % na 91,4 %. To je reálné zlepšení o víc než 11 procentních bodů - RAG dodal správný kontext a model přestal tolik tipovat.

Špatná zpráva: RAG halucinace nezabije. Nejlepší důkaz je studie ze Stanfordu na právnických AI nástrojích, které stojí na RAG. Nástroj Lexis+ AI halucinoval v 17 % případů, Westlaw dokonce ve 33 %. Každá třetí odpověď u druhého nástroje byla částečně nebo zcela vymyšlená - a to je nástroj postavený přesně na tom, aby čerpal z ověřené právní databáze.

Jinými slovy: RAG dodá modelu správné podklady, ale nedonutí ho je použít správně. Model pořád může špatný dokument špatně pochopit, spojit dvě věci, co spolu nesouvisí, nebo si mezeru v podkladech domyslet.

Proč RAG selhává, i když má správná data?

Protože samotné dodání dokumentu nestačí. Do hry vstupuje několik nepříjemných jevů, na které v praxi narazíš.

„Lost in the middle" - pohřbená odpověď

Modely nejlíp čtou začátek a konec kontextu, ale prostředek přehlížejí. Výzkum ukázal, že když je správná odpověď uprostřed dlouhého kontextu, přesnost klesne o víc než 30 %. Nacpat do promptu 50 dokumentů „pro jistotu" tak paradoxně škodí.

Context Rot - čím delší, tím horší

Studie Context Rot od Chromy testovala 18 modelů a zjistila, že s rostoucí délkou kontextu degradují úplně všechny - i ty s inzerovaným oknem milion tokenů. Víc kontextu tedy neznamená lepší výsledek. Naopak: kvalita odpovědi se s délkou drolí.

Reasoning modely halucinují víc, ne míň

Tady je hodně kontraintuitivní zjištění: modely, co „přemýšlejí" (reasoning), mají tendenci halucinovat víc než jejich jednodušší varianty. Delší řetězec úvah znamená víc míst, kde se model může chytit vlastní smyšlenky a rozvést ji. Takže víc „inteligence" nerovná se míň chyb.

Co tedy funguje líp než holý RAG?

Kombinace opatření, ne jedna stříbrná kulka. Takhle stavím spolehlivé AI systémy pro klienty:

Vyber model s nízkou mírou halucinací - když ti stačí sumarizace, Gemini 2.5 Flash Lite (3,3 %) je jinde než model s 20 %. Volba modelu je páka, kterou lidi podceňují.
Míň dokumentů, ale relevantnějších - lepší re-ranking a přesnější retrieval poráží „nacpat tam všechno". Bojuješ tím proti „lost in the middle".
Nutit citace - když model musí u každého tvrzení uvést zdrojový dokument, snadno odhalíš, kde si vymýšlí.
Nech model říct „nevím" - explicitně mu v promptu povol odmítnout odpověď, když v podkladech nic není. Většina halucinací vzniká z toho, že se model bojí mlčet.
Ověřovací vrstva - druhý průchod, který zkontroluje, jestli odpověď fakt sedí s dodanými dokumenty.
Člověk u kritických rozhodnutí - u práva, medicíny nebo financí zůstává poslední slovo na člověku. Vždy.

Kdy RAG naopak nasadit?

RAG rozhodně nezavrhuj. Je to výborný nástroj na správný problém. Tady je rychlá tabulka, kdy ano a kdy ne:

RAG dává smysl	RAG sám nestačí
Interní firemní wiki a dokumentace	Právní a medicínská rozhodnutí
Zákaznická podpora nad znalostní bází	Cokoliv, kde chyba stojí peníze nebo pověst
Aktuální data, co model nemá v tréninku	Situace vyžadující 100% přesnost bez dohledu

Shrnutí: RAG ano, magie ne

RAG je skvělý na to, aby AI viděla tvoje data. Ale halucinace pramení z architektury modelu, ne z nedostatku dat - a to RAG nezmění. Stanfordská čísla (17 % a 33 % u právních RAG nástrojů) jsou důkaz.

Spolehlivý AI systém se nestaví jednou technikou, ale vrstvami: dobrý model, přesný retrieval, citace, možnost říct „nevím", ověřovací vrstva a člověk u kritických rozhodnutí. Kdo ti slibuje nulové halucinace jen díky RAG, buď to nedělal v praxi, nebo ti něco prodává.