RAG uitgelegd in plain Nederlands

RAG staat voor retrieval-augmented generation. Het is op dit moment de gangbare manier om AI een antwoord te laten geven dat is gebaseerd op jouw eigen documenten, in plaats van op wat een taalmodel toevallig weet uit zijn training. Het is geen exotische techniek. Het is de bouwsteen onder vrijwel elke private document AI die wij in Nederlands MKB-werk hebben opgeleverd. In dit artikel leggen we uit wat het is, waarom het werkt, en welke aandachtspunten je in de gaten houdt als je het bij jouw bedrijf laat opzetten.

/ 01Wat

Wat is RAG

Stel je een klassieke chatbot voor. Je stelt een vraag, en het taalmodel formuleert een antwoord op basis van wat het tijdens zijn training heeft gezien. Dat is geweldig voor algemene vragen, maar nutteloos voor "wat staat er in onze montagehandleiding bij paragraaf 4.2". Het model heeft jouw handleiding nooit gezien.

RAG lost dat op door voor het antwoorden eerst te zoeken in jouw documenten naar de meest relevante fragmenten. Pas daarna stelt het de vraag aan een taalmodel, maar dan in een variant van "Hier is de vraag, en hier zijn de relevante stukjes uit hun documentatie. Formuleer een antwoord en wijs aan welke stukjes je hebt gebruikt."

Eerst zoeken in jouw bronnen, dan pas antwoorden, met verwijzing naar de bron.

In één zin

/ 02Waarom

Waarom RAG, niet alleen chatbot

Voor zakelijk gebruik heeft RAG drie sterke punten ten opzichte van een losse chatbot:

Actuele kennis. Een chatbot kent alleen wat in zijn training zat, met een afkapdatum. RAG kent jouw documenten zoals ze vandaag zijn, omdat ze in een aparte database staan die je kunt updaten.
Bronverwijzing. Een chatbot geeft een antwoord zonder herkomst. RAG geeft het antwoord plus het stukje document waarop het is gebaseerd. Dat is het verschil tussen "leuk maar onbetrouwbaar" en "bruikbaar in een professionele setting".
Privacy. Jouw documenten staan in jouw omgeving, niet in het trainingsproces van een groot model. Een goed ingerichte RAG houdt jouw kennis bij jou.

/ 03Stappen

De vijf stappen in detail

SCHEMA/RETRIEVAL-AUGMENTED GENERATION

VRAAG

Gebruiker stelt een vraag in normale taal

EMBED

Vraag wordt omgezet naar een betekenis-vector

RETRIEVE

Meest relevante chunks gehaald uit jouw vector-store

AUGMENT

Context plus vraag samen naar het taalmodel

ANTWOORD

Antwoord in jouw context, met bronverwijzing

ACTUEEL · STAP 01

Gebruiker stelt een vraag in normale taal

Figuur 1 · Schematische RAG-pijplijn die de live-demo op /private-ai aandrijft

Stap 1: Vraag

De gebruiker stelt een vraag in normale Nederlandse taal. "Welke certificering hoort bij onze Pro-installatie?" Geen speciale syntax, geen filter-velden.

Stap 2: Embedding

De vraag wordt omgezet naar een vector: een serie getallen die de betekenis van de vraag vastlegt. Vragen met vergelijkbare betekenis krijgen vergelijkbare vectoren. Synoniemen, parafraseringen en zelfs spelfouten vinden zo nog steeds de juiste stukken.

Stap 3: Retrieve

De vector van de vraag wordt vergeleken met alle vectoren in jouw document-database. De meest gelijkende fragmenten worden opgehaald. Bij een goed ingerichte database gaat dit razendsnel, zelfs over honderdduizenden chunks.

Stap 4: Augment

De originele vraag plus de gevonden fragmenten worden samengevoegd in een prompt voor het taalmodel. Het model krijgt expliciet de opdracht: "Beantwoord deze vraag op basis van de meegegeven context, en geef aan welke context je hebt gebruikt."

Stap 5: Antwoord

Het model formuleert het antwoord, met verwijzing naar de gebruikte fragmenten. In onze opzet tonen we deze bronnen direct naast het antwoord, zodat de gebruiker een klik weg is van het origineel.

/ 04Praktijk

Drie praktische vragen

Hoe goed zoekt de retrieve-stap?

Beter dan een traditionele zoekfunctie, maar niet perfect. Voor het meeste werk is de retrieval kwaliteit hoog genoeg om bruikbaar te zijn. Bij specifieke vakdomeinen, of bij vragen die juist met zeldzame termen werken, voegen we extra strategieën toe (hybride zoek op keyword + vector, of re-ranking met een tweede model).

Wat als het antwoord fout is?

Dat kan om twee redenen: ofwel de bron klopt niet, ofwel het model interpreteert de bron verkeerd. Het eerste is een organisatie-probleem dat je oplost door je bronnen actueel te houden. Het tweede is een prompt- of model-keuze die we kunnen aanscherpen. In beide gevallen helpt de bronverwijzing om de fout snel te lokaliseren.

Schaalt dit?

Ja. Voor MKB-volumes (tot honderdduizenden chunks, tientallen gebruikers) is RAG ruim binnen het bereik van API-compute. Voor zeer grote organisaties komen er extra schaal-uitdagingen, maar dat speelt niet bij MKB-implementaties.

Voor de bredere context: dit artikel is een verdieping bij ons pillar-dossier Private Document AI voor het Nederlandse MKB. Voor de directe commerciële uitwerking, zie ons aanbod op Private AI. De rekenkracht waarop RAG draait (GPU's, agents en compute, volledig beheerd) lichten we toe op AI-capaciteit.