AI capaciteit en compute voor Nederlandse bedrijven
Waarom 'AI capaciteit' niet alleen GPU's is, hoe agents en workflow daarbij horen, en hoe je voor jouw werkload kiest tussen API, managed GPU of eigen hardware.
/ DOSSIER ESSENTIE
Alles wat je moet weten over ai capaciteit en compute voor het Nederlandse MKB, in één gestructureerd dossier.
Onderdeel van
AI capaciteit en computePILLAR/AI CAPACITEIT
PUBLICATIE·6 JUNI 2026
AI capaciteit. Het klinkt als infrastructuur, en in veel verkoopverhalen is het ook zo gemarkeerd: hoeveel GPU's, welke modellen, hoeveel tokens. Voor Nederlandse MKB-bedrijven leidt die framing meestal tot teleurstelling. Niet omdat er iets mis is met GPU's, maar omdat het eigenlijke probleem zelden is "we hebben te weinig rekenkracht". Het eigenlijke probleem is meestal "we hebben te veel werk per persoon" of "we hebben te veel routine in een proces dat eigenlijk oordeel vraagt". Daar lossen GPU's je niet uit. Daar lost een gecoördineerde stack van workflow, agents en compute je uit. In dit dossier leggen we uit wat AI capaciteit voor een Nederlands MKB-bedrijf werkelijk is, hoe wij hem opbouwen, en hoe je hem in beheer houdt.
We schrijven dit vanuit eigen praktijk. Op dit moment draaien er ruim dertig agents op vijf servers voor ons en onze drie operationele bedrijven, deels lokaal en deels in de cloud.1De verdeling, de keuzes voor compute-leveranciers en de afwegingen rond kosten zijn hieronder geanonimiseerd verwerkt.
/ 01Misverstand
Het misverstand over GPU's
In een kort gesprek dat we onlangs voerden met een MKB-directeur stond de eerste vraag: "Hoeveel GPU's hebben we nodig?" Hij had op LinkedIn gelezen dat de toekomst van zakelijke AI bij private modellen ligt, en dat hij zelf moest gaan rekenen aan een H100-cluster. Onze eerste wedervraag was: "Wat is het werk dat je sneller of beter wil maken?" Het antwoord was "eerste reacties op support-mails en offerte-prepwerk".
Voor dat antwoord zijn nul eigen GPU's nodig. De juiste opzet is een agent-laag bovenop een private document-AI met API-compute. Total cost-of-ownership is in vergelijking met een eigen GPU-cluster ongeveer twintig keer lager. De juiste vraag was niet "hoeveel GPU's" maar "welke stack past bij dit werk".
AI capaciteit voor MKB is niet meer hardware. Het is de juiste verdeling over werkproces, agents en compute.Werkdefinitie · Dossier AI capaciteit
/ 02Drie lagen
AI capaciteit in drie lagen
Hieronder de definitie die wij hanteren, in drie lagen. Elke laag heeft een eigen schaling, een eigen kosten-curve en een eigen beheer-discipline.
SCHEMA/DRIE-LAGEN VAN AI CAPACITEIT
01/WORKFLOW
Werkproces
02/AGENTS
Agents & orkestratie
03/COMPUTE
Compute · GPU · LLM
Workflow stuurt agents, agents schalen op compute, compute draait modellen.
Laag 1: Workflow
Het werkproces dat je wil verbeteren. Mail-triage, offerte-voorbereiding, document-doorzoeken, klantservice-eerste-reactie, ops-monitoring. Zonder scherpe workflow-laag is elke AI-investering een tool zonder doel. Wij beginnen elk traject hier.
Laag 2: Agents en orkestratie
De agents die het routinewerk binnen die workflow oppakken: een pipeline-controller die elke ochtend orders nakijkt, een content-agent die kennisbankartikelen voorbereidt, een lead-scoring-agent die binnenkomende intakes prioriteert. Agents zijn niet één model, het zijn samengestelde eenheden van prompts, tools, geheugen en escalatie-regels.
Laag 3: Compute
De rekenkracht waarop modellen draaien. Voor de meeste agents is dat een API-call naar OpenAI of Anthropic. Voor specifieke workloads is dat een zelf-gehost open-weight model op een managed GPU. Voor uitzonderlijke gevallen is dat eigen hardware in een eigen serverruimte.
/ 03Compute
Compute kiezen
Compute komt in drie hoofdvormen voor zakelijk gebruik. Voor de meerderheid van MKB-toepassingen is de eerste de juiste keuze.
| Vorm | Wanneer kiezen | Voorbeelden |
|---|---|---|
| API-compute | Voor 90 procent van de MKB-toepassingen. Snelste time-to-value, beste prijs-prestatie, minimale beheerlast. | OpenAI Enterprise, Anthropic API |
| Managed GPU | Privacy-eisen die zelfs enterprise-API-instellingen niet dekken, of zware vision/audio-workloads waar API te duur wordt. | Eigen Llama, Mistral of vision-model op dedicated GPU |
| Eigen hardware | Strikte sectorale eisen (zorg, juridisch), of permanente lokale verwerking van gevoelige data. | Workstation of lokale AI-server in jouw kantoor |
/ 04Agents
Agents als capaciteit-multiplier
Het sterkste capaciteit-effect zit niet in zwaardere compute, maar in slimmere agents bovenop normale compute. Een goed ingerichte agent doet het routine-werk dat anders een halve fte zou kosten, op een fractie van de operationele kosten en met betere consistentie.
Voor een diepere uitleg over wanneer GPU's en wanneer agents je capaciteit het meest opleveren, zie ons spoke-artikel AI capaciteit huren: wanneer GPU's en wanneer agents.
0+
AGENTS IN PRODUCTIE
0
SERVERS · LOKAAL + CLOUD
0
MERKEN VOLLEDIG AUTOMATISCH
0/7
OPERATIONEEL
Onze eigen fleet is een werkbewijs dat de juiste agent-architectuur belangrijker is dan de zwaarste compute. Geen van die agents draait op een H100-cluster. De meeste draaien op standaard API-compute met een vakkundig opgezette agent-orkestratie eromheen.
/ 05Hardware
Hardware: laptop, workstation, server
Hardware speelt vooral een rol op de plekken waar fysieke nabijheid van data verplicht is, of waar latency een echte rol speelt. Drie categorieën:
Zakelijke AI-laptop
Voor individuele kenniswerkers die lokaal modellen willen draaien voor experimenten of voor gevoelige projecten. Typisch een NVIDIA-uitgeruste zakelijke laptop met genoeg VRAM voor mid-size modellen. Wij regelen configuratie, inrichting en factuur.
AI-workstation
Voor teams die intensievere creative-AI of model-experimenten draaien op kantoor, geluidsarm en met goede koeling. Sterker dan een laptop, beheerbaar lokaal.
Lokale AI-server
Voor sectoren met strikte data-eisen. Een eigen GPU-server in een eigen serverruimte, met advies over koeling, netwerk en beheer. Wij ondersteunen de opzet en kunnen het beheer optioneel doorlopend doen.
/ 06Factuur
Inkoop en Nederlandse factuur
Hardware kopen van een Amerikaans platform of een wisselende Aziatische verkoper geeft drie predictable pijnpunten: factuur niet BTW-conform, geen verwerkersovereenkomst, geen lokale support bij garantie. Wij regelen alles via Nederlandse leveranciers met heldere BTW-conformiteit, configureren de hardware naar jullie use case en leveren in één factuur uit Barneveld.
Bij grotere orders bespreken we de marge vooraf zodat de prijs eerlijk is. We zijn geen hardware-verkoper, we zijn een AI-implementatiepartner die hardware regelt als onderdeel van het traject.
/ 07Schalen
Schalen: van pilot naar productie
Een pilot is een tijdelijke opzet om iets te leren. Productie is een permanente opzet om iets te leveren. De stap ertussen verloopt zelden soepel zonder bewuste aanpak. Wij hanteren drie fases:
- FASE 101
Pilot
Quickstart in 7 dagen op één werkproces. Vaste prijs, vaste oplevering, vaste scope. - FASE 202
Bewijs
30 dagen meedraaien, monitoren, bijstellen. Eerlijk meten of de uitkomst gehaald is. - FASE 303
Productie
SLA, doorlopend beheer, uitbreiding naar tweede use case of meer gebruikers. - FASE 404
Schaal
Tweede en derde werkproces erbij, doorlopend kennis-management, optionele agent-laag bovenop.
/ 08Cost
Cost-control en voorspelbaarheid
AI-budgetten die uit de hand lopen ontstaan bijna altijd op één van drie manieren: usage-based zonder limieten, te zware modellen voor het werk, of ongelimiteerde retries bij mislukte calls. Wij hanteren drie disciplines:
- Budget-bandjes per use case. Vooraf afgesproken maandbudget per agent of werkproces, met automatische throttling als de helft van de maand het tweederde-punt wordt gepasseerd.
- Model-keuze passend bij de taak. Niet elke vraag vraagt om het zwaarste model. Routine-mailtriage draait op een goedkopere variant, complexe redenering op een zwaardere.
- Transparante usage-rapportage. Maandelijks overzicht per agent, met uitsplitsing naar compute, embeddings en monitoring. Geen verrassingen.
/ 09Vergelijking
Vergelijking met RunPod, Vast, Microsoft
De drie partijen die we het meest tegenkomen in vergelijking-gesprekken zijn RunPod en Vast.ai (GPU-marktplaatsen) en Microsoft Copilot/Azure AI Foundry (enterprise-platforms).
| Aspect | GPU-marktplaats | Microsoft platform | MKB Compute |
|---|---|---|---|
| Type | Kale GPU-uurverhuur | Generiek enterprise-platform | Managed implementatiepartner |
| Inrichting werkplek | Zelf doen | Aanwezig, generiek | Op maat per klant |
| Nederlandse support | Geen | Beperkt | Standaard |
| Factuur | USD, geen NL-BTW | EUR via reseller | EUR uit Barneveld |
| Verwerkersovereenkomst | Niet standaard | Standaard tegen meerprijs | Standaard inbegrepen |
| Beste voor | Engineers die zelf bouwen | Grote bedrijven met Copilot-licenties | MKB zonder eigen AI-team |
Wij concurreren niet op uurtarief met RunPod of Vast. Wij concurreren op resultaat per maand. Voor een MKB-bedrijf dat zelf geen AI-implementatie wil uitvoeren, is het verschil tussen "kale GPU's huren" en "een werkende werkplek krijgen" net dat: een werkende werkplek versus een infrastructuur-rekening.
/ 10Verder
Drie volgende stappen
- Lees de spoke-artikelen. Wanneer GPU's en wanneer agents gaat dieper in op de afweging. Voor de privacy-kant zie de AVG-checklist.
- Bekijk hoe wij capaciteit aanbieden. De AI Capaciteit-pagina beschrijft onze drie lagen, de vergelijking met kale GPU-verhuur en het hardware-aanbod.
- Plan een capaciteits-gesprek. 30 minuten waarin we jouw workload bespreken en een eerlijke inschatting geven. Geen uurtarief-discussie. Reactie binnen 24 uur na het intake-formulier.
BRONVERMELDINGEN
- 01Op moment van publiceren draaien er voor onze drie merken meer dan 30 agents over 5 servers, deels in lokale netwerken en deels in cloudregio's in Europa. Verdeling: ongeveer 65% op cloud-API-compute, 25% op managed GPU, 10% op lokale infrastructuur voor specifieke ops-tasks.
OVER DE AUTEURS
Milan de Romijn
Oprichter
Bouwt en runt MKB Compute samen met Tom. Verantwoordelijk voor operations, agent-orkestratie en klant-implementatie.
Tom Bekker
Oprichter
Bouwt en runt MKB Compute samen met Milan. Verantwoordelijk voor sales, klant-relatie en technische architectuur.
VOLGENDE STAP/AI CAPACITEIT
Plan een capaciteits-gesprek van 30 minuten. Binnen 24 uur reactie.
We luisteren naar je workload, schetsen welke laag het meest oplevert en geven een eerlijke kosten-inschatting.
VERDER LEZEN IN HETZELFDE DOSSIER
Meer uit AI capaciteit en compute.
VELDVERSLAG·9 min
AI capaciteit huren: wanneer GPU's en wanneer agents
Het belangrijkste beslismoment in AI capaciteit: vermenigvuldig je compute of vermenigvuldig je mensen. Een eerlijk beslismodel voor MKB.
Lees verder →VELDVERSLAG·11 min
Private AI vs ChatGPT Enterprise voor MKB
Een eerlijke vergelijking. Wanneer ChatGPT Enterprise voldoende is, wanneer private document AI de juiste keuze wordt en wanneer ze elkaar aanvullen.
Lees verder →VELDVERSLAG·10 min
AVG en je AI-werkplek: wat moet je geregeld hebben
Wat AVG-bewust opzetten van een AI-werkplek in de praktijk betekent. Een concrete checklist, eerlijk geformuleerd, zonder schijngaranties.
Lees verder →