Heb ik eigen GPU's nodig voor AI in mijn bedrijf?

Meestal niet. AI-capaciteit is geen synoniem voor GPU-uren, maar een stack van drie lagen: workflow, agents en compute. Voor ongeveer 90 procent van de MKB-toepassingen is API-compute via OpenAI of Anthropic de juiste startoptie. Eigen GPU's komen pas in beeld bij specifieke privacy-eisen of zware vision- en audio-workloads.

Wat is AI-capaciteit eigenlijk?

AI-capaciteit voor het MKB is de juiste verdeling over werkproces, agents en compute, niet meer hardware. Laag 1 is het werkproces dat je wil verbeteren, laag 2 zijn de agents die het routinewerk oppakken, en laag 3 is de rekenkracht waarop de modellen draaien. Begin altijd bij laag 1, want wie van de compute-laag naar boven werkt maakt vaak te dure keuzes.

Wanneer kies ik voor managed GPU of eigen hardware?

Managed GPU is zinvol bij privacy-eisen die de enterprise-API-instellingen niet dekken, of bij zware vision- en audio-workloads waar API te duur wordt. Eigen hardware past bij strikte sectorale eisen zoals zorg of juridisch, of bij permanente lokale verwerking van gevoelige data. Eigen hardware kopen voordat een werkproces erom vraagt is een van de duurste fouten die we zien.

Hoe houd ik de kosten van AI-compute onder controle?

Cost-control draait om budgetten per use case, niet om kale uurtarieven. We werken met vooraf afgesproken budget-bandjes per agent of werkproces met automatische throttling, een model-keuze die past bij de taak in plaats van overal het zwaarste model, en een maandelijkse transparante usage-rapportage per agent. Zo zijn er geen verrassingen achteraf.

Wat is het verschil met RunPod, Vast of Microsoft?

RunPod en Vast zijn GPU-marktplaatsen die kale rekenkracht per uur verhuren, waarbij je zelf de werkplek inricht en de factuur in dollars zonder NL-BTW komt. Microsoft is een generiek enterprise-platform, sterk voor grote bedrijven met Copilot-licenties. Wij zijn een managed implementatiepartner die de werkplek op maat inricht, met Nederlandse support en een factuur in euro uit Barneveld.

PILLAR23 min leestijd

AI-capaciteit en compute: wat heb je als bedrijf nodig?

Waarom 'AI capaciteit' niet alleen GPU's is, hoe agents en workflow daarbij horen, en hoe je voor jouw werkload kiest tussen API, managed GPU of eigen hardware.

Milan de Romijn Tom Bekker

6 juni 2026

/ DOSSIER ESSENTIE

AI capaciteit: alles wat je moet weten voor het Nederlandse MKB, in één gestructureerd dossier.

Onderdeel van

AI capaciteit en compute

PILLAR/AI CAPACITEIT

PUBLICATIE·6 JUNI 2026

AI capaciteit. Het klinkt als infrastructuur, en in veel verkoopverhalen is het ook zo gemarkeerd: hoeveel GPU's, welke modellen, hoeveel tokens. Voor Nederlandse MKB-bedrijven leidt die framing meestal tot teleurstelling. Niet omdat er iets mis is met GPU's, maar omdat het eigenlijke probleem zelden is "we hebben te weinig rekenkracht". Het eigenlijke probleem is meestal "we hebben te veel werk per persoon" of "we hebben te veel routine in een proces dat eigenlijk oordeel vraagt". Daar lossen GPU's je niet uit. Daar lost een gecoördineerde stack van workflow, agents en compute je uit. In dit dossier leggen we uit wat AI capaciteit voor een Nederlands MKB-bedrijf werkelijk is, hoe wij hem opbouwen, en hoe je hem in beheer houdt.

We schrijven dit vanuit eigen praktijk. Op dit moment draaien er ruim dertig agents op vijf servers voor ons en onze drie operationele bedrijven, deels lokaal en deels in de cloud.¹De verdeling, de keuzes voor compute-leveranciers en de afwegingen rond kosten zijn hieronder geanonimiseerd verwerkt.

/ 01Misverstand

Het misverstand over GPU's

In een kort gesprek dat we onlangs voerden met een MKB-directeur stond de eerste vraag: "Hoeveel GPU's hebben we nodig?" Hij had op LinkedIn gelezen dat de toekomst van zakelijke AI bij private modellen ligt, en dat hij zelf moest gaan rekenen aan een H100-cluster. Onze eerste wedervraag was: "Wat is het werk dat je sneller of beter wil maken?" Het antwoord was "eerste reacties op support-mails en offerte-prepwerk".

Voor dat antwoord zijn nul eigen GPU's nodig. De juiste opzet is een agent-laag bovenop een private document-AI met API-compute. Total cost-of-ownership is in vergelijking met een eigen GPU-cluster ongeveer twintig keer lager. De juiste vraag was niet "hoeveel GPU's" maar "welke stack past bij dit werk".

AI capaciteit voor MKB is niet meer hardware. Het is de juiste verdeling over werkproces, agents en compute.

Werkdefinitie · Dossier AI capaciteit

/ 02Drie lagen

AI capaciteit in drie lagen

Hieronder de definitie die wij hanteren, in drie lagen. Elke laag heeft een eigen schaling, een eigen kosten-curve en een eigen beheer-discipline.

SCHEMA/DRIE-LAGEN VAN AI CAPACITEIT

01/WORKFLOW

Werkproces

02/AGENTS

Agents & orkestratie

03/COMPUTE

Compute · GPU · LLM

Workflow stuurt agents, agents schalen op compute, compute draait modellen.

Figuur · Wat wij verstaan onder AI capaciteit als één beheerde stack

Laag 1: Workflow

Het werkproces dat je wil verbeteren. Mail-triage, offerte-voorbereiding, document-doorzoeken, klantservice-eerste-reactie, ops-monitoring. Zonder scherpe workflow-laag is elke AI-investering een tool zonder doel. Wij beginnen elk traject hier.

Laag 2: Agents en orkestratie

De agents die het routinewerk binnen die workflow oppakken: een pipeline-controller die elke ochtend orders nakijkt, een content-agent die kennisbankartikelen voorbereidt, een lead-scoring-agent die binnenkomende intakes prioriteert. Agents zijn niet één model, het zijn samengestelde eenheden van prompts, tools, geheugen en escalatie-regels.

Laag 3: Compute

De rekenkracht waarop modellen draaien. Voor de meeste agents is dat een API-call naar OpenAI of Anthropic. Voor specifieke workloads is dat een zelf-gehost open-weight model op een managed GPU. Voor uitzonderlijke gevallen is dat eigen hardware in een eigen serverruimte.

/ 03Compute

Compute kiezen

Compute komt in drie hoofdvormen voor zakelijk gebruik. Voor de meerderheid van MKB-toepassingen is de eerste de juiste keuze.

Vorm	Wanneer kiezen	Voorbeelden
API-compute	Voor 90 procent van de MKB-toepassingen. Snelste time-to-value, beste prijs-prestatie, minimale beheerlast.	OpenAI Enterprise, Anthropic API
Managed GPU	Privacy-eisen die zelfs enterprise-API-instellingen niet dekken, of zware vision/audio-workloads waar API te duur wordt.	Eigen Llama, Mistral of vision-model op dedicated GPU
Eigen hardware	Strikte sectorale eisen (zorg, juridisch), of permanente lokale verwerking van gevoelige data.	Workstation of lokale AI-server in jouw kantoor

Drie compute-vormen, drie gebruiks-situaties

/ 04Agents

Agents als capaciteit-multiplier

Het sterkste capaciteit-effect zit niet in zwaardere compute, maar in slimmere agents bovenop normale compute. Een goed ingerichte agent doet het routine-werk dat anders een halve fte zou kosten, op een fractie van de operationele kosten en met betere consistentie.

Voor een diepere uitleg over wanneer GPU's en wanneer agents je capaciteit het meest opleveren, zie ons spoke-artikel AI capaciteit huren: wanneer GPU's en wanneer agents.

AGENTS IN PRODUCTIE

SERVERS · LOKAAL + CLOUD

MERKEN VOLLEDIG AUTOMATISCH

0/7

OPERATIONEEL

Stand 2026-06 · eigen MKB Compute fleet

Onze eigen fleet is een werkbewijs dat de juiste agent-architectuur belangrijker is dan de zwaarste compute. Geen van die agents draait op een H100-cluster. De meeste draaien op standaard API-compute met een vakkundig opgezette agent-orkestratie eromheen.

/ 05Hardware

Hardware: laptop, workstation, server

Hardware speelt vooral een rol op de plekken waar fysieke nabijheid van data verplicht is, of waar latency een echte rol speelt. Drie categorieën:

Zakelijke AI-laptop

Voor individuele kenniswerkers die lokaal modellen willen draaien voor experimenten of voor gevoelige projecten. Typisch een NVIDIA-uitgeruste zakelijke laptop met genoeg VRAM voor mid-size modellen. Wij regelen configuratie, inrichting en factuur.

AI-workstation

Voor teams die intensievere creative-AI of model-experimenten draaien op kantoor, geluidsarm en met goede koeling. Sterker dan een laptop, beheerbaar lokaal.

Lokale AI-server

Voor sectoren met strikte data-eisen. Een eigen GPU-server in een eigen serverruimte, met advies over koeling, netwerk en beheer. Wij ondersteunen de opzet en kunnen het beheer optioneel doorlopend doen.

/ 06Factuur

Inkoop en Nederlandse factuur

Hardware kopen van een Amerikaans platform of een wisselende Aziatische verkoper geeft drie predictable pijnpunten: factuur niet BTW-conform, geen verwerkersovereenkomst, geen lokale support bij garantie.² Wij regelen alles via Nederlandse leveranciers met heldere BTW-conformiteit, configureren de hardware naar jullie use case en leveren in één factuur uit Barneveld.

Bij grotere orders bespreken we de marge vooraf zodat de prijs eerlijk is. We zijn geen hardware-verkoper, we zijn een AI-implementatiepartner die hardware regelt als onderdeel van het traject.

/ 07Schalen

Schalen: van pilot naar productie

Een pilot is een tijdelijke opzet om iets te leren. Productie is een permanente opzet om iets te leveren. De stap ertussen verloopt zelden soepel zonder bewuste aanpak. Wij hanteren drie fases:

FASE 101
Pilot
Quickstart in 7 dagen op één werkproces. Vaste prijs, vaste oplevering, vaste scope.
FASE 202
Bewijs
30 dagen meedraaien, monitoren, bijstellen. Eerlijk meten of de uitkomst gehaald is.
FASE 303
Productie
SLA, doorlopend beheer, uitbreiding naar tweede use case of meer gebruikers.
FASE 404
Schaal
Tweede en derde werkproces erbij, doorlopend kennis-management, optionele agent-laag bovenop.

Vier fases tussen pilot en geschaalde productie

/ 08Cost

Cost-control en voorspelbaarheid

AI-budgetten die uit de hand lopen ontstaan bijna altijd op één van drie manieren: usage-based zonder limieten, te zware modellen voor het werk, of ongelimiteerde retries bij mislukte calls. Wij hanteren drie disciplines:

Budget-bandjes per use case. Vooraf afgesproken maandbudget per agent of werkproces, met automatische throttling als de helft van de maand het tweederde-punt wordt gepasseerd.
Model-keuze passend bij de taak. Niet elke vraag vraagt om het zwaarste model. Routine-mailtriage draait op een goedkopere variant, complexe redenering op een zwaardere.
Transparante usage-rapportage. Maandelijks overzicht per agent, met uitsplitsing naar compute, embeddings en monitoring. Geen verrassingen.

Dit dossier houdt cost-control bewust conceptueel: budget-bandjes per use case, niet kale uurtarieven. Wil je de actuele marktprijzen per GPU-uur en een rekenmodel dat een uurtarief vertaalt naar een maandbedrag, zie de prijs-verdieping AI-capaciteit kosten 2026: wat kost GPU-compute.

/ 09Vergelijking

Vergelijking met RunPod, Vast, Microsoft

De drie partijen die we het meest tegenkomen in vergelijking-gesprekken zijn RunPod en Vast.ai (GPU-marktplaatsen) en Microsoft Copilot/Azure AI Foundry (enterprise-platforms).

Aspect	GPU-marktplaats	Microsoft platform	MKB Compute
Type	Kale GPU-uurverhuur	Generiek enterprise-platform	Managed implementatiepartner
Inrichting werkplek	Zelf doen	Aanwezig, generiek	Op maat per klant
Nederlandse support	Geen	Beperkt	Standaard
Factuur	USD, geen NL-BTW	EUR via reseller	EUR uit Barneveld
Verwerkersovereenkomst	Niet standaard	Standaard tegen meerprijs	Standaard inbegrepen
Beste voor	Engineers die zelf bouwen	Grote bedrijven met Copilot-licenties	MKB zonder eigen AI-team

Drie veel-vergeleken alternatieven, eerlijk neergezet

Wij concurreren niet op uurtarief met RunPod of Vast. Wij concurreren op resultaat per maand. Voor een MKB-bedrijf dat zelf geen AI-implementatie wil uitvoeren, is het verschil tussen "kale GPU's huren" en "een werkende werkplek krijgen" net dat: een werkende werkplek versus een infrastructuur-rekening.

/ 10Verder

Drie volgende stappen

Lees de spoke-artikelen. Wanneer GPU's en wanneer agents gaat dieper in op de afweging. Voor concrete marktprijzen en het rekenmodel van GPU-uur naar maandkosten zie AI-capaciteit kosten 2026. En wil je weten wanneer on-premise of cloud past bij jouw MKB, dan geeft die spoke de beslisboom op datasoevereiniteit, latency en beheerlast.
Bekijk hoe wij capaciteit aanbieden. De AI Capaciteit-pagina beschrijft onze drie lagen, de vergelijking met kale GPU-verhuur en het hardware-aanbod.
Plan een capaciteits-gesprek. 30 minuten waarin we jouw workload bespreken en een eerlijke inschatting geven. Geen uurtarief-discussie. Reactie binnen 24 uur na het intake-formulier.

BRONVERMELDINGEN

01Op moment van publiceren draaien er voor onze drie merken meer dan 57 agents over 5 servers, deels in lokale netwerken en deels in cloudregio's in Europa. Verdeling: ongeveer 65% op cloud-API-compute, 25% op managed GPU, 10% op lokale infrastructuur voor specifieke ops-tasks.
02De eisen waaraan een factuur moet voldoen voor de btw-administratie staan beschreven bij de Belastingdienst: www.belastingdienst.nl

OVER DE AUTEURS

Milan de Romijn

Oprichter

Bouwt en runt MKB Compute samen met Tom. Verantwoordelijk voor operations, agent-orkestratie en klant-implementatie.

Tom Bekker

Oprichter

Bouwt en runt MKB Compute samen met Milan. Verantwoordelijk voor sales, klant-relatie en technische architectuur.

/ FAQ/VEELGESTELDE VRAGEN

Wat je waarschijnlijk wil weten.

Veelgestelde vragen over dit onderwerp.

Q01
Heb ik eigen GPU's nodig voor AI in mijn bedrijf?
Meestal niet. AI-capaciteit is geen synoniem voor GPU-uren, maar een stack van drie lagen: workflow, agents en compute. Voor ongeveer 90 procent van de MKB-toepassingen is API-compute via OpenAI of Anthropic de juiste startoptie. Eigen GPU's komen pas in beeld bij specifieke privacy-eisen of zware vision- en audio-workloads.
Q02
Wat is AI-capaciteit eigenlijk?
AI-capaciteit voor het MKB is de juiste verdeling over werkproces, agents en compute, niet meer hardware. Laag 1 is het werkproces dat je wil verbeteren, laag 2 zijn de agents die het routinewerk oppakken, en laag 3 is de rekenkracht waarop de modellen draaien. Begin altijd bij laag 1, want wie van de compute-laag naar boven werkt maakt vaak te dure keuzes.
Q03
Wanneer kies ik voor managed GPU of eigen hardware?
Managed GPU is zinvol bij privacy-eisen die de enterprise-API-instellingen niet dekken, of bij zware vision- en audio-workloads waar API te duur wordt. Eigen hardware past bij strikte sectorale eisen zoals zorg of juridisch, of bij permanente lokale verwerking van gevoelige data. Eigen hardware kopen voordat een werkproces erom vraagt is een van de duurste fouten die we zien.
Q04
Hoe houd ik de kosten van AI-compute onder controle?
Cost-control draait om budgetten per use case, niet om kale uurtarieven. We werken met vooraf afgesproken budget-bandjes per agent of werkproces met automatische throttling, een model-keuze die past bij de taak in plaats van overal het zwaarste model, en een maandelijkse transparante usage-rapportage per agent. Zo zijn er geen verrassingen achteraf.
Q05
Wat is het verschil met RunPod, Vast of Microsoft?
RunPod en Vast zijn GPU-marktplaatsen die kale rekenkracht per uur verhuren, waarbij je zelf de werkplek inricht en de factuur in dollars zonder NL-BTW komt. Microsoft is een generiek enterprise-platform, sterk voor grote bedrijven met Copilot-licenties. Wij zijn een managed implementatiepartner die de werkplek op maat inricht, met Nederlandse support en een factuur in euro uit Barneveld.

VOLGENDE STAP/AI CAPACITEIT

Plan een capaciteits-gesprek van 30 minuten. Binnen 24 uur reactie.

We luisteren naar je workload, schetsen welke laag het meest oplevert en geven een eerlijke kosten-inschatting.

Plan capaciteits-gesprek→Lees over AI capaciteit

VERDER LEZEN IN HETZELFDE DOSSIER

Meer uit AI capaciteit en compute.

Hele dossier →

VELDVERSLAG·9 min

AI capaciteit huren: wanneer GPU's en wanneer agents

Het belangrijkste beslismoment in AI capaciteit: vermenigvuldig je compute of vermenigvuldig je mensen. Een eerlijk beslismodel voor MKB.

Lees verder →

VELDVERSLAG·11 min

AI-capaciteit kosten 2026: wat kost GPU-compute voor MKB?

Echte prijzen voor AI-rekenkracht in 2026: van 0,99 euro per GPU-uur tot een eigen server. Met een rekenmodel van GPU-uur naar maandkosten, plus de vraag of je die GPU wel nodig hebt.

Lees verder →

VELDVERSLAG·10 min

On-premise AI vs cloud: welke AI-compute past bij je MKB?

Niet de prijs maar vier andere assen bepalen de keuze: datasoevereiniteit, controle, latency en beheerlast. Een nuchtere beslisgids met een beslisboom, gebaseerd op wat wij zelf lokaal en in de cloud draaien.

Lees verder →

VELDVERSLAG·10 min

AI-capaciteit zonder eigen datacenter: MKB en netcongestie

AI vraagt stroom en het net zit vol. Per 1 juli 2026 komt ook het MKB op de wachtlijst voor een zwaardere aansluiting. Zo koop je compute in zonder de wachtrij.

Lees verder →

Het misverstand over GPU's

AI capaciteit in drie lagen

Laag 1: Workflow

Laag 2: Agents en orkestratie

Laag 3: Compute

Compute kiezen

Agents als capaciteit-multiplier

Hardware: laptop, workstation, server

Zakelijke AI-laptop

AI-workstation

Lokale AI-server

Inkoop en Nederlandse factuur

Schalen: van pilot naar productie

Pilot

Bewijs

Productie

Schaal

Cost-control en voorspelbaarheid

Vergelijking met RunPod, Vast, Microsoft

Drie volgende stappen

Wat je waarschijnlijk wil weten.

Heb ik eigen GPU's nodig voor AI in mijn bedrijf?

Wat is AI-capaciteit eigenlijk?

Wanneer kies ik voor managed GPU of eigen hardware?

Hoe houd ik de kosten van AI-compute onder controle?

Wat is het verschil met RunPod, Vast of Microsoft?

Plan een capaciteits-gesprek van 30 minuten. Binnen 24 uur reactie.

Meer uit AI capaciteit en compute.

AI capaciteit huren: wanneer GPU's en wanneer agents

AI-capaciteit kosten 2026: wat kost GPU-compute voor MKB?

On-premise AI vs cloud: welke AI-compute past bij je MKB?

AI-capaciteit zonder eigen datacenter: MKB en netcongestie