Spring naar inhoud
MKB Compute.
PILLAR23 min leestijd

AI capaciteit en compute voor Nederlandse bedrijven

Waarom 'AI capaciteit' niet alleen GPU's is, hoe agents en workflow daarbij horen, en hoe je voor jouw werkload kiest tussen API, managed GPU of eigen hardware.

6 juni 2026

/ DOSSIER ESSENTIE

Alles wat je moet weten over ai capaciteit en compute voor het Nederlandse MKB, in één gestructureerd dossier.

PILLAR/AI CAPACITEIT

PUBLICATIE·6 JUNI 2026

AI capaciteit. Het klinkt als infrastructuur, en in veel verkoopverhalen is het ook zo gemarkeerd: hoeveel GPU's, welke modellen, hoeveel tokens. Voor Nederlandse MKB-bedrijven leidt die framing meestal tot teleurstelling. Niet omdat er iets mis is met GPU's, maar omdat het eigenlijke probleem zelden is "we hebben te weinig rekenkracht". Het eigenlijke probleem is meestal "we hebben te veel werk per persoon" of "we hebben te veel routine in een proces dat eigenlijk oordeel vraagt". Daar lossen GPU's je niet uit. Daar lost een gecoördineerde stack van workflow, agents en compute je uit. In dit dossier leggen we uit wat AI capaciteit voor een Nederlands MKB-bedrijf werkelijk is, hoe wij hem opbouwen, en hoe je hem in beheer houdt.

We schrijven dit vanuit eigen praktijk. Op dit moment draaien er ruim dertig agents op vijf servers voor ons en onze drie operationele bedrijven, deels lokaal en deels in de cloud.1De verdeling, de keuzes voor compute-leveranciers en de afwegingen rond kosten zijn hieronder geanonimiseerd verwerkt.

/ 01Misverstand

Het misverstand over GPU's

In een kort gesprek dat we onlangs voerden met een MKB-directeur stond de eerste vraag: "Hoeveel GPU's hebben we nodig?" Hij had op LinkedIn gelezen dat de toekomst van zakelijke AI bij private modellen ligt, en dat hij zelf moest gaan rekenen aan een H100-cluster. Onze eerste wedervraag was: "Wat is het werk dat je sneller of beter wil maken?" Het antwoord was "eerste reacties op support-mails en offerte-prepwerk".

Voor dat antwoord zijn nul eigen GPU's nodig. De juiste opzet is een agent-laag bovenop een private document-AI met API-compute. Total cost-of-ownership is in vergelijking met een eigen GPU-cluster ongeveer twintig keer lager. De juiste vraag was niet "hoeveel GPU's" maar "welke stack past bij dit werk".

AI capaciteit voor MKB is niet meer hardware. Het is de juiste verdeling over werkproces, agents en compute.
Werkdefinitie · Dossier AI capaciteit

/ 02Drie lagen

AI capaciteit in drie lagen

Hieronder de definitie die wij hanteren, in drie lagen. Elke laag heeft een eigen schaling, een eigen kosten-curve en een eigen beheer-discipline.

SCHEMA/DRIE-LAGEN VAN AI CAPACITEIT

01/WORKFLOW

Werkproces

02/AGENTS

Agents & orkestratie

03/COMPUTE

Compute · GPU · LLM

Workflow stuurt agents, agents schalen op compute, compute draait modellen.

Figuur · Wat wij verstaan onder AI capaciteit als één beheerde stack

Laag 1: Workflow

Het werkproces dat je wil verbeteren. Mail-triage, offerte-voorbereiding, document-doorzoeken, klantservice-eerste-reactie, ops-monitoring. Zonder scherpe workflow-laag is elke AI-investering een tool zonder doel. Wij beginnen elk traject hier.

Laag 2: Agents en orkestratie

De agents die het routinewerk binnen die workflow oppakken: een pipeline-controller die elke ochtend orders nakijkt, een content-agent die kennisbankartikelen voorbereidt, een lead-scoring-agent die binnenkomende intakes prioriteert. Agents zijn niet één model, het zijn samengestelde eenheden van prompts, tools, geheugen en escalatie-regels.

Laag 3: Compute

De rekenkracht waarop modellen draaien. Voor de meeste agents is dat een API-call naar OpenAI of Anthropic. Voor specifieke workloads is dat een zelf-gehost open-weight model op een managed GPU. Voor uitzonderlijke gevallen is dat eigen hardware in een eigen serverruimte.

/ 03Compute

Compute kiezen

Compute komt in drie hoofdvormen voor zakelijk gebruik. Voor de meerderheid van MKB-toepassingen is de eerste de juiste keuze.

VormWanneer kiezenVoorbeelden
API-computeVoor 90 procent van de MKB-toepassingen. Snelste time-to-value, beste prijs-prestatie, minimale beheerlast.OpenAI Enterprise, Anthropic API
Managed GPUPrivacy-eisen die zelfs enterprise-API-instellingen niet dekken, of zware vision/audio-workloads waar API te duur wordt.Eigen Llama, Mistral of vision-model op dedicated GPU
Eigen hardwareStrikte sectorale eisen (zorg, juridisch), of permanente lokale verwerking van gevoelige data.Workstation of lokale AI-server in jouw kantoor
Drie compute-vormen, drie gebruiks-situaties

/ 04Agents

Agents als capaciteit-multiplier

Het sterkste capaciteit-effect zit niet in zwaardere compute, maar in slimmere agents bovenop normale compute. Een goed ingerichte agent doet het routine-werk dat anders een halve fte zou kosten, op een fractie van de operationele kosten en met betere consistentie.

Voor een diepere uitleg over wanneer GPU's en wanneer agents je capaciteit het meest opleveren, zie ons spoke-artikel AI capaciteit huren: wanneer GPU's en wanneer agents.

0+

AGENTS IN PRODUCTIE

0

SERVERS · LOKAAL + CLOUD

0

MERKEN VOLLEDIG AUTOMATISCH

0/7

OPERATIONEEL

Stand 2026-06 · eigen MKB Compute fleet

Onze eigen fleet is een werkbewijs dat de juiste agent-architectuur belangrijker is dan de zwaarste compute. Geen van die agents draait op een H100-cluster. De meeste draaien op standaard API-compute met een vakkundig opgezette agent-orkestratie eromheen.

/ 05Hardware

Hardware: laptop, workstation, server

Hardware speelt vooral een rol op de plekken waar fysieke nabijheid van data verplicht is, of waar latency een echte rol speelt. Drie categorieën:

Zakelijke AI-laptop

Voor individuele kenniswerkers die lokaal modellen willen draaien voor experimenten of voor gevoelige projecten. Typisch een NVIDIA-uitgeruste zakelijke laptop met genoeg VRAM voor mid-size modellen. Wij regelen configuratie, inrichting en factuur.

AI-workstation

Voor teams die intensievere creative-AI of model-experimenten draaien op kantoor, geluidsarm en met goede koeling. Sterker dan een laptop, beheerbaar lokaal.

Lokale AI-server

Voor sectoren met strikte data-eisen. Een eigen GPU-server in een eigen serverruimte, met advies over koeling, netwerk en beheer. Wij ondersteunen de opzet en kunnen het beheer optioneel doorlopend doen.

/ 06Factuur

Inkoop en Nederlandse factuur

Hardware kopen van een Amerikaans platform of een wisselende Aziatische verkoper geeft drie predictable pijnpunten: factuur niet BTW-conform, geen verwerkersovereenkomst, geen lokale support bij garantie. Wij regelen alles via Nederlandse leveranciers met heldere BTW-conformiteit, configureren de hardware naar jullie use case en leveren in één factuur uit Barneveld.

Bij grotere orders bespreken we de marge vooraf zodat de prijs eerlijk is. We zijn geen hardware-verkoper, we zijn een AI-implementatiepartner die hardware regelt als onderdeel van het traject.

/ 07Schalen

Schalen: van pilot naar productie

Een pilot is een tijdelijke opzet om iets te leren. Productie is een permanente opzet om iets te leveren. De stap ertussen verloopt zelden soepel zonder bewuste aanpak. Wij hanteren drie fases:

  1. FASE 101

    Pilot

    Quickstart in 7 dagen op één werkproces. Vaste prijs, vaste oplevering, vaste scope.
  2. FASE 202

    Bewijs

    30 dagen meedraaien, monitoren, bijstellen. Eerlijk meten of de uitkomst gehaald is.
  3. FASE 303

    Productie

    SLA, doorlopend beheer, uitbreiding naar tweede use case of meer gebruikers.
  4. FASE 404

    Schaal

    Tweede en derde werkproces erbij, doorlopend kennis-management, optionele agent-laag bovenop.
Vier fases tussen pilot en geschaalde productie

/ 08Cost

Cost-control en voorspelbaarheid

AI-budgetten die uit de hand lopen ontstaan bijna altijd op één van drie manieren: usage-based zonder limieten, te zware modellen voor het werk, of ongelimiteerde retries bij mislukte calls. Wij hanteren drie disciplines:

  1. Budget-bandjes per use case. Vooraf afgesproken maandbudget per agent of werkproces, met automatische throttling als de helft van de maand het tweederde-punt wordt gepasseerd.
  2. Model-keuze passend bij de taak. Niet elke vraag vraagt om het zwaarste model. Routine-mailtriage draait op een goedkopere variant, complexe redenering op een zwaardere.
  3. Transparante usage-rapportage. Maandelijks overzicht per agent, met uitsplitsing naar compute, embeddings en monitoring. Geen verrassingen.

/ 09Vergelijking

Vergelijking met RunPod, Vast, Microsoft

De drie partijen die we het meest tegenkomen in vergelijking-gesprekken zijn RunPod en Vast.ai (GPU-marktplaatsen) en Microsoft Copilot/Azure AI Foundry (enterprise-platforms).

AspectGPU-marktplaatsMicrosoft platformMKB Compute
TypeKale GPU-uurverhuurGeneriek enterprise-platformManaged implementatiepartner
Inrichting werkplekZelf doenAanwezig, generiekOp maat per klant
Nederlandse supportGeenBeperktStandaard
FactuurUSD, geen NL-BTWEUR via resellerEUR uit Barneveld
VerwerkersovereenkomstNiet standaardStandaard tegen meerprijsStandaard inbegrepen
Beste voorEngineers die zelf bouwenGrote bedrijven met Copilot-licentiesMKB zonder eigen AI-team
Drie veel-vergeleken alternatieven, eerlijk neergezet

Wij concurreren niet op uurtarief met RunPod of Vast. Wij concurreren op resultaat per maand. Voor een MKB-bedrijf dat zelf geen AI-implementatie wil uitvoeren, is het verschil tussen "kale GPU's huren" en "een werkende werkplek krijgen" net dat: een werkende werkplek versus een infrastructuur-rekening.

/ 10Verder

Drie volgende stappen

  1. Lees de spoke-artikelen. Wanneer GPU's en wanneer agents gaat dieper in op de afweging. Voor de privacy-kant zie de AVG-checklist.
  2. Bekijk hoe wij capaciteit aanbieden. De AI Capaciteit-pagina beschrijft onze drie lagen, de vergelijking met kale GPU-verhuur en het hardware-aanbod.
  3. Plan een capaciteits-gesprek. 30 minuten waarin we jouw workload bespreken en een eerlijke inschatting geven. Geen uurtarief-discussie. Reactie binnen 24 uur na het intake-formulier.

BRONVERMELDINGEN

  1. 01Op moment van publiceren draaien er voor onze drie merken meer dan 30 agents over 5 servers, deels in lokale netwerken en deels in cloudregio's in Europa. Verdeling: ongeveer 65% op cloud-API-compute, 25% op managed GPU, 10% op lokale infrastructuur voor specifieke ops-tasks.

OVER DE AUTEURS

Milan de Romijn

Oprichter

Bouwt en runt MKB Compute samen met Tom. Verantwoordelijk voor operations, agent-orkestratie en klant-implementatie.

Tom Bekker

Oprichter

Bouwt en runt MKB Compute samen met Milan. Verantwoordelijk voor sales, klant-relatie en technische architectuur.

VOLGENDE STAP/AI CAPACITEIT

Plan een capaciteits-gesprek van 30 minuten. Binnen 24 uur reactie.

We luisteren naar je workload, schetsen welke laag het meest oplevert en geven een eerlijke kosten-inschatting.