Over ons 🤖

Laten we elkaar leren kennen

Vertel me de missie en visie

Leg het verhaal achter Mach8 uit

Stel een vraag!

Hallo daar 👋

Hoe kunnen we je helpen?

Volledige naam

E-mail

Bericht

Mijn gegevens mogen worden gebruikt om me op de hoogte te houden van relevant nieuws van Mach8

Bellen

+31 13 71 13 708

•

E-mail

innovation@mach8.io

Kennisbank›AI Tools & Technologie

AI Tools & Technologie·7 min·4 mei 2025

Hoe test je AI-output systematisch?

AI-systemen gedragen zich niet als traditionele software. Dezelfde input kan verschillende outputs geven. Dat maakt testen uitdagender, maar ook belangrijker. Systematisch testen is de enige manier om betrouwbaar te zijn over de kwaliteit van je AI-systeem.

Bij traditionele software test je of de output gelijk is aan wat je verwacht. Bij AI-systemen is de output zelden identiek van run naar run. Toch wil je weten of het systeem consistent goed presteert. Dat vereist een andere testmethode: evaluatiegebaseerd testen in plaats van deterministische vergelijking.

Waarom is AI-testen anders?

Een traditionele softwaretest vergelijkt output met een verwachte waarde: is de output gelijk aan X? AI-output is zelden exact hetzelfde twee keer. "Wat zijn de openingstijden?" kan worden beantwoord met "We zijn open van 9 tot 5" maar ook met "Onze openingstijden zijn van 09:00 tot 17:00 uur." Beide zijn correct; ze zijn niet identiek.

AI-testen gaat daarom over kwaliteitsbeoordeling, niet over gelijkheidsvergelijking. Is het antwoord correct? Is het volledig? Past het bij de toon? Zijn er gevaarlijke of onjuiste elementen?

Bouw een testset

De basis van systematisch AI-testen is een testset: een verzameling inputvragen of -prompts met bijbehorende criteria voor een goed antwoord. Die criteria hoeven geen exacte strings te zijn; het mogen beoordelingsdimensies zijn.

Voorbeeld voor een klantenservice-chatbot:

Input: "Kan ik mijn bestelling annuleren?"
Criteria: het antwoord bevat informatie over het annuleringsbeleid, vermeldt de termijn, en geeft een volgende stap (contactgegevens of link)

Bouw een testset van minimaal 50-100 cases. Zorg dat die cases de variëteit dekt die je in productie verwacht: verschillende formuleringen, edge cases en vragen buiten het domein.

Automatisch versus handmatig evalueren

Voor kleine testsets is handmatige evaluatie haalbaar en geeft het de meest betrouwbare resultaten. Een mens beoordeelt elk antwoord op de relevante dimensies. Dat is tijdrovend maar levert de hoogste kwaliteit feedback.

Voor grotere testsets of frequente evaluatieruns kun je LLM-as-judge gebruiken: je laat een ander AI-model de output beoordelen op basis van een evaluatierubric. Dat schaalt beter, maar introduceert de fouten van het evaluatiemodel. Gebruik dit als aanvulling op handmatige evaluatie, niet als vervanging.

Wat evalueer je?

Relevante evaluatiedimensies voor de meeste AI-toepassingen:

Correctheid: klopt de feitelijke inhoud van het antwoord?
Volledigheid: is alle relevante informatie aanwezig?
Toon en stijl: past het bij de gewenste merkuiting?
Veiligheid: bevat het antwoord niets schadelijks, misleidends of ongepasts?
Scope: antwoordt de bot alleen op vragen binnen zijn domein?

Definieer voor elke dimensie een beoordelingsschaal: correct/incorrect, of een 1-5 schaal voor kwalitatieve dimensies.

Regressietesten

Regressietesten houdt in dat je na elke wijziging aan het systeem, een nieuwe systeem-prompt, bijgewerkte kennisbank, ander model, je volledige testset opnieuw uitvoert. Zo weet je of de wijziging de kwaliteit heeft verbeterd of verslechterd.

Dit klinkt eenvoudig maar wordt vaak overgeslagen. Zonder regressietesten weet je niet of een "verbetering" elders problemen heeft gecreëerd.

A/B-testen van prompts en configuraties

Als je twee versies van een systeem-prompt hebt, of twee modelkeuzes wil vergelijken, gebruik je A/B-testen. Geef beide versies dezelfde testset en vergelijk de scores. De versie met consistent betere scores wint.

Zorg dat de testset groot genoeg is voor statistisch betekenisvolle conclusies. Bij kleine testsets zijn de score-verschillen vaak ruis, geen signaal.

Testen in productie

Na livegang houd je de kwaliteit in de gaten via productiemonitoring. Analyseer gesprekken met lage beoordelingen, vragen die tot fallbacks leiden en escalaties. Voeg die gevallen toe aan je testset zodat het systeem steeds beter wordt op echte gebruiksvragen.

Conclusie

Systematisch AI-testen vereist een andere mindset dan traditioneel softwaretesten, maar de basisprincipes zijn vergelijkbaar: definieer wat goed is, test het, meet het, verbeter het. Mach8 helpt organisaties bij het opzetten van testframeworks die AI-systemen betrouwbaar en kwalitatief goed houden.

Wil je een solide testmethode opzetten voor je AI-toepassing? Neem contact op met Mach8.

Klaar om AI in te zetten?

Wij helpen je van strategie naar implementatie. Plan een vrijblijvend gesprek.

Plan een gesprek

Meer lezen

AI Tools & Technologie·7 min

Claude vs. GPT-4 vs. Gemini: welk model kies je voor zakelijk gebruik?

Claude, GPT-4 en Gemini zijn de drie meest gebruikte AI-modellen voor zakelijke toepassingen. Leer wat de praktische verschillen zijn en wanneer je welk model inzet.

AI Tools & Technologie·6 min

Wat is tokengebruik en hoe beinvloedt het de kosten van AI?

Tokens bepalen wat je betaalt voor AI-gebruik. Leer wat tokens zijn, hoe je ze telt en hoe je je kosten beheerst bij zakelijke AI-toepassingen.

Stationsstraat 5

5038EA - Tilburg

+31 13 71 13 708

innovation@mach8.io

Knowledge base

Onderdeel van United Playgrounds