Over ons 🤖

Laten we elkaar leren kennen

Vertel me de missie en visie

Leg het verhaal achter Mach8 uit

Stel een vraag!

Hallo daar 👋

Hoe kunnen we je helpen?

Volledige naam

E-mail

Bericht

Mijn gegevens mogen worden gebruikt om me op de hoogte te houden van relevant nieuws van Mach8

Bellen

+31 13 71 13 708

•

E-mail

innovation@mach8.io

Kennisbank›AI Tools & Technologie

AI Tools & Technologie·6 min·4 mei 2025

Wat is tokengebruik en hoe beinvloedt het de kosten van AI?

Vrijwel alle API-gebaseerde AI-diensten rekenen op basis van tokens. Maar wat zijn tokens precies? En hoe zorg je dat je kosten niet onverwacht oplopen als je AI-gebruik schaalt? Dit artikel legt de basis uit en geeft concrete tips voor kostenbeheer.

Tokens zijn de rekeneenheid van AI-taalmodellen. Elke woord, elk leesteken en elke spatie die een model verwerkt of produceert, kost tokens. Als je weet hoe tokens werken, begrijp je ook waarom sommige AI-toepassingen goedkoper zijn dan andere, en hoe je kosten kunt beheersen.

Wat zijn tokens?

Een token is geen woord en geen letter. Het is een stukje tekst dat het model als eenheid verwerkt. In het Engels zijn de meeste korte woorden één token. Langere woorden worden in meerdere tokens gesplitst. Leestekens en spaties zijn ook tokens.

Als vuistregel: 100 woorden Engelse tekst zijn ongeveer 130-150 tokens. Nederlandse of andere Europese teksten zijn doorgaans iets duurder per woord dan Engels, omdat de tokenizer die de meeste modellen gebruiken is geoptimaliseerd voor Engels.

Input versus output tokens

AI-modellen brengen kosten in rekening voor twee stromen: input en output. Input zijn de tokens die je naar het model stuurt: de systeem-prompt, de gesprekshistorie en het huidige bericht van de gebruiker. Output zijn de tokens die het model terugstuurt als antwoord.

Outputtokens kosten doorgaans twee tot vijf keer meer dan inputtokens. Dat maakt langere antwoorden relatief duur. Als je een chatbot hebt die uitgebreide antwoorden geeft, betaal je significant meer dan een chatbot die beknopt antwoordt.

Wat maakt de kosten hoog?

De meest kostbare situaties:

Lange systeem-prompts: Als je chatbot een uitgebreide set instructies meekrijgt bij elk gesprek, telt dat mee als inputtokens bij elk verzoek.
Uitgebreide gesprekshistorie: Als het systeem de volledige gesprekshistorie meestuurt, groeit de input met elk bericht.
Lange documenten in de context: Bij RAG-systemen worden relevante passages meegestuurd als context. Hoe meer passages, hoe meer tokens.
Hoge output: Modellen die uitgebreide antwoorden genereren, produceren veel outputtokens.

Hoe beheer je de kosten?

Gebruik kleinere modellen voor eenvoudige taken: Claude Haiku, GPT-4o mini en vergelijkbare compacte modellen zijn een fractie van de prijs van de krachtigste varianten. Voor FAQ-chatbots en simpele taken is dat meer dan voldoende.

Beperk de gesprekshistorie: Stuur niet de volledige gesprekshistorie mee als dat niet nodig is. Een samenvatting van eerdere berichten in plaats van de letterlijke tekst bespaart tokens.

Comprimeer je systeem-prompt: Test of een kortere, minder uitgebreide systeem-prompt net zo goed werkt. Elke token in de systeem-prompt telt mee bij elk verzoek.

Gebruik prompt caching: Anthropic en OpenAI bieden beide vormen van caching waarbij herhaalde input goedkoper verwerkt wordt. Dit is relevant als je een lange systeem-prompt hebt die bij elk verzoek hetzelfde is.

Kosten inschatten voor een project

Voordat je een AI-toepassing bouwt, is het verstandig om een kostenschatting te maken. Hoeveel gesprekken verwacht je per dag? Wat is de gemiddelde lengte van een gesprek? Hoe lang zijn je systeem-prompt en context?

Met die inputs kun je uitrekenen hoeveel tokens je per dag verbruikt en wat dat kost. De meeste aanbieders hebben een tokenizer-tool waarmee je tekst kunt invoeren en het aantal tokens kunt zien.

Conclusie

Tokengebruik begrijpen is essentieel voor iedereen die AI-toepassingen bouwt op schaal. De kosten zijn beheersbaar met de juiste architectuurkeuzes. Mach8 helpt organisaties bij het ontwerpen van AI-systemen die niet alleen goed werken, maar ook kostenefficiënt zijn.

Wil je een kostenefficiënte AI-toepassing bouwen? Neem contact op met Mach8.

Klaar om AI in te zetten?

Wij helpen je van strategie naar implementatie. Plan een vrijblijvend gesprek.

Plan een gesprek

Meer lezen

AI Tools & Technologie·7 min

Claude vs. GPT-4 vs. Gemini: welk model kies je voor zakelijk gebruik?

Claude, GPT-4 en Gemini zijn de drie meest gebruikte AI-modellen voor zakelijke toepassingen. Leer wat de praktische verschillen zijn en wanneer je welk model inzet.

AI Tools & Technologie·7 min

Hoe gebruik je de Anthropic API voor zakelijke toepassingen?

De Anthropic API geeft toegang tot Claude voor zakelijke toepassingen. Leer hoe je ermee aan de slag gaat, welke mogelijkheden er zijn en wat de valkuilen zijn.

Stationsstraat 5

5038EA - Tilburg

+31 13 71 13 708

innovation@mach8.io

Knowledge base

Onderdeel van United Playgrounds