Over ons 🤖

Laten we elkaar leren kennen

Vertel me de missie en visie

Leg het verhaal achter Mach8 uit

Hallo daar 👋

Hoe kunnen we je helpen?

Mijn gegevens mogen worden gebruikt om me op de hoogte te houden van relevant nieuws van Mach8

AI Tools & Technologie·6 min·4 mei 2025

Wat is prompt caching en hoe bespaart het API-kosten?

Als je een AI-toepassing bouwt waarbij de systeem-prompt bij elk verzoek hetzelfde is, betaal je elke keer voor het verwerken van diezelfde tekst. Prompt caching lost dat op: herhaalde input wordt goedkoper verwerkt, en de responstijd daalt.

Prompt caching is een functie die meerdere grote AI-aanbieders inmiddels aanbieden, waaronder Anthropic en OpenAI. Het verlaagt de kosten en latency voor toepassingen waarbij een groot deel van de input bij elk verzoek gelijk is. Voor zakelijke AI-toepassingen op schaal kan dit een significante besparing opleveren.

Hoe werkt prompt caching?

Wanneer je een verzoek stuurt naar de API, verwerkt het model de volledige input opnieuw: de systeem-prompt, de kennisbasiscontext en het gebruikersbericht. Als de systeem-prompt lang is en bij elk verzoek identiek, is dat verspilling: je betaalt telkens voor hetzelfde.

Met prompt caching sla je een deel van de input op in het servergeheugen van de aanbieder. Bij het volgende verzoek wordt dat gecachete deel niet opnieuw verwerkt. Je betaalt een gereduceerd tarief voor de gecachete tokens: bij Anthropic is dat doorgaans 90% minder dan het standaard inputtarief. De responsetijd daalt ook, omdat de verwerking van het gecachete deel wordt overgeslagen.

Wanneer is prompt caching nuttig?

Prompt caching is het meest waardevol wanneer:

  • Je een lange, vaste systeem-prompt hebt die bij elk verzoek hetzelfde is
  • Je een grote kennisbank of documentcollectie bij elk verzoek in de context plaatst
  • Je veel-gebruikte RAG-passages vaak terugkomen in verzoeken
  • Je chatbot een lange gespreksgeschiedeniscontext heeft die herhaald wordt

Als je systeem-prompt slechts enkele honderden tokens is, zijn de besparingen beperkt. Caching loont pas als de gecachete sectie substantieel is: enkele duizenden tokens of meer.

Hoe implementeer je het bij Anthropic?

Bij Anthropic zet je caching aan door in je API-verzoek een cache_control-parameter toe te voegen aan de secties die je wilt cachen. Je markeert expliciet welke delen van de input gecachet mogen worden. Dat geeft je controle: je kiest welke secties stabiel genoeg zijn om te cachen.

De cache heeft een beperkte levensduur (doorgaans vijf minuten bij Anthropic). Als het interval tussen verzoeken langer is dan die levensduur, wordt de cache opnieuw opgebouwd. Plan je verzoekfrequentie bij met die levensduur in gedachten.

Hoe implementeer je het bij OpenAI?

OpenAI's prompt caching werkt automatisch voor lange, herhaalde inputs. Je hoeft niets extra te configureren: het systeem herkent gecachete delen en verwerkt ze goedkoper. De besparing is zichtbaar in je verbruiksoverzicht.

Het nadeel van de automatische aanpak is minder controle over wat er wel en niet gecachet wordt. Bij Anthropic's expliciete aanpak heb je meer grip.

Concrete kostenbesparing

Stel je hebt een chatbot met een systeem-prompt van 5.000 tokens en een kennisbascontext van 10.000 tokens per verzoek. Dat is 15.000 inputtokens die bij elk verzoek worden verwerkt. Bij 10.000 verzoeken per dag en een inputtarief van $3 per miljoen tokens kost dat $450 per dag.

Met prompt caching, waarbij 90% van de gecachete tokens gereduceerd worden, betaal je voor 1.500 tokens normaal en 13.500 tokens tegen 10% van het tarief. De dagelijkse kosten dalen naar circa $45 voor de gecachete delen, plus het normale tarief voor de rest.

Wat zijn de beperkingen?

Caching werkt alleen voor identieke invoer. Als de systeem-prompt of de kennisbascontext per verzoek licht varieert, wordt de cache niet geraakt. Variabele delen van je prompt mogen niet in de gecachete sectie zitten.

Bovendien is caching minder nuttig voor lage volumes. De besparingen worden pas significant bij honderde of duizenden verzoeken per dag.

Conclusie

Prompt caching is een praktische manier om API-kosten te verlagen bij AI-toepassingen op schaal. Het vereist beperkte technische implementatie maar kan de kosten bij hoog gebruik aanzienlijk verlagen. Mach8 past prompt caching standaard toe bij productieclients waarbij het van toepassing is.

Wil je jouw AI-toepassing kostenefficiënter maken? Neem contact op met Mach8.

Klaar om AI in te zetten?

Wij helpen je van strategie naar implementatie. Plan een vrijblijvend gesprek.

Plan een gesprek