Erinnert ihr euch noch an euren ersten Telefonrechnungsschock? Zwei Wochen Dubai, zurück zu Hause, plötzlich 1.000 Euro statt 30. Dasselbe Handy, dasselbe Verhalten — aber ein komplett anderes Abrechnungsmodell.
Genau das passiert gerade in jeder Firma in DACH. Eure CTOs sitzen wie dieser Vater am Küchentisch und denken: "Wir zahlen 30 Euro im Monat für Copilot-Lizenzen." Und dann öffnet jemand still die API-Rechnung. Und sie ist nicht 30 Euro. Sie ist 1.500. Pro Mitarbeiter. Pro Monat.
Andrej Karpathy — Co-Founder OpenAI, ex-Tesla AI-Chef — bringt es in einem aktuellen Post auf den Punkt:
"90% eurer KI-Rechnung zahlt ihr für Kontext, den ihr nie braucht." Stellt euch das vor: ihr lasst ein Haus für 100.000 Euro bauen. Der Bauleiter sagt: "Malcolm, das macht 1 Million." — "Warum 10× mehr?" — "Naja, der Kontext..."
Genau das macht eure Firma gerade mit jeder einzelnen KI-Abfrage.
📚 Wie wir hierher gekommen sind
2022-2023: Prompt Engineering. Gehälter 200.000-500.000 Dollar. "Bitte und Danke", "denke Schritt für Schritt", Chain of Thought. Funktioniert teilweise heute noch.
2024: Job-Titel "Prompt Engineer" verschwindet. Karpathy bringt Context Engineering — die delikate Kunst, der KI im richtigen Kontextfenster die richtigen Informationen zu liefern.
2026: Jetzt brauchen wir Prompt Engineering 2.0 — nicht für bessere Antworten, sondern für 10× günstigere Antworten.
🔧 Acht messbare Token-Hebel, die kein Mittelständler nutzt
Chunking — große Dokumente in semantische Stücke teilen, statt 100 PDFs in einer Abfrage zu verbrennen
Grab-before-Fetch — der KI gezielt sagen, welches Buch sie aus der Bibliothek holen soll, statt sie 100 lesen zu lassen
Prompt Caching — bei stabilen Präfix-Anweisungen zahlt ihr nur 10% (Anthropic). Erste Cache-Speicherung kostet 90%, jeder Wiederabruf 10%. Bei einer 17-Seiten-Compliance-Anweisung = riesiger Hebel.
Skill.MD / Agent.MD — Arbeitsanweisungen für die KI. Karpathy hat es ausgerechnet: ohne Skill.MD = 4 Dollar pro Session. Mit Skill.MD = 30 Cent. Faktor 13.
Compaction — bei langen Sessions selbst kompaktieren, nicht warten bis die KI das tut. Funktioniert in Claude Code, Codex etc.
Model Routing — Haiku 5$/1M Tokens (Klassifikation, Formatieren), Sonnet 15$ (Code Review), Opus 25$ (Architektur). Fahrt nicht den Bugatti zum Einkaufen.
Default Model wechseln — eure Devs haben das teuerste Modell als Standard. Sonnet reicht in 85% der Fälle.
Auto-Context-Loading + Prompt-Audits durch eine zweite KI = automatischer Context-Bloat-Killer
🚦 Die Stromrechnungs-Analogie für euren Vorstand
Privat: 20-Euro-Glühbirne. Wenn ihr sie 24h anlasst, ist es egal. Stromrechnung 800 oder 850 — wurscht.
Aber jetzt: Fabrikhalle. 50.000 Lampen. Drei Schichtbetrieb. Plus Anlagen, Serverraum. Plötzlich 5 Millionen Euro Stromrechnung. Genau das ist eure KI-Rechnung 2026. Ihr habt zwei Jahre lang KI gekauft, ohne den Stromzähler einzubauen.
Wenn ich als Berater reinkomme und sage "Projekt für 1 Million Euro, um eure Prompt-Sachen zu verbessern" — und ihr aus 5 Millionen runter auf 500.000 kommt? Klar man, das ist Faktor 10.
📟 Cloud-Meter — der physische Stromzähler für eure KI
Jemand hat sich einen kleinen Würfel mit Touchscreen gebaut, der in Echtzeit zeigt, wie viel Geld er aktuell für Tokens verbrennt. Schreibtisch neben dem Laptop. GitHub-Repo, viral auf TikTok. Ein Mensch hat einen Stromzähler für KI gebaut, weil er auch überfordert ist.
🎯 Drei Montag-Aktionen
1. Subscription Audit: Habt ihr Claude Code + Codex + Cursor + Lovable Pro + ChatGPT Plus + Gemini parallel? Lasst eine KI auflisten, wo Doppelausgaben sind. Bei werchota.ai sparen wir monatlich tausende, weil wir schnell abonnieren und schnell kündigen.
2. Skill.MDs bauen: Sobald ihr einen Prozess 2× macht, schreibt eine Skill.MD. Bei werchota haben wir ein Skill-Repository auf GitHub. Jede Skill = bessere Qualität + 13× weniger Tokens.
3. Default Model wechseln: Geht in Claude/Codex/Cursor, ändert das Default Model auf Sonnet (oder kleiner). Ihr werdet weniger "max out" bekommen — und ihr könnt viel länger arbeiten.
💬 Die Frage, die jeder Vorstand stellen können muss
"Wie viel kostet bei uns ein Token?"
Eure CFOs wissen die Stromrechnung. Sie kennen den Goldpreis. Den Benzinpreis. Den Milchpreis bei Kaufland. Den Token-Preis kennen sie nicht. Und sie wissen auch nicht, dass sie ihn kennen sollten.
Das ist die Sprache, die wir lernen müssen. KI-Sprache. Wer sie zuerst spricht, gewinnt.
⏱️ Timestamps
00:00 — Cold Open: Die 1.000-Euro-Roaming-Rechnung aus Dubai
03:30 — Zwei Welten: Privat-Flatrate vs. Enterprise-API
06:00 — Karpathy: 90% eurer Rechnung ist Müll-Kontext
08:30 — Retro: Prompt Engineering 2022 → Context Engineering 2024 → Prompt Engineering 2.0
13:00 — Chunking + Grab-before-Fetch
16:00 — Prompt Caching: 10% statt 100% (Anthropic-Hebel)
19:00 — Skill.MD / Agent.MD — Faktor 13
22:00 — Compaction
25:00 — Stromrechnung-Analogie: 5 Mio. Token-Kosten ohne Zähler
28:00 — Cloud-Meter — der physische Token-Zähler
30:00 — Model Routing: Haiku/Sonnet/Opus — Skoda, Ferrari, Bugatti
33:00 — Drei Montag-Aktionen: Subscription Audit, Skill.MDs, Default Model
37:00 — Die Frage für jeden Vorstand: "Wie viel kostet ein Token?"
🎙️ Über den Host
Malcolm Werchota leitet KI-Adoptionsprogramme für Unternehmen in ganz Europa. Nach über 15 Jahren bei Novartis und Schlumberger heute Fokus: KI ohne Bullshit. Dozent an ESADE und HSLU. Studiert in Leoben.
🚀 Ressourcen für Führungskräfte
📚 Chief AI Academy — KI für Entscheider
👥 AI Leadership Community
🌐 werchota.ai
📬 Kontakt
LinkedIn: linkedin.com/in/malcolmwerchota
E-Mail:
[email protected]📰 Quellen
Andrej Karpathy — Twitter/X-Post zu Context Engineering & Skill.MD Faktor 13
Anthropic — Prompt Caching Pricing (10%/90% Split)
Anthropic — Modellpreise Haiku / Sonnet 4.6 / Opus 4.7
GitHub — Cloud-Meter Open-Source-Projekt (viral auf TikTok)
Werchota.ai — interne Skill Repository & Subscription Audits
Tags: #PromptEngineering #ContextEngineering #Karpathy #Anthropic #Claude #ClaudeCode #Codex #Tokens #AICost #PromptCaching #SkillMD #ModelRouting #DACH #Mittelstand #CFO #CTO #werchota #ChiefAIAcademy #DasKIKochbuch