Der KI-Engineering-Stack, den ich wirklich nutze

Ein pragmatischer Blick auf die Tools, Modelle und Muster, die sich 2026 lohnen – von jemandem, der täglich damit baut.

KI-EngineeringToolsLLMsStack

Jede Woche gibt es ein neues Modell oder Framework, das alles verändern soll. Das meiste davon ist Lärm. Hier ist, was nach zwei Jahren KI-Projektentwicklung wirklich in meinem Stack steckt.

Modelle

Claude für die meisten Generierungsaufgaben – Coding-Unterstützung, Inhalte, strukturierte Ausgabe. Die Reasoning-Fähigkeiten bei komplexen, mehrstufigen Problemen sind durchgehend besser als bei den Alternativen, die ich ausprobiert habe.

Gemini Flash für hohe Volumen und latenzempfindliche Aufgaben, bei denen Kosten eine Rolle spielen. Das Verhältnis von Geschwindigkeit zu Qualität ist schwer zu schlagen – etwa bei Klassifizierung oder Zusammenfassung in großem Maßstab.

Lokale Modelle via Ollama wenn ich Offline-Fähigkeiten oder Datenschutzgarantien brauche. Mistral 7B und Llama 3 decken die meisten lokalen Anforderungen ab. Der Abstand zu Frontier-Modellen ist real, aber er schrumpft schnell.

Frameworks

Ich habe die meisten Orchestrierungsframeworks ausprobiert. Meine aktuellen Einschätzungen:

LangChain – Ich habe es 2024 intensiv genutzt. Ich nutze es nicht mehr. Die Abstraktionen haben mehr Probleme geschaffen als gelöst, sobald man über Tutorials hinausging. Die DX hat sich verbessert, aber ich baue lieber näher am Metall.

Anthropic SDK / OpenAI SDK direkt – Einfach diese verwenden. Sie sind gut, werden gepflegt, und man verbringt keine Stunden damit, zu debuggen, welche Abstraktionsschicht den Tool-Aufruf verschluckt hat.

Strukturierte Ausgabe – Ich mache fast alles strukturierte Extraktion mit JSON-Mode oder Tool-Use statt Parsing von unstrukturiertem Text. Deutlich zuverlässiger.

Entwicklungsumgebung

Claude Code – KI-unterstütztes Coding im Terminal. Ich nutze es für die meisten Dinge, für die ich früher eine Suchmaschine genommen hätte. Am nützlichsten bei Aufgaben mit klarem Kontext: Refactoring einer bestimmten Funktion, Boilerplate generieren, unbekannten Code erklären.

Das Wichtigste, was ich gelernt habe: Den Kontext eng halten. Ein kleines, fokussiertes Gespräch liefert bessere Ergebnisse als ein langes mit viel angesammeltem Kontext.

Infrastruktur

Vercel für Frontend-Deployments. Zero-Config-Next.js-Deployments bleiben eines der besten Entwicklererlebnisse im Ökosystem.

Railway für Backend-Dienste. Günstig, schnell aufzusetzen, vernünftige Standardwerte.

Cloudflare R2 für Objektspeicherung. S3-kompatibel, keine Egress-Gebühren – eine einfache Entscheidung für die meisten Anwendungsfälle.

Was ich ändern würde

Wenn ich heute von vorne anfangen würde:

  • Ich würde früher mehr Zeit in Evaluierungen investieren. Das Schwierigste an KI-Engineering ist nicht der erste Aufbau – sondern zu wissen, wann es gut genug ist, um live zu gehen.
  • Ich wäre skeptischer gegenüber RAG als Standardantwort. Vektorsuche und Embeddings sind mächtig, aber es ist auch leicht, etwas zu bauen, das in Demos funktioniert und im Betrieb versagt.
  • Ich würde von Anfang an für Modell-Upgrades entwerfen. Modelle verbessern sich schnell. Wenn das System eng an die Eigenheiten eines bestimmten Modells gekoppelt ist, ist jedes Upgrade ein Migrationsprojekt.

Das Feld entwickelt sich schnell. Was ich hier geschrieben habe, wird in sechs Monaten zumindest teilweise veraltet sein.