Zurück zum Blog
LLMs in bestehende Produkte integrieren: Ein praktischer Leitfaden

LLMs in bestehende Produkte integrieren: Ein praktischer Leitfaden

Dennis Reinkober16. März 20262 Min. Lesezeit

Die meisten KI-Projekte, an denen wir arbeiten, sind keine Greenfield-Projekte. Es sind Integrationen in bestehende Systeme — einen Chatbot zu einem Kundenportal hinzufügen, intelligente Suche für eine Wissensbasis bauen oder Dokumentenklassifizierung in einem Workflow automatisieren, der seit Jahren läuft.

LLMs in ein bestehendes Produkt zu integrieren unterscheidet sich vom Bau eines KI-first-Produkts. Du hast Einschränkungen: bestehende Datenbanken, etablierte APIs, Nutzer, die erwarten, dass alles weiter funktioniert. Hier ist der praktische Guide, den wir uns gewünscht hätten.

Schritt 1: Das richtige Integrationsmuster wählen

Bevor du ein Modell auswählst, entscheide, was die KI eigentlich tun soll.

Muster 1: Konversation (Chatbot)

Nutzer sendet Nachricht, KI antwortet. Optional mit deinen Daten untermauert (RAG).

Am besten für: Kundensupport, internes Q&A, Dokumentationsassistenten.

// Einfachste Chatbot-Integration
async function chat(userMessage: string, conversationHistory: Message[]) {
  const response = await openai.chat.completions.create({
    model: "gpt-4o",
    messages: [
      { role: "system", content: SYSTEM_PROMPT },
      ...conversationHistory,
      { role: "user", content: userMessage },
    ],
    stream: true,
  });
  return response;
}

Muster 2: Klassifizierung

KI kategorisiert Input in vordefinierte Kategorien. Keine freie Textgenerierung.

Am besten für: Support-Ticket-Routing, Content-Moderation, Lead-Scoring, Sentiment-Analyse.

Muster 3: Content-Generierung

KI erstellt Inhalte basierend auf strukturiertem Input. E-Mails, Berichte, Zusammenfassungen.

Muster 4: Semantische Suche

Ersetze Keyword-Suche durch bedeutungsbasierte Suche mit Embeddings.

Schritt 2: Das richtige Modell wählen

ModellAm besten fürKosten (pro 1M Tokens)EU-hostbar
GPT-4oKomplexes Reasoning~$5 / $15Via Azure EU
GPT-4o-miniKlassifizierung, einfache Generation~$0.15 / $0.60Via Azure EU
Claude Sonnet 4Lange Dokumente, nuanciertes Schreiben~$3 / $15Via AWS EU
Mistral LargeEU-nativ, starkes Multilingual~$2 / $6Ja (Frankreich)
Llama 3.1 70BSelf-hosted, volle DatenkontrolleSelf-hostedJa
Günstig starten, hochskalieren

Immer mit dem günstigsten Modell prototypen (GPT-4o-mini). Nur upgraden, wenn das günstige Modell die Aufgabe nicht bewältigt. Wir haben Teams gesehen, die 10x mehr als nötig ausgeben, weil sie für alles GPT-4 genutzt haben.

Schritt 3: Architekturentscheidungen

Sync vs. Async

Synchron (Streaming): Nutzer sendet Nachricht, sieht Antwort in Echtzeit streamen. Gut für Chatbots.

Asynchron (Background): Nutzer löst Task aus, wird benachrichtigt wenn fertig. Gut für Dokumentenverarbeitung, Batch-Klassifizierung.

Wo die KI-Schicht hinkommt

Schraub das LLM nicht direkt in deine bestehenden API-Routes. Erstelle eine separate AI-Service-Schicht:

Bestehende App → AI Service Layer → LLM Provider
                      ↓
                Cache / Vector DB

Das gibt dir:

  • Einfacher Modellwechsel (von OpenAI zu Mistral ohne App-Änderungen)
  • Zentralisiertes Prompt-Management
  • Kosten-Tracking pro Feature
  • Circuit Breaker für LLM-Ausfälle

Schritt 4: Kostenmanagement

LLM-Kosten können schnell eskalieren:

  1. Günstigstes Modell nutzen, das funktioniert. GPT-4o-mini bewältigt 80% der Use Cases.
  2. Aggressiv cachen. Gleiche Frage = gleiche Antwort.
  3. Per-User-Rate-Limits setzen. 50 Nachrichten/Tag ist großzügig für die meisten Features.
  4. Kontext kürzen. Nicht 100 Nachrichten History senden. Die letzten 10 reichen.

Reales Kostenbeispiel: Ein Kundensupport-Chatbot mit 1.000 Konversationen/Tag mit GPT-4o-mini kostet ca. 150-300 €/Monat. Das gleiche Volumen mit GPT-4o kostet 1.500-3.000 €/Monat.

Schritt 5: Die RAG-Entscheidung

Wenn deine KI Fragen über deine Daten beantworten soll, brauchst du RAG. Wenn sie nur Anweisungen befolgen und Content generieren soll, nicht.

Wir haben einen detaillierten Vergleich in unserem RAG vs. Fine-Tuning Post geschrieben.

Die Integrations-Timeline

WocheAktivität
1Modelle evaluieren, Integrationsmuster definieren, AI Service Layer aufsetzen
2Core-Feature bauen, Basis-Prompt-Engineering
3RAG-Pipeline hinzufügen (wenn nötig), Caching, Rate Limiting
4Testing, Evaluation, Prompt-Optimierung, Staging-Deploy
5Produktion, Monitoring, Kosten-Tracking

Die meisten Integrationen shippen in 3-5 Wochen, wenn das bestehende Produkt eine saubere API hat.


Du brauchst Hilfe bei der KI-Integration in dein Produkt? Erfahre mehr über unsere KI- & LLM-Integration.

Quellen

Ähnliche Beiträge