Zum Inhalt springen

LLM als Service

Ein LLM als Microservice zu betreiben bedeutet: klares API-Contract, klare Verantwortung, klare Fehlerbehandlung.

  • Strukturierte Ausgabe aus unstrukturiertem Input
  • Klassifizierung, Zusammenfassung, Draft-Generierung
  • Kontextangereicherte Code-Analyse

Input-Contract: Was geht rein? Welche Daten, welcher Kontext, welches Schema?

Output-Contract: Strukturierte JSON-Ausgabe, nicht Freitext. Tool-Calling oder JSON-Mode für deterministische Schemas.

Fehlerbehandlung: LLMs sind nicht deterministisch. Der Service muss damit umgehen: Retry-Logik, Fallbacks, Timeout-Handling.

Kosten-Management: Token-Kosten sind real. Rate-Limiting, Caching von Embeddings, Batch-Processing.

  • LLM direkt aus Frontend aufrufen (ohne Backend-Layer)
  • Freie Textausgabe als API-Response (unparseable)
  • LLM-Calls ohne Timeout (hängen kann alles)

AI-Assistant als eigenständiger NestJS-Microservice, kommuniziert mit Ollama (lokal) über ein definiertes Tool-Schema. Die Frontend-Remotes wissen nicht, dass ein LLM dahintersteckt — nur das API-Contract.