LLM als Service

Ein LLM als Microservice zu betreiben bedeutet: klares API-Contract, klare Verantwortung, klare Fehlerbehandlung.

Was LLM-Services können

Strukturierte Ausgabe aus unstrukturiertem Input
Klassifizierung, Zusammenfassung, Draft-Generierung
Kontextangereicherte Code-Analyse

Architektur-Anforderungen

Input-Contract: Was geht rein? Welche Daten, welcher Kontext, welches Schema?

Output-Contract: Strukturierte JSON-Ausgabe, nicht Freitext. Tool-Calling oder JSON-Mode für deterministische Schemas.

Fehlerbehandlung: LLMs sind nicht deterministisch. Der Service muss damit umgehen: Retry-Logik, Fallbacks, Timeout-Handling.

Kosten-Management: Token-Kosten sind real. Rate-Limiting, Caching von Embeddings, Batch-Processing.

Was nicht funktioniert

LLM direkt aus Frontend aufrufen (ohne Backend-Layer)
Freie Textausgabe als API-Response (unparseable)
LLM-Calls ohne Timeout (hängen kann alles)

In Taskly

AI-Assistant als eigenständiger NestJS-Microservice, kommuniziert mit Ollama (lokal) über ein definiertes Tool-Schema. Die Frontend-Remotes wissen nicht, dass ein LLM dahintersteckt — nur das API-Contract.