Zum Inhalt springen
Mainframe

B2B — Automation & Build

On-Premise LLM Deployment

Lokales Sprachmodell auf Ihrer eigenen Hardware oder einem dedizierten Server. Ollama, OpenWebUI, optional vLLM für höhere Last — wenn Datenklasse, Kosten oder Betrieb dafür sprechen.

Ein Sprachmodell, das vollständig in Ihrer Infrastruktur betrieben werden kann. Mitarbeitende stellen Fragen, lassen Texte zusammenfassen und formulieren E-Mails — dort lokal, wo Datenklasse, Kosten oder Verfügbarkeit dafür sprechen.

Warum on-premise

  • Datenschutz und Compliance: sensible Dokumente und Kundendaten können lokal verarbeitet werden, wenn das fachlich oder rechtlich sinnvoll ist
  • Kontrolle: Modellauswahl, Update-Zeitpunkt, Logging und Zugriffskontrolle liegen bei Ihnen
  • Wirtschaftlichkeit bei hohem Volumen: ab einer gewissen Nutzungsintensität ist die monatliche API-Rechnung höher als die Hardware-Abschreibung
  • Pragmatische Architektur: Cloud-Modelle wie OpenAI oder Anthropic binden wir ebenfalls ein, wenn Qualität, Geschwindigkeit oder Kosten dafür sprechen
  • Verfügbarkeit: weniger Abhängigkeit von einzelnen API-Anbietern und deren Limits

Stack-Optionen

  • Ollama + OpenWebUI für die meisten Standard-Use-Cases — einfach zu betreiben, gute Modellauswahl, ChatGPT-ähnliches Interface
  • vLLM oder TGI wenn höhere Last bedient werden muss (paralleler Multi-User-Betrieb mit niedrigerer Latenz)
  • Empfohlene Modelle (Stand 2026): Qwen 3 / Qwen 3.5, Llama 4 (Scout / Maverick), Mistral Small 3.2 oder Mistral 3 — Auswahl je nach Sprachqualität, Lizenz und verfügbaren Ressourcen. Wir aktualisieren die Empfehlung laufend.

Hardware-Anforderungen

  • Minimum: 24 GB VRAM (z. B. RTX 4090, RTX 5090 oder RTX A5000) für 14B-Modelle in 4-bit-Quantisierung
  • Komfortabel: 48 GB VRAM (z. B. RTX 6000 Ada oder zwei verbundene Consumer-Karten) für 32B-Modelle
  • Hoch: dedizierter Server mit H100 oder Mehr-GPU-Setup für 70B-Modelle und Multi-User-Last

Was enthalten ist

  • Hardware-Beratung optional vor Anschaffung
  • Server-Setup, OS-Hardening, GPU-Treiber, CUDA-Stack
  • Modell-Deployment und Tuning der Inference-Parameter
  • Monitoring-Anbindung an einen bestehenden Grafana-Stack oder Setup eines neuen
  • Onboarding für die Endanwender (interne Dokumentation, Beispiel-Prompts)
  • Schriftliche Betriebsdokumentation für Ihr IT-Team

Was nicht enthalten ist

Hardware-Anschaffung — wir empfehlen separat. Fine-Tuning eigener Modelle (sprechen wir gesondert).

Realistische Erwartungen

Ein lokal laufendes 32B-Modell ist kein direkter Ersatz für die größten Cloud-Frontier-Modelle (GPT-5, Claude Opus 4, Gemini 3). Für interne Use Cases — Zusammenfassen, Übersetzen, Entwürfe formulieren, Code-Review, RAG über interne Dokumente — ist es in vielen Fällen mehr als ausreichend. Für andere Aufgaben ist ein Cloud-Modell klar die bessere Wahl; dann planen wir Verträge, Datenflüsse und Zugriffskontrolle sauber mit.

Lohnt es sich für Sie?

Bevor Sie anfragen: rechnen Sie es selbst durch. Unser Kostenrechner vergleicht OpenAI-API gegen On-Premise-Betrieb für Ihre Mitarbeiterzahl und Nutzungsintensität — inklusive Break-Even-Punkt über drei Jahre.