B2B — Automation & Build
On-Premise LLM Deployment
Lokales Sprachmodell auf Ihrer eigenen Hardware oder einem dedizierten Server. Ollama, OpenWebUI, optional vLLM für höhere Last — wenn Datenklasse, Kosten oder Betrieb dafür sprechen.
Ein Sprachmodell, das vollständig in Ihrer Infrastruktur betrieben werden kann. Mitarbeitende stellen Fragen, lassen Texte zusammenfassen und formulieren E-Mails — dort lokal, wo Datenklasse, Kosten oder Verfügbarkeit dafür sprechen.
Warum on-premise
- Datenschutz und Compliance: sensible Dokumente und Kundendaten können lokal verarbeitet werden, wenn das fachlich oder rechtlich sinnvoll ist
- Kontrolle: Modellauswahl, Update-Zeitpunkt, Logging und Zugriffskontrolle liegen bei Ihnen
- Wirtschaftlichkeit bei hohem Volumen: ab einer gewissen Nutzungsintensität ist die monatliche API-Rechnung höher als die Hardware-Abschreibung
- Pragmatische Architektur: Cloud-Modelle wie OpenAI oder Anthropic binden wir ebenfalls ein, wenn Qualität, Geschwindigkeit oder Kosten dafür sprechen
- Verfügbarkeit: weniger Abhängigkeit von einzelnen API-Anbietern und deren Limits
Stack-Optionen
- Ollama + OpenWebUI für die meisten Standard-Use-Cases — einfach zu betreiben, gute Modellauswahl, ChatGPT-ähnliches Interface
- vLLM oder TGI wenn höhere Last bedient werden muss (paralleler Multi-User-Betrieb mit niedrigerer Latenz)
- Empfohlene Modelle (Stand 2026): Qwen 3 / Qwen 3.5, Llama 4 (Scout / Maverick), Mistral Small 3.2 oder Mistral 3 — Auswahl je nach Sprachqualität, Lizenz und verfügbaren Ressourcen. Wir aktualisieren die Empfehlung laufend.
Hardware-Anforderungen
- Minimum: 24 GB VRAM (z. B. RTX 4090, RTX 5090 oder RTX A5000) für 14B-Modelle in 4-bit-Quantisierung
- Komfortabel: 48 GB VRAM (z. B. RTX 6000 Ada oder zwei verbundene Consumer-Karten) für 32B-Modelle
- Hoch: dedizierter Server mit H100 oder Mehr-GPU-Setup für 70B-Modelle und Multi-User-Last
Was enthalten ist
- Hardware-Beratung optional vor Anschaffung
- Server-Setup, OS-Hardening, GPU-Treiber, CUDA-Stack
- Modell-Deployment und Tuning der Inference-Parameter
- Monitoring-Anbindung an einen bestehenden Grafana-Stack oder Setup eines neuen
- Onboarding für die Endanwender (interne Dokumentation, Beispiel-Prompts)
- Schriftliche Betriebsdokumentation für Ihr IT-Team
Was nicht enthalten ist
Hardware-Anschaffung — wir empfehlen separat. Fine-Tuning eigener Modelle (sprechen wir gesondert).
Realistische Erwartungen
Ein lokal laufendes 32B-Modell ist kein direkter Ersatz für die größten Cloud-Frontier-Modelle (GPT-5, Claude Opus 4, Gemini 3). Für interne Use Cases — Zusammenfassen, Übersetzen, Entwürfe formulieren, Code-Review, RAG über interne Dokumente — ist es in vielen Fällen mehr als ausreichend. Für andere Aufgaben ist ein Cloud-Modell klar die bessere Wahl; dann planen wir Verträge, Datenflüsse und Zugriffskontrolle sauber mit.
Lohnt es sich für Sie?
Bevor Sie anfragen: rechnen Sie es selbst durch. Unser Kostenrechner vergleicht OpenAI-API gegen On-Premise-Betrieb für Ihre Mitarbeiterzahl und Nutzungsintensität — inklusive Break-Even-Punkt über drei Jahre.