Architektur · On-Premise · Open-Weight

KI selbst hosten — Hardware, Modelle, Praxis-Stack.

Wer den Datenpfad an der Hauswand enden lassen will, braucht keinen Cloud-Anbieter. Er braucht eine Workstation, ein offenes Modell und drei Stunden für die Einrichtung.

Selbst zu hosten klingt nach Klinik-Rechenzentrum, nach Server-Rack und IT-Vollstelle. Das ist es selten. Für eine durchschnittliche Praxis genügt eine GPU-Workstation, die man unter den Empfang stellen kann. Für eine Fachpraxis reicht ein kleiner Server-Schrank. Erst auf Klinik-Niveau wird es Rechenzentrums-Thematik. In allen drei Größen ist die Architektur dieselbe — sie unterscheidet sich nur in der Hardware-Auslegung.

1. Warum überhaupt selbst hosten

Drei Gründe, die in jeder Klinik-IT-Sitzung wiederkehren. Der erste ist regulatorisch: § 203 StGB, Art. 9 DSGVO, AI Act, MDR — die Anforderungen ineinander zu legen ist mit einer souveränen Architektur einfacher als mit jedem Cloud-Vertrag. Der zweite ist betriebswirtschaftlich: Eine GPU-Workstation amortisiert sich gegen Pro-Lizenzen generativer KI in der Regel nach 12 bis 18 Monaten. Der dritte ist strategisch: Wer das Werkzeug versteht, das täglich Patientendaten verarbeitet, ist nicht von einem Anbieterwechsel oder einer Preiserhöhung erpressbar.

Was selbst zu hosten nicht ist: ein Innovationsverzicht. Die heute verfügbaren Open-Weight- Modelle erreichen in den meisten medizinischen Standardaufgaben — Anamnese-Strukturierung, Arztbrief- Generierung, ICD-Vorschläge, Übersetzungen — Leistungswerte, die mit den großen Cloud-Modellen vergleichbar sind. Die Lücke schließt sich monatlich weiter.

2. Hardware — vier Stufen

Die richtige Auslegung hängt von der Modellgröße ab, die Sie betreiben wollen, und von der Anzahl gleichzeitiger Nutzer. Vier Stufen, die wir in der Praxis sehen.

Stufe 1

Kleine Praxis — Mac Studio oder Workstation

Ein Mac Studio mit M-Ultra-Chip und 64 GB Unified Memory oder eine PC-Workstation mit einer Consumer-GPU (RTX 4090 oder neuer) genügt für Modelle bis etwa 30 Milliarden Parameter in 4-Bit-Quantisierung. Investition: zwischen 6.000 und 9.000 Euro netto, Stromverbrauch unter Volllast unter 400 Watt. Geeignet für eine bis fünf gleichzeitige Nutzersitzungen, also den typischen Praxisbetrieb.

Stufe 2

Mittlere Praxis — Profi-Workstation mit einer großen GPU

Eine Workstation oder ein kleiner Server mit einer professionellen GPU (RTX 6000 Ada mit 48 GB Speicher oder äquivalent) trägt komfortabel Modelle in der 70-Milliarden- Parameter-Klasse mit 4-Bit-Quantisierung und Modelle bis 30 Milliarden Parameter ohne Quantisierungsverluste. Investition: 15.000 bis 25.000 Euro netto. Geeignet für fünf bis zwanzig gleichzeitige Nutzersitzungen, plus Hintergrund-Workloads für Korrespondenz oder Auswertung.

Stufe 3

Große Praxis / MVZ — Server mit GPU-Pool

Ein Server in einem klimatisierten Raum mit zwei bis vier Profi-GPUs oder einer Datacenter-GPU (H100 oder L40S). Investition: 40.000 bis 80.000 Euro netto, abhängig von Redundanz und Netzwerk-Anbindung. Geeignet für eine ärztliche Großorganisation mit zwanzig bis fünfzig gleichzeitigen Nutzersitzungen und einem produktiven Multi-Modell-Setup (z. B. Sprache-zu-Text auf einem Subsystem, Großmodell für Text, kleines schnelles Modell für strukturierte Aufgaben).

Stufe 4

Klinik — Rechenzentrums-Cluster mit Redundanz

Ein redundanter Cluster aus mehreren H100- oder H200- Knoten, hochverfügbar verschaltet, mit produktiver KIS- Anbindung über FHIR und HL7. Investition: typischerweise im mittleren bis hohen sechsstelligen Bereich, abhängig von Cluster-Größe, USV, Klimatisierung und Wartungs- verträgen. Ein solcher Stack lässt sich auch im Versorgerverbund mehrerer Häuser betreiben und so auf den einzelnen Träger verteilen.

3. Modelle — welche Open-Weight-Familien heute taugen

Open-Weight bedeutet, dass die Modell-Gewichte unter einer permissiven Lizenz veröffentlicht sind und lokal ausgeführt werden können. Das ist die Voraussetzung für jede souveräne Architektur — eine API-Anbindung ist kein Selbst-Hosten, egal in welchem Rechenzentrum sie endet.

Westliche Modellfamilien

Die Llama-Reihe von Meta ist heute der De-facto-Standard für allgemeine Sprachaufgaben — die aktuelle Generation (Llama 3.x) liegt in mehreren Größen vor und ist breit getestet. Die Mistral-Familie aus Paris bietet besonders effiziente kleinere Modelle und ein starkes Großmodell, jeweils mit europäischer Provenienz. Das Teuken-7B-Modell aus dem deutschen Fraunhofer-Konsortium ist explizit für deutschsprachige und multilinguale europäische Anwendungen ausgelegt. Für medizinische Spezialaufgaben gibt es zusätzlich fein-getunte Varianten — meist Forschungsversionen, mit dem entsprechenden Vorbehalt für den produktiven Einsatz.

Chinesische Open-Weight-Modelle — lokal legal

Die Qwen-Familie von Alibaba und das DeepSeek-Reasoning-Modell sind unter freier Lizenz verfügbar und in mehreren Benchmarks führend. Die oft gestellte Frage: Darf man chinesische Modelle in einer deutschen Praxis betreiben? Die rechtliche Antwort: Ja, solange die Gewichte ohne Internetverbindung auf eigener Hardware laufen. Das chinesische Recht bindet das Unternehmen Alibaba oder DeepSeek; es bindet nicht die Gewichts-Dateien, die Sie heruntergeladen haben. Politische Bias-Risiken (Tiananmen, Taiwan, Uiguren-Themen) sind in fast jeder klinischen Anwendung praktisch irrelevant — bei Public-Health-Texten oder Patientenaufklärung mit geopolitischen Bezügen sollte man sich der Modell-Eigenheit aber bewusst sein.

Sprache-zu-Text

Für Ambient-Scribing brauchen Sie zusätzlich ein Spracherkennungs-Modell. Whisper von OpenAI ist unter MIT-Lizenz verfügbar und in mehreren Größen lokal betreibbar — die größte Variante erreicht bei deutscher Medizin-Sprache akzeptable Wortfehlerraten. Alternativen: fein-getunte Whisper-Varianten oder neuere offene Modelle aus europäischer Forschung.

4. Inferenz-Frameworks — drei realistische Optionen

vLLM — die produktive Variante

vLLM ist heute der De-facto-Produktiv-Stack für Inferenz auf GPU-Hardware. Hohe Durchsatzleistung, batch-fähig, gut dokumentierte API, integrierbar mit Open-WebUI und KIS-Adaptern. Geeignet ab Stufe 2 aufwärts. Konfiguration: ein Befehl pro Modell, Skalierung über mehrere GPUs unterstützt.

Ollama — die einfache Variante

Ollama ist der einfachste Einstieg: Ein-Klick- Installation auf macOS, Linux oder Windows, breite Modellbibliothek, automatisches Speicher-Management. Gut für Stufe 1, oft auch für Stufe 2 ausreichend. Weniger performant als vLLM bei hoher gleichzeitiger Last, aber weit unkomplizierter in der Einrichtung.

llama.cpp — die schlanke Variante

llama.cpp ist die minimalistische Variante: Eine C++-Implementation, die auch auf CPU-Hardware oder kleinen Mac-Modellen läuft. Geeignet für Testzwecke, sehr kleine Praxis-Installationen oder Edge-Komponenten in einer hybriden Architektur. Quantisierung auf 2, 4 oder 6 Bit ist sauber unterstützt.

5. Frontend — Open WebUI als Standard

Open WebUI hat sich als Standard-Frontend für lokal betriebene LLMs etabliert. Es bietet eine ChatGPT-ähnliche Oberfläche, Mehrbenutzer-Verwaltung, Rollen- basierte Zugriffsrechte, Modell-Auswahl, Konversations- historie, Datei-Upload und einen RAG-Modus (Retrieval-Augmented Generation) für eigene Dokumentbestände — etwa hauseigene Leitlinien oder das interne Arztbrief-Korpus. Installation: Docker-Container, eine Konfigurationsdatei, fertig.

Praktischer HinweisFür Praxen, die zunächst nur eine DSGVO-konforme „hausinterne“ ChatGPT-Alternative brauchen, genügt der Stack Ollama + Open WebUI. Einrichtungsdauer auf einer geeigneten Workstation: etwa ein halber Tag, inklusive Modell-Download und Mitarbeiter-Schulung.

6. KIS-Anbindung über FHIR und HL7

Wenn die lokale KI mit dem KIS oder der Praxisverwaltung sprechen soll, geschieht das über die Standards FHIR (HL7 FHIR Release 4 oder 5) für moderne Schnittstellen und HL7 v2 für ältere Anbindungen. Open-Source-Adapter wie HAPI FHIR oder Mirth Connect übersetzen zwischen KIS-Format und Modell-Input. Ein typischer Datenfluss: KIS sendet eine Anamnese-Anfrage als FHIR- DocumentReference an den lokalen Endpunkt, die KI strukturiert sie zu einem Arztbrief-Entwurf, der Entwurf wird zurück ins KIS geschrieben und dort vom Arzt freigegeben.

Wichtig dabei: Die Schnittstelle ist eine eigene Sicherheitsdomäne. Authentifizierung über OAuth 2.0 mit SMART-on-FHIR ist Stand der Technik; Verschlüsselung in Ruhe und in Bewegung (TLS 1.3) ist nicht verhandelbar.

7. Kosten — Faustregeln für drei Jahre

Eine grobe Rechnung, die in den meisten Konstellationen gut trägt. Sie ersetzt keine spezifische Wirtschaftlichkeits- analyse, gibt aber eine Größenordnung.

Stufe 1 — Kleine Praxis (5 Nutzer)

Investition: 6.000–9.000 € netto
Strom: ca. 250 € pro Jahr (Volllast 6 h/Tag, 0,30 €/kWh)
Wartung (extern): 500–1.000 € pro Jahr
Gesamtkosten 3 Jahre: ca. 8.500–13.000 €

Vergleichswert: Fünf Pro-Lizenzen einer großen Konsumenten-KI bei rund 20 € pro Monat ergeben rund 3.600 € in drei Jahren — günstig auf den ersten Blick, kostet aber den vollständigen Datenpfad in einen Drittstaat.

Stufe 2 — Mittlere Praxis (15 Nutzer)

Investition: 15.000–25.000 € netto
Strom: ca. 700 € pro Jahr
Wartung (extern): 1.500–3.000 € pro Jahr
Gesamtkosten 3 Jahre: ca. 20.000–34.000 €

Vergleichswert: Fünfzehn Pro-Lizenzen plus zwei Premium-API-Pakete kommen ohne weiteres auf 25.000 € in drei Jahren — bei deutlich schlechterer regulatorischer Lage.

Stufe 3 — Großpraxis / MVZ (40 Nutzer)

Investition: 40.000–80.000 € netto
Strom: ca. 1.800 € pro Jahr
Wartung (extern): 5.000–10.000 € pro Jahr
Gesamtkosten 3 Jahre: ca. 60.000–115.000 €

Vergleichswert: Vierzig Cloud-KI-Lizenzen mit API-Zusatzbudget bewegen sich in drei Jahren leicht jenseits von 70.000 € — Souveränität gibt es hier praktisch zum gleichen Preis.

8. Was eine sinnvolle Einführung organisatorisch braucht

Eine lokale KI ist nicht nur eine Hardware-Investition, sie ist eine organisatorische. Drei Dinge, die in der Regel den Unterschied machen.

Verantwortliche Person. Eine MFA mit IT-Affinität oder ein externer Partner mit verbindlichem Wartungsvertrag. Wer ist erreichbar, wenn am Mittwoch um zehn Uhr das Modell nicht antwortet?
Schriftliche KI-Richtlinie. Welche Werkzeuge sind erlaubt, welche nicht, welche Daten dürfen verarbeitet werden, wie wird dokumentiert. Ohne diese Richtlinie bleibt jede Hardware halbleer.
Drei Anwendungsfälle zum Anfangen. Nicht alles auf einmal — drei klar umrissene Use-Cases (Arztbrief-Strukturierung, Anamnese-Übersetzung, interne Wissens-Recherche im hauseigenen Dokumentbestand) tragen das Lernen einer Praxis innerhalb von drei Monaten.

Häufige Fragen

Brauche ich für ein Praxis-Setup wirklich eine eigene GPU?

Für ernsthafte Arbeit mit Modellen ab 30 Milliarden Parametern: ja. Sehr kleine Modelle (3 bis 8 Milliarden) laufen auf CPU-Hardware oder auf einem modernen Mac mit Unified Memory akzeptabel. Für die Standardaufgaben einer Praxis (Arztbrief, Übersetzung, ICD-Vorschlag im Strukturmodus) reicht die kleine Lösung in vielen Fällen aus — die größere wird erst bei komplexeren Aufgaben deutlich besser.

Wer richtet das ein, wenn ich keinen IT-Mitarbeiter habe?

Es gibt mittlerweile eine wachsende Zahl spezialisierter IT-Dienstleister, die On-Premise-KI für Praxen einrichten und warten. Die Einrichtung dauert üblicherweise einen halben bis ganzen Tag vor Ort; der Wartungsvertrag liegt im niedrigen vierstelligen Bereich pro Jahr. Wichtig: Der Dienstleister muss eine § 203 Abs. 3 StGB-konforme Verschwiegenheitsverpflichtung übernehmen, da er technischen Zugriff auf das System hat.

Was passiert bei einem Hardware-Ausfall?

Ohne Redundanz: Die KI-Funktion fällt aus, bis Ersatz geliefert oder die GPU getauscht ist. Das ist meist unkritisch, da die KI eine Hilfsfunktion ist und der eigentliche Praxisbetrieb weiterläuft. Wer Hochverfügbarkeit braucht, schafft eine zweite Workstation an — sie kostet weniger als die meisten Premium-Cloud-Verträge in einem Jahr.

Wie aktualisiert man die Modelle?

Neue Modellversionen erscheinen alle paar Monate. Der Wechsel ist ein einzelner Befehl bei Ollama oder ein neuer Modellpfad bei vLLM. Updates sollten getestet werden, bevor sie produktiv geschaltet werden — das gilt aber für jeden Software-Wechsel im klinischen Umfeld.

Was ist mit Stromverbrauch und Klimabilanz?

Eine Workstation in Stufe 2 verbraucht unter typischer Tageslast etwa 250 bis 350 kWh pro Jahr — das entspricht dem Bedarf eines Kühlschranks. Bei Bezug von Ökostrom liegt die CO₂-Bilanz pro KI-Anfrage deutlich unter der einer gleichwertigen Cloud-Anfrage in einem Hyperscaler-Rechenzentrum. Lokal hosten ist nicht nur souveräner, sondern in der Energiebilanz häufig auch günstiger.

Muss ich meine Patientendaten ans Modell „übergeben“?

Das Modell „sieht“ nur die Daten, die Sie in einer konkreten Anfrage übermitteln. Trainiert wird das Modell auf den eigenen Daten nur dann, wenn Sie das aktiv konfigurieren (Fine-Tuning oder LoRA-Adapter). Im Standardbetrieb (Inferenz) bleibt das Modell zwischen Anfragen unverändert. Das ist ein wichtiger Unterschied zu Cloud-Diensten, bei denen die Standardklauseln häufig genau das umgekehrte Recht vorsehen.

Wie sieht ein realistischer Einstieg aus?

Ein realistischer Pilot dauert etwa vier bis sechs Wochen. Erste Woche: Hardware-Auswahl und Bestellung. Zweite Woche: Aufbau, Modell-Installation, erste Tests mit drei Mitarbeitenden. Wochen drei und vier: produktiver Probebetrieb mit klar definierten Anwendungsfällen. Wochen fünf und sechs: Erweiterung auf das gesamte Team, schriftliche Richtlinie. Danach ist die KI nicht mehr ein Projekt, sondern ein Werkzeug.

Lohnt sich Selbst-Hosten für jede Praxis?

Für sehr kleine Einzelpraxen mit gelegentlicher KI-Nutzung ist eine souveräne EU-Cloud oft die einfachere Lösung. Ab fünf bis sieben aktiven Nutzern und einer realistischen monatlichen Nutzung beginnt die On-Premise-Variante in der Drei-Jahres-Rechnung zu führen — und mit jeder zusätzlichen Person verbessert sich das Verhältnis. Die regulatorische Lage spricht in jedem Fall für die On-Premise-Variante, sobald Patientendaten regelmäßig durchgehen.

Zum Schluss

Selbst zu hosten klingt im Vertriebsgespräch eines Cloud-Anbieters nach Aufwand. In der Praxis ist es eine überraschend handzahme Entscheidung — Standard-Hardware, Standard-Software, Standard-Schnittstellen. Was anders ist: Der Datenpfad endet an Ihrer Hauswand. Was zur Folge hat: § 203 StGB ist unproblematisch, AI Act und MDR werden zur Konfigurations-Aufgabe statt zur Architekturfrage, KRITIS- Vorgaben passen ohne Sondervereinbarung, und die Frage, welche Rechte ein Staat in Texas, Hangzhou oder Virginia an Ihren Daten hat, stellt sich gar nicht erst.

Die Entscheidung ist heute leichter als sie noch vor zwei Jahren war — die offene Welt hat in dieser Zeit erhebliche Reife gewonnen. Wer die Schritte vom Pilot zur produktiven Einführung nicht selbst gehen möchte, findet inzwischen ausreichend kompetente Partner. Die einzige Voraussetzung: dass Souveränität in Ihrer Architektur-Entscheidung als Wert vorkommt — nicht als nachträgliche Korrektur, wenn das Aufsichtsverfahren bereits läuft.

Dreißig Minuten — wir gehen Ihre Privatabrechnungs- Schnittstelle durch und sortieren, was Ihre Praxis selbst entscheiden kann.