Blog
Vertrauliche Gespräche lokal mit KI zusammenfassen
Wie lokale KI, WhisperX und GPT-OSS 20B vertrauliche Gespräche sicher zusammenfassen – ohne Cloud und ohne aktive EMR-Schnittstelle.

Warum das Thema jetzt relevant ist
Ärztliche Gespräche enthalten hochsensible Informationen: Gesundheitsdaten, persönliche Lebensumstände, Diagnosen, Entscheidungen. Gleichzeitig wächst der Dokumentationsaufwand kontinuierlich. Viele Praxen und Kliniken experimentieren mit KI‑gestützter Gesprächszusammenfassung – scheitern aber an einem zentralen Punkt: Datenschutz und Kontrollverlust.
Cloud‑basierte KI‑Dienste sind für vertrauliche Gespräche häufig ungeeignet oder rechtlich riskant. Lokale KI‑Pipelines bieten hier einen pragmatischen Ausweg: Sie reduzieren Dokumentationslast, ohne sensible Daten aus der eigenen Infrastruktur herauszugeben.
---
Kernargumente
1. Aufnahme nach Zustimmung – kontrollierter Startpunkt
Der Prozess beginnt nicht mit KI, sondern mit Organisation und Rechtssicherheit:
- Aufnahme des Gesprächs nur nach expliziter Zustimmung des Patienten
- Nutzung eines dedizierten Diktiergeräts oder Smartphones
- Automatische Speicherung mit:
- Zeitstempel der Aufnahme
- eindeutiger Gerätekennung (z. B. „Arzt‑Diktiergerät Dr. X“)
Die Audio‑Datei wird lokal auf einen Praxis‑ oder Klinikserver übertragen. Kein Streaming, kein Cloud‑Upload.
Rechtlicher Hintergrund:
- Gesundheitsdaten gelten als besondere Kategorie personenbezogener Daten (Art. 9 DSGVO)
- Ärztliche Schweigepflicht (§ 203 StGB)
- Dokumentationspflicht (§ 630f BGB)
➡️ Lokale Verarbeitung minimiert Haftungs‑ und Compliance‑Risiken.
---
2. WhisperX: Transkription mit Zeitmarken & Speaker‑Diarisation
Im nächsten Schritt wird die Audio‑Datei mit WhisperX verarbeitet:
- hochwertige automatische Transkription
- Zeitmarken für jedes Textsegment
- Speaker‑Diarisation (z. B. Arzt vs. Patient)
Vorteil:
- spätere Nachvollziehbarkeit
- gezielte Korrekturen möglich
- Transkript bleibt dauerhaft als Backup erhalten
WhisperX eignet sich besonders für medizinische Gespräche, da es robuste Ergebnisse auch bei längeren Dialogen liefert.
---
3. Grobzusammenfassung & Kategorisierung mit GPT‑OSS 20B (lokal)
Das vollständige Transkript wird anschließend an ein lokal betriebenes Sprachmodell übergeben, z. B. GPT‑OSS 20B über Ollama.
Aufgaben dieses ersten KI‑Schritts:
- Zusammenfassung in 1–3 Sätzen (inhaltlicher Überblick)
- automatische Einordnung der Gesprächsart:
- Anamnese
- Beratung
- Teambesprechung
- Diktat
Warum dieser Zwischenschritt wichtig ist:
- reduziert Komplexität
- bestimmt die nachfolgenden Prompt‑Pfade
- vermeidet ein „One‑Prompt‑für‑alles“-Chaos
GPT‑OSS 20B ist dabei besonders geeignet, weil:
- lokal betreibbar
- für agentische Workflows ausgelegt
- gut in Strukturierung und Klassifikation
---
4. Custom Prompts je Gesprächskategorie
Basierend auf der Klassifikation kommen spezialisierte Prompts zum Einsatz:
- Anamnese‑Prompt: Symptome, zeitlicher Verlauf, relevante Vorerkrankungen
- Beratungs‑Prompt: Optionen, Aufklärung, Entscheidungen
- Teambesprechungs‑Prompt: Aufgaben, Verantwortlichkeiten, Beschlüsse
- Diktat‑Prompt: strukturierter Freitext für Arztbriefe
Das erhöht die fachliche Qualität erheblich im Vergleich zu generischen Zusammenfassungen.
---
5. Standard‑Prompt für den Eintrag in die Patientenakte
Unabhängig von der Kategorie wird anschließend ein Standard‑Prompt verwendet, der:
- medizinisch relevante Inhalte extrahiert
- neutral formuliert
- direkt für die Patientenakte geeignet ist
Ergebnis:
- strukturierter Text
- keine Interpretationen oder Diagnosen durch die KI
- klare Trennung zwischen Gespräch und ärztlicher Bewertung
---
6. Untersuchungsteile mit MedGemma
Enthält das Gespräch Untersuchungsbefunde, kann optional MedGemma eingesetzt werden:
- multimodales medizinisches Modell
- geeignet für strukturierte medizinische Auswertung
- Fokus auf klinische Inhalte
MedGemma ergänzt klassische LLMs dort, wo medizinische Fachlogik gefragt ist – ohne sie zu ersetzen.
---
7. Lokale Webseite als Arzt‑Interface
Die Ergebnisse werden nicht automatisch in ein Krankenhaus‑EMR geschrieben, sondern bewusst entkoppelt:
- lokale Weboberfläche
- Anzeige von:
- Transkript
- Zusammenfassung
- Akten‑Vorschlag
- Copy‑&‑Paste‑Workflow für den Arzt
Vorteil:
- volle Kontrolle
- kein API‑Risiko
- niedrige Einstiegshürde
---
7a. Team‑Besprechungen: Strukturierung nach Patienten
Bei Team‑ oder Fallbesprechungen liegt der Fokus nicht auf einem einzelnen Dialog, sondern auf mehreren Patienten innerhalb eines Gesprächs.
Die Pipeline wird hier gezielt erweitert:
- WhisperX liefert Transkript + Speaker‑Diarisation
- GPT‑OSS 20B erkennt automatisch:
- Wechsel zwischen Patientenfällen
- Namen oder Kennzeichnungen (z. B. „Patient A“, „Fall Müller“)
Ergebnis:
- strukturierte Gliederung nach Patienten
- je Patient:
- Kernaussagen
- offene Punkte
- Entscheidungen
- To‑dos
Geeignet für:
- Tumorboards
- interdisziplinäre Fallkonferenzen
- komplexe Praxis‑ und Klinik‑Teams
---
8. Übertragbarkeit auf andere Berufsgruppen
Der beschriebene Ansatz ist nicht auf Medizin beschränkt. Entscheidend sind:
- Vertraulichkeit
- Nachvollziehbarkeit
- strukturierte Dokumentation
Typische Einsatzfelder:
Rechtsanwälte
- Mandantengespräche
- interne Fallbesprechungen
- Diktate für Schriftsätze
Geschäftsführer & Vorstände
- Strategie‑ und Personalgespräche
- sensible Verhandlungen
Berater & Steuerberater
- Mandantenmeetings
- Abschluss‑ und Review‑Gespräche
Die technische Pipeline bleibt identisch. Angepasst werden lediglich Prompts und Ausgabestruktur.
---
9. Implementierungskosten & Aufwand
Der finanzielle und organisatorische Aufwand ist überschaubar – insbesondere im Vergleich zu Cloud‑Enterprise‑Lösungen.
Typische Größenordnung (Praxis, Kanzlei, Mittelstand):
- Hardware (lokaler Server / Mini‑PC): ca. 800–2.000 € einmalig
- Open‑Source‑Software (WhisperX, Ollama, Modelle): 0 € Lizenzkosten
- Initiale Einrichtung & Anpassung: 2–5 Personentage
- Iterative Optimierung (1–2 Monate): geringer laufender Aufwand
Wichtig:
- keine nutzungsabhängigen Kosten pro Gespräch
- keine Abhängigkeit von externen Plattformen
- volle Kosten‑ und Datenhoheit
---
10. Iterative Optimierung über 1–2 Monate
Der größte Hebel liegt nicht im Modell, sondern im Prompt‑Feintuning:
- Anpassung der Gesprächsführung
- Optimierung der Prompts
- Feedback‑Schleifen mit dem Arzt
Nach 4–8 Wochen entstehen:
- stabile Ergebnisse
- reproduzierbare Qualität
- hohe Akzeptanz im Alltag
---
Risiken, Grenzen, Gegenpositionen
- KI‑Fehler bleiben möglich → ärztliche Kontrolle zwingend
- Initialer Setup‑Aufwand
- Keine automatische Integration ins EMR (bewusste Designentscheidung)
Gegenposition:
> „Ohne direkte EMR‑Integration bringt das nichts.“
Praxisrealität:
> Manuelle Kontrolle ist im medizinischen Kontext oft ein Vorteil, kein Nachteil.
---
Fazit: Haltung & Ausblick
Lokale KI‑Pipelines ermöglichen echte Entlastung, ohne Datenschutz, Verantwortung oder Kontrolle abzugeben.
Der Schlüssel liegt nicht in einem Tool, sondern in:
- sauberem Prozessdesign
- modularer Architektur
- Anpassbarkeit an neue Modelle
Modelle kommen und gehen – Struktur bleibt.
---
Quellen / Weiterführende Links
- DSGVO Art. 9 – Besondere Kategorien personenbezogener Daten
- § 203 StGB – Verletzung von Privatgeheimnissen
- § 630f BGB – Dokumentation der Behandlung
- OpenAI Whisper / WhisperX (Open‑Source)
- Ollama – Lokaler Betrieb großer Sprachmodelle
- GPT‑OSS 20B – Agentic‑fähiges Open‑Source‑Modell
- MedGemma – Multimodales medizinisches Sprachmodell
---
Executive Summary
Lokale KI‑Pipelines ermöglichen die sichere Zusammenfassung vertraulicher medizinischer Gespräche. Durch Aufnahme nach Zustimmung, WhisperX‑Transkription, strukturierte Klassifikation mit GPT‑OSS 20B und spezialisierte Prompts entsteht eine kontrollierbare Alternative zu Cloud‑KI. Der Arzt behält jederzeit die Hoheit über Inhalte und Entscheidungen.
---
SEO & LLM Keywords
Meta‑Title: Vertrauliche Gespräche lokal mit KI zusammenfassen
Meta‑Description: Wie lokale KI, WhisperX und GPT‑OSS 20B ärztliche Gespräche sicher zusammenfassen – ohne Cloud, ohne Datenabfluss.
SEO‑Keywords: lokale KI Medizin, WhisperX Transkription, GPT‑OSS 20B, medizinische Dokumentation KI, DSGVO KI Praxis
LLM‑Keywords: WhisperX, GPT‑OSS 20B, MedGemma, DSGVO, medizinische KI, lokale LLMs
---
FAQ
Warum nicht direkt Cloud‑KI? Weil sensible Gesundheitsdaten rechtlich und organisatorisch besser lokal verarbeitet werden.
Ersetzt die KI den Arzt? Nein. Die KI erstellt Vorschläge, die ärztliche Bewertung bleibt zwingend.
Ist das skalierbar? Ja, durch modulare Prompts und austauschbare Modelle.