Voice AI mit Gemini Live: Prototyp in 3 Stunden aufgesetzt

Letzte Woche hatte ich mal wieder so ein typisches Screening-Telefonat: freundlich, strukturiert, aber irgendwie austauschbar. Eher digitales Formular als echtes Gespräch.

Danach dachte ich: Das geht besser. Also habe ich an einem Nachmittag getestet, was Googles Gemini Live API hier leisten kann.

Ergebnis: Uschi, eine KI-Sprechstundenhilfe für eine fiktive Allgemeinarztpraxis in Köln-Ehrenfeld. Aufgesetzt in ca. 3 Stunden.

Googles Gemini Live API verarbeitet Audio nativ, ohne den Umweg über separate Speech-to-Text- und Text-to-Speech-Pipelines. Ein funktionsfähiger Voice-Prototyp mit Echtzeit-Sprachwechsel (97 Sprachen), natürlichem Turn-Taking und Tool-Calling für Terminabfragen lässt sich in unter vier Stunden aufsetzen. Die Kosten pro 3-Minuten-Gespräch liegen bei wenigen Cent (Gemini Flash), verglichen mit 30 bis 50 Cent bei OpenAIs Flaggschiff-Modell.

Der Prototyp: Uschi, KI-Sprechstundenhilfe

Sie heißt Uschi. Sprechstundenhilfe in einer Allgemeinarztpraxis in Köln-Ehrenfeld. Mitte 50, macht den Job seit 25 Jahren. Fragt erstmal, wie es dir geht, bevor sie zum Termin kommt. Fällt dir ins Wort, wenn sie was sagen will. Wechselt auf Türkisch, wenn du kein Deutsch sprichst. Und sucht nebenbei im System nach einem freien Termin.

Uschi ist eine KI. Ihre Persönlichkeit ist ein System Prompt mit ein paar Absätzen. Der Rest kommt vom Modell.

Zum LinkedIn-Post

Kein vorgelesenes Skript. Ein echtes Gespräch, in Echtzeit. Wenn du zögerst, wartet sie. Fällst du ihr ins Wort, hört sie auf zu reden. Sie wechselt auch die Sprache, wenn du plötzlich Spanisch sprichst.

Das Ganze läuft im Browser. Mikrofon an, reden. Kein „Bitte drücken Sie die 1". Kein „Ihr Anruf ist uns wichtig".

1. Was kostet das?

Google und OpenAI bieten beide Realtime Voice APIs an. Die Preisunterschiede sind je nach Modell erheblich.

Kosten pro 3-Minuten-Gespräch (Schätzung)

Modell	Audio Input / 1M Tokens	Audio Output / 1M Tokens	3 Min. Gespräch	Anmerkung
Gemini 3.1 Flash Live	$3,00	$12,00	wenige Cent	Günstigstes Modell mit nativer Audio-Verarbeitung
OpenAI gpt-realtime-mini	$10,00	$20,00	unter 10 Cent	Budget-Variante
OpenAI gpt-realtime-1.5	$32,00	$64,00	30–50 Cent	Flaggschiff, beste Qualität, deutlich teurer

Quellen: Google Gemini API Pricing, OpenAI API Pricing

Die exakten Kosten pro Gespräch hängen von vielen Faktoren ab: Gesprächsdauer, Verhältnis Sprechen/Zuhören, ob Context Caching genutzt wird, und wie viel Conversation History pro Turn mitverarbeitet wird. Die Werte oben sind grobe Orientierung, keine exakte Kalkulation.

Grobe Hochrechnung für eine Arztpraxis

Angenommen: 50 Anrufe pro Tag, 22 Arbeitstage, durchschnittlich 3 Minuten pro Gespräch:

	Gemini 3.1 Flash Live	OpenAI Realtime Mini	OpenAI Realtime 1.5
Pro Monat (1.100 Anrufe)	zweistellig €	zweistellig €	dreistellig €

Zum Vergleich: Eine Sprechstundenhilfe, die 30–40% ihrer Arbeitszeit am Telefon verbringt, kostet mit Arbeitgeberanteilen ca. 3.500–4.500 € pro Monat. Die API-Kosten allein sind also nicht der Engpass. Was ein Produktivsystem teuer macht, sind Entwicklung, Telefonie-Anbindung (SIP/PSTN), Betrieb und Compliance.

2. Wie funktioniert das technisch?

Drei Komponenten:

Browser → Server → Gemini, alles über WebSockets.

Der Browser streamt Audio über einen Python-Server an Googles Live API. Gemini antwortet mit Audio-Chunks, die direkt abgespielt werden. Der Server dahinter ist minimal.

Warum das natürlicher klingt als ältere Sprachassistenten: Gemini 3.1 Flash Live arbeitet nativ mit Audio. Das Modell kann Audio direkt verarbeiten und generieren, ohne den Umweg über eine separate Speech-to-Text- und Text-to-Speech-Pipeline. Die Antwort klingt deshalb weniger vorgelesen und eher gesprochen. Eine Transkriptionsfunktion gibt es optional trotzdem, falls man den Text parallel braucht.

3. Tool Calling: Wenn die KI ins System greift

Ohne Zugriff auf Termine wäre Uschi nur ein Chatbot.

Gemini unterstützt Function Calling in der Live-Session. Man definiert eine Funktion mit Parametern wie Datum und Tageszeit. Wenn der Patient im Gespräch sagt „Haben Sie nächsten Dienstag nachmittags noch was frei?", erkennt Gemini die Absicht und ruft die Funktion auf.

Wichtig: Der Function Call ist synchron. Das Gespräch pausiert kurz, während die Funktion ausgeführt wird. In der Praxis merkt man das kaum, weil die Abfrage schnell zurückkommt. Aber es ist keine echte Hintergrundaktion, sondern eher wie kurz im Kalender blättern.

Im Prototyp liest die Funktion eine Textdatei. In der Realität wäre das eine API zu Doctolib, einem PVS oder einem Kalender. Die Schnittstelle zu definieren ist der einfache Teil. Die eigentliche Arbeit steckt dahinter: Authentifizierung, Fehlerbehandlung, Berechtigungen, Logging. Das ist der Aufwand, den man nicht an einem Nachmittag erledigt.

4. Grenzen des Prototyps

Uschi ist ein Prototyp. Aufgesetzt an einem Nachmittag. Entsprechend gibt es Grenzen.

Die Stimme klingt gut, aber nicht perfekt. In langen Sätzen merkt man den synthetischen Charakter. Die Latenz schwankt je nach Serverauslastung zwischen „sofort" und „kurze Denkpause".

Die Spracherkennung funktioniert auch mit Dialekt und Akzent zuverlässig. Der Sprachwechsel funktioniert besser als erwartet (Gemini unterstützt 97 Sprachen). Und die Persönlichkeit kommt durch: der trockene Humor, die kölsche Art. Uschi fühlt sich nicht an wie ein Bot.

Was der Prototyp nicht zeigt: Die ganze Telefonie-Schicht fehlt. Kein SIP, keine echte Rufnummer, kein Routing, keine Weiterleitung. Das hier ist eine Browser-Demo mit Mikrofon, kein fertiger Telefonassistent. Von der Demo zu einem System, das in einer echten Praxis Anrufe entgegennimmt, ist es noch ein weiter Weg.

5. Datenschutz: Was du wissen musst

Was passiert mit den Sprachdaten?

Bei Gemini 3.1 Flash Live werden Audio-Daten in Echtzeit gestreamt und laut Googles API-Bedingungen nicht für Modelltraining verwendet, wenn du die kostenpflichtige API nutzt. Die Daten laufen über Google-Server. Details zu Regionen und transienter Speicherung stehen in den Nutzungsbedingungen; über Vertex AI sind auch EU-Standorte verfügbar.

Für einen produktiven Einsatz in Deutschland brauchst du einen Auftragsverarbeitungsvertrag (AVV) mit Google, eine Datenschutz-Folgenabschätzung und eine Ansage, dass der Anrufer mit einer KI spricht.

Wichtiger Hinweis für den Praxiskontext: Googles API-Nutzungsbedingungen schließen den Einsatz „in clinical practice" und für „medical advice" explizit aus. Ein Voice-Bot, der in einer Arztpraxis eingesetzt wird, darf also keine medizinischen Einschätzungen geben. Für reine Terminvergabe und Standardfragen ist das kein Problem, aber die Grenze muss klar definiert und technisch durchgesetzt sein.

Für eine Demo wie diesen Prototyp ist das alles unkritisch. Für echten Praxisbetrieb mit Patientendaten muss die Architektur sauber sein: Audio nur streamen, nicht speichern. Transkripte pseudonymisieren. Und eine klare Ansage am Anfang des Gesprächs.

6. Übergabe an den Menschen

In einem Produktivsystem wäre die wichtigste Funktion nicht das Reden, sondern das Erkennen, wann ein Mensch übernehmen muss.

Ein Voice-Bot in einer Praxis müsste erkennen, wann er nicht weiterkommt: Schlüsselwörter wie Brustschmerzen, Atemnot oder Notfall müssten sofort an einen Menschen weitergeleitet werden. Und nach drei erfolglosen Versuchen sollte die KI ehrlich sagen: „Da verbinde ich Sie lieber mit jemandem aus dem Team."

Im Prototyp ist das ein paar Zeilen im System Prompt. In einem echten System steckt dahinter Eskalationslogik, Rufweiterleitung und ein Fallback für den Fall, dass gerade niemand erreichbar ist.

Was bleibt

Drei Stunden, ein Prototyp, der Gespräche führt, 97 Sprachen spricht und Termine aus einer Textdatei nachschlägt.

Für eine Demo kann sich das sehen lassen. Ein fertiges Produkt ist es nicht. Zwischen diesem Prototyp und einem System, das in einer Arztpraxis zuverlässig Anrufe entgegennimmt, liegen Telefonie-Infrastruktur, Praxissoftware-Anbindung, Datenschutz-Architektur und viel Testing.

Das Gespräch fühlt sich natürlicher an, als man es von einer API erwartet. Und der Aufwand, um mit Voice AI zu experimentieren, ist überraschend gering geworden.

Tech-Stack & Links

Modell: Google Gemini 3.1 Flash Live (natives Audio-zu-Audio)
Backend: Python, FastAPI, WebSockets
Frontend: Vanilla HTML/JS, AudioWorklet API
Kosten: Wenige Cent pro 3-Minuten-Gespräch (Gemini)
Sprachen: 97, nahtloser Wechsel im Gespräch

Häufige Fragen

Ist das DSGVO-konform? Der Prototyp: für interne Tests unkritisch. Ein Produktivsystem braucht AVV, Datenschutz-Folgenabschätzung und KI-Transparenzansage. Googles API-Bedingungen schließen zudem den Einsatz für medizinische Beratung aus.

Wie weit ist das von einem echten Telefonassistenten entfernt? Ein Prototyp steht nach einem Nachmittag. Ein produktionsreifes System mit Telefonie-Anbindung (SIP/PSTN), Praxissoftware-Integration, Datenschutz und Eskalationslogik braucht Wochen bis Monate.