Voice AI mit Gemini Live: Prototyp in 3 Stunden gebaut
Letzte Woche hatte ich mal wieder so ein typisches Screening-Telefonat: freundlich, strukturiert, aber irgendwie austauschbar. Eher digitales Formular als echtes Gespräch.
Danach dachte ich: Das geht besser. Also habe ich mich hingesetzt und in einem Nachmittag (realistisch ca. 3 Stunden) ausprobiert, wie schwer es heute eigentlich ist, so etwas deutlich besser hinzubekommen.
Ergebnis: Ein simpler Voice-Prototyp namens Uschi, eine KI-Sprechstundenhilfe für eine fiktive Allgemeinarztpraxis in Köln-Ehrenfeld.
Der Prototyp: Uschi, KI-Sprechstundenhilfe
Sie heißt Uschi. Sprechstundenhilfe in einer Allgemeinarztpraxis in Köln-Ehrenfeld. Mitte 50, macht den Job seit 25 Jahren. Fragt erstmal, wie es dir geht, bevor sie zum Termin kommt. Fällt dir ins Wort, wenn sie was sagen will. Wechselt auf Türkisch, wenn du kein Deutsch sprichst. Und sucht nebenbei im System nach einem freien Termin.
Uschi ist eine KI. Ihre Persönlichkeit ist ein System Prompt mit ein paar Absätzen. Der Rest kommt vom Modell.
Kein vorgelesenes Skript. Ein echtes Gespräch, in Echtzeit. Wenn du zögerst, wartet sie. Fällst du ihr ins Wort, hört sie auf zu reden. Sie wechselt auch die Sprache, wenn du plötzlich Spanisch sprichst.
Das Ganze läuft im Browser. Mikrofon an, reden. Kein „Bitte drücken Sie die 1". Kein „Ihr Anruf ist uns wichtig".
1. Was kostet das?
Google und OpenAI bieten beide Realtime Voice APIs an. Die Preisunterschiede sind je nach Modell erheblich.
Kosten pro 3-Minuten-Gespräch (Schätzung)
| Modell | Audio Input / 1M Tokens | Audio Output / 1M Tokens | 3 Min. Gespräch | Anmerkung |
|---|---|---|---|---|
| Gemini 3.1 Flash Live | $3,00 | $12,00 | wenige Cent | Günstigstes Modell mit nativer Audio-Verarbeitung |
| OpenAI gpt-realtime-mini | $10,00 | $20,00 | unter 10 Cent | Budget-Variante |
| OpenAI gpt-realtime-1.5 | $32,00 | $64,00 | 30–50 Cent | Flaggschiff, beste Qualität, deutlich teurer |
Quellen: Google Gemini API Pricing, OpenAI API Pricing
Die exakten Kosten pro Gespräch hängen von vielen Faktoren ab: Gesprächsdauer, Verhältnis Sprechen/Zuhören, ob Context Caching genutzt wird, und wie viel Conversation History pro Turn mitverarbeitet wird. Die Werte oben sind grobe Orientierung, keine exakte Kalkulation.
Grobe Hochrechnung für eine Arztpraxis
Angenommen: 50 Anrufe pro Tag, 22 Arbeitstage, durchschnittlich 3 Minuten pro Gespräch:
| Gemini 3.1 Flash Live | OpenAI Realtime Mini | OpenAI Realtime 1.5 | |
|---|---|---|---|
| Pro Monat (1.100 Anrufe) | zweistellig € | zweistellig € | dreistellig € |
Zum Vergleich: Eine Sprechstundenhilfe, die 30–40% ihrer Arbeitszeit am Telefon verbringt, kostet mit Arbeitgeberanteilen ca. 3.500–4.500 € pro Monat. Die API-Kosten allein sind also nicht der Engpass. Was ein Produktivsystem teuer macht, sind Entwicklung, Telefonie-Anbindung (SIP/PSTN), Betrieb und Compliance.
2. Wie funktioniert das technisch?
Drei Komponenten:
Browser → Server → Gemini, alles über WebSockets.
Der Browser streamt Audio über einen Python-Server an Googles Live API. Gemini antwortet mit Audio-Chunks, die direkt abgespielt werden. Der gesamte Server: unter 300 Zeilen Code.
Warum das natürlicher klingt als ältere Sprachassistenten: Gemini 3.1 Flash Live arbeitet nativ mit Audio. Das Modell kann Audio direkt verarbeiten und generieren, ohne den Umweg über eine separate Speech-to-Text- und Text-to-Speech-Pipeline. Die Antwort klingt deshalb weniger vorgelesen und eher gesprochen. Eine Transkriptionsfunktion gibt es optional trotzdem, falls man den Text parallel braucht.
3. Tool Calling: Wenn die KI ins System greift
Ohne Zugriff auf Termine wäre Uschi nur ein Chatbot.
Gemini unterstützt Function Calling in der Live-Session. Man definiert eine Funktion mit Parametern wie Datum und Tageszeit. Wenn der Patient im Gespräch sagt „Haben Sie nächsten Dienstag nachmittags noch was frei?", erkennt Gemini die Absicht und ruft die Funktion auf.
Wichtig: Der Function Call ist synchron. Das Gespräch pausiert kurz, während die Funktion ausgeführt wird. In der Praxis merkt man das kaum, weil die Abfrage schnell zurückkommt. Aber es ist keine echte Hintergrundaktion, sondern eher wie kurz im Kalender blättern.
Im Prototyp liest die Funktion eine Textdatei. In der Realität wäre das eine API zu Doctolib, einem PVS oder einem Kalender. Die Schnittstelle zu definieren ist einfach. Die eigentliche Arbeit steckt im Backend: Authentifizierung, Fehlerbehandlung, Berechtigungen, Logging. Das ist der Teil, den man nicht an einem Nachmittag baut.
4. Grenzen des Prototyps
Uschi ist ein Prototyp. Gebaut an einem Nachmittag. Entsprechend gibt es Grenzen.
Die Stimme klingt gut, aber nicht perfekt. In langen Sätzen merkt man den synthetischen Charakter. Die Latenz schwankt je nach Serverauslastung zwischen „sofort" und „kurze Denkpause".
Die Spracherkennung funktioniert auch mit Dialekt und Akzent zuverlässig. Der Sprachwechsel funktioniert besser als erwartet (Gemini unterstützt 97 Sprachen). Und die Persönlichkeit kommt durch: der trockene Humor, die kölsche Art. Uschi fühlt sich nicht an wie ein Bot.
Was der Prototyp nicht zeigt: Die ganze Telefonie-Schicht fehlt. Kein SIP, keine echte Rufnummer, kein Routing, keine Weiterleitung. Das hier ist eine Browser-Demo mit Mikrofon, kein fertiger Telefonassistent. Von der Demo zu einem System, das in einer echten Praxis Anrufe entgegennimmt, ist es noch ein weiter Weg.
5. Datenschutz: Was du wissen musst
Was passiert mit den Sprachdaten?
Bei Gemini 3.1 Flash Live werden Audio-Daten in Echtzeit gestreamt und laut Googles API-Bedingungen nicht für Modelltraining verwendet, wenn du die kostenpflichtige API nutzt. Die Daten laufen über Google-Server. Details zu Regionen und transienter Speicherung stehen in den Nutzungsbedingungen; über Vertex AI sind auch EU-Standorte verfügbar.
Für einen produktiven Einsatz in Deutschland brauchst du einen Auftragsverarbeitungsvertrag (AVV) mit Google, eine Datenschutz-Folgenabschätzung und eine Ansage, dass der Anrufer mit einer KI spricht.
Wichtiger Hinweis für den Praxiskontext: Googles API-Nutzungsbedingungen schließen den Einsatz „in clinical practice" und für „medical advice" explizit aus. Ein Voice-Bot, der in einer Arztpraxis eingesetzt wird, darf also keine medizinischen Einschätzungen geben. Für reine Terminvergabe und Standardfragen ist das kein Problem, aber die Grenze muss klar definiert und technisch durchgesetzt sein.
Für eine Demo wie diesen Prototyp ist das alles unkritisch. Für echten Praxisbetrieb mit Patientendaten muss die Architektur sauber sein: Audio nur streamen, nicht speichern. Transkripte pseudonymisieren. Und eine klare Ansage am Anfang des Gesprächs.
6. Übergabe an den Menschen
In einem Produktivsystem wäre die wichtigste Funktion nicht das Reden, sondern das Erkennen, wann ein Mensch übernehmen muss.
Ein Voice-Bot in einer Praxis müsste erkennen, wann er nicht weiterkommt: Schlüsselwörter wie Brustschmerzen, Atemnot oder Notfall müssten sofort an einen Menschen weitergeleitet werden. Und nach drei erfolglosen Versuchen sollte die KI ehrlich sagen: „Da verbinde ich Sie lieber mit jemandem aus dem Team."
Im Prototyp ist das ein paar Zeilen im System Prompt. In einem echten System steckt dahinter Eskalationslogik, Rufweiterleitung und ein Fallback für den Fall, dass gerade niemand erreichbar ist.
Fazit
Ich hab drei Stunden gebraucht, um einen Prototyp zu bauen, der Gespräche führt, 97 Sprachen spricht und Termine aus einer Textdatei nachschlägt.
Für eine Demo kann sich das sehen lassen. Ein fertiges Produkt ist es nicht. Zwischen diesem Prototyp und einem System, das in einer Arztpraxis zuverlässig Anrufe entgegennimmt, liegen Telefonie-Infrastruktur, Praxissoftware-Anbindung, Datenschutz-Architektur und viel Testing.
Das Gespräch fühlt sich natürlicher an, als man es von einer API erwartet. Und der Aufwand, um mit Voice AI zu experimentieren, ist überraschend gering geworden.
Tech-Stack & Links
- Modell: Google Gemini 3.1 Flash Live (natives Audio-zu-Audio)
- Backend: Python, FastAPI, WebSockets
- Frontend: Vanilla HTML/JS, AudioWorklet API
- Kosten: Wenige Cent pro 3-Minuten-Gespräch (Gemini)
- Sprachen: 97, nahtloser Wechsel im Gespräch
Häufige Fragen
Ist das DSGVO-konform? Der Prototyp: für interne Tests unkritisch. Ein Produktivsystem braucht AVV, Datenschutz-Folgenabschätzung und KI-Transparenzansage. Googles API-Bedingungen schließen zudem den Einsatz für medizinische Beratung aus.
Wie weit ist das von einem echten Telefonassistenten entfernt? Ein Prototyp steht in einem Nachmittag. Ein produktionsreifes System mit Telefonie-Anbindung (SIP/PSTN), Praxissoftware-Integration, Datenschutz und Eskalationslogik braucht Wochen bis Monate.