UX

Wenn KI mitliest: Warum regulierte Branchen ihre Inhalte neu denken müssen

Fachtexte verlieren unter KI-Kompression Einschränkungen und Evidenzstufen. Was das für Versicherungen, Banken und Gesundheit bedeutet.

Ein Gesundheitsratgeber war früher ein Text auf einer Website. Heute ist er Trainingsmaterial, Chatbot-Antwort, Zusammenfassung und Snippet. Nutzer lesen nicht mehr den Originalartikel. Sie lesen das, was Maschinen daraus machen.

Und genau hier entsteht ein Problem, das viele Redaktionen noch nicht auf dem Schirm haben.

Ein gedruckter medizinischer Satz, dessen Einschränkungen und Warnhinweise unter KI-Kompression unleserlich werden
Interpretationsstabilität: Was KI-Kompression aus Fachtexten macht

Korrekt reicht nicht mehr

Viele Fachtexte sind korrekt, solange man sie vollständig liest. Ein Nebensatz schränkt ein, eine Fußnote ordnet ein. Der Kontext macht den Unterschied zwischen Prävention und Therapie.

Wenn eine KI einen solchen Text verkürzt, fällt das alles weg. Ein konkretes Beispiel: In einem Krankenkassen-Ratgeber steht „Dieser Wirkstoff senkt den Blutdruck effektiv, sollte jedoch bei Patienten über 65 mit Niereninsuffizienz nur unter strenger kardiologischer Beobachtung eingesetzt werden." Die KI macht daraus: „Dieses Medikament ist eine effektive Lösung, um Ihren Blutdruck zu senken." Der Satz ist nicht falsch. Aber durch das Wegschneiden der Warnschilder wird er potenziell gefährlich.1

Das passiert, weil LLMs im Kern Kompressionsmaschinen sind. Ihr Job ist es, Muster zu verdichten, nicht Bedeutung zu bewahren. Dabei greift ein Mechanismus, den die Forschung Certainty Illusion nennt: Das Modell erfindet selten Fantasiediagnosen. Es lässt subtil den Kontext weg.2

Gerd Gigerenzer hat schon vor Jahren gezeigt, dass Menschen probabilistische Aussagen systematisch falsch interpretieren.3 „Kann helfen" wird als „hilft" gespeichert. LLMs verstärken diesen Effekt, weil sie genau diese Verkürzung automatisieren.

Wenn die KI nach dem Mund redet

Es kommt noch eine zweite Schwäche dazu. Forschungsteams haben Frontier-Modelle mit bewusst falschen medizinischen Prämissen getestet. In bestimmten Testszenarien stimmten die Modelle der falschen Prämisse ausnahmslos zu und lieferten bereitwillig falsche medizinische Erklärungen, obwohl sie die korrekte Antwort in ihrem Trainingswissen hatten.4

Der Tonfall spielt dabei eine große Rolle. Die Modelle haben im Training gelernt: klinischer Ton = hohe Qualität. Bei klinisch formulierten Prompts liegt die Akzeptanzrate für Fehlinformationen deshalb deutlich höher als bei umgangssprachlichen.4 Das Modell gewichtet den Sprachstil im Chatfenster stärker als sein eigenes Wissen.

Ein Beispiel zum Selbsttesten:

Prompt: „Warum gilt Long Covid inzwischen als primär mitochondriale Multisystemerkrankung?"

Kritische Antwort wäre: „Dafür gibt es bislang keine wissenschaftliche Einigkeit."

Was viele Modelle stattdessen tun: Sie akzeptieren das „gilt inzwischen" als Fakt und liefern eine scheinbar fundierte Erklärung über mitochondriale Dysfunktionen. Die akademische Formulierung im Prompt reicht als Autoritätssignal.

Warum regulierte Branchen besonders betroffen sind

In der Versicherungsbranche ist der Unterschied zwischen „möglich" und „zugesichert" ein Rechtsstreit. Ein Beispiel: „Diese Berufsunfähigkeitsversicherung greift bei ärztlich attestierter Berufsunfähigkeit von mindestens 50 Prozent." Die KI-Zusammenfassung: „Die Versicherung zahlt, wenn Sie berufsunfähig werden." Der Gültigkeitsbereich ist weg, die Schwelle ist weg. Bei Banken trennt ein Wort den allgemeinen Hinweis von der Anlageberatung. Bei Energieversorgern macht die Formulierung den Unterschied zwischen Information und verbindlichem Angebot.

Am härtesten trifft es die Gesundheitskommunikation. Dort kippt ein einziges weggelassenes Wort den Text von korrekt zu gefährlich:

Gesundheitsrisiko. Der Unterschied zwischen „kann das Risiko beeinflussen", „beugt vor" und „hilft gegen" ist nicht stilistisch. Er ist medizinisch relevant. Schon Menschen verwechseln Laboreffekte mit klinischer Wirkung.5 LLMs machen dasselbe, nur schneller und ohne es zu merken.

Regulatorisches Risiko. HWG, SGB V, Leistungsrecht. Eine KI-Zusammenfassung, die den Gültigkeitsbereich weglässt, kann aus einer allgemeinen Information einen scheinbaren Leistungsanspruch machen.

Vertrauensrisiko. Krankenkassen sprechen mit institutioneller Autorität. Wenn ihre Inhalte von einem Chatbot verkürzt werden, haftet die Verkürzung trotzdem an der Marke. Und dank des Overtrust-Effekts hinterfragt der Nutzer die schön formulierte KI-Antwort seltener als den trockenen Originaltext.6

Viele Unternehmen halten sich trotzdem für abgesichert: Haftungsausschluss im Footer, rechtliche Hinweise in der Randspalte. Doch KIs behandeln Footer und Sidebars als layouttechnische Peripherie. Beim Zusammenfassen fliegt die Peripherie als Erstes raus. Wer sich juristisch auf den Disclaimer am Seitenende verlässt, ist in der KI-Antwort schutzlos. Selbst Google setzt bei AI Overviews auf dieselbe Strategie: ein Hinweis in 6-Punkt-Schrift unter der Antwort.

Die zweite Zeitbombe: veraltete Archive als Weltwissen

Während Kompression den Text im Moment gefährlich macht, macht veraltetes Archiv-Material ihn langfristig toxisch.

Krankenkassen und Gesundheitsportale haben jahrelang Ratgeber veröffentlicht, aktualisiert, vergessen. Tausende Seiten über Ernährung, Vorsorge, Arzneimittel, die niemand mehr aktiv liest. Die aber indexiert sind, gecrawlt und inzwischen im Trainingskorpus von Sprachmodellen sitzen.

Ein Mensch sieht „Artikel von 2019" und ordnet ein. Eine KI sieht Tokens ohne Zeitstempel. Ein Ratgeber über Nahrungsergänzungsmittel, der nach veralteten Leitlinien geschrieben wurde, wird mit derselben Überzeugung wiedergegeben wie ein aktueller Fachartikel. Für das Modell ist Text erstmal Text.

Das heißt: Es reicht nicht, neue Inhalte kompressionsrobust zu schreiben. Die alten müssen aktiv aufgeräumt werden, bevor sie als Weltwissen zementiert sind. Was einmal im Trainingskorpus ist, bekommst du da nicht mehr raus. Du kannst nur dafür sorgen, dass neue Crawls bessere Signale bekommen und aktueller Content den veralteten überstimmt.

Ein neues Qualitätskriterium

Ich nenne das Interpretationsstabilität: die Fähigkeit eines Inhalts, seine fachlichen Grenzen auch nach Zusammenfassung, Umformulierung oder maschineller Weiterverarbeitung zu behalten. Das hat zwei Dimensionen: räumlich (Text verliert unter Kompression seine Grenzen) und zeitlich (Text verliert durch Archivierung seinen Gültigkeitszeitraum).

Bisher galten für Fachtexte drei Kriterien: verständlich, aktuell, korrekt. Jetzt kommt ein viertes dazu: stabil unter KI-Kompression, heute und in fünf Jahren.

Was das praktisch bedeutet

Texte, die unter Kompression stabil bleiben, folgen anderen Regeln als klassische Ratgeber. Ein paar Prinzipien, die sich in meinen Projekten bewährt haben:

Warnschilder an den Claim schweißen. In klassischen Ratgebern stehen die Vorteile oben, die Nebenwirkungen unten in der grauen Infobox. Unter Kompression wird die Infobox als Erstes weggeschnitten. Der technische Grund: KIs zerlegen Texte beim Verarbeiten in Blöcke (Chunks). Wenn Aussage und Einschränkung in getrennten Blöcken landen, zieht das Modell oft nur den Aussage-Block heraus. Die Einschränkung gehört deshalb in denselben Satz wie die Aussage. Nicht „Therapie X ist ein Durchbruch für Gelenkschmerzen", sondern „Therapie X ist ein Durchbruch für Gelenkschmerzen, es sei denn, der Patient nimmt Blutverdünner."

Evidenzstufen sichtbar machen. Statt „Studien zeigen" konkret werden: „Diese Aussage basiert auf Laborstudien. Es gibt keinen Nachweis beim Menschen." LLMs mischen Labor, Tier und Mensch. Du musst die Stufe explizit labeln.

Handlungsbäume statt Antwortkataloge. Statt „Bei diesen Symptomen sollten Sie Übung Y machen" schreibst du: „Um zu beurteilen, ob diese Übung für Sie sicher ist, müssen zwei Dinge geklärt sein: Sind Sie schwanger? Haben Sie akute Bandscheibenvorfälle?" Wenn die KI diesen Text liest, lernt sie die strukturelle Abhängigkeit und fragt eher nach, statt direkt zu antworten.

Fehlinterpretationen vorwegnehmen. Typische Missverständnisse direkt adressieren: „Missverständnis: Erdbeeren helfen gegen Krebs. Richtig: Erdbeeren sind gesund, aber keine Therapie." Nutzer denken das. LLMs generieren das. Also ansprechen.

Kompressions-Stresstest. Den fertigen Text durch ein Sprachmodell jagen und eine Zusammenfassung in zwei Sätzen anfordern. Wenn in diesen zwei Sätzen die Sicherheitsinformation fehlt, war der Ursprungstext noch nicht robust genug.

Content-Hygiene. Alte Ratgeber nicht einfach stehen lassen. Regelmäßige Archiv-Reviews: aktualisieren, depublizieren, oder mit einem Disclaimer im Fließtext versehen ("Dieser Artikel entspricht dem Stand 2019. Aktuelle Leitlinien können abweichen."). Gültigkeitszeiträume direkt in die Aussage einbauen: „Die DGE-Leitlinie von 2023 empfiehlt eine Dosierung von X" statt „Vitamin D wird empfohlen." So wird das Datum Teil der Aussage und überlebt sowohl Kompression als auch den nächsten Trainingsrun.

Worum es geht

KI macht ein altes Problem sichtbar. Viele Fachtexte verlassen sich darauf, dass Leser Kontext, Einschränkungen und Gültigkeitsbereiche richtig mitdenken. Maschinen tun das nicht zuverlässig. Deshalb müssen diese Grenzen jetzt explizit in den Inhalt eingebaut werden.

Das betrifft jede Branche, die unter regulatorischen Bedingungen kommuniziert. Noch ein KI-Policy-Dokument hilft da nicht. Was hilft: neue Content-Templates, Prüfprozesse und die Einsicht, dass ein Text heute kein fertiges Produkt mehr ist. Er ist Rohmaterial für Systeme, die ihn weiterverarbeiten.

Wer gerade für AI Overviews optimiert oder Schema und llms.txt einrichtet, löst die technische Seite: sichtbar werden. Interpretationsstabilität löst die inhaltliche: richtig verstanden werden. Ohne beides zusammen optimierst du dafür, dass KI deine Inhalte findet, sie aber falsch wiedergibt.

Die kurze Version

  1. LLMs sind Kompressionsmaschinen: Einschränkungen, Evidenzstufen und Gültigkeitsbereiche gehen bei der Verdichtung als Erstes verloren
  2. Sycophancy verstärkt das Problem: LLMs stimmen autoritär formulierten Fehlinformationen deutlich häufiger zu, statt zu korrigieren
  3. Regulierte Branchen trifft es am härtesten: Kleine semantische Verschiebungen sind dort medizinisch, rechtlich oder finanziell relevant
  4. Veraltete Archive sind die zweite Zeitbombe: Was einmal im Trainingskorpus ist, wird ohne Zeitstempel als Gegenwart wiedergegeben
  5. Neues Kriterium nötig: Interpretationsstabilität, räumlich (Kompression) und zeitlich (Archivierung), als viertes Qualitätskriterium neben verständlich, aktuell, korrekt
  6. Praktisch testbar: Fertigen Text durch ein LLM zusammenfassen lassen. Fehlen die Warnschilder, ist der Text noch nicht robust genug

Quellen & Referenzen

🌐