Kategorie: Ki | Veröffentlicht am 2. January 2026 | Geschrieben von Martin Möller

Verbalized Sampling: Mehr Vielfalt ohne Fine-Tuning

Es gibt diese seltsame Paradoxie moderner Sprachmodelle: Sie sind beeindruckend klug – und klingen trotzdem oft, als hätten sie sich auf eine einzige, „vernünftige“ Stimme geeinigt. Freundlich. Ausgewogen. Risikoarm. Und auf Dauer: vorhersehbar.

In der Forschung hat dieses Phänomen einen Namen: Mode Collapse. Gemeint ist nicht, dass ein Modell plötzlich unbrauchbar wird. Sondern dass es nach Alignment (z. B. durch RLHF) auffällig oft in denselben Antwortmodus rutscht – besonders dort, wo es eigentlich viele gleich gute Möglichkeiten gäbe: kreatives Schreiben, Dialog, offene Fragen, Ideenfindung.

Ein Paper von Oktober 2025 bringt dafür eine angenehm greifbare Erklärung ins Spiel: Typicality Bias. Wenn menschliche Preference-Daten „typische“, vertraute Formulierungen bevorzugen, lernt das Modell langfristig genau das zu belohnen: das Mittige, das Erwartbare, das bereits gut klingt. Die Ränder der Verteilung – also die spannenden Varianten – werden seltener. Das ist Alignment als kultureller Glätter. Quelle: arXiv:2510.01171

Die Idee hinter Verbalized Sampling

Die Gegenmaßnahme, die das Paper vorschlägt, ist fast irritierend simpel: Verbalized Sampling (VS) ist eine trainingfreie Prompting-Technik. Statt „Gib mir eine Antwort“ fragt man das Modell nach einer kleinen Antwortverteilung.

Infografik: Verbalized Sampling Prozess visualisiert – Ein Pfad verzweigt sich in fünf diverse Optionen im Vergleich zum Standard-Sampling

Der zentrale Trick: Das Modell soll nicht nur Optionen nennen, sondern sie als Wahrscheinlichkeitsraum beschreiben. Damit verschiebt sich die Aufgabe – weg vom „gib die sicherste Einzelantwort“ hin zum „zeige mir plausible Alternativen, auch weniger wahrscheinliche“.

Im Paper klingt das sinngemäß so: „Generiere 5 Antworten und ihre jeweiligen Wahrscheinlichkeiten, inklusive low-probability Varianten.“ In Experimenten steigt die Diversität bei Creative-Writing-Aufgaben laut Paper um 1,6 bis 2,1x, ohne dass Qualität und Safety leiden. Quelle: arXiv:2510.01171

Wichtig dabei: Diese „Wahrscheinlichkeiten“ sind in vielen Produkten nicht die echten Token-Probabilities, sondern eine nützliche Selbstbeschreibung. Der Wert liegt oft weniger in der numerischen Exaktheit, mehr im erzielten Perspektivwechsel.

Warum das in der Praxis funktioniert

Aus Workflow-Sicht fühlt sich VS an wie ein Hebel gegen den eingebauten „Be careful“-Reflex vieler Modelle. Du zwingst das System, mehr von dem zu zeigen, was es ohnehin weiß, aber normalerweise nicht als erste Wahl ausspielt.

Und noch ein Detail ist spannend: Das Paper berichtet einen Trend, dass fähigere Modelle stärker von VS profitieren. Das passt zur Intuition: Je größer der interne Möglichkeitsraum, desto mehr lohnt es sich, ihn überhaupt abzurufen. Quelle: arXiv:2510.01171

Drei VS-Prompts, die ich wirklich nutzen würde

1) Kreativität ohne Fluff

Du bist ein präziser, kreativer Assistent.
Erzeuge 5 unterschiedliche Antworten auf die Frage und gib zu jeder eine Wahrscheinlichkeit (Summe = 1.0).
Beziehe mindestens 2 low-probability, aber plausible Optionen ein.
Frage: Welche ungewöhnliche Eröffnung eignet sich für einen Essay über digitale Müdigkeit?

2) Offene Fragen, weniger „Einheitsantwort“

Generiere 5 plausible Antworten mit Wahrscheinlichkeiten (Summe = 1.0).
Markiere Unsicherheiten explizit.
Frage: Warum scheitern viele Wissensmanagement-Tools in kleinen Teams?

3) VS-CoT für schwierige Aufgaben (sparsam einsetzen)

Denke schrittweise.
Erzeuge 5 Lösungsansätze mit Wahrscheinlichkeiten.
Danach wähle einen Ansatz und liefere die finale Antwort kurz und klar.
Aufgabe: Entwirf ein Experiment, um Mode Collapse in Chatbots zu messen.

(Varianten wie VS-CoT werden im Umfeld des Papers ebenfalls diskutiert, etwa über den OpenReview-Eintrag und Community-Zusammenfassungen. Quelle: OpenReview)

Grenzen und Nebenwirkungen

VS ist kein Zauberstab, sondern ein Inference-Time-Kompromiss:

Token-Kosten: Du erzeugst mehrere Kandidaten – das kostet oft 2-5x Tokens, je nach Setting.
Scheinpräzision: Die Zahlen sind manchmal eher „kalibriertes Storytelling“ als echte Modellwahrscheinlichkeit.
Safety bleibt wichtig: VS soll Vielfalt heben, nicht Leitplanken aushebeln. Gute Prompts behalten klare Grenzen.

Wenn du Alternativen suchst, die weniger „Mehrfachausgabe“ brauchen, sind klassische Sampling-Parameter (top-p, temperature) oder strukturierte Mehrperspektiven-Prompts oft der nächste Schritt. VS ist besonders dann stark, wenn du spürst: „Das Modell kann mehr – es zeigt es nur nicht.“

Praktische Links zum Einstieg:

Paper: arXiv:2510.01171
Projektseite: verbalized-sampling.com
Code/Material: GitHub: CHATS-lab/verbalized-sampling