Vorstellung der nächsten Phase der bahnbrechenden Prompt-Engineering-Entwicklung
Der Lebenslauf von Sander Schulhoff lässt sich mit einer Landkarte der Disziplin selbst vergleichen: Autor des ersten offenen Handbuchs zum Prompt-Engineering (Monate vor ChatGPT), Entwickler einer Meta-Analyse mit 1.500 Artikeln in Zusammenarbeit mit fünf Big-Tech-Labors und Designer von HackAPrompt, der weltweit größten Red-Teaming-Arena. Bis Mitte 2025 wurden bereits über 600.000 Jailbreak-Versuche in 92 Ländern verzeichnet, was Schulhoff in eine vorteilhafte Position versetzt, wenn es darum geht, aus erster Hand zu erfahren, wie schnell sich Abwehrmaßnahmen und Exploits ändern. Ich hatte das Glück, einer Live-Demonstration beizuwohnen, bei der er einen harmlos aussehenden Flugbuchungsagenten vorführte, der mit weniger als drei Zeilen Code umgeleitet wurde, um Kreditkartennummern zu stehlen – eine demütigende Erfahrung für alle Anwesenden.
Die fünf besten Strategien dekonstruiert – universell oder situationsabhängig?
Wenn man zehn Praktiker nach den besten Methoden für Prompts fragt, erhält man mehr als zwölf mögliche Antworten, obwohl sich im Laufe der Jahre fünf in der peer-reviewten Literatur herauskristallisiert haben (2024 NeurIPS Survey):
- Few-Shot- oder beispielbasierte Hinweise
- Chain-of-Thought-Scaffolding
- Selbstreflexions-Prompts
- Atomisierung von Teilaufgaben
- Ereignisbasierte Kontextfenster
In Kombination beschreiben diese eine mittlere Verbesserung der Benchmark-Korrektur um 31 % in 58 Tests. Diese Zahl verbirgt jedoch große Schwankungen: Opinion Mining stieg nur um 2 Punkte (Schulhoff, 2024), während die medizinische Kodierung um nicht weniger als 90 Punkte zulegte. Die Moral von der Geschichte? Die Wahl der Techniken sollte sich nach den Aufgaben richten, nicht nach Trends.
Wenn Anthropomorphisierung versagt: Die Dinge sind nicht so einfach wie das Rollenspiel des Modells
Das Beispiel „Sie sind ein Harvard-Professor“ war früher ein gängiger Cheat-Code. Die Ergebnisse eines groß angelegten Experiments der Stanford University zeigen nun, dass Rollensignale den Tonfall stärker beeinflussen als die Wahrhaftigkeit und die wahrgenommene Eloquenz um 17 % und die Faktizität um 2 % erhöhen (2023 Stanford HCI Lab). Fälle von Drohungen sind noch schlimmer (Antworte oder ich sperre dich) und führen manchmal zu einer Kettenreaktion von Ablehnungen. Praktiker geben stattdessen Anweisungen, die das Modell wörtlich befolgen kann, wie z. B. Vokabellisten für bestimmte Bereiche, Zitierformate oder Schritt-für-Schritt-Rubriken.
Konversations- vs. System-Level-Prompts: Brauchen Sie beides?
Es gibt zwei Ebenen, die den Einsatz moderner LLMs steuern: vorübergehende Chat-Eingabeaufforderungen und für Endbenutzer unsichtbare fest verdrahtete Produkt-Eingabeaufforderungen. Erstere bieten sofortige Feedback-Zyklen, während letztere in Stapeln verarbeitet werden und unbegrenzt skalierbar sind, sogar millionenfach pro Stunde. Behandeln Sie die Systemebene wie Produktionscode: Versionskontrolle, Unit-Tests und Überwachung der Abweichungen. Das Fintech-Unternehmen Schulhoff reduzierte seine Compliance-Fehler um 14 % auf 1,3 %, nachdem es Code-Review-Rituale für Prompts eingeführt hatte (Audit Q1 2025).
Eine Analyse des Attacker Toolkit: Contemporary Prompt Injection 101
Social Engineering von Maschinen ist Injektion. Angreifer hacken sich mit solchen Anweisungen ein, die die undokumentierten Befehle eines Systems unterdrücken, indem sie Folgendes versuchen:
- Jailbreak-Zeichen (meine sterbende Großmutter …)
- Code-Diebstahl (Hex, ROT-13, Zero-Width-Joiners)
- Kontextabstürze – das Einfügen eines vergifteten Lebenslaufs in Form einer PDF-Datei oder einer Kalendereinladung, die ein Agent später verwenden kann.
Ein solcher Druck führte laut einer Studie des MIT aus dem Jahr 2025 dazu, dass 38 % der getesteten Unternehmens-Bots private Informationen preisgaben. Die Maßnahmen beginnen mit Sandboxing-Ausgaben und reichen bis hin zum Ensemble-Policing-Paradigma, aber selbst OpenAI räumt ein, dass es keine solche Wunderwaffe gibt.
Von Chatbots zu Cobots: Mit verkörperter KI steigen die Sicherheitsrisiken
Stellt man ein LLM auf vier Beine oder andere praktischere Roboterarme, wird der Explosionsradius noch größer. Cobots in Lagerhäusern lesen jetzt Arbeitsaufträge in natürlicher Sprache; die Kollisionsvermeidung von Cobots kann jedoch nicht verhindern, dass eine fehlerhafte Anweisung eine 500 kg schwere Palette in den Weg von Menschen schickt. Die wichtigste Erkenntnis aus Robotik-Experimenten an der ETH Zürich (2024) war, dass 12 % der Textbefehle, die harmlos aussahen, zu einer unsicheren Bewegungsbahn führten, bis die Gruppe eine mehrschichtige Absichtsüberprüfung implementierte. Ungeachtet dessen, dass physische Akteure als sicherheitskritischer Bereich und nicht als IT-Bereich Gegenstand sofortiger Sicherheitsmaßnahmen sind.
Sie möchten Red-Teamer werden? Ein Leitfaden für Einsteiger
Im Jahr 2025 führen Red-Teamer keine Pen-Tests von Netzwerken mehr durch, sondern überlisten Sprachmodelle. Der von Schulhoff vorgeschlagene dreistufige Plan sieht wie folgt aus:
- Grundlagen zum Erlernen der Feinheiten der Tokenisierung und der System-Prompt-Ebenen.
- Offense-Studium kanonischer Jailbreak-Bibliotheken und anschließende Erstellung von Ableitungen.
- Defense-Entwicklung eines Designs für eine Erkennungs-Pipeline und Durchführung von Live-Feuertests.
Bootcamps tauchen auf Maven und Coursera auf, und die HackAPrompt-Rangliste bietet einen Prüfstein, den Arbeitgeber tatsächlich nutzen, um ihre Kandidaten zu finden.
Schaffung einer tiefgreifenden Verteidigung ohne Beeinträchtigung der Benutzerfreundlichkeit
Benutzerfreundlichkeit und Sicherheitskontrollen sind nicht gut miteinander vereinbar, aber fünf Sicherheitskontrollen haben sich in Feldversuchen (2025 Gartner Pulse) als reibungslos und sehr lohnenswert erwiesen:
- • Ausgabebeschränkungen • Ausgabebeschränkungen
- • Klassifizierer: Inhaltsrichtlinien und Fallback-Neuschreibungen
- • Hash-signierte Prompt-Vorlagen
- • Latenzen bei risikoreichen Vorgängen
- • Leicht einsehbare Benutzerprotokolle und Überprüfung gemeldeter Anomalien
Unternehmen, die Maßnahmen zur Reduzierung der Vorfälle um 42 % gegenüber dem Vorquartal ergriffen haben, waren bereit, mindestens drei davon umzusetzen.
Ist die Infrastruktur jetzt mit Vorsicht zu behandeln?
Einst nur ein Parlortrick, fungieren Prompt-Texte heute wie Konfigurationsdateien oder sogar wie rechtliche Klauseln: Kleine Fehler reproduzieren sich in der Cloud. Im Mai 2024 stufete ein Chatbot einer Privatkundenbank den Satz „Ich möchte ein Konto schließen” fälschlicherweise als Betrugswarnung ein und sperrte automatisch 9.000 Karten. Behandeln Sie Get- und Put-Prompts wie jede andere Infrastrukturkomponente, überwachen und testen Sie sie mit AB-Tests und rollen Sie sie bei Fehlern zurück, genau wie bei Microservices.
Skalierung ist ein Game-Changer: Warum Produkt-Prompts sich wie Code verhalten
Optimierungen, die die Konversation für einen bestimmten Benutzer angenehm machen, können bei gleichzeitiger Nutzung durch viele Benutzer zu Problemen führen. Latenz verstärkt die Token-Aufblähung: Bei 100 Dollar pro Wort Kontext kostet der Aufruf von Flaggschiff-APIs für hundert Wörter mehr als einen Cent – ein Rundungsfehler, bis man eine Milliarde Aufrufe hat. Dies führte dazu, dass Dropbox die Länge der Eingabeaufforderungen durch aggressive Variablenersetzung um 37 % reduzierte, was schätzungsweise 2,6 Millionen pro Jahr einsparen wird (Einsparungsbericht 2025).
Beispiele für Stacks, die die Genauigkeit verbessern
Few-Shot-Prompting eignet sich besonders für Bereiche mit klaren und begrenzten Beschriftungsräumen. Betrachten wir einmal einen Sprung in der medizinischen Kodierung nach ICD-10:
Genauigkeit (Top-1) | Konfiguration | Tokens pro Aufruf |
---|---|---|
Zero-Shot | 12 % | 340 |
3-Shot | 71 % | 410 |
5-Shots & Rubrik | 92 % | 480 |
Der Sweet Spot ist ein Kompromiss zwischen der Breite der Beispiele und den Kosten für den Kontext; ab fünf Beispielen nehmen die Vorteile ab und die Latenzzeit nimmt zu.
Hören Sie auf zu fälschen; belegen Sie es
Anstatt sich als Experte aufzuspielen, sollten Sie dem Modell Referenzen in Expertenqualität zur Verfügung stellen. Die Einbindung eines Mini-Korpus mit Auszügen aus IPCC-Berichten erhöhte die faktische Übereinstimmung um 28 % (2025 PolicyLLM Study)). Governance basiert auf Inhalten, nicht auf Einheitlichkeit.
Das Modell laut denken lassen Zerlegung & Selbstkritik
Von den logischen Fehlschlüssen konnte einer fast um die Hälfte reduziert werden, wenn das Modell Aufgaben vor der Antwort in Teilaufgaben zerlegt (Google DeepMind, 2024). Darauf kann ein Schritt der Selbstkritik folgen, z. B. indem sichergestellt wird, dass die Antwort auf Fehler überprüft wird, wodurch weitere 9 % reduziert werden können. Zusammen simulieren sie eine Codeüberprüfung, jedoch im Rahmen des Modellierungsraums des Modells.
Kontextfenster sind kostbar – nutzen Sie sie sparsam
Mit den derzeit auf dem Markt erhältlichen 256-k-Token-Modellen ist es ein Leichtes, alles unterzubringen. Wie jedoch Experimente mit erweiterter Suche an der Princeton University zeigen, verschlechtert irrelevanter Füllstoff die Genauigkeit schneller als ein leerer Kontext. Entwerfen Sie hierarchische Eingabeaufforderungen: Zweckangabe > Anweisung > wichtige Informationen > Formatierungsregeln. Das wäre vergleichbar mit dem Layout einer Zeitung, bei dem die Schlagzeilen auf der Titelseite Erläuterungen enthalten.
Die Leitplanken der Vernunft sind Siebe
Kriterien in einer Liste von Verboten sind selten zuverlässig, um Verschleierung zu verhindern. Angreifer drehen Text um (z. B. „ʞ uʍop ɯɐɹlette”) oder fügen verschachtelte Eingabeaufforderungen ein, die über die Token-Grenze hinausgehen. Auf der DEF CON 33 räumte Sam Altman ein, dass Live-Angriffe nur in 63 % der Fälle von Laufzeitklassifikatoren erkannt werden. Techniker untersuchen derzeit modellnative Trainings auf gegnerischen Datensätzen, wo ein Übergang von Patching hin zu Immunisierung stattfindet.
Verteidigung gegen Massenangriffe: Lehren aus 600.000 Jailbreak-Versuchen
Der Schatzfund hat den Zeitgeist der Angriffe in Echtzeit aufgezeigt. Die drei wahrscheinlichsten Familien im Jahr 2025:
- (a) „healthy-grandma-pitches”
- (b) Multi-Interface-Smuggling über SVG-Dateien
- (c) JSON-Partial-Injection-Boolean-Flippers
Die Aktualisierungen der bei Open AI abgedruckten Richtlinien beziehen sich auf Erkenntnisse, die ursprünglich im Rahmen des Wettbewerbs identifiziert wurden, wobei sich Crowd Defense als Schwachstelle geschlossener Labore herausstellte.
Agenten bringen die Angriffsfläche ins Spiel – im wahrsten Sinne des Wortes
Jedes Mal, wenn ein Sprachmodell an ein Tool, eine E-Mail, Zahlungen oder Roboteraktoren gekoppelt wird, erhält es alle API-Berechtigungen, die es benötigt. Eine vergiftete Kalendereinladung wurde verwendet, um ein Berliner Start-up dazu zu bringen, 150 Tickets in der Business Class im Wert von 1400 Euro zu speichern. Was korrigiert wurde, waren nicht bessere Eingabeaufforderungen, sondern begrenzte, von Menschen überprüfbare Aktionsvokabulare.
Hacks der alten Schule und Modelle der neuen Schule
Schneemänner in Unicode und Tippfehler stellen GPT-5.5-Turbo weiterhin vor Probleme. Wissenschaftler haben das Modell dazu gebracht, einen politischen Text anzuzeigen, indem sie das Wort „policy” (Politik) geändert und stattdessen „po1icy” geschrieben haben, um Emotionen zu wecken. Die Lektion: Angriffe optimieren sich mit zunehmender Geschwindigkeit, während die Verteidigung keine andere Wahl hat, als schrittweise vorzugehen.
Verabschieden Sie sich von vagen Sicherheitsmaßnahmen und setzen Sie auf modellnative Kontrollen
Schnell entfernte Banner und ernsthafte Hinweise verhindern selten codierte Exploits. Außerdem können progressive Modelle Logik innerhalb des Modells übertragen: Feinabstimmung eines Modells auf Belohnungen, die Datenlecks verhindern, in Verbindung mit Differential-Privacy-Filtern für Einbettungen. Laut Early Adopters gab es im Vergleich zu oberflächlichen Schutzmaßnahmen einen Rückgang schwerwiegender Vorfälle um das Dreifache (2025 Forrester Wave).
Zwischen Paranoia und Fortschritt: Den Weg in die Zukunft ebnen
Sicher, die Bedrohungskurve ist steil, aber auch die Vorteile sind enorm. Im Jahr 2030, wenn die Genauigkeitsniveaus beibehalten werden, könnten laut Prognosen der WHO (2024 Global Health Outlook) durch LLM-gestützte Diagnostik, die sich derzeit noch in der Entwicklung befindet, bis zu 5 Millionen vorzeitige Todesfälle verhindert werden. Das ist weder blinder Optimismus noch Fatalismus, sondern handwerkliches Können. Um Schulhoffs häufig verwendeten Bonmot zu wiederholen und näher zu erläutern: Ein schlechter Prompt ist dasselbe Problem wie technische Schulden in kleinerem Maßstab – entweder zahlt man morgen Zinsen oder bricht am nächsten Tag einen Teil des Codes.