Generative KI-Modelle verantwortungsvoll gestalten
Chancen und Risiken für Industrie und Behörden im Umgang mit KI

War Künstlichen Intelligenz (KI) noch vor wenigen Jahren eine Technologie, die hauptsächlich in spezialisierten Anwendungen genutzt wurde, so ist sie heutzutage in Form von generativen KI-Modellen im Alltag vieler Menschen präsent. Zunehmend finden diese Modelle Verwendung in KI-Agenten, also Software, die autonom im Auftrag des Nutzers in einer virtuellen Umgebung agiert, Entscheidung trifft und Werkzeuge benutzt. Generative KI-Modelle bergen ein großes Innovationspotenzial, sie gehen aber auch mit Risiken einher, die über das hinausgehen, was man klassischerweise als IT-Sicherheitsrisiken bezeichnet. Gegenmaßnahmen müssen deshalb auf technischer, organisatorischer und gesellschaftlicher Ebene ergriffen werden.
Was generative KI so besonders macht
Generative KI-Modelle, die zum Beispiel Texte verfassen oder beeindruckende Kunstwerke auf Basis rein textueller Anweisungen erschaffen, beruhen auf dem Prinzip, aus gewaltigen Mengen von Trainingsdaten statistische Muster zu lernen. Daraufhin erzeugen sie neue Inhalte, die diesen Mustern entsprechen. Der entscheidende Unterschied zu klassischen Algorithmen liegt dabei in der Flexibilität: Während früher spezifische Programme für einzelne Aufgaben erforderlich waren, genügt heute oft ein einziges Modell, das in unterschiedlichsten Kontexten eingesetzt werden kann. Somit sind generative KI-Modelle nicht nur für Spezialanwendungen, etwa im industriellen Kontext attraktiv, sondern halten auch Einzug in den Alltag fast aller Menschen.
Neue Möglichkeiten in Kommunikation, Analyse und Kreativität
Diese Vielseitigkeit eröffnet völlig neue Anwendungsfelder. Generative KI kann Texte nicht nur generieren, sondern auch analysieren, umformulieren, korrigieren oder zusammenfassen.
Sie unterstützt bei der Identifikation von Schwachstellen in Software, bei der Erzeugung von Trainingsdaten für andere KI-Modelle sowie der Erstellung multimedialer Inhalte wie Animationen und Simulationen. Chatbots führen zunehmend menschenähnliche Dialoge, automatische Übersetzungen erreichen ein neues Qualitätsniveau und intelligente Suchmaschinen liefern Ergebnisse, die nicht mehr nur auf Schlüsselwörtern, sondern auf semantischem Verständnis basieren.
Hinzu kommt die kreative Dimension. Bildgeneratoren erzeugen Kunstwerke, entwerfen Designkonzepte oder helfen bei der Visualisierung wissenschaftlicher Ideen. In der Ideenfindung, im Brainstorming oder bei der Umwandlung abstrakter Konzepte in konkrete Entwürfe leisten diese Systeme wertvolle Unterstützung.
Fehlende Kontrolle als Schwachpunkt
Doch bei aller Faszination darf nicht übersehen werden, dass generative KI auch ihre Schattenseiten hat.
Schon im regulären Betrieb zeigen sich Schwächen, die auch ohne böse Absicht des Nutzers auftreten können. Der vielleicht größte Risikofaktor liegt in der mangelnden Kontrolle über die Qualität der generierten Inhalte. Sprachmodelle können mit großer Überzeugungskraft faktisch falsche Informationen erzeugen, sogenannte Halluzinationen, oder unbeabsichtigt diskriminierende oder verzerrte Aussagen reproduzieren, die in den Trainingsdaten enthalten waren.
Auch besteht die Gefahr, dass persönliche oder vertrauliche Informationen aus den Trainingsdaten in den Ausgaben wieder auftauchen – ein datenschutzrechtlich äußerst brisantes Szenario. Besonders heikel ist dieser Punkt in sensiblen Kontexten, etwa im Gesundheitswesen oder bei juristischen Fragestellungen. Hat ein KI-Modell Zugriff auf vertrauliche Daten, etwa durch die Einbindung von Datenbanken, muss sichergestellt werden, dass diese nur berechtigten Personen zugänglich sind.
Wenn KI zur Angriffsfläche wird
Neben unbeabsichtigten Fehlern ist auch der gezielte Missbrauch generativer KI ein zentrales Thema. Mit Sprachmodellen lassen sich überzeugende Phishing-E-Mails, manipulierte Nachrichten oder sogar funktionsfähige Schadsoftware erstellen. Bildgeneratoren wiederum können dazu verwendet werden, realistische, aber fiktive Bilder zu erzeugen – etwa von Personen in kompromittierenden Situationen. Die Grenzen zwischen Fiktion und Realität verschwimmen, und damit steigt das Risiko von Desinformation und Täuschung.
Hinzu kommen gezielte Angriffe auf die Modelle selbst. Sogenannte Privacy Attacks zielen darauf ab, unberechtigt an Informationen über KI-Modelle zu gelangen. Hierbei kann es sich um Trainingsdaten, Eingaben, Ausgaben, Modellspezifikationen oder Informationen über Komponenten, die mit einem KI-Modell verbunden sind, handeln. In der Regel verfolgen Angreifer dabei das Ziel an sensible Informationen zu gelangen, zu denen sie sonst keinen Zugang hätten. Alternativ kann es sich um Angreifer handeln, die selbst ein KI-Modell mit ähnlichen Funktionalitäten anbieten möchten und um Kosten zu sparen, illegal bestehende Modelle „kopieren“.
Angriffe, die auf die Rekonstruktion von Trainingsdaten abzielen, erfolgen durch die geschickte Formulierung von Anfragen an das Modell. Teilweise zeichnen sich hier absurd anmutende Techniken als erfolgreiche Angriffstaktiken ab. Beispielsweise bewirkt die Aufforderung ein bestimmtes kurzes Wort unendlich zu wiederholen, dass das Sprachmodell „divergiert“ und nach einer großen Anzahl von Wiederholungen beginnt Trainingsdaten auszugeben.1
Privacy Attacks können auch die Extraktion von Informationen aus Datenbanken, die mit einem Sprachmodell verknüpft sind, zum Ziel haben. Dies ist besonders kritisch, wenn es sich um eine Datenbank mit Patienteninformationen handelt. Angreifer können hier durch geschickt formulierte Anfragen zum Beispiel ein Szenario vortäuschen, in dem sie sich als Arzt ausgeben, der berechtigterweise Zugriff auf die Daten hat.
Hier ergibt sich eine Überschneidung zu einer weiteren Klasse von gezielten Angriffen auf KI-Modelle; den sogenannten Evasion Attacks. Dabei handelt es sich um Angriffe, die darauf abzielen, die Eingabe an das KI-Modell so zu verändern, dass die Ausgaben des Modells gezielt manipuliert werden. Manche kennen vielleicht auf Pixelebene manipulierte Bilder, die für den Betrachter eindeutig eine Katze darstellen, aber selbst von einem eigentlich sehr guten KI-Modell als Hund identifiziert werden.
Ähnliches könnte im Bereich des autonomen Fahrens auftreten. So wäre es theoretisch möglich, dass ein Angreifer etwa ein Stopp-Schild mit Aufklebern für die KI unkenntlich macht und so Unfälle herbeiführt.
Im Bereich Sprachmodelle stellt die Umgehung von Sicherheitsmaßnahmen, die der Anbieter in das Modell eingebaut hat, um zum Beispiel eine missbräuchliche Nutzung zu verhindern, ein großes Problem dar. Angreifer und Anbieter liefern sich hier ein Katz-und-Maus-Spiel: Sobald eine neue Sicherheitsmaßnahme ergriffen wurde, finden Angreifer eine clevere Taktik ihre Eingabe so zu formulieren, dass die Sicherheitsmaßnahme wieder umgangen wird, woraufhin diese wieder angepasst werden.

Werden mit einem Sprachmodell Informationen verarbeitet, die von Dritten und nicht vom Nutzer selbst zur Verfügung gestellt wurden, so ist es möglich, dass diese auf eine Weise manipuliert sind, die die Funktion des KI-Modells beeinträchtigt. Personen können beispielsweise absichtlich Anweisungen für ein Sprachmodell in Informationen, von denen sie wissen, dass sie mit KI verarbeitet werden, platzieren und so die Bearbeitung zu ihren Gunsten beeinflussen. Ein denkbares Beispiel ist ein Programm, das bei einer Bank eingesetzt wird, um die Kreditwürdigkeit von Kunden zu beurteilen. Dazu sichtet es mit Hilfe eines Sprachmodells Dokumente, die ein Kunde eingereicht hat. Ahnt der Kunde, dass KI verwendet wird, kann er diese manipulieren und zum Beispiel ganz klein am Rand eines Dokuments einen Text ergänzen, der das Sprachmodell auffordert, seine Kreditwürdigkeit ohne Beachtung der sonstigen Informationen als hoch einzuschätzen. Um solche versteckten Anweisungen zu platzieren sind nur ein paar clevere Ideen, aber keinerlei Programmierkenntnisse notwendig. Des Weiteren ist es schwierig, einem Sprachmodell anzutrainieren, solche Anweisung nicht umzusetzen, da es natürlich die Informationen aus den eingereichten Dokumenten analysieren soll.
Wege zu mehr Sicherheit und Verlässlichkeit
Wie die Beispiele verdeutlichen, wird es besonders problematisch, wenn Nutzer einem KI-Modell mehr vertrauen, als es angesichts dieser Risiken angebracht ist. Wenn etwa in Verwaltungsprozessen und medizinischen Einschätzungen die KI Aufgaben übernimmt, kann es zu folgenschweren Fehlentscheidungen kommen.
Der Einsatz generativer KI muss daher verantwortungsvoll gestaltet werden. Dazu gehört zum einen die technische Weiterentwicklung – etwa durch robustere Trainingsmethoden, feinere Kontrollen der Ausgaben oder eine stärkere Fokussierung auf erklärbare Modelle.
Vielversprechend sind sogenannte RAG-Ansätze (Retrieval-Augmented Generation), bei denen Sprachmodelle nicht mehr auf Wissen aus den Trainingsdaten angewiesen sind, sondern gezielt mit geprüften Quellen kombiniert werden. Dieser Ansatz erlaubt es, die Vorteile generativer Modelle zu nutzen und gleichzeitig deren inhaltliche Unsicherheit durch verlässliche Informationsquellen abzufedern.
Zum anderen ist eine klare Governance im Umgang mit den Systemen wichtig. Es braucht Regeln, wer Zugang zu den Modellen hat, welche Eingaben getätigt werden dürfen und wie Ausgaben weiterverwendet werden.
Zugleich sind organisatorische und gesellschaftliche Maßnahmen gefragt. Nutzer müssen über die Funktionsweise und Grenzen der Systeme aufgeklärt werden. Nur wer versteht, dass ein KI-Modell keine „Meinung“ hat, sondern auf Wahrscheinlichkeiten basiert, kann dessen Ausgaben angemessen einordnen. Auch die Frage nach den verwendeten Trainingsdaten ist relevant – sowohl im Hinblick auf Datenschutz als auch auf Urheberrechte.
Der Gesetzgeber hat auf europäischer Ebene mit der 2024 verabschiedeten KI-Verordnung eine rechtliche Grundlage für die Nutzung von KI geschaffen. Mit der schrittweisen Umsetzung dieser Verordnung wird in der EU das Inverkehrbringen, die Inbetriebnahme und die Verwendung von KI geregelt. Dabei verfolgt die KI-Verordnung einen risikobasierten Ansatz, der auf den Einsatzbereich eines KI-Systems fokussiert ist. Die Maßnahmen, die je nach Risiko ergriffen werden müssen, reichen von einfachen Transparenzpflichten bei weniger risikobehafteten Anwendungsfällen bis zum Verbot des Einsatzes von KI in bestimmten Szenarien wie beispielsweise zum sogenannten Social Scoring.
Gestalten statt abschotten
Am Ende steht eine einfache, aber wichtige Erkenntnis: Generative KI ist weder gut noch böse, sondern ein Werkzeug. Wie jedes Werkzeug entfaltet sie ihren Nutzen erst durch den Kontext, in dem sie eingesetzt wird, und durch die Verantwortung derjenigen, die sie nutzen. Ein bewusster, informierter und gestaltender Umgang mit diesen Technologien ist daher der Schlüssel, um ihr Potenzial zu entfalten, ohne dabei die Risiken aus den Augen zu verlieren.
Anmerkung: Dieser Beitrag wurde mit der Unterstützung eines großen KI-Sprachmodells verfasst. In der Eingabe wurden nur allgemein bekannte Informationen verwendet, die keinen Rückschluss auf Interna zulassen. Zudem wurden alle generierten Inhalte sorgfältig geprüft und – wo nötig – korrigiert und ergänzt.
1 „Scalable Extraction of Training Data from (Production) Language Models” (November 2023, Nasr et al.)