KI-Verordnung: Datenschutzrechtliche Herausforderungen
Nachdem die EU die KI-Verordnung auf den Weg gebracht hat, stellt sich die Frage nach den Konsequenzen für die Zukunft des Datenschutzes beim Einsatz Künstlicher Intelligenz. Begrüßenswert ist die Tatsache der Einheitlichkeit der Regelung in Europa, nachdem unter anderem die DSK eine klare Verantwortlichkeit für Hersteller und Betreiber eingefordert hatte. Die nach dem Trilog absehbare Endfassung erhält einige Vorgaben, die sowohl neue Rechtsgrundlagen für die Datenverarbeitung, vor allem aber auch neue Dokumentationspflichten betreffen. Mit dem Anwendungsbeginn der KI-VO ist Mitte/Ende 2026 zu rechnen.
1. Regelungsgehalt der KI-Verordnung
Zweck der KI-Verordnung (im Folgenden „KI-VO-E“) nach deren ErwGr. 1 ist es, einen einheitlichen Rechtsrahmen insbesondere für die Entwicklung, Vermarktung und Verwendung künstlicher Intelligenz im Einklang mit den Werten der Union festzulegen, um unter Anderem ein hohes Schutzniveau der Gesundheit, der Sicherheit und der Grundrechte sicherzustellen. Gewährleistet werden soll ebenfalls der grenzüberschreitende freie Verkehr KI-gestützter Waren und Dienstleistungen. Nach ErwGr. 5 soll dadurch das Ziel der Union umgesetzt werden, bei der Entwicklung einer „sicheren, vertrauenswürdigen und ethisch vertretbaren künstlichen Intelligenz“ weltweit eine Führungsrolle einzunehmen. Die wesentlichen Regelungsinhalte der geplanten KI-Verordnung der EU beinhalten zum Einen die Einführung von Risikoklassen, bei welchen KI-Anwendungen basierend auf ihrem potenziellen Schaden und ihrer Gefährlichkeit einer Einstufung unterzogen werden. Hochriskante KI-Systeme werden mit Auflagen hinsichtlich der Risikobegrenzung und der Entwicklungsqualität belegt. Daneben enthält die KI-VO ein Verbot bestimmter Anwendungen von Künstlicher Intel- ligenz, die als besonders gefährlich oder ethisch bedenklich betrachtet werden.
Weiterhin sind auch Vorgaben für Transparenz und Dokumentationspflichten enthalten: Entwickler und Anbieter von KI-Systemen werden verpflichtet, transparent über die Funktionsweise ihrer Systeme zu informieren. Dies kann auch die Dokumentation von Algorithmen und Trainingsdaten umfassen. Die KI-VO enthält schließlich neue Rechtsgrundlagen zur Verarbeitung personenbezogener Daten zur KI-Qualitätssicherung.
2. Datenschutzrechtliche Herausforderungen der KI
KI wird im KI-VO-E in Art. 3 Nr. 1 wie folgt definiert: „Ein KI-System ist ein maschinengestütztes System, das so konzipiert ist, dass es mit unterschiedlichem Grad an Autonomie operieren kann und nach seiner Einführung eine Anpassungsfähigkeit aufweist, und das für explizite oder implizite Ziele aus den Eingaben, die es erhält, ableitet, wie es Ergebnisse wie Vorhersagen, Inhalte, Empfehlungen oder Entscheidungen erzeugen kann, die physische oder virtuelle Umgebungen beeinflussen können.“ KI ist somit eine Art Vorhersagetechnik auf basierenden Erfahrungen und Trainingsdaten. Der Erwägungsgrund 45a KI-VO-E nennt als Maßnahmen zur Wahrung des Datenschutzes die Grundsätze der Datenminimierung und des Datenschutzes durch Technikgestaltung und datenschutzfreundliche Voreinstellungen des Art. 25 DSGVO, wenn die Verarbeitung von Daten erhebliche Risiken für die Grundrechte natürlicher Personen birgt. Als zugehörige technische und organisatorische Maßnahmen werden neben der Anonymisierung und Verschlüsselung auch der „Einsatz zunehmend verfügbarer Technik“ genannt, „die es ermöglicht, Algorithmen direkt am Ort der Datenerzeugung einzusetzen und wertvolle Erkenntnisse zu gewinnen, ohne dass die Daten zwischen den Parteien übertragen beziehungsweise die Rohdaten oder strukturierten Daten selbst unnötig kopiert werden.“
Fraglich ist, ob sich in der Umsetzung der Regulierung die Konflikte zwischen KI-Funktionalitäten und Datenschutzbedürfnissen befriedigend auflösen lassen werden.
Damit KI funktioniert, muss sie über eine möglichst umfassende, korrekte und aktuelle Datenbasis verfügen, welche sie auswerten und inhaltlich verknüpfen kann. Insofern enthält die KI-Anwendung auch immer einen „Big Data“-Aspekt. KI und Datenschutz befinden sich damit in einem Spannungsverhältnis, soweit KI personenbezogene Daten im Sinne der Art. 4 Nr. 1 DSGVO verarbeitet. Dies ist regelmäßig der Fall, da aus dem Internet und aus Nutzereingaben ausgelesene beziehungsweise gespeicherte Daten in das KI-Modell einfließen und für die Ergebnisausgabe weiterverarbeitet werden.
Im Einsatz in Apps oder auf Webseiten kann KI in verschiedenen Bereichen personenbezogene Daten einsetzen. Zum einen können personenbezogene Daten in Form von Namen, namensbezogenen Informationen, Bildern und biometrischen Daten in die Trainingsdatenbasis Einzug gehalten haben. Zum anderen können Nutzer durch die Eingabe von Anfragen (sog. Prompts) Daten mit Personenbezug in die KI einspeisen, welche dann möglicherweise der Trainingsdatenbank hinzugefügt werden. In jüngster Zeit wird aufgrund der zunehmenden Fehlerhaftigkeit von KI-Ergebnissen, welche auf allgemeinen Internetauswertungen basieren, ein Aufbau nutzerbezogener Trainingsdatenbanken („Gedächtnis“) angeboten.
Und schließlich kann die Ausgabe von Daten wieder mit Personenbezug erfolgen, etwa wenn ein Prompt eine Darstellung der Biografie einer natürlichen Person angefordert hat. Soweit Trainingsdaten nach und nach in das KI-System überführt werden und bei ihrer Kombination ein Personenbezug sukzessive ermöglicht wird, muss dies bei entsprechenden technisch-organisatorischen Maßnahmen noch nicht dazu führen, dass automatisch ein Personenbezug bejaht wird, wenn das KI-System – unter anderem durch Datentrennungsmaßnahmen – nicht auf die Herstellung dieser Bezüge ausgerichtet ist. Der Aufbau nutzerbezogener „Gedächtnisse“ wird dies jedoch grundlegend ändern, da sowohl eine nutzerbezogene Verknüpfung der Nutzung abrufbar ist als auch eine Agglomeration der Daten und Kombination mit weiteren Nutzerdaten – etwa aus anderen Anwendungen des gleichen KI-Anbieters, bei welchem der Nutzer registriert ist. Nach der Eröffnung des ChatGPT-Stores können darüber hinaus weitere Akteure ChatGPT in ihre Anwendungen integrieren und dort Nutzerdaten aggregieren.
Verantwortliche für die Datenverarbeitung sind die Betreiber der KI und einsatzabhängig die Nutzer – gegebenenfalls in gemeinsamer Verantwortlichkeit nach Art. 26 DSGVO⁹. Die KI-Betreiber werden in aller Regel eigene Zwecke mit der Bereitstellung der KI verfolgen, indem diese durch die Nutzereingaben weiter lernt und die Datenbasis verbreitert. Soweit daher aus den Prompts Daten für das Training der KI gewonnen werden, wird eine Auftragsverarbeitung nach Art. 28 DSGVO als datenschutzrechtliche Einordnung ausscheiden. Vor diesem Hintergrund sind auch Aussagen von Microsoft zu betrachten, nach denen beim Einsatz vom MS Copilot keine Nutzereingaben zum KI-Einsatz verwendet werden und ein „AI Safety Mechanism“ entsprechende Datenflüsse unterbindet.
Im Hinblick auf die Funktionsweise der KI können Konflikte mit den Grundsätzen des Datenschutzes nach Art. 5 DGSVO auftreten, etwa dem Grundsatz der Transparenz und dem Grundsatz von Treu und Glauben, welcher u.a. ein Diskriminierungsverbot enthält, das aufgrund der Verpflichtung zur rechtmäßigen Verarbeitung auch Verstöße gegen das AGG umfasst. Dementsprechend sind diskriminierende – und be- reits nicht nachvollziehbare Entscheidungswege – von KI bereits datenschutzrechtlich problematisch, ohne dass es auf die entsprechenden Vorgaben der KI-VO ankommt. Nach Art. 5 Abs. 1 lit d) DSGVO haben Daten darüber hinaus sachlich richtig und erforderlichenfalls auf dem neuesten Stand zu sein; dies erfordert eine Kontrolle der Daten des Input und des Outputs der KI, mithin eine Qualitätskontrolle der Trainingsdaten und ihrer Quellen sowie der Ergebnisse der Verarbeitung durch die KI. Insbesondere das Erfinden und „Halluzinieren“ von Ergebnissen ist dementsprechend kritisch zu betrachten. Weiterhin erfordert Art. 25 DSGVO die bereits angesprochene Konzeption von KI-Systemen bei der Verarbeitung personenbezogener Daten nach den Grundsätzen von „Privacy by default“ und „Privacy by design“. Die Datenschutzaufsichten haben vielfach zu Grundsätzen des Datenschutzes beim KI-Einsatz Stellung genommen. Die baden-württembergische Aufsicht hat ein Papier zu Rechtsgrundlagen im Datenschutz beim Einsatz von Künstlicher Intelligenz veröffentlicht, die Hamburger Aufsicht eine Checkliste zum Einsatz LLM basierter Chatbots, zuletzt die bayrische Aufsicht eine Checkliste „Datenschutzkonforme Künstliche Intelligenz mit Prüfkriterien nach DS-GVO.“
3. Beispiel Microsoft CoPilot
Ein Beispiel für die umfassende Verknüpfung von Daten aus Nutzereingaben, Nutzerdatenbeständen und ChatGPT ist der neu in Office integrierte Microsoft „Copilot“. Copilot basiert auf ChatGPT, wird in jeder Office-Anwendung – einschließlich Teams – integriert sein und sowohl auf Datenquellen aus dem Internet über Bing, als auch auf alle in Microsoft Graph gespeicherte Unternehmensdaten zugreifen können. Copilot kann genutzt werden, um Videokonferenzen oder E-Mailposteingänge zu analysieren und zusammenzufassen. Da der Copilot nicht in rechtlichen Kategorien, sondern technischen Verfügbarkeiten „denkt“, ist eine umfassende Verknüpfung aller vorhandenen Daten auf Nutzeranfrage hin möglich („Wer hat zu diesem Thema eine Mail verfasst?“, „Wer sollte an einer Projektbesprechung teilnehmen“, aber auch „Wer hat die angeordnete Kundenmail noch nicht abgesendet?“). Hier stellen sich komplexe Aufgaben der Eingrenzung des Anwendungsbereichs, des Umgangs mit Privatnutzungen in Office, der Zulässigkeit automatisierter Entscheidungen nach Art. 22 DSGVO und auch der arbeitsrechtlichen Rahmenbedingungen¹⁸. Copilot wird damit vermutlich der verbreitetste Fall der Integration von ChatGPT und KI mit allgemeinem Verwendungszweck (sog. GPAI) in Unternehmensanwendungen darstellen. Ob allerdings – wie Microsoft es darstellt – die Nutzerangaben nicht an Microsoft oder ChatGPT zurückfließen (sog. „AI Safety Mechanism“²⁰), kann nicht wirklich kontrolliert werden. Fände ein solcher Rückfluss zu eigenen Trainingszwecken von Microsoft statt, würde dies allerdings das Modell einer Auftragsverarbeitung durch Microsoft nach Art. 28 DSGVO in Frage stellen. Microsoft Copilot stellt daher umfassende Anforderungen an die datenschutzrechtliche Einordnung und die vorab erforderliche Datenschutz-Folgenabschätzung nach Art. 35 DSGVO.
4. Datenschutzregelungen in der KI-Verordnung
Die KI-VO enthält neben Regulierungsvorgaben auch neue Erlaubnistatbestände für die Verarbeitung personenbezogener Daten. Nach Art. 10 Abs. 5 S. 1 KI-VO-E dürfen die Anbieter von Hockrisiko-KI-Systemen ausnahmsweise besondere Kategorien personenbezogener Daten gemäß Artikel 9 Absatz 1 der Verordnung (EU) 2016/679, Artikel 10 der Richtlinie (EU) 2016/680 und Artikel 10 Absatz 1 der Verordnung (EU) 2018/1725 verarbeiten, soweit dies für die Erkennung und Korrektur von Verzerrungen im Zusammenhang mit Hochrisiko-KI-Systemen unbedingt erforderlich ist.
Hierbei müssen sie jedoch nach Art. 10 Abs. 5 S. 2 KI-VO-E angemessene Vorkehrungen für den Schutz der Grundrechte und Grundfreiheiten natürlicher Personen treffen, welche kumulativ folgende Voraussetzungen erfüllen müssen:
- Die Erkennung und Korrektur von Verzerrungen kann nicht durch die Verarbeitung anderer Daten, einschließlich synthetischer oder anonymisierter Daten, wirksam durchgeführt werden;
- für die besonderen Kategorien personenbezogener Daten, die für diese Zwecke verarbeitet werden, gelten technische Beschränkungen für die Weiterverwendung der personenbezogenen Daten und dem Stand der Technik entsprechende Sicherheits- und Datenschutzmaßnahmen, einschließlich Pseudonymisierung;
- die besonderen Kategorien personenbezogener Daten, die für diese Zwecke verarbeitet werden, sind Gegenstand von Maßnahmen, die gewährleisten, dass die verarbeiteten personenbezogenen Daten gesichert und geschützt werden und geeigneten Garantien unterliegen, einschließlich strenger Kontrollen und der Dokumentation des Zugangs, um Missbrauch zu vermeiden und sicherzustellen, dass nur befugte Personen mit angemessenen Vertraulichkeitsverpflichtungen Zugang zu diesen personenbezogenen Daten haben;
- die besonderen Kategorien personenbezogener Daten, die für diese Zwecke verarbeitet werden, dürfen nicht an andere Parteien übermittelt, weitergegeben oder anderweitig zugänglich gemacht werden.
Diese Einschränkungen wurden in den Trilogverhandlungen zuletzt eingebracht und durch Erwägungsgrund 72a begleitet, welcher vorsieht, dass festgestellte erhebliche Risiken für die Sicherheit, die Gesundheit und die Grundrechte, die bei der Entwicklung und Erprobung im Sandkasten auftreten können, angemessen zu mindern sind.
Zu den Verpflichtungen der Betreiber von Hochrisiko-KI-Systemen nach Art. 29 Abs. 6 gehört es, dass die gemäß Artikel 13 KI-VO-E bereitgestellten Informationen zur Information über das KI-System auch verwendet werden, um gegebenenfalls ihrer Verpflichtung zur Durchführung einer Datenschutz-Folgenabschätzung gemäß Artikel 35 DSGVO nachzukommen.
Im Hinblick auf den umstrittenen Biometrie-Einsatz setzt Art. 29 Abs. 6a KI-VO-E voraus, dass unbeschadet der Richtlinie (EU) 2016/680 der Betreiber eines KI-Systems für die biometrische Identifizierung im Nachhinein im Rahmen von Ermittlungen zur gezielten Durchsuchung einer Person, die einer Straftat überführt oder verdächtigt wird, vor oder unverzüglich und spätestens innerhalb von 48 Stunden eine Genehmigung für die Verwendung des Systems bei einer Justizbehörde oder einer Verwaltungsbehörde beantragt, deren Entscheidung verbindlich ist und gerichtlich überprüft werden kann, es sei denn, das System wird für die erste Identifizierung eines potenziellen Verdächtigen auf der Grundlage objektiver und überprüfbarer Tatsachen, die unmittelbar mit der Straftat in Verbindung stehen, verwendet.
Art. 29a KI-VO-E sieht die Verpflichtung zu einer umfassenden grundrechtlichen Folgenabschätzung für hochriskante KI-Systeme vor, welche unter anderem eine klare Darstellung des beabsichtigten Verwendungszwecks und des geplanten geografischen und zeitlichen Anwendungsbereichs des Systems sowie spezifische Schadensrisiken, die sich auf marginalisierte Personen oder schutzbedürftige Gruppen auswirken könnten, umfassen muss. Erforderlich ist weiterhin ein ausführlicher Plan, wie das erkannte Schadensrisiko sowie die negativen Auswirkungen auf die Grundrechte gemindert werden sollen. Nach Anhang VIII Abschnitt B sind in der Folge zu den KI-Hochrisiko-Systemen unter anderem KI-Systemen eine Zusammenfassung der Ergebnisse der gemäß Artikel 29a KI-VO-E durchgeführten Folgenabschätzung für die Grundrechte und eine Zusammenfassung der durchgeführten Datenschutz-Folgenabschätzung bekannt zu machen und aktuell zu halten. Weitere Regelungen betreffen die in Art. 53 KI-VO-E vorgesehenen KI-Reallabore, welche KMU bei der Erfüllung regulatorischer Pflichten unterstützen sollen. Art. 53 Abs. 2 KI-VO-E sieht vor, dass die Mitgliedstaaten dafür sorgen, dass „KI-Sandboxen“ unter Beteiligung der zuständigen Aufsichten eingerichtet werden. Diese sollen für ein kontrolliertes Umfeld sorgen, das Innovation fördert und Entwicklung, Training, Prüfung und Validierung von innovativen KI Systemen für eine begrenzte Zeit vor ihrem Inverkehrbringen oder Inbetriebnahme gemäß einem spezifischen „Sandboxplan“, der zwischen den potenziellen Anbietern und der zuständigen Behörde vereinbart wurde, ermöglicht. Solche Sandboxes empfehlen sich generell auch für die datenschutzrechtlich gebotene Einrichtung von Anwendungsszenarien, um mögliche KI-Einsatz-Risiken für die Betroffenen zu erkennen und diesen rechtzeitig vorzubeugen.
Fazit
Insbesondere beim Einsatz komplexer KI-Systeme wie GPAI wird neben der Risikoeinstufung die Kontrolle der Datenschutzvorgaben zu erheblichen Herausforderungen führen. Dementsprechend sollte rechtzeitig vor dem Einsatz geplant werden, inwiefern auch innerhalb der verantwortlichen Stelle eine „Sandbox“ eingerichtet wird, in welcher die Einsatzparameter und Zugriffsoptionen auf personenbezogene Daten geprüft werden können, bevor ein Datenabfluss an die KI-Anbieter – auch im Testbetrieb – erfolgen kann.