Technische Umsetzung und Zukunftsperspektiven

Im ersten Teil dieser Serie habe ich die grundlegenden Konzepte und Anforderungen für datenschutzfreundliche KI-Systeme behandelt, darunter die Prinzipien ‚Privacy by Design‘ und Zweckbindung sowie die Bedeutung von Datensparsamkeit. Dabei wurde deutlich: Datenschutz ist keine lästige Pflicht, die nachträglich “aufgesetzt” werden kann, sondern muss von Anfang an integraler Bestandteil jeder KI-Entwicklung sein. In diesem zweiten Teil knüpfen wir daran an, indem wir auf technische Lösungen wie Differential Privacy und organisatorische Maßnahmen eingehen, die diese Prinzipien in die Praxis umsetzen.

Die dort aufgeführten Maßnahmen und Möglichkeiten sind mehrheitlich originäre Aufgaben von uns Datenschutzbeauftragten (DSB). Die in diesem Teil vorgestellten technischen Schutzmaßnahmen können im Normalfall nicht von DSB durchgeführt werden. Hier kommt Art. 39 DSGVO zum Tragen. Unterrichtung, Überwachung, Beratung des Verantwortlichen sind unsere Aufgaben. In der Praxis werden wir beispielsweise Dokumentationen oft selbst erstellen, oder zumindest so anlegen, dass die Verantwortlichen in der Lage sind, sie zu vervollständigen. 

Kein DSB muss vollständig verstehen, wie das im Punkt 2 „Technische Schutzmaßnahmen“ erklärte im Einzelnen funktioniert oder gar in der Lage sein, sie umzusetzen. Dieser Artikel soll DSB in die Lage versetzen, die richtigen Fragen zu stellen. Die Antworten geben die jeweiligen Experten und die Entscheidungen treffen die Verantwortlichen.

Die Rolle von KI bei der Erstellung dieses Artikels erkläre ich in der Transparenzerklärung am Schluss. 

Rückblick auf Teil 1: Die Grundlagen

Wir haben sechs zentrale Prinzipien für datenschutzfreundliche KI herausgearbeitet:

Privacy by Design

Datenschutz muss von der ersten Konzeptphase an mitgedacht werden. Das bedeutet konkret: 

Datensparsamkeit

Gerade bei KI-Systemen besteht oft der Wunsch nach möglichst vielen Trainingsdaten. Dem steht der Grundsatz der Datenminimierung entgegen. Erfolgreiche Projekte zeichnen sich dadurch aus, dass sie: 

Zweckbindung

KI-Systeme müssen sich strikt an die definierten Verarbeitungszwecke halten. Das erfordert: 

Technische und organisatorische Maßnahme

KI-Systeme benötigen besondere Schutzmaßnahmen für: 

Transparenz

Betroffene müssen verständlich über die KI-gestützte Verarbeitung ihrer Daten informiert werden: 

Betroffenenrechte

Die technische und organisatorische Umsetzung der Betroffenenrechte ist eine der größten Herausforderungen bei KI-Systemen: 

Ausblick auf Teil 2: Die technische Umsetzung

Während wir uns im ersten Teil auf die konzeptionellen Grundlagen konzentriert haben, werden wir nun konkret. Im diesem Teil zeigen ich:

Der Fokus liegt dabei auf der praktischen Umsetzbarkeit. Ihr werdet konkrete Implementierungsbeispiele sehen, Vorlagen für die Dokumentation und Checklisten für die wichtigsten Prozesse erstellen. Dabei berücksichtigen wir unterschiedliche Organisationsgrößen und Ressourcenausstattungen.

Die größten Herausforderungen

Bei der datenschutzkonformen Entwicklung von KI-Systemen gibt es drei besonders kritische Punkte, für die ich in diesem Teil konkrete Lösungsansätze vorstellen werde:

Datenqualität vs. Datensparsamkeit

Wie können wir mit möglichst wenig personenbezogenen Daten qualitativ hochwertige KI-Modelle trainieren? Diese Herausforderung adressiere ich durch moderne Technologien wie Differential Privacy (siehe Abschnitt 2.1), die das “Rauschen” nicht der Wälder, sondern in Daten gezielt nutzt, und synthetische Daten (Abschnitt 2.4), die echte personenbezogene Daten ersetzen können. Auch Federated Learning (Abschnitt 2.2) bietet hier spannende Möglichkeiten, indem es Modelle trainiert, ohne sensible Daten zentral zu sammeln.

Transparenz vs. Komplexität

Wie machen wir die Entscheidungen moderner KI-Systeme nachvollziehbar, ohne die technische Komplexität zu sehr zu vereinfachen? Diese Balance erreichen wir durch klare Governance-Strukturen (Abschnitt 3.1) und durchdachte Dokumentationsprozesse (Abschnitt 3.3). Besonders wichtig sind dabei zielgruppengerechte Schulungen (Abschnitt 3.2), die technische Konzepte verständlich vermitteln. Auf einen eher technischen Ansatz dazu gehe ich näher ein in meinem Artikel „Fünf häufige Missverständnisse über KI und Datenschutz – KI-Lernreise Woche 3, Beitrag 2“ und hier unter „Exkurs“ bei Punkt 3: https://www.linkedin.com/pulse/f%25C3%25BCnf-h%25C3%25A4ufige-missverst%25C3%25A4ndnisse-%25C3%25BCber-ki-und-datenschutz-dirk-wolf-gbcke/?trackingId=adX9j9Jdjoxoc1ziI0u%2BpA%3D%3D. Das hatte ich im ersten Teil schon einmal erwähnt. Aber vielleicht hat nicht jede(r) den gelesen.

Dokumentation vs. Agilität

Wie integrieren wir die notwendige Dokumentation in agile Entwicklungsprozesse, ohne diese auszubremsen? Hier setzen wir auf ein durchdachtes 

Die in diesem Teil vorgestellten Methoden und Werkzeuge greifen dabei ineinander: 

Dabei berücksichtigen wir durchgehend die unterschiedlichen Ressourcen und Möglichkeiten verschiedener Organisationen.

2. Technische Schutzmaßnahmen

Eine kurze Erklärung vorab: Hier beginnt der Punkt 2. Der Punkt 1. („Privacy by Design in der KI-Entwicklung“) ist komplett im ersten Teil dieser kleinen Serie verarbeitet.

Eine weitere Erklärung vorab: Wie im Thema KI in dieser frühen Entwicklungsphase eigentlich immer, stellt die Implementierung der im Folgenden vorgestellten Maßnahmen und Methoden sehr hohe Anforderungen an die technische Infrastruktur. Die teilnehmenden Systeme müssen über ausreichende Rechenkapazität verfügen, und die Kommunikation zwischen den Systemen muss sicher und zuverlässig sein. Zudem müssen die Datenformate standardisiert sein, um konsistente Ergebnisse zu gewährleisten. Das geht wahrscheinlich nur, in dem Dienstleister wie Amazon Web Services (AWS) und ähnliche die benötigte Infrastruktur dafür einsatzbereit zur Verfügung stellen. Zu unserer Rolle als DSB komme ich später noch einmal zurück.

Die technische Umsetzung datenschutzfreundlicher KI-Systeme erfordert einen umfassenden Ansatz, der verschiedene Schutzmechanismen kombiniert. In den letzten Jahren haben sich dabei einige besonders effektive Methoden herauskristallisiert, die ich im Folgenden näher betrachten werde.

2.1 Differential Privacy: Datenschutz durch mathematische Garantien

Wie bereits im ersten Teil beschrieben, ist Datensparsamkeit ein zentrales Prinzip datenschutzfreundlicher KI. Differential Privacy ermöglicht es, dieses Prinzip in Szenarien umzusetzen, bei denen große Datenmengen für KI-Modelle benötigt werden. Differential Privacy ist also einer der wichtigsten Ansätze für den Schutz personenbezogener Daten in KI-Systemen überhaupt. Das Grundprinzip ist bestechend einfach: Durch das gezielte Hinzufügen von “Rauschen” zu den Daten oder Analyseergebnissen wird sichergestellt, dass einzelne Datensätze nicht aus den Ergebnissen rekonstruiert werden können. Gleichzeitig bleiben statistische Aussagen über größere Gruppen möglich und aussagekräftig.

Die praktische Umsetzung von Differential Privacy kann auf verschiedenen Ebenen erfolgen. Beim Training des KI-Modells wird beispielsweise Rauschen zu den Trainingsdaten hinzugefügt oder spezielle Privacy-Optimierer verwendet. Diese Maßnahmen stellen sicher, dass das trainierte Modell keine zu spezifischen Informationen über einzelne Trainingsdatensätze “lernt”.

Besonders interessant ist der Ansatz der lokalen Differential Privacy, bei dem das Rauschen bereits bei der Datenerfassung hinzugefügt wird. Dies bietet den Vorteil, dass die Originaldaten gar nicht erst in ihrer ursprünglichen Form gespeichert werden müssen. Für viele Anwendungen, etwa in der Analyse von Nutzerverhalten oder in medizinischen Studien, ist dies ein überzeugender Ansatz.

Die Stärke des hinzugefügten Rauschens wird über einen Parameter kontrolliert, der einen mathematisch fundierten Trade-off zwischen Privatsphäre und Nützlichkeit der Daten ermöglicht. Je kleiner dieser Parameter, desto stärker der Schutz der Privatsphäre, aber auch desto größer die Ungenauigkeit der Ergebnisse. Die Wahl des richtigen Parameters ist eine wichtige Entscheidung bereits beim Design des Modells, die sorgfältig abgewogen werden muss. Die letzten Absätze fordern eine Erklärung: Für uns DSB ist nur wichtig zu wissen, dass es das gibt. Umsetzen können wir so etwas in aller Regel nicht. Ich kann es jedenfalls definitiv nicht. 

2.2 Federated Learning: Dezentrales Training von KI-Modellen

Im ersten Teil habe ich die Herausforderung skizziert, KI-Modelle zu trainieren, ohne dabei personenbezogene Daten zentral zu speichern. Federated Learning bietet eine innovative Lösung, um die im ersten Teil diskutierte Balance zwischen Zweckbindung und Sicherheit zu wahren. Federated Learning hat Training von KI-Modellen massiv verändert hat. Statt alle Trainingsdaten zentral zu sammeln, werden die Modelle dort trainiert, wo die Daten entstehen. Nur die Modellanpassungen, nicht aber die ursprünglichen Daten, werden zentral zusammengeführt.

Dieser Ansatz ist besonders wertvoll in Szenarien, wo Daten aus verschiedenen Quellen genutzt werden sollen, aber nicht zentral zusammengeführt werden dürfen oder können. Ein klassisches Beispiel sind Gesundheitsdaten verschiedener Krankenhäuser: Jedes Krankenhaus kann sein lokales Modell mit den eigenen Patientendaten trainieren, und nur die gelernten Muster, nicht aber die sensiblen Patientendaten selbst, werden geteilt.

Zu Letzterem gehört auch die Zurverfügungstellung robuster Sicherheitsmaßnahmen. Die Kommunikation zwischen den Teilnehmenden muss verschlüsselt erfolgen, die Teilnehmer müssen sich gegenseitig authentifizieren können, und die Integrität des Modells muss gewährleistet sein. Nur so kann verhindert werden, dass das System durch manipulierte Updates kompromittiert wird. 

An all diesen Maßnahmen kann gut abgelesen werden, wie anspruchsvoll das Aufsetzen eines solchen System ist. Wir DSB können immer nur den Finger in die Wunde legen und entsprechende Maßnahmen einfordern. 

2.3 Homomorphe Verschlüsselung: Verarbeitung verschlüsselter Daten

Die homomorphe Verschlüsselung stellt einen besonders eleganten Ansatz dar, um Berechnungen auf sensiblen Daten durchzuführen. Sie ermöglicht es, Operationen auf verschlüsselten Daten auszuführen, ohne diese jemals entschlüsseln zu müssen. Das Ergebnis der Berechnung kann dann vom Empfänger entschlüsselt werden und entspricht dem Resultat, das man bei der Berechnung mit unverschlüsselten Daten erhalten hätte.

Das funktioniert, weil homomorphe Verschlüsselung mathematische Eigenschaften nutzt, die Berechnungen direkt auf der verschlüsselten Form erlauben. Ein verschlüsselter Wert (z. B. „xyz123“) bleibt während der Berechnung geschützt. Selbst wenn zum Beispiel „5“ addiert wird, geschieht dies verschlüsselt. Das Ergebnis (z. B. „abc456“) bleibt ebenfalls verschlüsselt und kann nur vom Besitzer des Schlüssels entschlüsselt werden – mit dem korrekten Ergebnis „15“.

Man kann sich das wie ein Schloss mit einer Kugel im Inneren vorstellen. Das Schloss bleibt verschlossen, aber von außen können Sie die Kugel verdoppeln oder eine Zahl hinzufügen. Erst wenn das Schloss geöffnet wird (Entschlüsselung), zeigt sich das korrekte Ergebnis. Die Daten bleiben also während der gesamten Verarbeitung geschützt.

Um ehrlich zu sein, muss ich gestehen, dass ich die homomorphe Verschlüsselung selbst immer noch nicht wirklich verstanden habe. Aber das muss ich auch nicht. Und Du musst das als DSB auch nicht. Wesentlich ist, dass Du die Frage stellen kannst, ob es in Deinem Projekt erforderlich und umsetzbar ist, homomorphe Verschlüsselung einzusetzen. Umsetzen muss das, wenn beide Fragen positiv beantwortet wurden, jemand, der/die eine Professur für Informatik in Princeton, Cambridge oder Darmstadt hat 😉

Wie auch immer, dieser Ansatz ist besonders wertvoll für KI-Systeme, die in Cloud-Umgebungen betrieben werden oder die besonders sensible Daten verarbeiten. Die Daten bleiben während des gesamten Verarbeitungsprozesses verschlüsselt, was das Risiko von Datenlecks drastisch reduziert.

Allerdings bringt homomorphe Verschlüsselung auch erhebliche praktische Herausforderungen mit sich. Der Rechenaufwand ist deutlich höher als bei unverschlüsselten Daten, und auch der Speicherbedarf steigt erheblich. Dies führt zu längeren Verarbeitungszeiten und höheren Kosten. Die Entscheidung für homomorphe Verschlüsselung muss daher sorgfältig gegen diese praktischen Einschränkungen abgewogen werden.

2.4 Synthetische Daten: Eine vielversprechende Alternative

Im ersten Teil bin ich darauf eingegangen, dass der Schutz personenbezogener Daten nicht nur durch Minimierung, sondern auch durch Alternativen zur direkten Verarbeitung realer Daten erreicht werden kann. Synthetische Daten setzen dieses Konzept um, indem sie realistische, aber künstliche Datensätze generieren, die keine direkten Rückschlüsse auf reale Personen zulassen. Damit wird das Prinzip der Datensparsamkeit konsequent erweitert.

Die Verwendung synthetischer Daten gewinnt im Kontext datenschutzfreundlicher KI zunehmend an Bedeutung. Der Grundgedanke ist bestechend: Statt mit realen personenbezogenen Daten zu arbeiten, werden künstliche Datensätze erzeugt, die die statistischen Eigenschaften der Originaldaten abbilden, aber keine Rückschlüsse auf einzelne Personen zulassen.

Die Methoden zur Generierung synthetischer Daten haben sich in den letzten Jahren erheblich weiterentwickelt. Während früher hauptsächlich regelbasierte Ansätze zum Einsatz kamen, bei denen Daten nach vordefinierten statistischen Verteilungen und Beziehungen erzeugt wurden, setzen moderne Systeme verstärkt auf KI-basierte Generierungsmethoden. Besonders Generative Adversarial Networks (GANs) haben sich als leistungsfähige Werkzeuge erwiesen. Sie lernen die komplexen Muster und Zusammenhänge in den realen Daten und können ähnliche, aber künstliche Datensätze erzeugen.

Die Qualitätssicherung spielt bei synthetischen Daten eine zentrale Rolle. Die generierten Daten müssen einerseits die relevanten statistischen Eigenschaften der Originaldaten bewahren, dürfen andererseits aber keine Rückschlüsse auf einzelne reale Datensätze zulassen. Diese Balance zu finden, erfordert sorgfältige Validierung. Dabei müssen sowohl statistische Tests durchgeführt als auch potenzielle Reidentifizierungsrisiken bewertet werden.

Ein oft unterschätzter Vorteil synthetischer Daten liegt in der Möglichkeit, gezielt bestimmte Szenarien zu generieren. So können beispielsweise Datensätze erzeugt werden, die seltene, aber wichtige Fälle abdecken oder die bestimmte Verzerrungen in den Originaldaten ausgleichen. Dies macht synthetische Daten nicht nur zu einem Werkzeug für den Datenschutz, sondern auch zu einem wertvollen Instrument für die Qualitätsverbesserung von KI-Systemen.

2.5 Secure Multi-Party Computation: Gemeinsam rechnen, ohne Daten zu teilen

Secure Multi-Party Computation (SMPC) ist eine faszinierende Technologie, die es mehreren Parteien ermöglicht, gemeinsam Berechnungen durchzuführen, ohne ihre individuellen Eingabedaten offenlegen zu müssen. Dies klingt zunächst wie ein Widerspruch in sich, ist aber mathematisch durchaus möglich und in der Praxis zunehmend relevant.

Ein klassisches Beispiel macht das Prinzip deutlich: Mehrere Krankenhäuser möchten gemeinsam ein KI-Modell zur Diagnoseunterstützung trainieren, ohne ihre sensiblen Patientendaten austauschen zu müssen. Mit SMPC können sie die notwendigen Berechnungen durchführen, ohne dass ein einzelnes Krankenhaus Einblick in die Daten der anderen erhält. Nur das Endergebnis – in diesem Fall das trainierte Modell – wird allen Beteiligten zugänglich gemacht.

Die praktische Umsetzung von SMPC erfordert eine sorgfältige Planung und robuste technische Infrastruktur. Die beteiligten Parteien müssen sich auf Protokolle für die sichere Berechnung einigen, eine zuverlässige Infrastruktur für den Datenaustausch aufbauen und ihre Prozesse koordinieren. Besonders wichtig sind dabei klare Vereinbarungen zwischen den Parteien, die Festlegung von Verantwortlichkeiten und eine lückenlose Dokumentation.

SMPC bietet sich besonders für Szenarien an, in denen verschiedene Organisationen von der gemeinsamen Nutzung ihrer Daten profitieren würden, dies aber aus rechtlichen oder wirtschaftlichen Gründen nicht direkt möglich ist. Neben dem gemeinsamen Modelltraining sind auch Anwendungen wie Benchmarking oder gemeinsame Compliance-Prüfungen denkbar.

2.6 Privacy-Preserving Record Linkage: Sichere Datenverknüpfung

Die Verknüpfung von Datensätzen aus verschiedenen Quellen ist eine häufige Anforderung in der Praxis, stellt aber aus Datenschutzsicht eine besondere Herausforderung dar. Privacy-Preserving Record Linkage (PPRL) bietet hier einen eleganten Lösungsansatz: Die Verknüpfung erfolgt, ohne dass sensible Identifikatoren offengelegt werden müssen.

Die technische Umsetzung basiert auf verschiedenen kryptographischen Verfahren. Besonders bewährt haben sich dabei Bloom-Filter, die eine effiziente und fehlertolerante Verknüpfung ermöglichen. Auch phonetische Kodierung und spezielle Hash-Funktionen kommen zum Einsatz. Diese Verfahren erlauben es, Ähnlichkeiten zwischen Datensätzen zu erkennen, ohne die ursprünglichen Identifikatoren preiszugeben.

Ein kritischer Aspekt bei PPRL ist die Balance zwischen Genauigkeit und Datenschutz. Je mehr Information für die Verknüpfung verwendet wird, desto genauer wird das Matching – aber desto größer wird auch das Risiko einer Reidentifizierung. Moderne PPRL-Systeme verwenden daher ausgefeilte Metriken, um sowohl die Qualität der Verknüpfung als auch das erreichte Datenschutzniveau zu bewerten.

Die Implementierung von PPRL erfordert eine sorgfältige Planung und kontinuierliche Überwachung. Die verwendeten Verfahren müssen regelmäßig auf ihre Sicherheit überprüft werden, und die Qualität der Verknüpfungen muss kontinuierlich evaluiert werden. Dabei helfen verschiedene Metriken wie False-Positive- und False-Negative-Raten, aber auch spezielle Privacy-Metriken wie k-Anonymität oder l-Diversität.

Die hier vorgestellten technischen Schutzmaßnahmen bilden das Fundament für datenschutzfreundliche KI-Systeme. Sie ermöglichen es, die Vorteile von KI zu nutzen und gleichzeitig die Privatsphäre der Betroffenen zu schützen. Allerdings können technische Maßnahmen allein keinen umfassenden Datenschutz gewährleisten – sie müssen durch entsprechende organisatorische Maßnahmen ergänzt werden. Diese werden wir im nächsten Abschnitt näher betrachten.

3. Organisatorische Maßnahmen

Schon im ersten Teil bin ich darauf eigegangen, dass organisatorische Maßnahmen wie klare Verantwortlichkeiten und transparente Prozesse die Grundlage für datenschutzfreundliche KI bilden. In diesem Abschnitt zeigen wir, wie diese Prinzipien durch konkrete Governance-Modelle und Dokumentationsprozesse in die Praxis umgesetzt werden können.

Die besten technischen Schutzmaßnahmen können nur dann ihre volle Wirkung entfalten, wenn sie von durchdachten organisatorischen Maßnahmen begleitet werden. Diese organisatorischen Maßnahmen müssen dabei sowohl die spezifischen Anforderungen von KI-Systemen als auch die grundlegenden Datenschutzprinzipien berücksichtigen.

Ein Beispiel: Differential Privacy schützt Daten, indem es durch „Rauschen“ Datensätzen relativiert, sodass keine Rückschlüsse auf Einzelpersonen möglich sind. Ohne klare Verantwortlichkeiten für die Auswahl und Anwendung dieser Technik sowie regelmäßige Überprüfungen durch ein qualifiziertes Team besteht jedoch das Risiko, dass die Technologie falsch oder ineffizient eingesetzt wird.

Organisatorische Strukturen schaffen zudem den Rahmen, in dem technische Maßnahmen nachhaltig wirken können. Dazu gehören:

Kurz gesagt: Technik und Organisation sind keine Gegensätze, sondern zwei Seiten derselben Medaille. Nur gemeinsam ermöglichen sie, Datenschutz nicht als kurzfristige Maßnahme, sondern als langfristigen Standard in KI-Systemen zu etablieren.

3.1 Governance-Strukturen für KI-Systeme

Die Entwicklung und der Betrieb von KI-Systemen erfordern klare Verantwortlichkeiten und Entscheidungsstrukturen. Eine effektive KI-Governance muss dabei verschiedene Perspektiven berücksichtigen: technische Expertise, Datenschutz-Knowhow und fachliche Anforderungen. In der Praxis hat sich die Einrichtung eines KI-Governance-Boards bewährt, in dem diese verschiedenen Perspektiven zusammenkommen.

Die Hauptaufgaben eines solchen Boards umfassen:

Besonders wichtig ist die frühzeitige Einbindung des Datenschutzbeauftragten. Er sollte nicht erst konsultiert werden, wenn das System bereits entwickelt ist, sondern von Anfang an in die Planung einbezogen werden. Dies ermöglicht es, Datenschutzanforderungen von Beginn an zu berücksichtigen und teure Nachbesserungen zu vermeiden.

Implementierungsbeispiel 1: KI-Governance-Board

Die Implementierungsbeispiele sind als Muster zu verstehen. Das sich in meinem ersten Beispiel das Board monatlich trifft, ist willkürlich. Das, und alle anderen Parameter müssen in Eurem konkreten Fall natürlich an Eure Begebenheiten angepasst werden. 

Ein konkretes Beispiel für die praktische Umsetzung eines KI-Governance-Boards in einer mittelgroßen Organisation könnte also folgendermaßen aussehen:

Zusammensetzung:

Das Board trifft sich monatlich für etwa zwei Stunden. Dabei werden laufende KI-Projekte besprochen und neue Vorhaben geprüft. Vierteljährlich erfolgt eine umfassende Review aller KI-Projekte, jährlich werden die grundlegenden Richtlinien überprüft und bei Bedarf aktualisiert.

Die Entscheidungsfindung orientiert sich an der Risikostufe des jeweiligen Projekts. Bei niedrigem Risiko reicht die gemeinsame Freigabe durch IT und DSB. Projekte mit mittlerem Risiko erfordern zusätzlich die Zustimmung des betroffenen Fachbereichs. Bei hohem Risiko muss das vollständige Board entscheiden. Diese gestufte Vorgehensweise ermöglicht sowohl schnelle Entscheidungen im Tagesgeschäft als auch gründliche Prüfung bei kritischen Vorhaben.

Dazu passend hier noch eine mögliche Checkliste zur Vorbereitung eines KI-Projekts:

3.2 Schulung und Sensibilisierung

Ein oft unterschätzter Aspekt ist die kontinuierliche Schulung und Sensibilisierung aller Beteiligten. Dies betrifft nicht nur die technischen Teams, sondern alle Personen, die mit dem KI-System in Berührung kommen. Die Schulungen müssen dabei auf die jeweilige Zielgruppe zugeschnitten sein.

Für Entwicklungsteams sind tiefergehende technische Schulungen erforderlich, die neben den datenschutzrechtlichen Grundlagen auch die praktische Umsetzung von Privacy-by-Design-Prinzipien vermitteln. Hier geht es um konkrete Fragen wie: Wie implementiere ich Differential Privacy? Wie stelle ich sicher, dass das Modell keine sensiblen Informationen “leckt”? Wie dokumentiere ich datenschutzrelevante Entscheidungen?

Für Fachabteilungen stehen dagegen andere Aspekte im Vordergrund. Sie müssen verstehen, wie sie das KI-System datenschutzkonform einsetzen können und welche Grenzen zu beachten sind. Besonders wichtig ist das Verständnis dafür, welche Daten für welche Zwecke verwendet werden dürfen und wie mit den Ergebnissen des KI-Systems umzugehen ist.

3.3 Dokumentation und Nachvollziehbarkeit

Die Dokumentation von KI-Systemen stellt besondere Anforderungen. Neben den üblichen Aspekten wie technischer Architektur und Datenflüssen müssen auch die spezifischen KI-Eigenschaften dokumentiert werden. Dies umfasst insbesondere:

Die Dokumentation der Trainingsphase ist besonders kritisch. Hier muss nachvollziehbar sein:

Die Entwicklung eines KI-Systems ist oft ein iterativer Prozess. Umso wichtiger ist es, alle Entscheidungen und Änderungen nachvollziehbar zu dokumentieren. Dies dient nicht nur der Erfüllung rechtlicher Anforderungen, sondern ist auch für die Wartung und Weiterentwicklung des Systems unerlässlich.

3.4 Qualitätssicherung und Monitoring

Qualitätssicherung und Monitoring sind zentrale Bausteine, um den Betrieb von KI-Systemen langfristig sicher und zuverlässig zu gestalten. Die Leistungsfähigkeit solcher Systeme hängt nicht nur von der initialen Entwicklung ab, sondern von ihrer kontinuierlichen Überwachung und Nachbesserung. Diese Aufgabe ist anspruchsvoll, denn KI-Systeme sind dynamisch: Die Daten ändern sich, die Anforderungen entwickeln sich weiter, und auch externe Faktoren können die Funktion beeinflussen.

Ein effektives Monitoring beginnt mit der Festlegung klarer Qualitätsziele. Wie genau soll das System arbeiten? Welche Fehlerquote ist akzeptabel? Und wie stellen wir sicher, dass das Modell fair und frei von Verzerrungen bleibt? Diese Ziele müssen nicht nur zu Beginn definiert, sondern regelmäßig überprüft werden. Besonders wichtig ist es, die Datenqualität im Blick zu behalten. Ohne gute Daten, keine guten Ergebnisse – das gilt für KI mehr als für jede andere Technologie.

Die technische Überwachung von KI-Systemen erfordert automatisierte Prozesse, die Anomalien und Abweichungen erkennen können. Dies umfasst die Überwachung der Daten, die ins System fließen, die Analyse der Modellleistung sowie die Kontrolle der Ergebnisse. Klar definierte Schwellenwerte sind essenziell: Wann spricht man von einer Abweichung, und welche Muster gelten als „ungewöhnlich“? Solche Schwellenwerte helfen, automatisierte Alarme auszulösen, wenn etwas nicht wie erwartet läuft. Gleichzeitig darf man sich nicht allein auf die Automatisierung verlassen – regelmäßige manuelle Überprüfungen durch erfahrene Teams bleiben unverzichtbar.

Ein weiteres wichtiges Element der Qualitätssicherung sind Feedback-Mechanismen. Nutzer*innen oder Betroffene sollten jederzeit die Möglichkeit haben, Probleme zu melden, ohne negative Konsequenzen fürchten zu müssen. Dieses Feedback ergänzt das Monitoring und deckt oft Probleme auf, die rein automatisierte Prozesse nicht erkennen können.

Für den Umgang mit Vorfällen ist eine klare Kategorisierung entscheidend. Nicht jeder Fehler ist gleich kritisch. Es gilt, zwischen fehlerhaftem Modellverhalten ohne Datenschutzrelevanz, potenziellen oder bestätigten Datenschutzverletzungen, Systemkompromittierungen und gezielten Manipulationsversuchen zu unterscheiden. Jede dieser Kategorien erfordert spezifische Reaktionen. Deshalb sind Eskalationsprozesse erforderlich, die Zuständigkeiten und Kommunikationswege definieren. Wer informiert wen, wenn es zu einer Datenschutzverletzung kommt? Wie reagieren wir, wenn das System manipuliert wurde? Diese Prozesse müssen klar beschrieben und allen Beteiligten bekannt sein.

Besonders kritisch wird es im Notfall. Hier braucht es schnelle und eindeutige Maßnahmen. Es muss möglich sein, ein KI-System bei schwerwiegenden Problemen sofort zu deaktivieren – „den Stecker zu ziehen“. Doch das allein reicht nicht: Es muss auch Vorsorge getroffen werden, um schnell auf eine vorherige, funktionierende Version zurückgreifen zu können. Diese Rückkehrprozesse sollten so gestaltet sein, dass sie nicht nur die Funktionalität, sondern auch die Datensicherheit gewährleisten.

Hilfreich ist es, Systemkomponenten vorab so zu gestalten, dass sie isoliert werden können. Wenn ein bestimmter Teil des Systems ausfällt, sollten andere Bereiche weiterhin funktionsfähig bleiben. Ein durchdachtes Backup-Konzept ist daher unerlässlich. Es sorgt dafür, dass kritische Funktionen jederzeit wiederhergestellt werden können.

Zusammengefasst: Qualitätssicherung und Monitoring in der KI erfordern klare Ziele, automatisierte Überwachungsprozesse, flexible Rückkopplungsschleifen und ein durchdachtes Incident Management. Es geht nicht nur darum, Probleme zu erkennen, sondern auch darum, schnell, effektiv und sicher zu reagieren. Dies ist keine einmalige Aufgabe, sondern ein kontinuierlicher Prozess, der fest in den Betrieb integriert werden muss.

Implementierungsbeispiel 2: Monitoring-Dashboard

Ein effektives Monitoring-Dashboard für KI-Systeme sollte sowohl technische als auch datenschutzrelevante Aspekte abdecken. Auf der technischen Seite werden die Modellgenauigkeit täglich, die Verarbeitungszeit stündlich und die Fehlerrate in Echtzeit überwacht. Parallel dazu erfolgt die Kontrolle datenschutzrelevanter Metriken wie die Anzahl verarbeiteter personenbezogener Datensätze, die Einhaltung von Löschfristen und der Status von Auskunftsanfragen.

Besonders wichtig ist ein abgestuftes Alarmsystem. Bereits bei Abweichungen von mehr als 5% von der definierten Baseline erfolgt eine erste Warnung (gelb). Ab 10% Abweichung wird eine rote Warnung ausgelöst, die unmittelbare Aufmerksamkeit erfordert. Bei mehr als 20% Abweichung erfolgt ein Sofort-Alarm, der unverzügliches Handeln notwendig macht. Diese Abstufung verhindert sowohl Über- als auch Unterreaktionen auf Auffälligkeiten.

Und hier kommt noch eine mögliche Checkliste für die Qualitätskontrolle:

3.5 Incident Management und Notfallpläne

Die Komplexität von KI-Systemen erfordert die Vorbereitung auf unerwartete Ereignisse. Neudeutsch: Incident Management. Dabei müssen neben den üblichen IT-Sicherheitsvorfällen auch KI-spezifische Szenarien berücksichtigt werden. Ein effektives Incident Management beginnt damit Vorfälle zuverlässig zu erkennen. Das Verhalten des KI-Modells und die Ausgaben des Systems müssen automatisiert überwacht werden und zusätzlich, bestenfalls regelmäßig, manuell überprüft werden. Dazu erforderlich sind klar definierte Schwellenwerte für ungewöhnliche Muster oder Abweichungen. Ergänzt wird dies durch Feedback-Mechanismen, die es Nutzern und Betroffenen ermöglichen, potenzielle Probleme zu melden.

Die Kategorisierung von Vorfällen ist eine Voraussetzung für funktionierende Prozesse, um bei unerwarteten Ereignissen angemessen reagieren zu können. Dabei unterscheiden wir zwischen fehlerhaftem Modellverhalten ohne Datenschutzrelevanz, potenziellen und bestätigten Datenschutzverletzungen, Systemkompromittierungen und Manipulationsversuchen. Für jede dieser Kategorien müssen klare Eskalationsprozesse definiert sein, die die Zuständigkeiten und Kommunikationswege festlegen.

Besondere Bedeutung kommt den Notfallmaßnahmen zu. Das System muss im Ernstfall sofort deaktiviert werden können. Es muss möglich sein, sofort „den Stecker zu ziehen“ (symbolisch). Gleichzeitig muss Vorsorge getroffen werden, um in einem definierten Prozess zu funktionierenden vorherigen Versionen zurückkehren zu können. Hilfreich ist zudem, vorab dafür zu sorgen, dass betroffene Systemkomponenten isoliert werden können. Ein durchdachtes Backup-Konzept für kritische Funktionen rundet die Notfallvorsorge ab.

Implementierungsbeispiel 3: Incident Response Plan

Ein praxistauglicher Incident Response Plan unterscheidet drei Eskalationsstufen. 

Der Eskalationsprozess folgt dabei einem klaren Ablauf:

Der so strukturierte Prozess stellt sicher, dass auch in Krisensituationen nichts übersehen wird und alle notwendigen Schritte erfolgen.

3.6 Change Management und Weiterentwicklung

Im ersten Teil habe ich geschrieben, dass datenschutzfreundliche KI-Systeme nicht nur technische, sondern auch organisatorische Herausforderungen sind. Change Management spielt eine Schlüsselrolle, um diese Anforderungen dauerhaft in Unternehmen zu verankern.

KI-Systeme sind keine starren Gebilde – sie entwickeln sich ständig weiter. Die Systeme lernen aus neuen Daten, Entwickler passen die Modelle an oder fügen neue Funktionen hinzu. Diese kontinuierliche Veränderung muss gesteuert werden. Neudeutsch: Change Management. Dabei gilt: Keine Änderung ohne vorherige sorgfältige Analyse der Datenschutzauswirkungen. Teil dieser Analyse ist auch die Prüfung, ob die geplanten Änderungen so weitreichend sind, dass eine neue Datenschutz-Folgenabschätzung erforderlich wird. Ebenso wichtig ist es zu verstehen, wie sich die Änderungen auf bestehende Prozesse auswirken und ob die Dokumentation angepasst werden muss.

Die Prüfung von Änderungen muss bei KI-Systemen besonders gründlich erfolgen. Neben der reinen Funktionsfähigkeit des veränderten Modells müssen wir auch testen, ob alle Dokumentationen noch stimmen und ob die Betroffenen ihre Rechte weiterhin problemlos ausüben können. Beispielsweise muss nach einer Änderung das Recht auf Auskunft genauso funktionieren wie vorher – vielleicht sogar noch besser.

Erst wenn alle Tests erfolgreich waren, kann die Änderung freigegeben werden. An dieser Freigabe müssen alle beteiligten Bereiche mitwirken – von der Entwicklung über den Datenschutz bis hin zu den Fachabteilungen. Jede Freigabe muss dokumentiert werden. Und für den Fall, dass trotz aller Tests Probleme auftauchen: Es muss immer einen Plan geben, wie man die Änderungen rückgängig machen kann.

Besonders wichtig ist die Kommunikation von Änderungen. Alle betroffenen Bereiche müssen rechtzeitig informiert werden. Die Dokumentation muss aktualisiert und wenn nötig die Schulungsmaterialien angepasst werden. Und nicht zuletzt: Wenn die Änderungen Auswirkungen auf die Verarbeitung personenbezogener Daten haben, müssen auch die betroffenen Personen informiert werden – verständlich und transparent.

Eine mögliche Checkliste zum Thema Change Management:

4. Ausblick und Zukunftsperspektiven

Die Entwicklung datenschutzfreundlicher KI-Systeme ist in ständiger Bewegung. Fast täglich gibt es neue technische Möglichkeiten. Besonders spannend ist die Entwicklung bei den Technologien, die Daten während der Verarbeitung schützen. Die Verfahren werden immer schneller und praktikabler. Parallel dazu entstehen erste Standards, die beschreiben, wie man KI-Systeme datenschutzfreundlich entwickelt. Das wird die Arbeit für alle Beteiligten einfacher machen. Neue Werkzeuge helfen dabei, die Datenschutzeigenschaften von KI-Systemen automatisch zu überprüfen. Auch die grundlegende Architektur von KI-Systemen entwickelt sich weiter – der Datenschutz wird dabei von Anfang an mitgedacht.

Auch auf der rechtlichen Seite tut sich viel. Die Europäische Union arbeitet an einer speziellen Verordnung für KI-Systeme. Diese wird konkrete Vorgaben machen, was erlaubt ist und was nicht. Parallel dazu entwickeln die internationalen Normungsgremien wie ISO technische Standards. Verschiedene Branchen – vom Gesundheitswesen bis zur Finanzwirtschaft – erarbeiten eigene Regeln für den Einsatz von KI. Die Datenschutzaufsichtsbehörden beschäftigen sich intensiv mit KI und bauen ihr Fachwissen aus. In Zukunft werden sie noch genauer hinschauen können, ob alles richtig gemacht wird.

Diese Entwicklungen werden die praktische Arbeit mit KI-Systemen deutlich verändern. Standards und bewährte Vorgehensweisen werden die Entwicklung datenschutzfreundlicher KI-Systeme vereinfachen. Neue Werkzeuge werden die Umsetzung von Datenschutzmaßnahmen erleichtern. Gleichzeitig steigen die Anforderungen – sowohl durch neue Gesetze als auch durch die Erwartungen der Nutzer. Ein besonders spannender Trend: Datenschutzfreundliche KI wird zu einem eigenen Geschäftsfeld. Unternehmen werden sich darauf spezialisieren, KI-Systeme anzubieten, die von Grund auf datenschutzfreundlich sind.

 

5. Transparenzerklärung zur Erstellung dieses Artikels

Bei der Erstellung dieses Artikels habe ich selbst KI-Systeme genutzt – sozusagen als praktischen Test. Das kennt Ihr ja schon, ich mache das bei allen Artikeln. Im Anhang habe ich die erste von KI erstellte Version gezeigt. Der Prozess von dieser Version zu dem, was Ihr gerade geduldig gelesen habt, hat ca. sechs Stunden gedauert. Das ist zum einen der Tatsache geschuldet, dass ich nichts unrecherchiert übernehme und zum anderen, dass ich eben auf einer „Lernreise“ bin, ich also nach dem Prinzip „Lernen durch Lehren“ selbst am meisten lerne. Indem Ihr diesen Text lest, nehmt Ihr hoffentlich auch etwas mit. Derjenige, der daraus am meisten gelernt hat, bin ich (vermutlich).

Konkret habe ich mit ChatGPT 4.0 und Claude 3.5 Sonnet gearbeitet. Die grundlegenden Inhalte stammen aus meiner langjährigen Erfahrung als Datenschutzbeauftragter und meiner aktuellen Weiterbildung im KI-Bereich. Die KI-Systeme haben mir dabei geholfen, die Inhalte gut zu strukturieren, Formulierungen zu verbessern und keine wichtigen Aspekte zu vergessen. Generative KI kann unglaublich gut sein, aber nur, wenn man (frau auch) in der Lage ist, sie zu fordern. Widerworte leisten, Fehler nachweisen. So erreiche ich die besten Ergebnisse

Ich finde es wichtig zu betonen: Die finale Überarbeitung, die inhaltliche Prüfung und die Verantwortung für den Text liegen bei mir als Autor. Die KI-Systeme waren Werkzeuge – nicht mehr und nicht weniger. Genau wie ein Textverarbeitungsprogramm oder ein Rechtschreibprüfer haben sie mir geholfen, einen besseren Text zu schreiben. Die Entscheidung, was im Text steht und wie es formuliert wird, habe ich getroffen (dieser Absatz ist vollständig von der KI geschrieben 😉)

6. Diskussion und Ausblick

Der Diskurs über datenschutzfreundliche KI-Systeme ist wichtig und sollte intensiv geführt werden. Besonders interessant sind dabei Erfahrungen aus der Praxis: Welche der vorgestellten technischen Maßnahmen erweisen sich als besonders tauglich? Wie gelingt die Balance zwischen Innovation und Datenschutz im Alltag? Welche Herausforderungen stellen sich bei der Umsetzung der organisatorischen Maßnahmen? Und nicht zuletzt: Wie gestaltet sich die Dokumentation von KI-Systemen in der Praxis?

Während der erste Teil dieser Serie die theoretischen Grundlagen und Prinzipien datenschutzfreundlicher KI dargelegt hat, liefert dieser zweite Teil praktische Ansätze und Tools, um diese Prinzipien in die Realität umzusetzen. Gemeinsam bieten beide Teile einen umfassenden Leitfaden für Unternehmen und Organisationen, die KI verantwortungsbewusst einsetzen möchten.

Glossar: Zentrale Begriffe für datenschutzfreundliche KI

Technische Schutzmaßnahmen

Organisatorische Maßnahmen

Datenschutzrechtliche Grundbegriffe

Privacy by Design: Grundprinzip, Datenschutz von Anfang an in die Entwicklung einzubauen, nicht erst nachträglich.

DSFA (Datenschutz-Folgenabschätzung): Vorgeschriebene Risikoanalyse bei der Verarbeitung personenbezogener Daten mit hohem Risiko.

TOM (Technische und Organisatorische Maßnahmen): Konkrete Schutzmaßnahmen zur Gewährleistung von Datenschutz und Datensicherheit.

VVT (Verzeichnis der Verarbeitungstätigkeiten): Pflichtdokumentation aller Verarbeitungen personenbezogener Daten.

Zentrale KI-Begriffe

Schreibt mir in den Kommentaren, was Euch interessiert an dem Thema. Warum hast Du diesen Artikel gelesen? Hast Du auch den ersten Teil gelesen („Was, es gibt einen ersten Teil? 👹“) zu teilen. 

#KIundDatenschutz #DSGVO #KünstlicheIntelligenz #Datenschutzbeauftragter #PrivacyByDesign #Privacy #Datenschutz

 

Anlage: Der ursprüngliche Entwurf für den Artikel als Transparenzhinweis. 

 

Datenschutzfreundliche KI: Konzepte und Best Practices

Als Datenschutzbeauftragter mit langjähriger Erfahrung im Non-Profit-Sektor möchte ich heute konkrete Konzepte und Best Practices für datenschutzfreundliche KI vorstellen. Diese Erkenntnisse basieren sowohl auf meiner praktischen Erfahrung als auch auf meiner laufenden Weiterbildung im Bereich KI.

1. Privacy by Design in der KI-Entwicklung

Grundprinzipien

Praktische Umsetzung

2. Technische Schutzmaßnahmen

Differential Privacy

Federated Learning

Secure Multi-Party Computation

3. Organisatorische Maßnahmen

Dokumentation und Transparenz

Schulung und Sensibilisierung

4. Best Practices aus der Praxis

Datenminimierung

Qualitätssicherung

Incident Management

5. Zukunftsperspektiven

Emerging Technologies

Regulatorische Entwicklungen

Fazit

Die Implementation datenschutzfreundlicher KI ist keine Option, sondern eine Notwendigkeit. Durch die konsequente Anwendung der vorgestellten Konzepte und Best Practices können Organisationen KI-Systeme entwickeln und einsetzen, die sowohl innovativ als auch datenschutzkonform sind.

Entscheidend ist dabei der ganzheitliche Ansatz: Technische Maßnahmen müssen durch organisatorische Prozesse unterstützt und durch eine entsprechende Unternehmenskultur getragen werden. Als Datenschutzbeauftragte sind wir gefordert, diesen Prozess aktiv zu gestalten und zu begleiten.

#KIundDatenschutz #DSGVO #KünstlicheIntelligenz #Datenschutzbeauftragter #PrivacyByDesign

Einen Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit einem * markiert

This site uses Akismet to reduce spam. Learn how your comment data is processed.