Datalek Eindhoven met kwetsbare burgers: 'Verwijderverzoek is kansloos'
Wéér kwam deze week een datalek boven water, deze keer bij de gemeente Eindhoven. Medewerkers stopten persoonsgegevens van kwetsbare burgers in een AI-tool zoals ChatGPT. En dat mag niet zomaar, want we hebben allemaal recht op privacy. Hoe groot zijn de gevolgen als jouw persoonsgegevens met een openbare AI-website gedeeld worden?
Deze week was het Eindhoven en dat is extra pijnlijk. De gemeente stond twee jaar lang onder verscherpt toezicht bij de Autoriteit Persoonsgegevens, omdat datalekken te laat waren gemeld en persoonsgegevens te lang zijn bewaard.
Vooropgesteld: het is niet slim om persoonsgegevens te uploaden in AI-tools, stelt AI-expert Dimitri van Iersel van Omroep Brabant. Maar het is lastig om te bepalen wat precies de gevolgen zijn, stelt hij.
"We weten nog niet in hoeverre dit een probleem gaat zijn. De gegevens die zijn ingevoerd staan nu misschien wel op een server ergens buiten Europa. Als daar ooit een datalek plaatsvindt, ligt alles op straat. Dat risico speelt bij alle software- en cloudservices waar je gegevens in stopt."
In het geval van de gemeente Eindhoven ligt het extra gevoelig omdat het gaat om gegevens van kwetsbare burgers.
Gegevens van kwetsbare burgers
Strategisch en juridisch adviesbureau Hooghiemstra & Partners deed onderzoek naar het datalek. Uit hun bevindingen blijkt dat het onder meer gaat om documenten uit de Jeugdwet met daarin informatie over de mentale en fysieke gezondheid van minderjarige kinderen (vaak ook broertjes en zusjes). Ook het burgerservicenummer en soms zelfs een foto van het kind zijn onderdeel van het dossier.
Maar ook documenten van de Wet Maatschappelijke Ondersteuning (WMO) zijn ingevoerd. Met daarin gegevens van inwoners en hun fysieke en mentale gezondheid, diagnoses, verslavingen en schulden: compleet met naam, adres, woonplaats en burgerservicenummer.
Ook cv's van sollicitanten en reflectieverslagen van medewerkers met daarin informatie over werkprestaties zijn in de Ai-tool terechtgekomen.
Als er persoonsgegevens worden gedeeld met een andere partij, hoor je als gemeente of bedrijf afspraken te maken over de verwerking, het gebruik en de opslag van die gegevens. Dat is in dit geval niet gebeurd.
Als medewerkers een gratis of persoonlijk account gebruiken, is de kans dan ook heel groot dat de ingevoerde data is gebruikt voor het verbeteren en het trainen van de AI-tool.
"Als data eenmaal in een trainingsmodel zit, dan is die data niet meer te verwijderen."
“Data kan meegenomen zijn in trainingsdata voor toekomstige modellen. Als dat eenmaal is gebeurd en het model is klaar, dan is die data niet meer te verwijderen. Dat is een grijs gebied in de wetgeving rond generatieve AI.”
Gemeente Eindhoven heeft een verzoek ingediend bij het bedrijf OpenAi (het bedrijf achter ChatGPT, red.) om alle gegevens te verwijderen, maar volgens Van Iersel is zo'n poging kansloos. “Als je een verzoek doet binnen 24 uur nadat je de informatie hebt ingevoerd, is er wel een mogelijkheid. Maar zodra het langer geleden is, zit die informatie al in trainingsmodellen.”
De enige mogelijkheid om de informatie dan nog terug te halen, is het verwijderen van het complete trainingsmodel. Dat moet OpenAi doen, maar dat gaat volgens Van Iersel niet gebeuren.
De gemeente Eindhoven heeft van OpenAi nog geen reactie gehad op hun verzoek, zo liet een woordvoerder vrijdag weten.
"Eigenlijk moet je er altijd rekening mee houden dat er een kans is dat data wordt gelekt."
Van Iersel acht de kans klein dat er directe risico’s zijn voor betrokkenen. “De data in zo’n trainingsmodel is geen leesbare informatie. Het model leert patronen, geen dossiers. Gebruikers kunnen niet zien welke data is gebruikt en kunnen er niet zomaar bij.”
Al zijn er altijd uitzonderingen. “Als er bijvoorbeeld heel veel specifieke informatie over één persoon is ingevoerd, dan kan het model bij heel gerichte vragen details prijsgeven. De kans daarop is zeer klein, maar niet nul.”
Maar als trainingsdata te herleiden is tot personen, kan daar wel degelijk misbruik van worden gemaakt. Denk aan phishing of fraude. "Zorg er daarom voor dat informatie die je geeft aan Ai of aan software niet persoonlijk herleidbaar is. Eigenlijk moet je er altijd rekening mee houden dat er een kans is dat data wordt gelekt."
Het gebrek aan duidelijke regels en beleid is volgens Van Iersel een groot onderdeel van het probleem. “De kern zit niet zo zeer in wat AI doet met de data, maar in het ontbreken van controle en afspraken rond het gebruik ervan.”
Hij is er dan ook van overtuigd dat er bij elk bedrijf medewerkers zijn die gegevens in openbare AI-tools gooien die er niet thuis horen.
“Dat komt omdat duidelijk beleid ontbreekt. Als er geen regels zijn of ze zijn vaag, dan gaan mensen eigen regels maken. Dat gebeurt overal maar dat is niet best. Bedrijven moeten wennen aan alle tools die er zijn. Ik vrees dat we in een tijd leven waarin heel veel data op straat terechtkomt."
