'Je kunt heel veel informatie uit enkel synthetische data halen'
Synthetische data: je hebt er misschien wel eens van gehoord. Het is kunstmatig gegenereerde data die alle statistische eigenschappen heeft van een bestaande dataset, maar waarbij gegevens niet herleidbaar zijn tot een persoon. Binnen de Justitiële Informatiedienst (Justid) houdt data scientist Rick Kosse zich met dit onderwerp bezig. In dit artikel legt hij uit hoe het onderwerp op zijn pad is gekomen. “Je kunt heel veel informatie uit enkel synthetische data halen.”
Mogelijkheden
Het plan om voor Justid mogelijkheden van synthetische data te onderzoeken, werd elders geboren. Rick kwam door zijn werk in contact met een organisatie waar al aandacht was voor het onderwerp. In een klein project is destijds gezamenlijk de mogelijkheden van synthetische data onderzocht. En dat die mogelijkheden er waren, dat bleek al snel.
De vervolgvraag was toen: zijn er binnen de Rijksoverheid organisaties die al met synthetische data werken? Rick: “We zijn rond gaan kijken en kwamen al snel uit bij de Dienst Uitvoering Onderwijs (DUO). Deze organisatie krijgt veel onderzoeksvragen over bijvoorbeeld opleidingsniveaus of studieschulden. Deze gegevens mogen ze alleen niet delen. Ze zijn toen data gaan synthetiseren, data die nu gedeeld wordt.”
Onderzoeken
Rick zette als data scientist in een volgende stap zijn tanden in een aantal onderzoeken naar synthetische data. “Het blijkt dat het genereren van synthetische data helemaal niet zo moeilijk is. De grootste uitdagingen bleken te zitten in twee dingen: het evalueren van de herleidbaarheid en de bruikbaarheid. Hoe groot is de kans dat iemand terug te vinden is in een synthetische dataset? En: komen de statistische eigenschappen van de synthetische data en de ‘echte’ data overeen?”
Rick ging met deze twee vraagstukken aan de slag. De resultaten van zijn verrichtingen waren positief. Synthetische data bleek een prima vervanger voor de ‘echte’ data wanneer het aankwam op trainen van machine learning modellen en het onderzoeken van statistische verbanden. Met de bruikbaarheid zat het dus goed.
De kans dat synthetische data vervolgens herleidbaar is tot een persoon, is volgens Rick heel erg klein. “Zelfs als je voorkennis hebt en je in voorkomende gevallen een ‘educated guess’ kunt doen, dan is de kans nog beperkt.” En toevallige overeenkomsten dan, hoe zit het daarmee? “Statistisch zou het te verwachten zijn dat er op een gegeven moment exacte overeenkomsten zijn tussen een ‘echte’ en een synthetische dataset. Maar ook dat kwam nauwelijks voor.”
Innovatieweek
Bij Justid wordt jaarlijks een innovatieweek georganiseerd, waarin medewerkers de mogelijkheid geboden wordt om innovatieve ideeën verder uit te werken. De week kwam voor Rick op een perfect moment. “Ik had nu de tools in handen, maar ik had nog geen ‘probleem’.” Hij ging binnen Justid op zoek naar diensten die baat zouden kunnen hebben bij synthetische data. Hij benaderde verschillende experts binnen Justid, die meteen enthousiast werden. Rick: “We zijn met een team de innovatieweek ingegaan.” Met succes: het idee kwam als beste technische innovatie uit de bus. Ook won het team de ‘publieksprijs’.
Tijdens de innovatieweek hebben Rick en zijn teamleden zich gefocust op twee vlakken waar synthetische data kan helpen: als eerste bij test- en ontwikkelingsdoeleinden en als tweede bij onderzoeken, bijvoorbeeld afstudeeronderzoeken of wetenschappelijk onderzoek.
Hoe kan synthetische data helpen bij het testen en ontwikkelen? Volgens Rick moeten applicaties en diensten tijdens het ontwikkelen op een gegeven moment getest worden. Daar is data voor nodig. Met het gebruik van synthetische data vervalt de noodzaak om daar zogenoemde productiedata voor te gebruiken. Synthetische data maakt het testproces privacyvriendelijker, aldus Rick.
Hoe nu verder?
Het gebruik van synthetische data voor test- en ontwikkelingsdoeleinden lijkt voor Justid op dit moment het meest interessant, stelt Rick. “We hebben ervoor gekozen om ons binnen Justid nu eerst te richten op het gebruik van synthetische data met het oog op onze ontwikkelaars en testers. Wat hebben ze nodig? Welke vragen hebben ze nog? Kortom, waar liggen de interne behoeften?”
Rick is ook van plan om samen met andere organisaties te kijken of het mogelijk is om met een open-sourcemodel te werken. “Zoals ik al zei: het genereren van synthetische data is op zich niet moeilijk. Maar de evaluatie per dataset is maatwerk. Een model moet helpen bij de evaluatie en analyse van synthetische datasets, zodat organisaties kunnen bepalen of hun data goed genoeg is. Het moet meer inzicht geven over de bruikbaarheid van de eigen data om synthetische data te genereren.”
Wat zou een einddoel kunnen zijn? Rick heeft in elk geval een mooie ambitie: een speciale applicatie voor het delen van synthetische data. “Ik zou graag willen dat productiedata overal achter slot en grendel kan. Hoe mooi zou het zijn als er ooit een cloudapplicatie komt waar we synthetische data kunnen delen?“