Van papier naar een digitaal archief: wat doet DIM?
Bij de Digitaliserings- en Archiveringsdienst (DAD) van de Justitiële Informatiedienst (Justid) zijn onlangs twee nieuwe systemen in gebruik genomen. Eén van deze systemen is DIM, de Dienst Intelligent Metadateren. Met deze dienst kan Justid voor ketenpartners de stap verkleinen om van een papieren archief naar een digitaal archief te gaan. Ewout Reinders, Applicatie Architect bij de DAD, geeft uitleg.
Ewout: “De aanleiding van DIM is dat de stap voor organisaties om van een papieren archief naar een digitaal archief te gaan, in ons geval het CDD+, te groot is. De stap om papieren archieven enkel te digitaliseren is vaak niet zo groot, daar hebben we immers al een mooie scanstraat voor. Het grote probleem zit hem vaak in de metadata.”
“In de praktijk blijkt de metadata vaak niet compleet of niet correct te zijn. Bovendien staat het ook vaak verspreid in verschillende processystemen, waardoor het lastig is om tot één set metadata te komen. Echter, deze metadata zijn wij wel nodig om uiteindelijk documenten weer vindbaar te maken in het digitale archief en te voldoen aan de archiefwet. Bijvoorbeeld om te berekenen hoe lang een document bewaard moet worden en/of wanneer het document vernietigd moet worden. Om deze stap, het verrijken van metadata voor documenten, tussen het digitaliseren en archiveren te verkleinen, is DIM geïntroduceerd.”
“Het doel van DIM is ondersteuning bieden om de metadata compleet maken voor gescande documenten, zodat het betreffende document gearchiveerd kan worden. De metadata in DIM kan op verschillende manieren gevuld worden: via de grafische gebruikersomgeving (GUI) kan een gebruiker handmatig velden invullen en correcties maken. Daarnaast kan er metadata aangeleverd worden vanuit een processysteem. Hiervoor hebben we een Excel-specificatie geschreven, waarmee gebruikers incomplete metadata - of juist een complete set - voor documenten kunnen uploaden via de GUI.”
“Er kunnen in DIM maatwerkregels worden ingesteld per archief, regels die bepalen hoe metadatavelden gevuld moeten worden. Vanuit de techniek is het een soort rule engine. Er kan gebruik gemaakt worden van Kunstmatige Intelligentie. Dit houdt in dat je voor metadatavelden een statistisch model kan trainen. Dit model kan dan ingezet worden om te berekenen welke waarde een metadataveld moet hebben. De module ondersteunt op dit moment named entity recognition en supervised classificatie. Deze module hebben we zelf geschreven met behulp van Python en bestaande algoritmiek in Tensorflow.”
“Hier zie je een impressie van het home scherm van DIM waarin de gebruiker met bakjes werkt en in één overzicht de status kan zien hoeveel documenten nog over onvoldoende metadata beschikken, hoeveel er volledig zijn, hoeveel er klaar staan om gearchiveerd (klaar voor ‘ingest’) te worden en hoeveel er zijn gearchiveerd (ge-ingest). Om ervoor te zorgen dat DIM geen vaste bewaarplaats is en wordt, hebben wij ook een maximale periode vastgesteld waarin een document in het DIM mag staan. Wanneer de ‘verblijfsduur’ wordt overschreden, krijgt de betreffende organisatie een update dat ze achterstanden hebben en dan zal de organisatie actie moeten ondernemen.”
“We hopen dat DIM voor ketenpartners bijdraagt aan het verkleinen van de stap tussen een papieren archief en een digitaal archief en dat we een steentje kunnen bijdragen aan het op orde brengen van de informatiehuishouding van ketenpartners. Ik kan met trots zeggen dat we nu beschikken over een complete en operationele dienst; van papieren archief naar een digitaal archief! Inmiddels werken we al met een ketenpartner samen aan het digitaliseren van hun archief. DIM wordt daarbij voor het eerst ingezet. We hopen met de feedback het product verder te kunnen optimaliseren.”