VUB laat scanners oude documenten beter lezen

papier versleten

Het digitaliseren van oude documenten verloopt vaak met horten en stoten omdat papier in de loop van de tijd slecht leesbaar is. Dr. Tan Lu van de VUB- onderzoeksgroep Digital Mathematics ontwikkelde voor zijn doctoraatsonderzoek software die zich niet laat foppen door scheuren, vlekken of slechte scans.

In de culturele erfgoedsector is het digitaliseren van oude documenten een belangrijke taak omdat die documenten op die manier doorzoekbaar worden. Dat scannen verloopt aan de hand van optical character recognition (ocr), waarbij de computer als het ware de letters van het document ‘herkent’. De techniek is echter nog altijd verre van perfect. De gebruikte algoritmes hebben moeite met materiële schade aan pagina’s, zoals scheuren en vlekken. Bovendien kan de computer in de war raken door de 'frivole' tekst-opmaak die voorkomt in bijvoorbeeld reclames en modetijdschriften.

Onder leiding van Prof. Dr. Ann Dooms ontwikkelde Lu een reeks ‘homogeniteitsmodellen’ die de computer helpen hun tekstherkenning sterk te verbeteren. In deze modellen formuleerde hij scenario's om diverse problemen aan te pakken, waaronder documentsegmentatie, vervormingsherkenning en kwaliteitsbeoordeling. Daarbij maakte hij gebruik van bestaande kennis over de manier waarop de menselijke hersenen omgaan met gecompliceerde beelden. 

Lu: ‘De gestaltpsychologie leert ons dat mensen losse objecten van eenzelfde soort van nature met elkaar groeperen tot één groep. Omdat computers dit vermogen missen, struikelen ze vaker over tekstherkenning in moeilijke layouts of in beschadigde zones. Ze zijn, anders dan mensen, niet in staat de verschillende delen van een beschadigd beeld te recombineren.’ 

Door dus inzichten uit de waarnemingspsychologie te integreren in een zogenoemd ‘probabilistisch lokaal teksthomogeniteitsmodel’, leerde Lu de computer omgaan met documenten met een moeilijke layout en hierin ook tal van beschadigingen en vervormingen herkennen.

Kracht

Lu heeft met zijn onderzoek een aantal lang bestaande problemen binnen tekstherkenning opgelost waarbij zijn werk de kracht demonstreert van een wiskundige benadering van beeldverwerkingsproblemen. De ontwikkeling van nieuwe wiskundige modellen blijkt het ware potentieel te kunnen ontketenen dat schuilgaat achter de digitalisering van oude en waardevolle documenten. De software die binnen dit onderzoek door de onderzoeksgroep Digital Mathematics ontwikkeld werd, won in 2019 de internationale ICDAR-prijs voor documentherkenning.

x

Om te kunnen beoordelen moet u ingelogd zijn:

Dit artikel delen:

Uw reactie

LET OP: U bent niet ingelogd. U kunt als gast reageren maar dan wordt uw reactie pas zichtbaar na goedkeuring door de redactie. Om uw reactie direct geplaatst te krijgen moet u eerst rechtsboven inloggen of u registreren

Vul uw naam in
Vult u een geldig e-mailadres in
Vult u een reactie in
Jaarbeurs b.v. gaat zorgvuldig en veilig om met uw persoonsgegevens. Meer informatie over hoe we omgaan met je data lees je in het privacybeleid
Als u een reactie wilt plaatsen moet u akkoord gaan met de voorwaarden

Stuur dit artikel door

Uw naam ontbreekt
Uw e-mailadres ontbreekt
De naam van de ontvanger ontbreekt
Het e-mailadres van de ontvanger ontbreekt

×
×
article 2020-12-11T09:21:00.000Z Frederic Petitjean
Wilt u dagelijks op de hoogte worden gehouden van het laatste ict-nieuws, achtergronden en opinie?
Abonneer uzelf op onze gratis nieuwsbrief.