Explore the future

Machine learning erstatter manuel transskribering af gamle dokumenter

Nye teknologier giver mulighed for ikke blot at digitalisere dokumenter, men transskribere gamle håndskrevne dokumenter på dansk. I forskningsprojekter og i den offentlige sektor skaber dette stor værdi, fordi man nu kan analysere på baggrund af et solidt datagrundlag, som går langt tilbage i tid.

I forskning og hos offentlige instanser har man ofte behov for at kunne researche på data, som ikke er digitalt transskriberede. Mange dokumenter er scannet, så de findes elektronisk, men informationen i dokumenterne er ikke tilgængelig som strukturerede data, så de kan anvendes i dataanalyse.

Særligt i forskningsprojekter er det afgørende, at man kan se sammenhænge i udviklingen over tid, og derfor er historiske data relevante. Inden for socioøkonomiske forhold kan dette være kirkebøger, sundhedsplejerskejournaler eller grundskolens karakterblade, som skal digitaliseres til et dataformat, der gør det muligt at samkøre informationen med anonymiserede registerdata. Det samme gør sig gældende inden for genetik, hvor DNA-strengen er digitaliseret, men ikke i et format, som kan samkøres med andre relevante data.

Manuel transskribering er fejlbehæftet. Traditionelt set har man i forskningsprojekter sendt datagrundlaget til udlandet til manuel transskribering. Her bliver udvalgte data indtastet manuelt i tabelformat. Selvom arbejdskraften er billig, er risikoen for fejltastning høj – især når teksten er på dansk.

Samtidigt er det ikke muligt at identificere eller validere, hvad der er tastet korrekt og ikke korrekt. Dette resulterer i en fejlkilde, der er ubekendt i størrelse, og som i sidste ende kan medføre, at forskningsprojekterne kommer ud med fejlkonklusioner – uden nogen er vidende om det.

"

Vi bruger neurale netværk og microtasking, når vi etablerer trænings-datasættet, og fordi vi udvikler en app til formålet, er det muligt at benytte crowdsourcing.

Machine learning

Machine learning er en underkategori inden for kunstig intelligens, der bl.a. dækker over neurale netværk. Navnet er inspireret af det biologiske neurale netværk i hjernen. Denne underkategori benyttes sammen med andre billedgenkendelsesteknikker, f.eks. computer vision, til at lokalisere, hvorpå det scannede dokument, dataelementet står.

Brug microtasking og machine learning

Alternativet til manuel indtastning er brug af machine learning og microtasking. Her udvikler vi en app, som er i stand til at identificere og frembringe udvalgte dataelementer fra dokumentet. Disse bliver oversat til digitale data og gemt i struktureret form. Det er muligt, når algoritmen i machine learning gør brug af neurale netværk.

Det neurale netværk skal trænes i at genkende de skrevne og/eller maskinskrevne ord og bogstaver. Appen viser det valgte dataelement fra dokumentet, og brugeren indtaster det, som vedkommende ser. For at sikre kvaliteten i dataindtastningen bliver alle dataelementer indtastet af minimum to personer.

Hver gang der indtastes manuelt, linkes kilden, dvs. værdien af dataelementet med det indtastede. På den måde etableres et træningssæt, der med tiden udvides og til sidst resulterer i, at den kunstige intelligens overtager resten af processen. Transskriberingen af dokumentet vil herefter ske uden menneskelig involvering. Resultatet er et kvalitetssikret dataset, som forskere kan bruge i deres analyse.

Ved at bruge en app til microtasking åbner man også op for crowdsourcing. Borgere som vil være med til at investere i etablering af data får adgang til appen og kan bidrage ved at indtaste data. Det er en effektiv, hurtig og omkostningsbesparende måde at få etableret sit træningsdatasæt på - og et nødvendigt trin inden machine learning fuldfører transskriberingsopgaven.

Styrken ligger i det personlige møde

Vil du vide mere om de muligheder, der ligger i at bruge microtasking og neurale netværk til at etablere jeres datagrundlag for dataanalyse, så kontakt Christian Emil Westermann

Book et møde

Om Rooftop Analytics

Rooftop Analytics har erfaring med at transskribere håndskrevne dokumenter på dansk ved hjælp af machine learning. Vi gør brug af computer vision, neurale netværk og microtasking. Vi indbygger logikker, som øger kvalitetssikring, og vi træner algoritmen så meget, at løsningen kan læse dokumenterne uden menneskelig involvering.

Læs mere

Rooftop Analytics benytter open source applikationer til udvikling og dokumentation af vores kode.

Vi er et team med unikke kompetencer inden for data science. Derfor formår vi at se ekstraordinære muligheder i data.