MSc. data science studerende skriver projektopgave hos Rooftop

Projektteamet undersøger, hvor godt weakly supervised machine learning, vælger og labeler relevant information fra domme, som er vigtige for at blive i stand til at forudsige dommen for en given anklage.

Data science opgaven består i at identificere relevant anklageskriftinformation fra en stor samling af domme. Helt specifikt, så bruger vi Snorkel (snorkel.org) til at udvælge relevante enheder (eks. sigtede, narkotika, mængden af narkotika) og enhedsrelationer (eks. formuleringer som ’sigtede overdragede nakotika mod betaling’), som er relevant information for at kunne forudsige udfaldet af en dom.

Vi har allerede OCR’ed anklagemyndighedens offentliggjorte domme, samt struktureret og labeled de vigtigste data, men ingen steder kan sagens alvorlighed eksplicit aflæses.

Ud fra anklagemyndigheds offentliggjorte domme, ser vi på 1300 domme fra danske byretter, der repræsenterer overtrædelse af 259 forskellige paragraffer.

Det første trin består i at kategorisere alvorligheden af ​​domme. Derefter identificerer vi ord og sætningsopbygninger, der er korrelerede med længden og alvorligheden af straffeudmålingen for de forskellige typer af kriminalitet. 

Derudover går opgaven ud på at identificere, træne og teste den bedste model til forudsigelse af dommen. Dertil vil vi også anvende Explainable AI til at forklare, hvilke formuleringer (enhedsrelationer), som bidrager med mest information i forudsigelsen af strafudmålingen. Vi arbejder naturligvis sammen med en juridisk ekspert for at være sikre på at vores tilgang og  at resultaterne giver mening.

Vi tilbyder Frederik Andersen en stejl læringskurve – på alle parametre, og er glade for at bidrage med en data science real-life-oplevelse.