En stor del af bestanden af bøger hos Danskernes Historie Online er ældre værker, og ganske mange er med gotisk skrift (fraktur). For at opnå maksimal søgbar skriftgenkendelse, har Danskernes Historie Online udviklet sin egen udgave af programmet Transkribus til læsning af fraktur skrift.
Transkribus begyndte som et EU projekt med økonomisk støtte, da man i det offentlige Europa havde milliarder af håndskrevne dokumenter, man gerne ville have digitaliseret og gjort søgbare. I dag er der ikke længere støtte fra EU, derfor er det et betalingsprogram, hvor man betaler for hver side, man gør søgbar.
De skannede sider indlæses i Transkribus. I programmet er der 2 vinduer, et billed- og et tekstvindue, hvor tekstvinduet er tomt. Hvis teksten er uden udfordringer, sættes en kørsel af teksten i gang, hvor man vælger den ”genkendelsesmodel”, biblioteket har udviklet til trykt gotisk tekst. Når kørslen er færdig, har programmet markeret alle ordene, og samtidig skrevet teksten i tekstvinduet. Teksten på billedet i billedvinduet er således linket ord for ord til den tilhørende tekst i tekstvinduet, hvor man kan rette i teksten, hvis den ikke er korrekt. Når man er tilfreds med resultatet, gemmer man bogen som en PDF fil, og man har en søgbar bog. Man kan nu søge i hele bogen efter de ord, man ønsker, eller trække musen henover siden, markere hele siden, kopiere det markerede og efterfølgende indsætte den markerede tekst i et Word dokument.
Vores model til genkendelse af dansk gotisk skrift har en meget høj kvalitet. Fejlraten ved genkendelse er nede på kun 0,5 % – bedre fås det praktisk talt ikke. Fejlraten er således på samme lave niveau, som var der tale om latinske bogstaver.
Transkribus er også udviklet til genkendelse af håndskrift, som kan variere meget. I programmet er der indbygget en ”lær en skrifttype, herunder også en håndskrift”. Det gælder både latinske bogstaver og gotiske bogstaver. Man tager cirka 40 til 50 sider, markerer manuelt hvor alle ordene er på billedvinduet, og skriver ganske enkelt den korrekte tekst i tekstvinduet. Derefter starter man læringsprocessen, hvor programmet løber igennem teksten i billedvinduet og forsøger at gætte den korrekte tekst og sammenligner med det ”facit”, der er skrevet i tekstvinduet. Transkribus bruger en kombination af ordbog og kunstig intelligens, ”AI”, til at lære af sine forsøg. Så køres teksten igennem igen, med ny læring, og igennem igen, igen og igen, i alt 200 gange. For hver gennemkørsel bliver programmet bedre og bedre til at genkende teksten. Efter 200 gange er ”genkendelsesmodellen” klar til afprøvning på hele teksten. Hvis man ikke er tilfreds med genkendelsesprocenten, må man fremstille nogle flere læringssider end de 40 til 50, man har brugt i første omgang.
Hvis man har fået fremstillet en rigtig god ”genkendelsesmodel”, kan man lægge den ud til offentlig brug, så andre brugere af Transkribus kan få glæde af den. Det gælder både ”genkendelsesmodellen” og de læringssider, der ligger til grund for ”genkendelsesmodellen”. Læringssiderne kan spare en for rigtig mange timer, hvis man kan finde nogle, der ligner den håndskrift lidt, som man er i gang med.
Er der nogle af siderne i bogen, der er skrevet med gotiske eller latinske bogstaver, må man køre hver side med den ”genkendelsesmodel”, der passer til bogstavtypen. Er der både gotiske og latinske bogstaver på samme side, må man lære sin ”genkendelsesmodel” begge bogstavtyper. Danskernes Historie Online har en ”genkendelsesmodel”, der både kan læse gotiske og latinske bogstaver.
Versionen af Transkribus udviklet af Danskernes Historie Online kan ses og afprøves her: https://readcoop.eu/model/danish-fraktur-19th-century/
Johnny Larsen
Frivillig, Danskernes Historie Online
Kommer I så til at lægge en latinsk-bogstaveret pdf op på hjemmesiden af de dokumenter, som oprindelig er trykt med fraktur?
Eller er det kun ved søgning man får glæde af translitterationen?
Det betyder, at man kan søge i bøger med gotisk skrift på linje med andre bøger. Man kan selv kopiere indholdet ud som latinsk skrift ved en opmarkering, kopiering og indsættelse i et tekstdokument.
Jeg kopierede en side fra Højesteret domprotokol 1817, og har testet med Transkribus.
Der findes en public dansk model, “19th century Danish Gothic handwriting v.1.1” trænet af Aalborg Universitet, som giver en næsten perfekt transkribtion
Vores Transkribus model er også offentlig og ligger på en fejlrate på 0,5% (trykt gotisk skrift), og den er dermed enten på højde med eller bedre end modellen du nævner.
Det er nu Aarhus der har lavet den omtalte model. ret skal være ret.
Undskyld, men Slægtsbibliotekets model er til trykt skrift.
Mit eksempel er håndskrift.