Hvis du vil tyde gammel håndskrift, så glem ChatGPT!

Slægtsforskere og andre har altid været udfordret på at læse de gamle håndskrifter med gotisk skrift, der blandt andet findes i kirkebøger, journaler og skifter. Med fremkomsten af AI som ChatGPT – og den til tider næsegruse beundring – ser vi tit ChatGPT foreslået til læsning af gammel håndskrift.

Så lad os iklæde os ”kejserens nye klæder” se et par eksempler på, hvad ChatGPT 5.2 kan præstere!

Eksempel 1

Der er tale om en dom fra 1844 over en fange modtaget hos Odense Tugthus (link til ArkivalierOnline).

Jeg starter ChatGPT og beder den om at transskribere denne tekst – det skriver den, at den fint er i stand til. Det resulterer i følgende læsning:

” Dom: Da Overprokurator Hans Andreas Eilerth død er efterlader, som imedens levende legemlige afkom ej er efterladt, og Hustrue hans for nogen imidlertid befindes bekjendt, lægger rette grund, at der bør i Begyndelse over Skifteretten formelt examineres, om nogen arveberettigede Slægtskab i 3die og 4de Led der maatte være, førend videre Skridt tiltages …”.

Jamen, jamen, tænker jeg så. Dette er noget tekst fra et skifte, som slet ikke har noget med dommen at gøre. Hvor kom det lige fra? Her skal man huske på, hvordan nogle AI-modeller virker: ChatGPT læser ikke teksten ord for ord, men forsøger at forstå, hvad det er for en tekst, og så bruger den noget tekst fra sprogmodellen til et gæt på, hvad der står. Så teksten giver måske sproglig mening, men har intet med originalen at gøre!

Jeg spurgte derfor ChatGPT, hvorfor den laver en sådan fejl og fik følgende svar:

Jo, jo, den er da venlig nok. Og ChatGPT beskriver ret præcist, hvorfor den ikke er i stand til at læse teksten – fordi den netop ikke læser teksten. Det lader til, at ChatGPT ikke helt ved, hvad ”transskribering” betyder. Men nu tilbyder den faktisk at få teksten læst præcist ord for ord – alt det, den faktisk kan læse. Det giver så følgende yderst beskedne resultat:

Det var alt, den kunne læse. Selv jeg kunne da læse, at der stod ”Dom” øverst! Og det næste ”Da Overret …” står der faktisk ikke. Så 100% sikker – bum, bum.

Nu kunne man forstille sig, at det var en ”enlig svale”, men jeg har forsøgt mange eksempler, og det bliver altid noget vrøvl, når det er gotisk håndskrift. Det udelukker selvfølgelig ikke, at den vil kunne læse moderne skråskrift eller trykte bogstaver.

Løsninger, der virker

Men fortvivl ikke. Der findes faktisk løsninger i dag, der bliver bedre og bedre til at læse dansk gotisk håndskrift fra 1800-tallet og tidligere. En af disse er Transkribus, der er blevet udviklet i Europa siden 2013 og forbedret ved hjælp af EU-midler fra 2016 til 2019. Programmet stammer fra Innsbruck University.

Transkribus er ikke et enkelt program, men en række moduler (kaldet modeller), der hver især er optimeret til en bestemt skrift – nogle til håndskrift, andre til maskinskrift, og fra forskellige tidsperioder og til tider til bestemte typer af dokumenter. Det kan derfor være hensigtsmæssigt at se lidt på de modeller, der tilbydes, hvis man skal i gang med transskribering.

Her har jeg anvendt en såkaldt ”supermodel”, der hedder ”Dokumentalist”. Det er en model, der er udviklet af Aalborg Universitet til et meget bredt spektrum af dokumenter, og som har en af de laveste fejlrater. Her er, hvad Dokumentalist får ud af den tidligere nævnte dom:

”Dom: Om Arrestanten Jens Jensen og Tiltalte, Ane Andersdatter, som under denne Sag sigtes for Tyverie, er det ved deres egne Tilstaaelse og Sagens øvrige Omstændigheder tilstrækkeligen godtgjort: at de den 5te August f: A: om Aftenen have i Forening og efter foregaaende Aftale, borttaget et 3 a 4 Maaneder gammelt Lam, som tilhørte Gaardmand Anders Bundsgaard og tilligemed flere Faaresreaturer”.

Der er meget få fejl i dette, og Transkribus kan derfor være til meget stor hjælp ved tydning af håndskrevne tekster. Mette Fløjborg har sammen med frivillige udviklet deres egen model, der i første omgang er trænet på domme. Den har stort set samme kvalitet som ovenstående, men har den fordel, at den er gratis at anvende op til et vist antal sider. Modellen hedder ”1800-tals gotisk haandskrift” og giver følgende resultat i forhold til dommen:

” Dom: Om Arrestanten Iens Iensen og Tiltalte, Am Andersdatter, som under denne Sag sigtes for Tyverie, er det ved deres eges Tilstaaelser og Sagens øvrige Omstændigheder tilstrækkeligen godtgjort: at de den 5te August f: A. Som Aftenen have i Forening og efter foregaaende Aftele, borttaget et 3 a 4 Saamder gammelt Lam, som tilførte Gaardmand Anders Bundsgaard og tilligemed flere Faarecrentcurer”.

Eksempel 2

Lad os se på endnu et eksempel, der er fra en kirkebog med fødsler fra Dalby sogn, Vejle amt. Det er et udsnit fra starten af 1803.

Her er så, hvad ChatGPT 5.2 får ud af denne tekst:

”Trolovet pro 1802 d 1803. paa døren til døren.

Jeg underskrev Niels Jensen Møller i Guldborg Mølle og Anne Magdalene Hansdatter fra Sakskøbing. Cautiones ere Niels Jensen paa Strømmen og Lars Hansen Damsholt. Testes: Peder Jørgensen som var hos Brudgommen, Madsen og Morten Jørgen & Hans Peder(?) Søn.

Ægteskabet fuld for Ægteskabs-… lov(?) Derefter blev ægteviet Den 1 Julii i Guldborg Kirke(?) af Pastor Nissen quorum(?) vidne(?) var Menige Menigheden for ægteviede i Guldborg Sogn”.

Det er så ret tydeligt, hvad der sker her. I stedet for ”Døbe Register” får ChatGPT første ord til at være ”Trolovelse”, og så dykker den ned i skuffen med trolovelser og forsøger at finde noget, der passer. Men det er selvfølgelig en ren fantasi incl. ”Sakskøbing” og Guldborg sogn. En fantasi i 2. potens, da der ikke findes noget, der hedder ”Guldborg sogn” i virkeligheden.

Anvender man i stedet Transkribus med Dokumentalist-modellen, får man følgende resultat:

”Döbe Register pro 1802 d 1803. fra Advent til Advent.

Peder Nissen Pedersen, Nis Pedersen Möller i Dalbye Mölle og Anna Magdalena Rasmus datters Sön, fadderne: Andreas- og Niels Nielsen paa Straarup og Karen Aarends i Tved.

Et dödfödt Drengebarn som var Peder Bertelsen Matroses og Maren Lyngs i Tved Dalbye Sogn.

Christopher Hansen datt hans Christophersen Tienestekarl, og Dorothea Olufs datters Sön i Dalbye: Fadderne J: C: Pedersen og Peter Nissen Gaardmand ibid og Maria Pedersen höy paa Höygaard i Dalbye Skov. ”

Endnu et alternativ

Nu skal man ikke helt udelukke AI som et værktøj til transskribering af gotisk håndskrift. Men man skal så nok kikke i retning af Google’s AI-maskine, der hedder Gemini. Den er faktisk overraskende skrap til at læse disse tekster.

Første eksempel med dommen læser Gemini som følger:

”Dom: Om Arrestanterne Jens Jensen og Sidselthe (Sidsel) Olsdatter, som under denne Sag sigtes for Tyverie, er det ved deres egne Tilstaaelser og Sagens øvrige Omstændigheder tilstrækkeligen godtgjort: at de den 5te August f. A. (forrige Aar) om Eftermiddagen have, i Forening opstiaalet (opstjålet) fra foranævnte Skibshale, borttaget et 3 a 4 Maaneder gammelt Lam, som tilhørte Gaardmand Anders Bundgaard og tilligemed flere Faarevaskere var paa Græs paa bemeldte…”

Den er i hvert fald langt bedre end ChatGPT – selv om jeg er ved at dø for at få lov til at se et billede af de nævnte stjålne fårevaskere!

Det andet eksempel med dåbene klarer Gemini også, men med flere generende fejl i navnene:

”Døbe Register pro 1802 og 1803. fra advent til advent.

Peder Nissen Pedersen, Nis Pedersen Møller i Dalbye Mølle og Anna Magdalena Jens Datter Søøn. Fadderne: Andreas – og Niels Nielsen paa Straarup og Karen Arveds i Tved.

Et dødfødt Drengebarn som var Peder Berthelsen Matroses og Maren Lyngs i Tved Dalbye Sogn.

Christopher Jensen Dall, Hans Christophersen Tienestekarl og Dorothea Olufs Datters Søn i Dalbye: Fadderne: J: L: Pedersen og Peter Nissen Gaardmand ibd – og Maren Eriksøn høj paa højgaard i Dalbye Sogn. ”

Konklusioner

Vi kan ikke helt forudsige fremtiden, men i hvert fald med de nuværende AI-modeller får man ikke så gode resultater, som man kan få med Transkribus. AI-modellerne udvikler sig måske, men det gør Transkribus også efterhånden som de forskellige modeller bliver trænet, og der kommer flere specifikke modeller. Jeg vil klart anbefale at anvende Transkribus til gotisk håndskrift og i hvert fald under ingen omstændigheder ChatGPT 5.2. Eller lakonisk kan man sige, at man som alternativ jo kan lære at læse teksten 🙂

Man finder på denne side en oversigt over de forskellige modeller, og man kan fx søge efter ”Danish”: https://app.transkribus.org/models/public

Per Hundevad Andersen
Leder, Danskernes Historie Online

5 thoughts on “Hvis du vil tyde gammel håndskrift, så glem ChatGPT!

  1. Jeg synes ikke, at du yder AI, og især Gemini, fuld retfærdighed. For mig ser det ud som om, at din prompt ikke har været fyldestgørende.

    I forbindelse med opbygningen af websiden dagdig.dk, har jeg netop indbygget en arkivalieviser, hvor det med et enkelt klik er muligt at AI-transskribere markeret tekst. Den anvender Gemini 3.5 Flash og når i dit beskrevne eksempel frem til et resultat, der absolut konkurrerer med Transkribus.

    Hvem der har lyst, kan selv gå ind og efterprøve.

    https://dagdig.dk/vis?bsid=528159&page=92

    Dom
    Om Arrestanten Jens Jensen og Tiltalte, Ane
    Andersdatter, som under denne Sag sigtes for
    Tyverie, er det ved deres egen Tilstaaelse
    og Sagens øvrige Omstændigheder tilstræk-
    ligen godtgjort: at de den 5te August f. A.
    om Aftenen have, i Forening og efter fore-
    gaaende Aftale, borttaget et 3 a 4 Maane-
    der gammelt Lam, som tilhørte Gaard-
    mand Anders Bundgaard og tilligemed flere
    Faarekreaturer stod tøiret paa bemeldte
    Mands Mark. – Det saaledes stjaalne Lam
    slagtedes paa en i Nærheden værende Hede, og
    bragte, efter at have indtaget Indvoldene,
    det Øvrige af Lammet til Arrestantens
    Huus, hvor de med Hjælp af Arrestantens
    Søster, den i første Instants Medtiltalte
    Inger Marie Jensdatter, – for sin Vedkommende

    System-prompten bag alle transskriberinger i arkivalieviseren er gengivet under menupunktet ”Vejledning til AI-transskreiption”.

    Det er rigtigt, at Geminis største problem på nuværende tidspunkt er person- og stednavne, men i lyset af, at AI-transskribering for bare 6 måneder siden var en vittighed, så er der al mulig grund til at tro, at fremtiden er lys.

    Transkribus har i min optik en prissætning, der er helt på månen i forhold til, at er transskribering som ovenstående koster mindre end. 2 øre via Gemini API.

    1. Hej Per,
      Mange tak for kommentarerne – jeg sætter altid pris på at få udbygget viden og vinkler på de emner, vi tager op. Jeg vil dog gøre opmærksom på to forudsætninger for indlægget:
      1) Jeg forholder mig til, hvordan det er i dag og ikke, hvordan det måske bliver engang.
      2) Jeg forholder mig først og fremmest til ChatGPT og ikke Gemini – jeg savner fortsat at se et eneste eksempel på noget, som ChatGPT har transskriberet med rimelighed.
      Når det er sagt mener jeg, at det er stærkt betænkeligt at anvende en sprogmodel til transskribering, da den netop ikke er baseret på at læse verbatim, men vil forsøge at gætte, hvad der står – det er sådan en sprogmodel fungerer.
      Min holdning er desuden, at man kun kan anvende AI, hvis man er i stand til at kontrollere kilderne til oplysningerne – på grund af, at AI ofte hallucinerer. Hvis man som lægmand forsøger at bruge AI til transskribering er det fordi, man ikke kan læse teksten, og dermed har man heller ikke mulighed for at kontrollere, om det er korrekt. Det ser vi mange eksempler på på Facebook. Velmenende folk smider noget gammel tekst ind i AI og skriver: Her er, hvad AI mener, der står, men jeg aner ikke om det er rigtigt.
      Endelig har du et argument om økonomi. Det fremgår, at for at få kvalitet med Geminii er man nødt til at betale for det – man kan faktisk anvende en række gratis modeller i Transkribus, hvor man hver måned kan transskribere et antal sider, der nok overgår de flestes almindelige behov (men selvfølgelig ikke institutioners behov, fx DHO).
      Med venlig hilsen, Per

  2. Tak for et godt indlæg, og for at påpege fejl især ved ChatGPT. Jeg er enig at Google Gemini er betydelig bedre. Jeg prøvede med et screendump af det første eksempel fra arkivalieronline. Og her blev resultatet fra Gemini endnu bedre.Her er en transskribering af det viste dokument. Teksten er skrevet med dansk gotisk håndskrift (kurrentskrift) fra midten af 1800-tallet.
    Jeg har forsøgt at bevare den originale stavning og tegnsætning.
    Transskribering
    [Øverst til venstre:]
    No 2648. Indkom d. 17 Febr. 1844. [Initialer/Signatur]
    [Overskrift:]
    Afskrift
    af
    Viborg Landsoverrets Dom afsagte i Justitssagen
    mod Arrestanten Jens Jensen med Flere d. 22de Januar
    1844.
    [Brødtekst:]
    Dom
    Da Arrestanten Jens Jensen og Tiltalte, Ane
    Andersdatter, som under denne Sag sigtes for
    Tyverie, er det ved deres egne Tilstaaelse
    og Sagens øvrige Omstændigheder tilstrække-
    ligen godtgjort, at de den 5te August f. A. [forrige Aar]
    om Aftenen have, i Forening stjaalet for-
    nævnte Skifte, borttaget et 3 à 4 Maane-
    der gammelt Lam, som tilhørte Gaard-
    mand Anders Bundgaard og tillige med flere
    Faarerækker [?] stod tøiret paa bemeldte
    Mands Mark. Det saaledes stjaalne Lam
    slagtede de paa en i Nærheden værende Hede, og
    bragte, efter at have udtaget Indvoldene,
    det Øvrige af Lammet til Arrestantens
    Huus, hvor de med Hjælp af Arrestantens
    Hustru, den i første Instants medtiltalte
    Inger Marie Pedersdatter, — for hvis Vedkommende
    Bemærkninger og usikkerheder
    * “f. A.”: Dette er en standardforkortelse for “forrige Aar”. Da dommen er afsagt i januar 1844, refererer det til august 1843.
    * “for-nævnte Skifte”: Ordet “Skifte” bruges her sandsynligvis om et bestemt jordstykke eller en lod i markfællesskabet. Der er en lille usikkerhed om det første bogstav, men ud fra sammenhængen (at de har stjålet fra et bestemt sted) giver “Skifte” god mening.
    * “Faarerækker [?]”: Dette ord er det mest usikre. Det ligner “Faarerækker” eller “Faarerækkerne”. Det refererer sandsynligvis til, hvordan fårene stod tøjret (på række) på marken. Det kunne også læses som “Faareflokke”, men bogstaverne i midten ligner mere “r-æ-k-k-e”.
    * “Instants”: I teksten ligner det første bogstav et ‘D’ (Distants), men i juridisk terminologi og med gotisk håndskrift er der tale om “Instants” (det vi i dag kalder instans, f.eks. byretten som første instans).
    * Navne: Navnene Jens Jensen, Ane Andersdatter og Inger Marie Pedersdatter er meget tydelige. Gårdejeren hedder Anders Bundgaard.
    Kort resumé af indholdet:
    Dokumentet er en afskrift af en dom fra Viborg Landsoverret. Jens Jensen og Ane Andersdatter er fundet skyldige i tyveri af et 3-4 måneder gammelt lam fra gårdmand Anders Bundgaard i august 1843. De slagtede lammet på en hede og bragte kødet hjem til Jens Jensens hus, hvor hans kone, Inger Marie Pedersdatter, hjalp til (hun var medtiltalt i den tidligere retssag i første instans).

    Der er dog stadig fejl i denne. Og en måde at tjekke resultatet er at bede Gemini sammenligne de forskellige transkribering.
    Jeg bruger i øjeblikket Gemini som hjælp til at læse gamle avisartikler fra mediestream. Gemini transkribering er god til at skabe et overblik over indhold og hvis der er flere artikler om et emne fx en forbrydelse og retsag begynder Gemini at kæde oplysningerne sammen og er en god hjælp til at forstå informationerne.

    1. Kære Peter,
      Tak for kommentarerne. Ja, AI kan anvendes til fx analyser af tekst, forklaringer og sammenfatninger. Min blog handler alene om transskribering af ældre gotisk håndskrift. Se venligst min anden kommentar her hvorfor jeg mener det er betænkeligt at bruge AI til transskribering på grund af den måde, som sprogmodeller fungerer på.
      Med venlig hilsen,
      Per

  3. Har også “dårlige” erfaringer med chatgpt – primært det første svar er ofte dårlig. Omvendt kan man hjælpe sprogmodellen ved at rette åbenlyse fejl – dette giver ofte et lidt bedre svar.
    Omvendt som en anden også skriver er Gemini langt bedre i første forsøg – men også her kan man hjælpe modellen ved at oplyse konteksten. Et andet redskab til at forbedre resultatet er at give modellen større grundlag at arbejde ud fra – eks istedet for kun at give relevante linjer fra kirkebogen – så send hele siden men oplysning om hvilke specifik område der er interessant.

    Uanset når man bruger AI værktøjer (uanset formål) er en kritisk tilgang til resultatet – og ofte kan man forbedre resultatet ved at “oplyse” om fejlen.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Please reload

Please Wait