Danskernes Historie Online (DHO) nærmer sig nu 50.000 titler online, og det er i sig selv noget af en bedrift, der værdsættes af rigtig mange. Bøgerne bliver i år downloadet mere end 2 mio. gange, men hvad man ikke tænker over, når man sidder med et PDF-dokument, er det store skjulte arbejde, der ligger bagved. Der er ikke kun tale om selve skanningen, men også den tid, der bliver anvendt til efterbehandlingen af selve skanningen – her investeres mange tusinde timer!
Efterbehandlingen består af flere dele. Der bliver udført OCR – altså tekstgenkendelse – af den skannede tekst, så den bliver søgbar. Det er en relativt simpel proces, hvor vi anvender FineReader, bortset fra gotisk skrift (fraktur), der bliver tekstgenkendt med vores særlige model af Transkribus – sidstnævnte proces er ret tidskrævende.
Derudover behandles alle skannede sider, så de bliver ”pæne”. Dette indebærer blandt andet:
- Konvertering af al tekst til sort/hvid og kontrastjustering for maksimal læsbarhed og minimal størrelse af PDF-filer
- Billeder bibeholdes som i originalen
- Sider rettes op så tekstlinjerne er vandrette
- Margin justeres, så teksten normalt står i midten
Også denne del af processen er ganske tidskrævende, og der er stort set ikke andre end DHO, der arbejder med skanningerne på denne måde. Men for os er det et kvalitetskrav, foruden at det gør materialet langt mere egnet til at blive læst på elektronisk form.
Lad mig vise et eksempel. Det er en bog fra 1753 skrevet af Tycho de Hofman med titlen ”Fundationer Paa de Legata, som ere Stiftede af Peder Lasson ..”. En bog, der i øvrigt beskrives sådan: ”En af de smukkeste danske rokokobøger, inspireret af den nye franske bogkunst, som Hofman erhvervede sig et godt kendskab til i omgang med en række af tidens fornemste bogkunstnere, især i Paris”.
Det følgende er et eksempel på en enkelt side fra denne bog (side 18).
Eksemplet illustrerer meget godt, hvorfor Danskernes Historie Online investerer så megen tid ikke alene i selve skanningen af bøger, men også i efterbehandlingen. Vi tænker også, at de digitale bøger skal kunne bruges om 10 år, 20 år og endnu længere ud i fremtiden. Derfor synes vi, at vores kulturarv i form af historiske bøger fortjener en god behandling.
Note: Samlingen af årsberetninger fra gymnasiale skoler ved Danskernes Historie Online er ikke behandlet efter disse principper.
Vi efterlyser flere frivillige ved Danskernes Historie Online, der ligger i Albertslund. Specielt søger vi:
- Personer til skanning af telefonbøger (foregår i Albertslund)
- Personer til efterbehandling af skanninger. Det forudsætter god forståelse af layout/grafisk æstetik og godt kendskab til brug af PC-programmer (arbejdet foregår hjemmefra efter oplæring)
Henvendelse til pan@slaegt.dk
Per Hundevad Andersen
Leder, Danskernes Historie Online
Kære Per Hundevad :
Endnu en gang mange tak for at dele information om Daskeres Historie Online med os brugere… et fantastisk stykke arbejde er gjort for hver eneste bog før den ender op som søgbar pdf fil på biblioteket… jeg har selv lavet pdf filer og lagt på biblioteket, og det var faktisk et større arbejde for sådan en amatør – så med den viden i baghovedet, forstår og værdsætter jeg endnu mere hvilken skatkiste biblioteket åbner for alle os brugere…
Kære Per Hundevad :
Endnu en gang mange tak for at dele information om Daskeres Historie Online med os brugere… et fantastisk stykke arbejde er gjort for hver eneste bog før den ender op som søgbar pdf fil på biblioteket… jeg har selv lavet pdf filer og lagt på biblioteket, og det var faktisk et større arbejde for sådan en amatør – så med den viden i baghovedet, forstår og værdsætter jeg endnu mere hvilken skatkiste biblioteket åbner for alle os brugere…
Et fantastisk godt stykke arbejde tak skal i have
Jeg følger med glæde og stort udbytte slægtsforskernes digitalisering.
Jeg må sige, I er fantastisk dygtige og flittige