Udviklingen af de forskellige former for kunstig intelligens, vi mennesker kommunikerer med og gør brug af i hverdagen, hænger uløseligt sammen med sproget. Udviklingen af dansk sprogteknologi er en forudsætning for, at man kan interagere med nye teknologier på dansk. Danskernes Historie Online engagerer sig derfor nu i Dansk Sprogmodel Konsortium.
Der har de sidste par år været en stigende fokus på udvikling af danske sprogmodeller, og forskellige initiativer er blevet søsat for at styrke udviklingen. Disse er blevet støttet af det offentlige, og Digitaliseringsstyrelsen har afsat millionbeløb til arbejdet.
Man kan godt stille spørgsmålstegn ved, om et lille land som Danmark overhovedet kan være med i en sådan udvikling i forhold til de store kæmper som OpenAI med ChatGPT og tilsvarende. En dansk sprogmodel skal dog ikke direkte konkurrere mod disse på størrelse, men på andre parametre, der også er vigtige. Det skal være en model, der er åben og transparent i modsætning til den ”sorte boks” som de udenlandske modeller er. Den danske sprogmodel skal også i højere grad være baseret på dansk kultur og forståelse af danske samfundsforhold.
Særligt i den offentlige sektor i Danmark er man opmærksom på, at hvis man skal basere beslutninger og forståelse på en dansk sprogmodel, skal det være noget, der er baseret på danske værdier og en sikring af, at de danske love om ophavsret, databeskyttelse m.v. overholdes. Den skal også stilles gratis til rådighed, så det ikke bliver en kommerciel forretning.
Alexandra Instituttet, IBM Danmark og Dansk Erhverv er gået i spidsen sammen med en række danske private og offentlige organisationer for at skabe danske sprogmodeller. Dansk Sprogmodel Konsortium er et værdibaseret fællesskab, der er åbent for alle, der kan tilslutte sig dets formål og principper.
Udviklingen bliver støttet af staten. Frem til 2027 afsætter digitaliseringsminister Caroline Stage 20,7 millioner kroner til at udvikle målrettede sprogmodeller, der kan være bagtæppe for eksempelvis chatbots, som kan bruges i den offentlige sektor og hos private virksomheder.
Udviklingen af danske sprogmodeller kommer til at foregå hos flere af landets universiteter og Alexandra Instituttet i sammenslutningen Danish Foundations Models, der i forvejen har fået bevilget ti millioner kroner af næste års forskningsreserve. I en pressemeddelelse skriver Dansk Erhverv, at Dansk Sprogmodel Konsortium vil donere danske data til brug for træningen af Danmarks fælles sprogmodeller, der er baserede på Danish Foundation Models’ basismodel kaldet Munin.
Som nævnt har vi besluttet at tage imod invitationen til at være med i Dansk Sprogmodel Konsortium. Danskernes Historie Online vil selvfølgelig gerne støtte et sådant dansk initiativ, og vi har jo millioner af sider, hvoraf nogle helt givet opfylder konsortiets betingelser for anvendelse af tekster. Faktisk råder Danskernes Historie Online over Danmarks største digitale samling af danske tekster. Så lad os komme i gang!
Ja, det er så ikke så nemt som det lyder. Vi gav for over en måned siden tilsagn om at ville bidrage og fik at vide, at der i løbet af et par uger ville komme en aftale til underskrift. Den har vi så ikke set her efter en måned. Vi fik også at vide, at vi ville blive indkaldt til et møde, hvor vores bidrag kunne diskuteres, og det har vi heller ikke hørt noget om.
Sådan lidt diplomatisk sagt er jeg bange for, at vi er havnet i et forskningsmiljø, der tænker længe og grundigt, og hvor tiden står lidt stille. Jeg kan være bange for, at projektet er drevet af kærlighed til forskningen mere end kærlighed til brugbare modeller, og det er synd. Sprogmodeller og AI er i så hastig udvikling, at man meget nemt bliver løbet over ende af dem, der leverer noget umiddelbart brugbart til samfundet. Jeg har arbejdet lidt med Google Gemini på det seneste, og det er ret imponerende – også på dansk (og jeg undskylder for anvendelse af et amerikansk produkt).
Så får en dansk produceret sprogmodel et ben til jorden i praksis? Det vil jeg sætte et stort spørgsmålstegn ved. Og eksemplet og de to forskellige tilgange til udvikling udstiller glasklart, hvorfor det er amerikanerne og ikke europæerne, der løber med den innovative udvikling, der reelt bliver udbredt!
Per Hundevad Andersen
Leder, Danskernes Historie Online
Interessant projekt. Spændende, hvad der videre sker. Hvis der sker noget.
Jeg deler din begejstring for Gemini. På forespørgsel fortæller Gemini da også, at den “højst sandsynligt” er fodret med det digitale datamateriale i DHO. Det er måske forklaringen på den gode kvalitet på det historiske område. Er der nogen udsigt til, at DHO kan blive økonomisk kompenseret for at have gjort det hårde forarbejde, der muliggør Tech-giganternes datahøst, som de jo også udnytter kommercielt?
Hej Per,
Tak for kommentarerne. Hvis vi kunne spærre for, at søgemaskinerne høster data, ville vi gøre dette, men så spærrer vi desværre også for andre, der er velkomne. Her er det så yderligere svært, da Google og Google-søgninger er meget vigtige for vores synlighed.
Med venlig hilsen,
Per
Helt enig.
Jeg tilmeldte mig også nyhedsbrev, da det blev oplyst, at nu skulle vi have en dansk sprogmodel (hvad vi selvfølgelig skal have), men siden har jeg intet hørt.
Så hvis du kan skubbe lidt på, så ville det være fint.