AI hallucinationer

Et indlæg på Facebook fangede for nylig min interesse. En person havde spurgt ChatGPT om, hvor mange slægtstræer, der findes i Danmark. Svaret var blandt andet, at der findes 250.000 stamtræer, og at der findes ét enkelt familietræ, der har omkring 5,4 millioner individer. Undersøgelsen var blandt andet baseret på analyser af CPR-data.

Nu tænkte jeg selvfølgelig på, hvad det er for en undersøgelse. ChatGPT havde heldigvis en kilde til denne undersøgelse, nemlig “Comprehensive family trees of the Danish population”, udgivet i Proceedings of the National Academy of Sciences (PNAS), 2023. Forfatter skulle blandt andet være Alexander A. Gusev.

PNAS er en velkendt organisation, og på deres hjemmeside kan man både søge efter og læse deres ”Proceedings”, som er et anerkendt tidsskrift. Men nu kom problemet. Jeg kunne simpelthen ikke finde en artikel med den titel – eller en artikel af Alexander A. Gusev, der mindede om det!

Ah, tænkte jeg. Lad mig bruge Gemini til at finde denne artikel – den må jo være der et eller andet sted. Gemini er Google’s tilsvarende AI-maskine. Så jeg bad Gemini om at finde artiklen og fik at vide, at en sådan artikel ikke eksisterer. Gemini foreslog, at jeg selv søgte den på PNAS’ hjemmeside – hvad jeg allerede havde gjort.

Næste skridt var så, om ChatGPT selv kunne finde artiklen med den titel, da den var anvendt som reference i deres svar. Så jeg spurgte tilsvarende ChatGPT ”Find artikel Comprehensive family trees of the Danish population”.

En sådan artikel kunne ChatGPT heller ikke finde, men gav mig flere alternative muligheder. En af disse var en artikel med titlen ”A comprehensive map of genetic relationships among diagnostic categories based on 48.6 million relative pairs from the Danish genealogy”. Det skulle vise sig, at det var den kilde, der var blevet anvendt til det oprindelige svar på spørgsmålet om slægtstræer i Danmark.

Problemet er, at den faktiske artikel altså havde en anden titel. Men ikke nok med det, så var Alexander A. Gusev slet ikke involveret i dette projekt, og artiklen var i øvrigt publiceret i 2022 og ikke i 2023! Så den kilde, som ChatGPT havde anført i sit svar, var ren fiktion.

Antal slægtstræer i Danmark

Artiklen, som det så endelig lykkedes at finde, beskriver et videnskabeligt projekt, der på basis af CPR-data og danske sundhedsdata har analyseret arvelighed af forskellige sygdomme gennem flere generationer. Analysen og resultaterne har således ikke noget at gøre med slægtsforskning og begrebet ”slægtstræer”. Ordet ”træ” optræder slet ikke i artiklen, så også her har ChatGPT altså digtet videre oven på artiklens data.

Til gengæld har forskerne ved hjælp af CPR fundet 250.000 netværk med personer, der er forbundne familiemæssigt (artiklen kalder disse netværk for ”pedigree” der ofte oversættes til stamtavler). De 250.000 netværk tæller omkring 1.4 mio. personer. De omfatter helt ned til en enkelt relation (forældre – barn) og lidt større grupper af forbundne personer. Grupperne har et snit på 5-6 personer per netværk.

Det er også lykkedes at forbinde 5,4 millioner nulevende og afdøde personer i et enkelt stort netværk ved hjælp af CPR. Det skal understreges, at disse personer ikke nødvendigvis er i slægt med hinanden (dvs. har fælles aner), men blot er familiemæssigt forbundne. Således vil jeg være forbundet med mine svogre og svigerinder, der igen er forbundet med deres svogre og svigerinder osv. At kalde det for et slægtstræ eller stamtræ er derfor helt misvisende. Bemærk, at forskerne kun har data for op til 6 generationer.

Artiklen – hvor interessant den i øvrigt er – giver altså intet svar på spørgsmålet om antallet af slægtstræer. Desværre.

AI hallucinationer

At AI-maskiner får hallucinationer, er et velkendt begreb for dem, der arbejder med AI – men det er nok ikke det, som firmaerne reklamerer mest med. Det dækker over, at AI-maskinerne simpelthen opdigter noget, der ikke er korrekt. Det er mange personer måske godt klar over, men AI præsenterer disse opdigtede svar med lige så stor overbevisning som de korrekte svar. I eksemplet tidligere har AI tilmed opdigtet en reference til en videnskabelig artikel, der slet ikke eksisterer. Det er ultimativt en kæmpe udfordring for brugen af AI.

Noget af problemet ligger i de sprogmodeller, som ligger til grund for AI-maskinerne. De er blandt andet baseret på sandsynligheder for ord, der hører sammen. Så hvis jeg spørger ”Hvor ligger Eiffeltårnet?” får jeg helt givet det korrekte svar ”Paris”. Ganske enkelt fordi ordet ”Eiffeltårn” og ”Paris” kommer sammenhængende i mange forskellige kilder.

Spørger jeg til gengæld Gemini om, ”hvor ligger gården Hundevad” (der ligger i Vonsbæk sogn ved Haderslev) får jeg svaret: Gården Hundevad ligger på Sjælør Blvd. 28, 42, 2450 København! Et godt eksempel på en hallucination, da sprogmodellen ikke rigtig indeholder nogen sandsynlige sammenhænge på gården Hundevad. Så bliver det fyldt ud med noget, som der kun er en meget svag relation til, nemlig at virksomheden ”Hundegården” ligger på Sjælør Boulevard. Retfærdigvis skal det nævnes, at ChatGPT har det korrekte svar med arkiv.dk som kilde.

Endnu et eksempel. Spørger man ChatGPT, hvem der har krydset den Engelske Kanal hurtigst til fods, får man at vide, at det kan man jo ikke. Men man får også oplyst, at opfinderen Richard Browning krydsede den Engelske Kanal i 2021 med jetdragt på under 15 minutter. Det gjorde han bare ikke! Han brugte sin jetdragt til at krydse det lille Solent-stræde til Isle of Wight i 2019 (det tog 75 sekunder). Til gengæld forsøgte franskmanden Franky Zapata samme år at krydse den Engelske Kanal på hoverboard, men fuldførte ikke. Begge dele er omtalt i en artikel i The Mirror fra 2019, og det er sikkert baggrunden for den totale sammenblanding.

Forskere har i 2023 undersøgt disse problemer med AI. De fandt ud af, at (på det tidspunkt) var der hallucinationer i 27% af AI’s svar på spørgsmål – og i næsten halvdelen af svarene var der faktuelle fejl.

Så AI kan muligvis være en hjælp i en række situationer, men samtlige oplysninger og kilder skal tjekkes inden man bringer historien videre. Det er præcist det samme som når man anvender slægtsdata fra andres arbejde …

Per Hundevad Andersen
Leder, Danskernes Historie Online

3 thoughts on “AI hallucinationer

  1. Tjah, “en lille fjer, kan nemt blive til fem høns”
    Tak for en god og lærerig artikel !

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Please reload

Please Wait