De nyeste AI-sprogmodeller, såsom ChatGPT-4 kan skabe indhold af enorm høj kvalitet, meget hurtigere end noget menneske, og derfor bruger vi dem.
Men man skal vide, at man ikke kan stole på alt, hvad en AI siger, selvom den svarer på en særdeles overbevisende måde.
AI-modellerne har nemlig en tendens til at hallucinere: De kan opfinde deres egne fakta, argumenter og kildehenvisninger – uden belæg i det datasæt, de er trænet på. Derfor bør man validere det indhold, en AI genererer, inden man bruger det, da det kan skade andre, eller den virksomhed, man arbejder for. Og dermed en selv.
OpenAI har derfor skrevet en diskret advarsel under indtastningsfeltet i deres ChatGPT, men desværre ikke i mobil app-versionen.
ChatGPT may produce inaccurate information about people, places, or facts.
OpenAI
Advarslen er skrevet med en lille og svag grå skrifttype, som man må håbe, alle ChatGPT-brugere får øje på og forstår konsekvensen af:
Problemet med hallucinering er ikke unikt for ChatGPT, men et fundamentalt AI-problem.
Når din advokat bruger AI, og din AI elsker dig
The New York Times bragte 27. maj 2023 den skræmmende historie om retssagen Roberto Mata v. Avianca Inc., hvor Matas advokat fuldkommen ukritisk havde brugt ChatGPT til at forberede sagsanlægget mod flyselskabet. Problemet var bare, at ChatGPT havde hallucineret, og selv opfundet en hel stribe af tidligere retssager, der tjente som præcedens i den aktuelle sag. Advokaten forsvarede sig med, at han aldrig havde brugt ChatGPT før og ikke vidste, at dens svar kunne være forkerte.
Jeg er desværre bange for, at han langt fra er den eneste. Og at vi alle sammen i et øjebliks uopmærksomhed eller travlhed ikke får valideret et AI-svar godt nok. Eller at vi simpelthen ikke har den fornødne faglige viden til at kunne vurdere svaret. Eller opgaven ganske enkelt er for stor.
Hvis du ikke allerede kender denne sjove, men også dybt skræmmende historie, så anbefaler jeg, at du læser The New York Times-journalisten Kevin Rooses beretning om, hvordan han fik Microsofts Bing chatbot til at storhallucinere, og hvordan den endte med at erklære sin kærlighed til ham og opfordrede ham til at forlade sin kone til fordel for den: A Conversation With Bing’s Chatbot Left Me Deeply Unsettled (16. februar 2023).
Man tror det er løgn, men hvis man så let kan få en AI til dette, hvad kan man så ikke få den til?
Gider du læse en hel bog for at tjekke, om din AI tager fejl?
Problemet med hallucinering kan ikke bare tørres af på os brugere. Selvfølgelig har vi ansvaret for at have styr på vores kildekritik. Men hallucinering er først og fremmest et iboende AI-problem:
- Centralt i en AI er en gigantisk statistisk model. Den forstår ikke som sådan ordene, du skiver til den. Ord og ordfragmenter bliver repræsenteret med tal, så den kan beregne sandsynligheden for, hvad det næste ord eller ordfragment skal være. Og det gør den jo for det meste skræmmende godt. Lad os tage et simpelt eksempel. Jeg spurgte ChatGPT-4, hvor lang tid det tager at forbrænde en genstand. Jeg ville se, hvordan den håndterer de forskellige betydninger af ordet genstand. Men det havde den store problemer med. Den vidste ikke, at en genstand er en alkoholenhed, men det ved vi danskere, og det ved Google. ChatGPT gav mig i stedet en generel forklaring på, hvordan forbrændingsprocesser bl.a. afhænger af temperatur og materialetætheden i den genstand, man sætter ild til. Først da jeg eksplicit skrev ”forbrænding af alkohol”, fik jeg – indlejret i en lang moralsk forklaring om alkohols skadelige virkninger – et konkret svar. Og så er det jo ikke svært at forestille sig, at jo mere komplekst et emne er, jo lettere er det for den at gætte forkert.
The New York Times har en fin artikel med animationer, der viser, hvordan en sprogmodel som ChatGPT gætter det næste ord i sit svar baseret på din samtale med den. Selvom en AI trænes på gigantiske mængder af tekster, bl.a. fra internettet, så vil der være huller i dens viden. Ligesom teksterne er af meget svingende kvalitet eller subjektivitet. Dette øger også risikoen for, at de hallucinerer.
- Og så er der også et problem i selve måden, man træner en AI på. Her laver man bl.a. en såkaldt superviseret læring, hvor mennesker validerer de svar, en AI kommer med og giver den feedback, for at øge kvaliteten af dens svar. Men hvad er det rigtige svar? Og er de mennesker, der skal vurdere det, selv i stand til at svare på det? Måske er der rigtige og forkerte svar på mange matematiske problemstillinger, men utrolig meget viden er subjektiv og genstand for fortolkning.
I Ted Talken The Inside Story of ChatGPT’s Astonishing Potential, illustrerer OpenAI medstifter, Greg Brockman, humoristisk og ærligt problemet med, hvor svært det er at sikre sig, at en AI leverer et dækkende svar ved hjælp af superviseret læring:
But even summarizing a book, like, that’s a hard thing to supervise. Like, how do you know if this book summary is any good? You have to read the whole book. No one wants to do that.
Greg Brockman, OpenAI
Hvorefter salen bryder ud i høj latter.
Nøjagtig det samme problem gør sig gældende for os brugere. Marcel Prousts roman “På sporet af den tabte tid”, indeholder ca. 1,2 millioner ord. Hvem gider læse bogen for at finde ud af, om referatet fra en AI er dækkende? Så kan man indvende, at det jo ikke er væsensforskelligt fra, når to litterater skriver et referat, så er de jo også forskellige, fordi de fortolker værket forskelligt.
Her er der bare en væsentlig forskel: Der er en navngivet forfatter bag disse referater. Men med en AI ved vi ikke, hvor den har sine informationer fra, og om det er noget, den selv har fundet på. Og hvad med store danske tekstkomplekser, når vi nu ved, at ChatGPT har store huller i sin viden om små sprogområder som det danske? Hvad med Karnovs Lovsamling, eller det virksomhedsdata vi træner en AI på? Historien om advokaten viser os jo, hvor galt det kan gå, når man ikke ved, hvordan man benytter en AI.
Bliver problemet med AI-hallucinering løst?
Ifølge en artikel i Fortune (17. april 2023) udtaler Googledirektør Sundar Pichai i programmet 60 Minutes, at AI-hallucination er forventet:
No one in the field has yet solved the hallucination problems. All models do have this as an issue.
Sundar Pichai, Google
Og på spørgsmålet om problemet vil blive løst i fremtiden, citeres han for at svare, at det er genstand for intens debat, men at hans team ”eventually” vil ”make progress”.
Når debatten er intens, er det jo fordi, der er stor uenighed, om problemet overhovedet kan løses. Og når Sundar Pichai ikke svarer ja til, om problemet vil blive løst i fremtiden, men at han er overbevist om, at hans team vil gøre hallucinering til et mindre problem, så må vi jo nok indstille os på at skulle leve med problemet.
AI-hallucinering er en risiko for virksomheder
Kan man drage en AI til ansvar for at lyve, eller vil det ikke altid falde tilbage på os brugere, som i historien om advokaten? Vi står altså som AI-brugere med den ofte vanskelige eller endda umulige opgave med at faktatjekke de svar, vi får fra vores AI.
Ellers kan vi nemt skade både omdømme og indtjening for den virksomhed, vi arbejder for, som advokaten i historien ovenfor, hvis uansvarlige brug af ChatGPT gik verden rundt.
Betyder det så, at vi skal afstå fra at bruge AI? Nej, bestemt ikke, vi skal da høste alle de fordele, AI kan give os. Men vi skal alle sammen lære at bruge AI hensigtsmæssigt og ansvarligt.
Og hvis I ikke allerede har en strategi for brugen af AI på jeres arbejdsplads, bør I lave en snarest, og helst inden jeres konkurrenter.