Gemini’s hallucinaties: wanneer fictie voor feit doorgaat

Large Language Models (LLMs) zoals ChatGPT, Mistral en Google Gemini kunnen waardevolle hulpmiddelen zijn voor (online) onderzoek, bijvoorbeeld voor het snel doorzoeken van grote hoeveelheden informatie of bij exploratief zoeken naar specifieke casussen. Voor een update van het boek Gestructureerde inlichtingenanalyse voor opsporing en openbare ordehandhaving (dat dit jaar onder een nieuwe titel verschijnt en wordt uitgebreid met extra hoofdstukken) zocht ik naar succesvolle Nederlandse voorbeelden van tijdlijnen in opsporings- of veiligheidscasussen. In plaats van zelf te zoeken, besloot ik eens te kijken of Google Gemini behulpzaam kon zijn.

Het model kwam met de casus van de “Arnhemse terreurzaak” en verwees naar de volgende bronnen:

Ik liet punt 3 buiten beschouwing, omdat dit een algemene bron is en ik toch specifiekere informatie over de casus wilde hebben. En dan kunnen een uitspraak en een CTIVD rapport vaak heel waardevolle bronnen zijn. Ik probeerde dus de inhoud van het genoemde CTIVD-rapport, de persberichten, het requisitoir in onderzoek “26Eisden” en de specifieke uitspraak te vinden. Wat bleek? Alle drie de concrete bronnen waren onjuist:

CTIVD-rapport 66 gaat niet over de Arnhemse terreurzaak, maar over de voortgang van de invoering van de Wet op de inlichtingen- en veiligheidsdiensten (WiV 2017).
De codenaam “26Eisden” klopt niet. Het onderzoek had een andere naam.
Het ECLI-nummer (NL:RBROT:2020:8938) verwijst naar een uitspraak in een personen- en familierechtszaak, die inhoudelijk niet openbaar is en niets met de zaak te maken heeft.

Toen ik Gemini confronteerde met deze onjuistheden, hield het model vol. Zo werd herhaaldelijk beweerd dat het ECLI-nummer correct was, met link en al:

De realiteit is dat de Arnhemse terreurzaak wel bestaat en in eerste aanleg inderdaad behandeld is door de rechtbank Rotterdam, (later door het gerechtshof Den Haag en uiteindelijk nog door de Hoge Raad). De uitspraak van de rechtbank Rotterdam is echter onder andere ECLI-nummers te vinden.

Wat betreft het CTIVD rapport, hoewel Gemini de titel corrigeerde, hield het vol dat het rapport wel degelijk relevant zou zijn:

Maar het onderzoek droeg een andere naam, rapport #66 van de CTIVD verscheen bijna een jaar voor de uitspraak en bevat geen reflectie op bevoegdheden die relevant waren voor de Arnhemse zaak.

Het is niet de eerste keer dat Gemini gruwelijk de plank misslaat en toch bij hoog en laag blijft volhouden dat het gelijk heeft. Recent kwam ik met Gemini zelfs in een circulaire discussie terecht: Gemini stelde dat boek A op pagina x, de bron van een claim was. Toen ik Gemini daarop uitdaagde (ik heb het boek liggen) kwam het model met boek B, pagina y als bron voor de claim. Weer een boek dat ik heb en weer onjuist. Dus Gemini weer uitgedaagd, en toen kwam de reactie, ‘Inderdaad je hebt gelijk, de juiste bron is boek A, pagina x’. Afijn, zo bleven we rondjes draaien.

Kortom, het is niet alleen dat Gemini hallucineren tot kunst heeft verheven en fictie als feit presenteert, maar zelf als het wordt uitgedaagd, blijft het volharden in de hallucinatie. Voor onderzoekers en professionals is dit de zoveelste waarschuwing: LLMs zijn niet betrouwbaar genoeg als onderzoeksassistent.