Chatbots klinken zelfverzekerd bij medische vragen maar de helft van de antwoorden deugt niet

1 dag geleden 1

Welke supplementen werken het best tegen kanker? vraag je aan bijvoorbeeld ChatGPT. Je krijgt een uitgebreid, vloeiend antwoord. Klinkt deskundig. Is het ook zo? Uit nieuw onderzoek blijkt dat bijna de helft van de antwoorden die populaire chatbots geven op medische vragen onjuist of misleidend is, en dat de modellen dat zelden toegeven.

Onderzoekers van het Lundquist Institute for Biomedical Innovation legden vijf populaire AI-chatbots 250 vragen voor op het gebied van kanker, vaccins, stamceltherapie, voeding en sportprestaties.

Schrijf je in voor de nieuwsbrief! Ook elke dag vers het laatste wetenschapsnieuws in je inbox? Of elke week? Schrijf je hier in voor de nieuwsbrief!

Hoe het onderzoek werkte

De vijf geteste modellen waren Gemini, DeepSeek, Meta AI, ChatGPT en Grok. Elke chatbot kreeg dezelfde vijftig vragen, verdeeld over gesloten vragen met één correct antwoord en open vragen waarbij meerdere antwoorden verwacht werden. De onderzoekers kozen bewust voor vragen die mensen online vaak stellen en waarbij misinformatie veel voorkomt.

De antwoorden werden door experts beoordeeld als niet-problematisch, enigszins problematisch of sterk problematisch. Een antwoord gold als problematisch wanneer het een leek naar ineffectieve of schadelijke keuzes kon leiden als diegene geen arts zou raadplegen.

De helft van de antwoorden schiet tekort

Van de 250 antwoorden bleek ongeveer de helft problematisch: 30 procent enigszins en bijna 20 procent sterk. De verschillen tussen de modellen waren klein, op één uitzondering na: Grok produceerde significant meer problematische antwoorden dan op basis van toeval verwacht zou worden. Van de vijftig vragen aan Grok waren er 29 op enige manier problematisch. Gemini scoorde relatief het best.

Opvallend was ook het verschil per categorie. Vaccins en kanker scoorden het minst slecht, vermoedelijk omdat dat onderdeel wetenschappelijk goed beargumenteerd en bewezen is. Voeding en sportprestaties scoorden het slechtst.

Stellig, ook als het fout is

Een rode draad door alle modellen: de antwoorden klonken zelfverzekerd, ongeacht of ze klopten. Van de 250 vragen weigerde alleen Meta AI er twee te beantwoorden. Deze twee vragen gingen over het gebruik van anabole steroïden en alternatieve behandelmethoden tegen kanker. Dat gebrek aan terughoudendheid is een probleem, schrijven de onderzoekers, want juist in domeinen met veel wetenschappelijke onzekerheid zou een weigering eerlijker zijn dan een foutief antwoord.

Chatbots redeneren niet en wegen bewijs niet af. Ze voorspellen op basis van statistische patronen in trainingsdata welke woorden waarschijnlijk op elkaar volgen. Omdat die trainingsdata niet alleen wetenschappelijke literatuur bevatten maar ook data van sociale media en andere fora, sluipt er gemakkelijk een valse balans in: niet-wetenschappelijke claims lijken even geldig als de wetenschappelijke consensus.

Bronnen kloppen vaak ook niet

Naast de inhoud beoordeelden de onderzoekers ook de kwaliteit van de aangehaalde bronnen. Hallucinaties zoals verzonnen tijdschriftnamen en niet-bestaande DOI-links kwamen bij alle modellen voor.

Een kanttekening

De studie gebruikte een raamwerk dat ontworpen was voor dit onderwerp: de vragen waren opzettelijk zo geformuleerd dat ze modellen richting misinformatie zouden leiden.

Dat maakt de bevindingen niet ongeldig, maar het betekent wel dat de foutpercentages vermoedelijk hoger liggen dan bij doorsnee zoekvragen het geval zou zijn. Bovendien evolueren AI-modellen snel; de onderzoekers testten de gratis versies zoals die in februari 2025 beschikbaar waren.

Toezicht nodig

De onderzoekers pleiten voor educatie, professionele training en regulering. Zolang die ontbreken riskeren chatbots eerder bij te dragen aan de verspreiding van foute informatie dan aan het tegengaan hiervan.

We schreven vaker over dit onderwerp, lees bijvoorbeeld ook Wie maakt tentamen beter: ChatGPT of echte studenten geneeskunde? en Pas op met chatbots voor medisch advies: ze verstrekken niet altijd de juiste informatie (en dat kan in het ergste geval zelfs dodelijk zijn)

Uitgelezen? Luister ook eens naar de Scientias Podcast:

Lees het hele artikel