ChatGPT als huisarts? Vergeet het maar: dit is waarom de digitale dokter door de mand valt

2 dagen geleden 1

Chatbots worden steeds slimmer en weten verrassend vaak de juiste diagnose te stellen als je een dossier vol symptomen, scans en testresultaten invoert. Maar de digitale dokter is nog lang niet klaar om de witte jas over te nemen. Nieuw onderzoek laat zien dat kunstmatige intelligentie nog altijd geen kaas heeft gegeten van een fundamenteel proces: écht klinisch redeneren.

Onderzoekers van Mass General Brigham namen 21 grote taalmodellen onder de loep, waaronder bekende systemen als ChatGPT, Gemini en Claude. Ze lieten de AI’s doktertje spelen met 29 realistische patiëntcasussen. Als alle informatie beschikbaar is – denk aan een duidelijke omschrijving van de klachten, testresultaten en scanfoto’s – komen de modellen in meer dan 90 procent van de gevallen tot de juiste einddiagnose. Dat klinkt indrukwekkend (en dat is het ook), maar er zit een addertje onder het gras. Want juist in de cruciale tussenstappen, waar artsen hun denkwerk doen, gaat het mis. AI-systemen worstelen enorm met het opstellen van een zogeheten differentiaaldiagnose: een lijst van mogelijke aandoeningen die het ziektebeeld kunnen verklaren, gebaseerd op klachten en symptomen.

De kunst van het twijfelen

En laat dat nu precies de kern van de geneeskunde zijn. “Ondanks alle vooruitgang zijn standaard AI-modellen nog niet klaar om zelfstandig in de kliniek te worden ingezet. Ze zijn slecht in klinisch redeneren”, legt hoofdonderzoeker Marc Succi uit. Medische expertise draait niet per se om het juiste antwoord, maar vooral om het proces ernaartoe. “Het opstellen van mogelijke diagnoses vormt de basis van klinisch redeneren. Het is de kunst van de geneeskunde die AI voorlopig nog niet kan nabootsen.” Met andere woorden: een AI kan prima het juiste antwoord geven als alle puzzelstukjes voor z’n neus liggen, maar het lukt nog voor geen meter om de puzzelstukjes boven water te krijgen.

Denken als een echte arts

De onderzoekers ontwikkelden een nieuwe beoordelingsmethode voor hun studie en doopten haar PrIME-LLM. Deze aanpak kijkt naar elke stap in het denkproces, van de eerste vermoedens tot de uiteindelijke behandeling. En dat levert een eerlijker beeld op. Sommige modellen scoren namelijk goed op einddiagnoses, maar zakken door het ijs bij het kiezen van tests of het formuleren van hypotheses.

Traditionele scores zouden dat maskeren, maar PrIME-LLM legt die zwakke plekken feilloos bloot. Er blijken nogal wat verschillen te zijn tussen de AI-modellen. Nieuwere systemen presteren beter dan oudere varianten, maar zelfs de best scorende AI’s blijven steken rond de 78 procent. Menselijke artsen trainen jarenlang op deze complexe denkstappen, maar zijn dan ook een kei in de differentiaaldiagnose.

AI heeft context nodig

Een belangrijke uitkomst van de studie is dat AI-modellen erg afhankelijk zijn van de informatie die ze gevoed krijgen. Naarmate het team meer gegevens toevoegde, zoals labuitslagen en scans, steeg de nauwkeurigheid van de modellen enorm. Dat is allemaal leuk en aardig in een theoretische setting, maar gaat niet werken in de praktijk. Patiënten komen zelden de dokterskamer binnen met een compleet dossier in de hand. Het diagnoseproces begint meestal met beperkte informatie: vage klachten en een handjevol aanwijzingen die omhoog borrelen tijdens een vraaggesprek.

Onderzoeker Arya Rao verwoordt het treffend: “Door AI stap voor stap te testen, behandelen we het niet langer als een examenkandidaat, maar als een arts.” En juist dan zie je de zwakte ervan. “Deze modellen zijn goed in het benoemen van een einddiagnose als alle data compleet zijn, maar ze struikelen vaak al over de eerste horde, wanneer er nog weinig bekend is.”

Mens blijft onmisbaar

AI kan een waardevol hulpmiddel zijn, maar is op dit moment niet in staat om de arts te vervangen. “We willen met onze studie het verschil duidelijk maken tussen hype en realiteit”, zegt Succi. Het principe van de ‘human in the loop’ blijft tot op heden fier overeind staan. Een menselijke arts die meekijkt, interpreteert en bijstuurt is onmisbaar. AI mag dan razendsnel kunnen rekenen en patronen herkennen, maar het weet zich geen raad met de onzekerheid, nuance en intuïtie van de geneeskunde. Voorlopig blijft de differentiaaldiagnose dus nog voor een groot deel mensenwerk.

Wat is een differentiaaldiagnose?
Een differentiaaldiagnose (DDx) is een gestructureerde lijst van mogelijke aandoeningen die een patiënt kan hebben, gebaseerd op klachten en symptomen. Het is een medische methode om tot de juiste diagnose te komen door het systematisch uitsluiten van aandoeningen, vaak gerangschikt van meest naar minst waarschijnlijk.

Voorbeeld: bij een patiënt met koorts, hoofdpijn en een stijve nek kan de differentiaaldiagnose bestaan uit meningitis (hersenvliesontsteking), griep, of sinusitis.
Stappen bij het opstellen:
Anamnese: Medische voorgeschiedenis en huidige klachten uitvragen.
Lichamelijk onderzoek: Fysieke tekenen van ziekte identificeren.
Formuleren differentaaldiagnose: Opstellen lijst van mogelijke diagnoses.
Aanvullend onderzoek: Tests uitvoeren om diagnoses te bevestigen of uit te sluiten.
Definitieve diagnose: De overblijvende, meest waarschijnlijke aandoening vaststellen.In de psychiatrie, zoals bij de DSM-5-TR, wordt de differentiaaldiagnose ook gebruikt om simulatie (doen alsof), middelenmisbruik en medische aandoeningen uit te sluiten.

Lees het hele artikel