Face à la multiplication des outils d’IA en santé, une question revient souvent : comment mesurer objectivement la performance d’un expert médical IA ?
Pour y répondre, nous avons choisi de nous appuyer sur un cadre d’évaluation exigeant et reconnu : les Épreuves Dématérialisées Nationales (EDN).
Les EDN constituent aujourd’hui un référentiel standardisé, commun à l’ensemble des étudiants en médecine en France. Leur format en QCM permet d’évaluer simultanément :
• La maîtrise des connaissances médicales.
• La capacité à raisonner face à des cas cliniques.
• La précision et la cohérence des réponses.
Utiliser les EDN, ce n’est pas chercher un effet d’annonce, mais s’appuyer sur un standard objectif pour évaluer la fiabilité d’un expert médical IA.
Un référentiel exigeant et représentatif
Les EDN reposent sur des questions à choix multiples visant à tester non seulement les connaissances théoriques, mais aussi la capacité à raisonner face à des situations cliniques complexes. Leur niveau d’exigence en fait un standard objectif pour apprécier la fiabilité d’un outil d’aide médicale.
Pour cette évaluation, nous avons sélectionné 263 questions issues des EDN 2024, afin de disposer d’un corpus suffisamment large et représentatif.
Certaines catégories de questions ont volontairement été exclues :
• La Lecture Critique d’Article (LCA)
• Les questions nécessitant l’analyse d’images
• Les questions strictement médico-légales
Une double méthode de correction pour plus de robustesse
1. Une évaluation selon un barème de QRU
Dans un premier temps, toutes les questions ont été corrigées selon une méthode volontairement exigeante, dite de Question à Réponse Unique (QRU) stricte.
Le principe est simple :
• 1 point est attribué uniquement si l’ensemble des réponses est correct.
• 0 point est attribué dès lors qu’une seule réponse est erronée.
Cette approche, plus sévère que les modalités habituelles d’évaluation des étudiants, permet de mesurer la précision maximale du raisonnement.
Avec cette approche, notre Expert médical IA a obtenu 237 bonnes réponses sur 263, soit un taux de réussite de 90 %.
2. Une correction alignée sur les modalités des EDN
Dans un second temps, une correction plus proche des pratiques réelles des EDN a été appliquée, en tenant compte de la nature des questions :
- QRU pour les questions à réponse unique (1 point ou 0),
- QRM pour les questions à réponses multiples, avec un barème progressif :
• 1 point si aucune réponse incorrecte,
• 0,5 point si une réponse incorrecte,
• 0,2 point si deux réponses incorrectes,
• 0 point si plus de deux réponses incorrectes
Avec l'approche pseudo-officielle, notre Expert Médical IA a obtenu 241,5 bonnes réponses sur 263, soit un taux de réussite de 91 %.
Des performances alignées avec les meilleurs niveaux étudiants
En combinant ces deux approches, nous avons pu évaluer de manière fiable et précise les performances de notre Expert Médical IA aux EDN. Les résultats montrent une maîtrise solide des connaissances médicales, avec des scores parmi les tops 2% des meilleurs étudiants français.
Notre Expert Médical IA est donc un outil précis, performant et fiable destiné à accompagner les étudiants ainsi que les professionnels de santé dans leur quotidien.
Pour y accéder : https://ai.pulselife.com
