VIVE LA RÉVOLUTION
Accueil du site > Comment publier un article > Les dangers de l’IA en médecine diagnostique (PDF)

Les dangers de l’IA en médecine diagnostique (PDF)

samedi 9 juillet 2022, par anonyme (Date de rédaction antérieure : 9 juillet 2022).

Rethinking Algorithm Performance Metrics for Artificial Intelligence in Diagnostic Medicine

https://jamanetwork.com/journals/ja…

JAMA. Published online July 8, 2022. doi:10.1001/jama.2022.10561

Matthew A. Reyna, PhD, MS1 ; Elaine O. Nsoesie, PhD2 ; Gari D. Clifford, DPhil, MA, MSc1,3

PDF : http://mai68.org/spip2/IMG/pdf/jama…

Traduction Google :

Repenser les mesures de performance des algorithmes pour l’intelligence artificielle en médecine diagnostique.

La promesse de l’intelligence artificielle (IA) d’améliorer et de réduire les inégalités dans l’accès, la qualité et la pertinence d’un diagnostic de haute qualité reste largement non tenue. De vastes ensembles de données cliniques, une capacité de calcul étendue et des outils d’apprentissage automatique hautement développés et accessibles ont donné lieu à de nombreuses publications qui décrivent des approches algorithmiques performantes pour une variété de tâches de diagnostic. Cependant, de telles approches restent largement inadaptées dans la pratique clinique.

Cet écart entre la promesse et la pratique - le gouffre de l’IA - a de nombreuses causes. Certaines raisons sont endémiques au domaine plus large de l’IA, notamment un manque de généralisabilité et de reproductibilité pour les algorithmes publiés. D’autres raisons sont plus spécifiques à l’IA clinique, telles que le manque de diversité de genre, de race et d’ethnie dans les ensembles de données cliniques et une évaluation insuffisante des algorithmes en milieu clinique. La déconnexion entre les mesures de performance des algorithmes et les réalités du flux de travail et du processus de prise de décision d’un clinicien est un problème fondamental mais souvent négligé. L’inclusion du contexte clinique dans les mesures de performance de l’IA pour optimiser et évaluer les algorithmes cliniques pourrait rendre les outils d’IA plus pertinents sur le plan clinique et facilement adoptés

Points clés pour l’excellence du diagnostic

Les mesures de performance des algorithmes de diagnostic clinique intègrent rarement des fonctionnalités pertinentes pour l’utilité clinique et le flux de travail

Le développement et l’application de mesures cliniquement pertinentes peuvent affiner et améliorer l’adoption d’outils d’intelligence artificielle (IA) dans la pratique clinique

Les mesures de performance doivent évaluer explicitement le biais et l’équité dans les algorithmes de diagnostic

L’engagement entre les cliniciens et les développeurs d’algorithmes est essentiel pour développer des mesures cliniquement pertinentes

Les mesures de performance sont utilisées pour évaluer les modèles d’IA et faciliter l’interprétation et la hiérarchisation des modèles à usage clinique. Par exemple, la sensibilité et la spécificité d’un test de diagnostic décrivent la précision du test pour détecter une maladie, et l’aire sous la courbe caractéristique de fonctionnement du récepteur reflète la capacité d’un modèle à différencier les patients en bonne santé des patients atteints d’une maladie ou d’une maladie. Cependant, malgré l’utilisation de ces mesures et d’autres mesures traditionnelles dans les milieux cliniques, les mesures n’ont aucun contexte clinique : tous les diagnostics corrects sont traités comme également positifs, et tous les diagnostics incorrects sont considérés comme également négatifs. De plus, personne ne sait que certains algorithmes sont appliqués à plusieurs reprises pour suivre l’état d’un patient au fil du temps, déclenchant des fausses alarmes répétées qui contribuent à la méfiance envers l’algorithme et à la fatigue des alarmes.

Peu de mesures de performance existantes intègrent le contexte clinique, et différents problèmes cliniques nécessitent des mesures différentes. Deux de ces mesures, développées pour une série de compétitions publiques connues sous le nom de PhysioNet Challenges, illustrent ces problèmes.

Pour le défi PhysioNet 2019, les équipes ont été invitées à développer des algorithmes de prédiction précoce du sepsis.1 Les algorithmes ont effectué des prédictions horaires du sepsis pour identifier les patients à traiter jusqu’à 12 heures avant la reconnaissance clinique de l’apparition du sepsis. Une métrique de performance dépendante du temps a été conçue pour récompenser ou pénaliser les algorithmes, en fonction de l’utilité clinique de leurs prédictions et de leur probabilité d’améliorer les résultats pour les patients.1 Cette métrique a fourni des scores élevés pour les prédictions précoces de sepsie afin de permettre une administration plus précoce de liquides et d’antibiotiques, avec des scores plus élevés pour les prédictions antérieures. La métrique a fourni des scores faibles pour les prédictions de sepsie tardives et manquées qui entraîneraient des traitements retardés. Il a également fourni des scores faibles pour les fausses alarmes qui ont réduit la confiance dans l’algorithme, mais moins que les prédictions de sepsie tardives et manquées. Les médecins de soins intensifs ont contribué à l’élaboration de cette mesure, qui quantifiait leurs préférences quant à la valeur d’un traitement précoce, leur capacité à retarder le traitement et la tolérance du personnel aux fausses alarmes. Les valeurs précises de ces quantités sont sujettes à débat, mais elles doivent être choisies pour refléter les besoins des utilisateurs des algorithmes.

Pour les challenges 2020 et 2021,2,3 les équipes ont été sollicitées pour développer des algorithmes permettant d’identifier 26 anomalies cardiaques à partir d’électrocardiogrammes (ECG). Les algorithmes ont rapporté des conditions qui seraient ensuite suivies par des tests de confirmation, donc une métrique de performance a été conçue pour encourager les diagnostics corrects mais fournir des scores différents pour différents diagnostics erronés.2,3 Cette métrique a fourni des scores plus élevés pour les diagnostics erronés qui ont entraîné le même suivi. les tests et le traitement comme étant le bon diagnostic (p. ex., classer à tort la fibrillation auriculaire comme un flutter auriculaire). Cependant, la métrique a fourni des scores beaucoup plus faibles pour manquer une arythmie plus cliniquement significative qui nécessiterait une attention urgente (par exemple, une classification erronée de la fibrillation ventriculaire en tant que fibrillation auriculaire). Les cardiologues ont participé à la création de cette métrique et ont défini des récompenses et des pénalités reflétant les risques et les similitudes diagnostiques de chaque paire d’anomalies cardiaques pouvant être diagnostiquées à partir de l’ECG.

Ces compétitions illustrent des exemples de modèles généralisables pour la conception de mesures de performance avec un contexte clinique. L’objectif n’est pas de remplacer entièrement les mesures de performance traditionnelles et universelles par un autre ensemble de mesures de ce type. Au lieu de cela, l’objectif est d’identifier les principales caractéristiques d’un problème clinique et de concevoir des mesures de performance qui améliorent l’utilité clinique des algorithmes pour les cliniciens qui les utilisent. Cela nécessite de travailler avec des cliniciens pour définir des objectifs cliniquement pertinents et pratiquement réalisables pour les algorithmes à optimiser. De multiples fonctions et contraintes de coût sont possibles et souvent nécessaires pour décrire des objectifs qualitativement différents, tels que la précision du diagnostic, la rapidité, les coûts des soins de santé et la capacité ; ils sont également nécessaires pour aider à évaluer les biais potentiels et les performances différentielles entre les populations.4 Le signalement des métriques nouvelles et traditionnelles facilite la caractérisation des compromis entre les métriques et aide l’utilisateur à comprendre pourquoi des valeurs de précision légèrement inférieures pourraient être tolérées pour réduire considérablement les biais ou les erreurs. taux d’alarme.

Il existe de nombreuses objections potentielles et raisonnables à l’introduction de nouvelles mesures de performance pour les tâches cliniques. Des métriques mal conçues peuvent causer plus de mal que de bien. Par exemple, les besoins en matière de santé sont corrélés aux coûts des soins de santé, et les coûts sont souvent plus faciles à quantifier. Cependant, l’optimisation directe des coûts des soins de santé plutôt que des besoins de santé peut contribuer aux disparités en matière de santé.5 L’optimisation aveugle des mesures de substitution peut être associée à des biais et à des inégalités, qui sont des problèmes qui doivent être explicitement pris en compte avec toute mesure. Une prolifération de mesures de performance peut également entraver la comparaison d’interventions similaires. Cependant, le cadre commun fourni par les métriques traditionnelles est en partie une illusion, car les résultats pour la même métrique sur différentes bases de données ou tâches cliniques sont intrinsèquement incomparables.

Plusieurs suggestions peuvent être utiles aux cliniciens et aux décideurs qui conçoivent et utilisent des outils d’IA. Premièrement, les cliniciens ne doivent pas supposer que les mesures traditionnelles, telles que l’aire sous la courbe caractéristique de fonctionnement du récepteur, se traduisent par des effets cliniques, car ces mesures de performance ne sont généralement pas optimisées ou évaluées pour des contextes cliniques spécifiques.

Deuxièmement, les cliniciens devraient être impliqués dans l’orientation de la conception des métriques pour s’assurer que les algorithmes produisent des résultats cliniquement utiles et centrés sur le patient afin de minimiser les dommages imprévus.

Troisièmement, les cliniciens devraient donner la priorité à l’utilisation d’outils d’IA avec des explications bien documentées et compréhensibles des mesures de performance, car cela pourrait permettre de prendre des décisions éclairées sur l’opportunité et la meilleure façon d’utiliser l’algorithme.

Quatrièmement, les cliniciens doivent s’attendre à une évaluation prospective des algorithmes en milieu clinique. L’évaluation dans divers contextes démontre l’utilité potentielle d’un algorithme pour les résultats cliniques réels.6

Cinquièmement, les utilisateurs d’outils d’IA devraient exiger que les développeurs d’IA mettent à disposition le code complet d’un algorithme, y compris les données de formation et le code, afin que les métriques utilisées pour développer les algorithmes soient explicites et modifiables.

Sixièmement, les mesures de performance diagnostique doivent tenir compte des performances différentielles dans les sous-groupes de population, en particulier pour les conditions qui peuvent se présenter différemment en fonction de la race, de l’origine ethnique ou du sexe.

Les cliniciens et autres décideurs en matière de soins de santé ont la responsabilité de choisir des algorithmes transparents, cliniquement utiles et efficaces pour diverses populations de patients. Pour faciliter une décision éclairée, les équipes de développement d’algorithmes doivent également être diversifiées et travailler en étroite collaboration avec les cliniciens pour développer et mettre en œuvre des mesures de performance de l’IA qui intègrent le contexte clinique. Ce processus devrait également reconnaître et refléter la diversité des objectifs et des parties prenantes en médecine diagnostique afin d’améliorer la pertinence et la représentation des outils d’IA dans la pratique clinique.

Informations sur l’article

Auteur correspondant : Gari Clifford, DPhil, MA, MSc, Département d’informatique biomédicale, Woodruff Memorial Research Building, 101 Woodruff Circle, 4th Floor East, Atlanta, GA 30322 (gari@gatech.edu).

Publié en ligne : 8 juillet 2022. doi :10.1001/jama.2022.10561

Divulgations de conflits d’intérêts : le Dr Clifford rapporte la conduite des défis PhysioNet, des subventions du National Institute of Biomedical Imaging and Bioengineering (NIBIB) dans le cadre de la subvention R01EB030362 des National Institutes of Health (NIH) (qui soutient les défis PhysioNet) pendant la conduite de l’étude. Le Dr Reyna rapporte avoir mené les défis PhysioNet, des subventions du NIBIB dans le cadre de la subvention NIH R01EB030362 (qui prend en charge les défis PhysioNet) pendant la conduite de l’étude. Aucune divulgation supplémentaire n’a été signalée.

Financement/Soutien : Cet article a été soutenu, en partie, par une subvention du NIBIB sous le NIH (R01EB030362).

Rôle du bailleur de fonds/commanditaire : le NIBIB et le NIH n’ont joué aucun rôle dans la préparation, la révision ou l’approbation du manuscrit ou dans la décision de soumettre le manuscrit pour publication.

Références

1. Reyna MA, Josef CS, Jeter R, et al. Prédiction précoce de la septicémie à partir de données cliniques : le défi PhysioNet/Computing in Cardiology 2019.  Crit Care Med. 2020 ;48(2):210-217.

doi :10.1097/CCM.0000000000004145

PubMed Google Scholar Crossref

2. Perez Alday EA, Gu A, J Shah A, et al. Classification des ECG à 12 dérivations : le PhysioNet/Computing in Cardiology Challenge 2020.  Physiol Meas. 2021 ;41(12):124003.

doi :10.1088/1361-6579/abc960

PubMed Google Scholar Crossref

3. Reyna MA, Sadr N, Perez Alday EA, et al. Problèmes de classification automatisée des ECG multidérivés utilisant des étiquettes et des populations hétérogènes. Consulté le 7 juillet 2022.

https://moody-challenge.physionet.o…

4. Yang D, Fineberg HV, Cosby K. Excellence diagnostique. JAMA. 2021 ;326(19):1905-1906.

doi:10.1001/jama.2021.19493

Article PubMed Google Scholar Crossref

5. Mullainathan S, Obermeyer Z. Sur l’iniquité de prédire A tout en espérant B.  AEA Pap Proc. 2021 ;111:37-42.

doi :10.1257/pandp.20211078

Google Scholar Crossref

6. Nsoesie EO. Évaluation des applications d’intelligence artificielle en milieu clinique. JAMA Netw Open. 2018 ;1(5):e182658-e182658.

doi :10.1001/jamanetworkopen.2018.2658

Article PubMed Google Scholar Crossref

Répondre à cet article

SPIP | squelette | | Plan du site | Suivre la vie du site RSS 2.0