Actualités de l'Urgence - APM

09/04 2024
Retour

L'INTÉRÊT DES GRANDS MODÈLES DE LANGAGE POUR LE DIAGNOSTIC ET LA RECHERCHE MIS EN AVANT AU CONGRÈS EMOIS

LILLE, 9 avril 2024 (APMnews) - Trois études présentées au congrès Emois (Evaluation, management, organisation, santé) début avril ont constaté un intérêt à utiliser des grands modèles de langage (LLM) pour tirer parti de bases de données textuelles en santé, telles que les comptes rendus de radiologie, les données hospitalières du système national de données de santé (SNDS) ou encore les dossiers patients informatisés (DPI).

Les LLM, popularisées auprès du grand public à travers ChatGPT, sont une forme d'intelligence artificielle (IA) utilisée dans les agents conversationnels, entraînées pour prédire la probabilité d'une séquence de mots donnée à partir du contexte de mots précédents. Appartenant à la famille de l'"IA générative", cette technologie est déjà utilisée dans le monde de la santé, notamment pour l'automatisation de comptes rendus médicaux (cf dépêche du 14/03/2024 à 17:01).

Au congrès Emois, qui s'est tenu les jeudi 4 et vendredi 5 avril à Lille, plusieurs études ont démontré son efficacité pour prédire un diagnostic ou pour réaliser des recherches au sein de grandes bases de données, a constaté APMnews.

Une équipe de chercheurs de l'Université de Lille, menée par l'interne en radiologie au CHU de Lille Bastien Le Guellec, a ainsi exploré l'efficacité d'un grand modèle de langage afin d'estimer la proportion d'examens positifs parmi les IRM encéphaliques réalisées aux urgences pour céphalées, à partir des comptes rendus radiologiques textuels.

Les chercheurs sont partis du constat que ces textes médicaux "rédigés au cours des soins courants" contiennent des données riches, à haut potentiel de réutilisation, mais qui se heurtent à la "difficulté d'extraire automatiquement des informations d'intérêt depuis des textes libres, riches en négations, périphrases et synonymes".

Le modèle de langage libre de droit Vicuna a été appliqué sur les comptes rendus de près de 2.400 IRM encéphaliques réalisées aux urgences du CHU de Lille en 2022 afin d'extraire quatre variables d'intérêt préalablement définies: la présence de céphalées dans l'indication, la présence d'une injection du produit de contraste décrite dans le protocole, la normalité ou non de l'examen, la présence d'une anomalie pouvant expliquer ces céphalées. Ses performances ont été comparées à celles de quatre radiologues ayant réalisé cette tâche manuellement.

Selon les résultats présentés, le score de précision de Vicuna a dépassé 98% pour trois critères: celui de l'extraction de l'indication (99%), celui sur l'injection de produit de contraste (99%) et pour la classification de l'examen (98%). Pour la détection de l'anomalie, le score a atteint 82%.

Les chercheurs en concluent qu'un LLM gratuit et open source "permet d'extraire automatiquement des variables d'intérêt depuis des milliers de comptes rendus de radiologie, sans nécessité de réentraînement" ni de dressage a priori d'une liste de mots à détecter.

Entraîner un LLM sur les données PMSI pour améliorer ses prédictions

Dans une autre étude présentée au congrès lillois, une équipe menée par l'adjointe au chef du bureau "innovation et évaluation en santé" de la direction de la recherche, des études, de l'évaluation et des statistiques (Drees), Milena Suarez-Castillo, s'est penchée sur l'entraînement d'un de ces modèles de langage sur les données hospitalières du SNDS, afin d'améliorer ses capacités de prédiction.

L'objectif était de répliquer des études menées à l'étranger. Une étude britannique menée par des chercheurs d'Oxford et publiée dans Nature en 2020, nommée "BEHRT: Transformer for Electronic Health Records", avait utilisé l'outil de traitement du langage naturel pré-entraîné développé par Google, BERT (Bidirectional Encoder Representations from Transformers), et l'avait appliqué à des données de dossiers patients électroniques issus de la base britannique Clinical Practice Research Datalink (CPRD). L'étude "Med-BERT", publiée en 2021, portait pour sa part sur des données américaines.

Observant que ces applications de modèles de deep learning appliqués au langage naturel ont permis de "modéliser des séquences de soin des patients à partir de larges bases de données médico-administratives" avec "des performances notables autant pour prédire l'incidence de certaines pathologies (Med-BERT) que pour le recours futur au système de soin (BEHRT, CERT-BERT…)", l'équipe de la Drees a souhaité les appliquer aux données du SNDS.

Dans l'étude, une "architecture de type BERT" a été pré-entraînée sur les diagnostics des parcours hospitaliers issus du programme de médicalisation des systèmes d'information (PMSI) afin d'obtenir un "modèle de fondation, soit une représentation généraliste d'un parcours de soins hospitalier pré-entraînée sur des jeux de données volumineux et non labellisés", ont expliqué les chercheurs dans le résumé.

Le modèle est entraîné à prédire des diagnostics aléatoirement masqués dans les séquences. Il peut ensuite être spécialisé dans "plusieurs tâches prédictives spécialisées en aval". Dans l'étude, trois tâches ont été définies afin de prédire: le motif d'hospitalisation lors de la prochaine visite hospitalière, l'incidence d'une insuffisance cardiaque chez les patients diabétiques, l'occurrence d'une admission aux urgences dans la suite du parcours.

Sur les deux premières tâches, le modèle a obtenu des performances similaires à celles observées dans l'étude britannique, selon les résultats présentés dans le résumé de l'étude. Sur la troisième tâche, le modèle français a obtenu des "performances significativement supérieures à un modèle classique de régression logistique pénalisée", ont constaté les chercheurs.

Dans sa conclusion, l'équipe indique qu'elle va "mobiliser la richesse des séquences de soin de l'ensemble du SNDS" et que ce passage nécessitera "des adaptations au niveau de l'architecture du modèle ainsi que de la représentation des séquences initiales".

Une technologie qui permet des études sur une large cohorte avec un critère textuel

La troisième étude s'étant penchée sur les LLM au congrès Emois porte sur la valorisation textuelle des DPI dans le domaine de la chirurgie proctologique. Une équipe de la direction information médicale et intelligence des données (DIMID) des hôpitaux Paris Saint-Joseph & Hôpital Marie-Lannelongue, a souhaité appliquer un algorithme basé sur le traitement automatique des langues (TAL) sur les données recueillies dans les DPI de patients ayant subi une chirurgie hémorroïdaire au sein de l'hôpital, afin d'y identifier les cas de rétention urinaire, une complication fréquente de cette chirurgie.

L'étude, monocentrique, a porté sur 4.245 chirurgies réalisées entre le 1er janvier 2018 et le 7 avril 2023. La mention de la survenue d'une rétention urinaire postopératoire a été recherchée avec le module de TAL en accès libre EDS-NLP dans les questionnaires de soins, les observations médicales, et les comptes rendus d'hospitalisation. La recherche s'est faite à partir d'une liste de mots-clés établie avec les cliniciens "sous forme d'expressions régulières pour les détecter malgré d'éventuelles fautes de typographie", a-t-il été précisé.

Le module a permis de "caractériser le contexte des mots-clés" et un logigramme décisionnel a été construit pour "déterminer, selon les mots-clés et leur contexte, la présence ou non" d'une rétention urinaire.

Parmi les 3.837 dossiers classés sans rétention urinaire, une relecture de 400 dossiers tirés au hasard "n'a retrouvé aucune erreur". Dans les 179 dossiers classés avec RU, la relecture de l'ensemble des dossiers a corrigé cinq erreurs de classification. 229 dossiers "n'ont pas pu être classés et ont nécessité la lecture d'un médecin pour classification", ont rapporté les auteurs.

L'étude a montré un risque de rétention urinaire de 4,4% avec cette chirurgie.

Pour les chercheurs, le recours au module TAL EDS-NLP a permis "de mener une étude portant sur une large cohorte avec un critère de jugement principal exprimé sous forme textuelle". "La pertinence de cette approche est confortée par les relectures de dossiers opérées et la cohérence des résultats obtenus avec la littérature", ont-ils souligné dans leur conclusion.

mjl/ab/APMnews

Les données APM Santé sont la propriété de APM International. Toute copie, republication ou redistribution des données APM Santé, notamment via la mise en antémémoire, l'encadrement ou des moyens similaires, est expressément interdite sans l'accord préalable écrit de APM. APM ne sera pas responsable des erreurs ou des retards dans les données ou de toutes actions entreprises en fonction de celles-ci ou toutes décisions prises sur la base du service. APM, APM Santé et le logo APM International, sont des marques d'APM International dans le monde. Pour de plus amples informations sur les autres services d'APM, veuillez consulter le site Web public d'APM à l'adresse www.apmnews.com

Copyright © APM-Santé - Tous droits réservés.

Informations professionnelles

09/04 2024
Retour

L'INTÉRÊT DES GRANDS MODÈLES DE LANGAGE POUR LE DIAGNOSTIC ET LA RECHERCHE MIS EN AVANT AU CONGRÈS EMOIS

LILLE, 9 avril 2024 (APMnews) - Trois études présentées au congrès Emois (Evaluation, management, organisation, santé) début avril ont constaté un intérêt à utiliser des grands modèles de langage (LLM) pour tirer parti de bases de données textuelles en santé, telles que les comptes rendus de radiologie, les données hospitalières du système national de données de santé (SNDS) ou encore les dossiers patients informatisés (DPI).

Les LLM, popularisées auprès du grand public à travers ChatGPT, sont une forme d'intelligence artificielle (IA) utilisée dans les agents conversationnels, entraînées pour prédire la probabilité d'une séquence de mots donnée à partir du contexte de mots précédents. Appartenant à la famille de l'"IA générative", cette technologie est déjà utilisée dans le monde de la santé, notamment pour l'automatisation de comptes rendus médicaux (cf dépêche du 14/03/2024 à 17:01).

Au congrès Emois, qui s'est tenu les jeudi 4 et vendredi 5 avril à Lille, plusieurs études ont démontré son efficacité pour prédire un diagnostic ou pour réaliser des recherches au sein de grandes bases de données, a constaté APMnews.

Une équipe de chercheurs de l'Université de Lille, menée par l'interne en radiologie au CHU de Lille Bastien Le Guellec, a ainsi exploré l'efficacité d'un grand modèle de langage afin d'estimer la proportion d'examens positifs parmi les IRM encéphaliques réalisées aux urgences pour céphalées, à partir des comptes rendus radiologiques textuels.

Les chercheurs sont partis du constat que ces textes médicaux "rédigés au cours des soins courants" contiennent des données riches, à haut potentiel de réutilisation, mais qui se heurtent à la "difficulté d'extraire automatiquement des informations d'intérêt depuis des textes libres, riches en négations, périphrases et synonymes".

Le modèle de langage libre de droit Vicuna a été appliqué sur les comptes rendus de près de 2.400 IRM encéphaliques réalisées aux urgences du CHU de Lille en 2022 afin d'extraire quatre variables d'intérêt préalablement définies: la présence de céphalées dans l'indication, la présence d'une injection du produit de contraste décrite dans le protocole, la normalité ou non de l'examen, la présence d'une anomalie pouvant expliquer ces céphalées. Ses performances ont été comparées à celles de quatre radiologues ayant réalisé cette tâche manuellement.

Selon les résultats présentés, le score de précision de Vicuna a dépassé 98% pour trois critères: celui de l'extraction de l'indication (99%), celui sur l'injection de produit de contraste (99%) et pour la classification de l'examen (98%). Pour la détection de l'anomalie, le score a atteint 82%.

Les chercheurs en concluent qu'un LLM gratuit et open source "permet d'extraire automatiquement des variables d'intérêt depuis des milliers de comptes rendus de radiologie, sans nécessité de réentraînement" ni de dressage a priori d'une liste de mots à détecter.

Entraîner un LLM sur les données PMSI pour améliorer ses prédictions

Dans une autre étude présentée au congrès lillois, une équipe menée par l'adjointe au chef du bureau "innovation et évaluation en santé" de la direction de la recherche, des études, de l'évaluation et des statistiques (Drees), Milena Suarez-Castillo, s'est penchée sur l'entraînement d'un de ces modèles de langage sur les données hospitalières du SNDS, afin d'améliorer ses capacités de prédiction.

L'objectif était de répliquer des études menées à l'étranger. Une étude britannique menée par des chercheurs d'Oxford et publiée dans Nature en 2020, nommée "BEHRT: Transformer for Electronic Health Records", avait utilisé l'outil de traitement du langage naturel pré-entraîné développé par Google, BERT (Bidirectional Encoder Representations from Transformers), et l'avait appliqué à des données de dossiers patients électroniques issus de la base britannique Clinical Practice Research Datalink (CPRD). L'étude "Med-BERT", publiée en 2021, portait pour sa part sur des données américaines.

Observant que ces applications de modèles de deep learning appliqués au langage naturel ont permis de "modéliser des séquences de soin des patients à partir de larges bases de données médico-administratives" avec "des performances notables autant pour prédire l'incidence de certaines pathologies (Med-BERT) que pour le recours futur au système de soin (BEHRT, CERT-BERT…)", l'équipe de la Drees a souhaité les appliquer aux données du SNDS.

Dans l'étude, une "architecture de type BERT" a été pré-entraînée sur les diagnostics des parcours hospitaliers issus du programme de médicalisation des systèmes d'information (PMSI) afin d'obtenir un "modèle de fondation, soit une représentation généraliste d'un parcours de soins hospitalier pré-entraînée sur des jeux de données volumineux et non labellisés", ont expliqué les chercheurs dans le résumé.

Le modèle est entraîné à prédire des diagnostics aléatoirement masqués dans les séquences. Il peut ensuite être spécialisé dans "plusieurs tâches prédictives spécialisées en aval". Dans l'étude, trois tâches ont été définies afin de prédire: le motif d'hospitalisation lors de la prochaine visite hospitalière, l'incidence d'une insuffisance cardiaque chez les patients diabétiques, l'occurrence d'une admission aux urgences dans la suite du parcours.

Sur les deux premières tâches, le modèle a obtenu des performances similaires à celles observées dans l'étude britannique, selon les résultats présentés dans le résumé de l'étude. Sur la troisième tâche, le modèle français a obtenu des "performances significativement supérieures à un modèle classique de régression logistique pénalisée", ont constaté les chercheurs.

Dans sa conclusion, l'équipe indique qu'elle va "mobiliser la richesse des séquences de soin de l'ensemble du SNDS" et que ce passage nécessitera "des adaptations au niveau de l'architecture du modèle ainsi que de la représentation des séquences initiales".

Une technologie qui permet des études sur une large cohorte avec un critère textuel

La troisième étude s'étant penchée sur les LLM au congrès Emois porte sur la valorisation textuelle des DPI dans le domaine de la chirurgie proctologique. Une équipe de la direction information médicale et intelligence des données (DIMID) des hôpitaux Paris Saint-Joseph & Hôpital Marie-Lannelongue, a souhaité appliquer un algorithme basé sur le traitement automatique des langues (TAL) sur les données recueillies dans les DPI de patients ayant subi une chirurgie hémorroïdaire au sein de l'hôpital, afin d'y identifier les cas de rétention urinaire, une complication fréquente de cette chirurgie.

L'étude, monocentrique, a porté sur 4.245 chirurgies réalisées entre le 1er janvier 2018 et le 7 avril 2023. La mention de la survenue d'une rétention urinaire postopératoire a été recherchée avec le module de TAL en accès libre EDS-NLP dans les questionnaires de soins, les observations médicales, et les comptes rendus d'hospitalisation. La recherche s'est faite à partir d'une liste de mots-clés établie avec les cliniciens "sous forme d'expressions régulières pour les détecter malgré d'éventuelles fautes de typographie", a-t-il été précisé.

Le module a permis de "caractériser le contexte des mots-clés" et un logigramme décisionnel a été construit pour "déterminer, selon les mots-clés et leur contexte, la présence ou non" d'une rétention urinaire.

Parmi les 3.837 dossiers classés sans rétention urinaire, une relecture de 400 dossiers tirés au hasard "n'a retrouvé aucune erreur". Dans les 179 dossiers classés avec RU, la relecture de l'ensemble des dossiers a corrigé cinq erreurs de classification. 229 dossiers "n'ont pas pu être classés et ont nécessité la lecture d'un médecin pour classification", ont rapporté les auteurs.

L'étude a montré un risque de rétention urinaire de 4,4% avec cette chirurgie.

Pour les chercheurs, le recours au module TAL EDS-NLP a permis "de mener une étude portant sur une large cohorte avec un critère de jugement principal exprimé sous forme textuelle". "La pertinence de cette approche est confortée par les relectures de dossiers opérées et la cohérence des résultats obtenus avec la littérature", ont-ils souligné dans leur conclusion.

mjl/ab/APMnews

En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour réaliser des statistiques de visites.