Une nouvelle approche d’analyse automatique de réponses de questionnaires patients basée sur les modèles de langages

2022, 21 June

| 3 min read

Authors: L. Deplante, P. Hayat, M. Rollot

Date: 21 June 2022

CONFERENCE/VALUE IN HEALTH INFO:
N° 403243, 2022-06, AFCROS 2022, Paris, France

Abstract

INTRODUCTION : 

Les questionnaires à réponse ouverte représentent un outil précieux de la recherche épidémiologique pour recueillir la perception des patients sur leur maladie, leur qualité de vie ou leur prise en charge, et améliorer ces dernières [1]. L’analyse des “topics” (i.e. sujets) de réponses peut être automatisée via des méthodes de traitement automatique du langage (Natural Langage Processing, NLP). Ces méthodes permettent notamment d’extraire les thèmes principaux des textes et de les regrouper par topics. Les méthodes de topic modeling traditionnellement utilisées ([2], [3]) se prêtent cependant mal au format généralement court des réponses de questionnaires. En effet, ces modèles font l’hypothèse que les textes regroupent plusieurs sujets et se basent sur la co-occurrence de mots pour identifier les topics. Dans le cas des textes courts, les co-occurrences sont rares, et ces modèles conventionnels donnent des résultats de mauvaise qualité.

MÉTHODE :

Nous introduisons une nouvelle méthodologie permettant de regrouper automatiquement des textes courts par topics en fonction de leur proximité sémantique plutôt que de la co-occurrence des mots. Des représentations vectorielles incorporant le sens des textes (appelées “embeddings”) sont d’abord obtenues avec un modèle de langage pré-entraîné Sentence-BERT [4]. Afin de faciliter l’interprétation, les dimensions de ces embeddings sont réduites avec l’algorithme UMAP [5], puis un modèle de clustering regroupe les textes sémantiquement proches [6]. Les clusters sont ensuite labellisés à partir des mots les plus prévalents contenus dans les textes qu’ils regroupent afin d’obtenir les topics de réponses finaux.

RÉSULTATS :

Cette méthodologie a été implémentée pour analyser les réponses de plusieurs milliers de patients à un questionnaire sur les causes de la non-observance de leur traitement. Les réponses contenaient en moyenne 5 à 7 mots. Notre méthode a permis de dégager une quinzaine de topics parmi les réponses des patients et de regrouper les réponses en fonction de ces topics. Après vérification et comparaison, les regroupements obtenus avec notre approche sont sémantiquement plus cohérents et interprétables que ceux obtenus avec les méthodes conventionnelles de topic modeling.

CONCLUSION :

Cette méthode permet d’extraire les tendances d’un grand volume de réponses courtes. Elle peut être utilisée pour une large palette d’applications en santé, pour catégoriser des réponses de patients à des questionnaires, ou recueillir de l’information sur les médias sociaux, par exemple rechercher des effets secondaires sur des forums de santé en ligne.

SHARE THIS

OTHER PUBLICATIONS