Après avoir été mis en route prématurément dans le cadre de la lutte contre le Covid-19, le Health Data Hub attend désormais son coup d’envoi officiel, et la mise en route des premiers projets. Conçue pour faciliter l’utilisation des données de santé des Français dans le cadre de projets de recherche, la plateforme – qui sera hébergée par l'américain Microsoft – suscite méfiances et oppositions. Sur les planchers du salon AI Paris, organisé à Versailles les 14 et 15 septembre, le directeur scientifique du Health Data Hub et chercheur au CNRS Emmanuel Bacry, était présent pour défendre l'intérêt de partager les données de santé. L'Usine Nouvelle l'a contacté pour revenir sur le projet.
L’Usine Nouvelle – Le Health Data Hub a connu un départ anticipé en avril, dans le cadre de la crise du Covid-19. Où en est son déploiement ?
Emmanuel Bacry – Le Health Data Hub a été créé en décembre dernier. Le décret précisant son fonctionnement devait initialement paraître en avril, avant que le Covid-19 ne le reporte à octobre. Ce décret officialisera les modalités de fonctionnement du hub en régime normal. Pour faire face à la crise, un arrêté [publié le 22 avril] a permis à plusieurs institutions de manipuler des données de santé pour lutter contre la maladie, dont le Health Data Hub.
A-t-il été utile ?
C’est un peu tôt pour le dire… Même en crise, il faut passer plusieurs étapes pour accéder aux données de santé. Aujourd'hui, un seul projet est en cours, mené par le ministère de la Santé pour réaliser des statistiques à partir des données des services d’urgence. Cinq ou six autres projets sont dans les tuyaux. Les freins principaux sont l’accès aux données de santé et la mutualisation potentielle des données, c’est-à-dire le chaînage entre différentes bases entre elle. Car beaucoup d’algorithmes sur étagère existent déjà et pourraient rapidement donner des résultats. Si le hub avait été en plein régime de croisière pendant la crise, il aurait eu un impact significatif.
Quelles sont les limitations imposées pour accéder aux données de santé ?
En régime normal, il faudra déposer un projet précisant ce que vous souhaitez faire, à partir de quelles données. Nous travaillons avec un catalogue, qui comportera la base du Système national des données de santé (SNDS) historique, celle de la Carte vitale, mais aussi une dizaine d’autres bases. Mais le but du hub n’est pas de faire un endroit avec toutes les données de France, mais d’être capable de mettre à disposition, à la demande des équipes de recherche, les bases nécessaires à la conduite de leurs projets... N’importe quelle équipe de recherche ou entreprise privée souhaitant mener une recherche d’intérêt public peut déposer un projet au Hub, qui joue office de guichet. Chaque projet sera ensuite examiné du point de vue scientifique et éthique, par le Cesrees [Comité éthique et scientifique pour les recherches, les études et les évaluations dans le domaine de la santé] ainsi que par la Cnil [Commission nationale informatique et libertés] qui donnera sa décision d’accord final ou non. Ensuite seulement, nous ouvrons une bulle sécurisée sur la plateforme, où sont mises à disposition les données pseudonymisées nécessaires à la conduite du projet.
Plusieurs appels à projets ont déjà été menés, à quelles recherches doit servir le Health Data Hub ?
Le Hub propose une seule gouvernance pour plusieurs bases et offre de les chaîner entre elles. Ce qui les enrichit de façon phénoménale. Nous avons déjà fait deux appels à projets, et en comptant les projets Covid et d’autres recherches académiques, plus de 30 projets variés sont dans les tuyaux. C’est de la recherche, donc tous n’aboutiront pas, mais certains donneront des résultats enthousiasmants. Par exemple, une start-up [Implicity] prévoit d’utiliser les données de suivi en temps réel de pacemakers pour prédire les complications cardiaques, en mobilisant deux bases distinctes : celle des dispositifs médicaux qu’ils ont déjà, et la nôtre. Une autre travaille sur l’impact du Covid sur les soins de cancer du sein, car les parcours de soin ont été chamboulés…
Au-delà du choix de Microsoft en tant qu’hébergeur des données du hub, que vous justifiez pour des raisons techniques, votre solution comporte aussi des risques pour les données personnelles…
En effet, le propre des données pseudonymisées, c’est qu’elles sont potentiellement ré-identifiantes. On peut identifier quelqu'un en croisant des données pseudonymisées par exemple. Pour éviter cela, il faut des données anonymes, donc agrégées. Car il est impossible d’avoir des données individuelles anonymes. Le problème, c’est que 90% des algorithmes sont incapables de travailler sur des données qui ne sont pas individuelles. Les données pseudonymisées sont donc indispensables pour mener une recherche sérieuse, ce qu’il faut c’est réduire le risque pour qu’il soit le plus minime possible.
Comment faites-vous ?
La ré-identification est très complexe à mettre en oeuvre, mais aussi proscrite par la loi. Nous menons des audits régulièrement et l’ensemble de l’activité sur le hub sera enregistrée pour prévenir cela. Du point de vue de la cybersécurité et des fuites de données, il y a toujours un risque de piratage, mais nous sommes l’une des plateformes les plus sécurisées de France. Par ailleurs, on ne parle jamais du risque de non-ouverture des données, qui est lui aussi bien réel. Sans le SNDS par exemple, nous ne nous serions pas aperçu des effets néfastes du Médiator et des gens continueraient de mourir...
C'est une pente glissante qui permettrait de justifier beaucoup de choses...
Je ne dis pas qu’ouvrir les données est une évidence, ni que ça doit l’être pour tout le monde. Mais dans un débat informé, ce facteur de risques que pose la non-ouverture des données doit être pris en compte, et le risque doit être mis en balance avec le bénéfice. Ce qui ne me semble pas le cas dans le discours public autour du hub.





