Antoine Flahault : Vos questions apportent déjà les premiers éléments de réponse. En 2006, les Britanniques ont démarré ce projet littéralement pharaonique, d’une cohorte d’un demi-million de personnes volontaires pour être suivies, pour communiquer leurs données de santé avec toutes les garanties de confidentialité et de respect de la vie privée. Outre le génome complet de tout cet échantillon de population, le plus important au monde à ce jour, des informations détaillées sur l’état de santé des participants, leur poids, taille, circonférence abdominale, leur tension artérielle, rythme cardiaque, vision, audition, état physique, respiratoire, cardiovasculaire, leur santé mentale aussi. Ils donnent régulièrement des échantillons de sang, salive, urine. Ils participent à des enquêtes très détaillées sur leurs styles de vie, habitudes alimentaires, activités physiques, consommations de tabac et d’alcool, exposition au soleil, usage des écrans et toutes sortes d’informations utiles aux chercheurs en santé. Cent mille participants ont été appelés à s’équiper d’une application sur smartphone comptant leurs pas et enregistrant d’autres informations cardio-respiratoires, complétant ainsi les questionnaires déclaratifs. Un autre groupe, à nouveau de 100’000 participants a accepté de se prêter à une batterie d’examens d’imagerie médicale par IRM du cœur et du cerveau mais aussi de la densité osseuse et de l’œil. Bref les Britanniques, une fois de plus dans le domaine de la santé publique, ont montré la voie à suivre au reste du monde pour permettre de mieux informer les politiques de santé, de guider la recherche, et de répondre aux défis qui nous attendent en matière de prévention et de vieillissement par exemple. En mettant à la disposition des chercheurs ces données uniques, le Royaume-Uni permettra à coup sûr à la communauté scientifique de réaliser des progrès substantiels en termes de recherche médicale et de santé et à l’industrie pharmaceutique de développer des traitements prometteurs.

Ces données médicales et cette décision vont-elles permettre de faire progresser la recherche génétique ? Comment ces données pourraient-elles permettre de faire progresser la recherche en santé, notamment pour lutter contre le diabète, le cancer, la démence et d’autres maladies ? De nouveaux médicaments et traitements pourraient-ils être découverts et conçus grâce à cette base de données ?

Antoine Flahault : Les données de la UK Biobank ont déjà beaucoup parlé. Elles ont contribué à de très nombreuses recherches, avec plus de 9000 publications scientifiques, dans des domaines très nombreux comme la recherche par exemple sur les déterminants des maladies de Parkinson et d’Alzheimer, le diabète et les maladies cardiovasculaires. Presque pas un jour ne passe sans que l’on ne lise de nouvelles avancées dans le domaine de la santé. La connaissance unique au monde du génome complet de 500’000 personnes, qui a nécessité près de quatre ans d’analyses, permet d’envisager ce que l’on appelle une santé publique de précision et mieux cerner les facteurs de risques des maladies. Des gènes de l’obésité et du diabète ont ainsi été découverts par la UK Biobank, ouvrant l’espoir de nouveaux traitements contre ces maladies très répandues dans le monde.

Jean-Christophe Pagès : Indéniablement ! Et c’est déjà le cas, des articles spécialisés ont été publiés.

Ce type d’outil va permettre d’affiner la compréhension de la composante génétique, et également environnementale (exposition et histoire de vie) par des approches dites non supervisées, et pour certaines faisant appel à l’IA. C’est aussi par des approches plus classiques d’études de familles qu’il faudra confirmer les associations qui seront identifiées. La contribution de ces banques de données sera principalement sur l’identification de la susceptibilité aux maladies et la compréhension de la physiologie.

Sur le plan thérapeutique, c’est une autre question. Pour les formes génétiques des maladies que vous citez, l’identification de certains gènes pourra éventuellement guider des recherches d’approches médicamenteuses. Il faudra néanmoins un important travail expérimental (de laboratoire) puis des essais cliniques pour le confirmer. Dans le cas du traitement des cancers, nous nous orientons plus vers le séquençage des tumeurs, qui sont chacune particulière et qui sont donc à aborder dans leur spécificité. Mais ces banques de données pourront contribuer à comprendre l’influence du contexte génétique sur les réponses aux traitements, et c’est un point important pour les adapter aux patients.

Il est essentiel de comprendre que si ces types de données sont un élément qui ouvrent un chemin pour accéder à une connaissance, la confirmation de cette connaissance se fait par étapes. En matière de thérapie, il reste indispensable d’avoir une vision en retour de la mise en œuvre de chaque thérapie. Si de telles banques de données améliorent la recherche, elles ne se substituent pas aux études cliniques.

Existe-t-il d’autres exemples similaires de bases de données médicales précieuses en Europe ou en France ?

Antoine Flahault : Les Finlandais ont à l’exemple des Britanniques lancé un programme très similaire, avec le soutien et la collaboration étroite d’un consortium de grands laboratoires pharmaceutiques. C’est un projet très ambitieux qui a inclus 10% de la population. Les Québécois et les Chinois ont également mis en route des biobanques très intéressantes à la suite de la pandémie de COVID. Les Allemands ont lancé le projet NAKO voisin de la cohorte française Constances mais sans études du génome des participants à ce jour. Les Français envisagent d’inclure aussi le génome des participants très prochainement. Les Suisses ont un projet voisin encore dans les cartons.

Jean-Christophe Pagès : Comme je vous l’ai indiqué les islandais sont en avance. En France, de nombreuses structures disposent d’échantillons et de données. Elles ne sont toutefois pas interconnectées, et ne couvrent pas toutes cet ensemble de données que UK Biobank inclue, notamment la génétique. Mais elles ont permis d’obtenir des résultats dans des domaines ciblés, comme la susceptibilité aux infections. La cohorte Constance est la plus structurée et la plus proche de UK Bionbank.

Le gouvernement a identifié ce point d’amélioration. Un gros effort de mise en commun et de connexion est en cours à l’échelon national, il réunit l’INSERM, les CHU et hôpitaux privés ainsi que les Universités.

Pourquoi ces données de santé sont-elles généralement inutilisées ? Les craintes en matière de confidentialité et de protection des données dans le cadre de telles bases de données sont-elles justifiées ?

Antoine Flahault : On ne peut pas dire que les données de la UK Biobank soient sous-utilisées, avec plus de 9000 articles scientifiques publiés à ce jour provenant de 30’000 chercheurs de 100 pays différents. De même les Français avec la cohorte Constances de l’Inserm ou encore la cohorte de l’éducation nationale (E3N) ou celle de la CNAMTS et de l’Agence du médicament (EPIPHARE) sont très productifs tout comme les Allemands avec NAKO. Les financements publics sur ces plateformes sont donc de très bons investissements.

Jean-Christophe Pagès : Elles ne sont pas inutilisées, bien au contraire ! Une interrogation des moteurs de recherche de publications scientifiques montre à quel point ces banques sont une source de meilleure compréhension des maladies. Avec des banques antérieures, nombreuses sont les études épidémiologiques qui ont permis de développer des mesures de prévention, de suivi et l’identification de causes à des maladies, essentiellement sur la base de suivis de cohortes. Comme je l’indiquais les projet DeCode en Islande et déjà UK Biobank sont exploités.

Le point de la confidentialité est en effet central. Il a longtemps été un facteur de frein pour la constitution de ces banques. Mais il est aujourd’hui possible de correctement protéger informatiquement les données. De nombreux textes réglementaires et des conventions encadrent tant le stockage que les utilisations. Il reste nécessaire d’être vigilant. Il faut en particulier que ce bien commun, s’il débouche sur des applications, soit reconnu comme tel, et qu’une égalité d’accès et le partage équitable des retombées soient, si ce n’est garantis, l’objet de mesures correctives par les États. Ainsi, nous pourrons collectivement bénéficier de ces structures.

Comment la science et la recherche vont pouvoir progresser grâce à cette base de données ? Qu'est-ce que ces données vont permettre sur le plan scientifique et de la recherche ?  

Jean-Christophe Pagès : Comme je le disais précédemment ce sont des outils, parmi d’autres, les axes qu’ils vont faire évoluer touchent à : la mise en relation d’un contexte génétique avec une histoire de vie, un « exposome ». Ceci permettra d’identifier, s’ils existent, des moyens d’anticiper et de comprendre de nouvelles maladies. La difficulté est la quantité de données à traiter. C’est ici que la puissance de l’informatique pourra aider. Comme dans de nombreux domaines, pouvoir connecter des données à grande échelle est important, mais en tirer des informations se fait par étapes et après validation. Dans notre laboratoire, RESTORE, nous avons pu étudier une banque de données américaine par de nouvelles approches de traitement des données à l’aide d’outils d’apprentissage et de réseaux neuronaux. Ceci nous a permis de montrer leur puissance pour extraire des informations cliniques, mais nous a aussi confirmé le besoin de continuer à affiner les modalités d’études.

D’une façon générale, la compréhension des données sera un guide pour la recherche expérimentale, plus classique, qui reste aujourd’hui indispensable au moins à deux niveaux : connaissance des mécanismes des maladies et validation des effets thérapeutiques, par exemple.