Il y a vingt ans, 92 % du génome humain était décodé. Un consortium de plus de cent scientifiques vient de réussir à décoder les 8 % restants, établissant ainsi la carte complète du génome humain. Ces travaux ont fait l’objet de plusieurs publications et commentaires fin mars dans diverses revues, dont Science. Le pionnier français de l’exploration du génome humain en parle.
Interview de Jean Weissenbach, parue dans l’Humanité du 12 avril 2022. Nous la reproduisons avec leur aimable autorisation, Propos recueillis par Anna Musso, journaliste scientifique
Article paru dans le numéro 36 de progressistes (avril-mai-juin 2022)

Anna Musso : En tant que pionnier biologiste et généticien, quel regard portez-vous sur ces nouveaux travaux qui permettent d’accéder au premier séquençage complet d’un génome humain ?
Jean Weissenbach : Un monde sépare ce qu’on peut faire aujourd’hui de ce qui se faisait il y a vingt ans, et même plus récemment. Il y a vingt ans, nous considérions ceci comme du détail : c’était avant tout de l’ADN répétitif, qui ne devait pas réserver de grosses surprises ; or ce n’est pas tout à fait le cas. Cela dit la portée de tout cela reste difficile à estimer et beaucoup des choses vues étaient attendues. D’une manière générale, ces 200 millions de bases supplémentaires vont faire l’objet de commentaires nombreux et alimenter toutes sortes d’hypothèses et de spéculations. Ce travail, véritable tour de force expérimental et informatique, permet de répondre à certaines questions qui sont à l’origine du projet, mais il va générer encore plus de questions et d’interrogations. Ce qui est toujours excitant en science.
Un monde sépare ce qu’on peut faire aujourd’hui de ce qui se faisait il y a vingt ans, et même plus récemment. Il y a vingt ans, nous considérions ceci comme du détail.
A.M. : Quelles sont les technologies qui ont pu faciliter sa mise à nu ?
J.W. : Nous entrons dans les technologies de séquençage de 3e génération, qui permettent de lire des séquences sur des longueurs considérables : 10 000 à 20 000 bases, voire plus, même si ces séquences comportent beaucoup d’erreurs. Une même séquence peut être lue de très nombreuses fois, et donc les erreurs qui sont surtout aléatoires d’une lecture à l’autre peuvent être corrigées. Les corrections reposent sur des méthodes purement informatiques qui analysent et comparent les séquences lues. Une fois lues, il faut assembler les fragments les uns aux autres. Ce qui dans le cas de répétitions est pratiquement impossible, à moins de pouvoir couvrir – lire – de très grands fragments, ce que permettent ces nouvelles méthodes de séquençage. Ces nouveaux procédés de séquençage sont aussi accompagnés de développements logiciels très importants pour assembler des séquences très semblables.

En outre, les cellules normales contiennent deux copies de génomes – un de la mère, l’autre du père –, ce qui complique beaucoup l’assemblage, surtout des séquences de nature répétée. Les auteurs ont recouru à un môle hydatiforme, une anomalie qui peut se produire lors de la formation de l’embryon. Les cellules ne contiennent alors qu’une copie de génome provenant d’un seul parent. Il n’y a alors aucune variation qui pourrait provenir du génome de l’autre parent.
A.M. : En quoi est-ce important de décoder un génome humain entier ?
J.W. : Ces régions répétées qui représentent globalement 8 % d’un génome n’étaient pas connues en détail. On sait cependant depuis longtemps qu’il y a en gros trois sortes de régions constituées de répétitions à la queue leu leu sur de très longues portions. Il s’agit d’abord des extrémités des chromosomes, les télomères, puis des centromères qui jouent un rôle crucial dans la séparation des chromosomes lors de la division des cellules, et enfin de grandes portions qui portent de très nombreuses copies des gènes des ARN ribosomiques (ARNr) qui constituent l’ossature des ribosomes. Les ribosomes sont les machineries qui fabriquent les protéines dans les cellules.
Ce travail, véritable tour de force expérimental et informatique, permet de répondre à certaines questions qui sont à l’origine du projet, mais il va générer encore plus de questions et d’interrogations. Ce qui est toujours excitant en science.
On avait aussi remarqué que ces régions répétées pouvaient renfermer des gènes codant des protéines, mais personne ne savait combien. Quand vous ne connaissez une île que par son contour et un arbre qui dépasse à l’horizon, vous ne pouvez pas vous empêcher d’aller voir ce qu’elle renferme. Ici, c’est pareil : les gens voulaient savoir avec précision ce que représentent ces 8 % mal connus, c’est de la curiosité avant tout. Ainsi, sur 200 millions de bases séquencées et replacées sur un génome, on dénombre plusieurs milliers de gènes divers représentant une vingtaine de catégories. Ces diverses catégories étaient connues, maintenant on sait aussi où se trouvent tous ces éléments. On a également trouvé environ 150 gènes codant des protéines. Ce sont en général aussi des copies de gènes présents ailleurs dans le génome. Mais on ne sait pratiquement rien sur l’expression de ces nouvelles copies. Comme elles sont redondantes, et donc possiblement superflues, elles pourraient évoluer rapidement et à terme coder pour de nouvelles fonctions – pure hypothèse à ce stade.
Quand vous ne connaissez une île que par son contour et un arbre qui dépasse à l’horizon, vous ne pouvez pas vous empêcher d’aller voir ce qu’elle renferme.
Une autre raison importante de séquencer la totalité était de pouvoir disposer d’une nouvelle référence. La référence utilisée jusqu’à présent est proche de la version publiée par le consortium international public en 2004, qui comprenait encore plusieurs centaines de « trous » de taille mal estimée, version qui était occasionnellement mise à jour. Maintenant, on va disposer d’une nouvelle référence beaucoup plus détaillée. On va changer d’étalon. Mais cet étalon est une séquence particulière. Toutes les autres séquences humaines, de toutes origines, comportent des variations nombreuses, c’est la biodiversité de l’humanité.
À ce stade, on ne peut pas dire s’il sera important de séquencer systématiquement en entier les génomes des individus. De toute manière, les techniques de 2e génération qu’on utilise pour séquencer les génomes produisent les données, les résultats étaient difficiles à exploiter. L’utilisation du nouvel étalon va faciliter cette exploitation. On a cependant l’impression que l’information contenue dans ces 200 millions de bases additionnelles n’est pas primordiale sur le plan médical à ce stade de nos connaissances. Cependant des zones très limitées des 8 % pourraient être ciblées pour répondre à des questions très spécifiques.
A.M. : Quelles sont les prochaines étapes en matière de génomique humaine ?
J.W. : De très nombreuses expériences vont être imaginées pour essayer de mieux cerner l’éventuel rôle des séquences uniques (non répétées) comprises dans ces 8 %. Il y a aussi une importante variabilité dans ces 8 %, et même sur le plan quantitatif : 8 % est une moyenne avec de fortes variations individuelles. On va bien sûr essayer de savoir s’il pourrait y avoir des caractères génétiques associés, et en particulier des pathologies associées. Les hypothèses ne manquent pas. On voudra, bien sûr, aussi comparer les différentes populations humaines, et voir ce qui se passe chez les autres mammifères, le reste du monde vivant. Une fois de plus la biodiversité est au rendez-vous.
Une réflexion sur “Génome humain : les 8 % qui changent tout, Interview de Jean Weissenbach* par Anna Musso”