Le supercalculateur Jean ZAY en action contre le coronavirus

article tiré du site du CNRS que vous pouvez retrouver en cliquant ici ou sur le sigle ci-dessous :

10 avril 2020

La recherche internationale s’organise face au COVID-19 et doit disposer des armes adĂ©quates. Le supercalculateur Jean Zay consacre ainsi son Ă©norme puissance de calcul Ă  diffĂ©rents projets de modĂ©lisation molĂ©culaire ou d’outils de diagnostics.

Face Ă  la pandĂ©mie de COVID-191, le CNRS dĂ©ploie les grands moyens avec le supercalculateur Jean Zay. InaugurĂ© en septembre 2019 Ă  l’IDRIS2, le centre de calcul intensif du CNRS, voit en temps normal sa puissance partagĂ©e entre environ 300 projets, mobilisant environ 1 200 chercheurs de tous les horizons scientifiques.

L’IDRIS est un des trois centres nationaux Ă©quipĂ©s et coordonnĂ©s depuis 2007 par GENCI3. Alors que les supercalculateurs sont gĂ©nĂ©ralement spĂ©cialisĂ©s dans le calcul scientifique, aussi appelĂ© calcul haute performance (HPC), Jean Zay y adjoint une partition consacrĂ©e spĂ©cifiquement Ă  l’intelligence artificielle (IA). « Jean Zay est un des supercalculateurs les plus puissants d’Europe, tant sur sa partie convergĂ©e que non convergĂ©e », affirme Pierre-François LavallĂ©e, directeur de l’IDRIS. Dans le cas de recherches sur un nouveau virus, sa partition « non convergĂ©e Â» – basĂ©e sur des processeurs classiques (CPU) – est capable d’effectuer des simulations extrĂȘmement complexes, comme celles d’interactions molĂ©culaires qui permettraient de trouver des moyens, et donc des composĂ©s, capables d’affecter le virus d’une maniĂšre ou d’une autre.  La partie dite « convergĂ©e Â»  de Jean Zay – un mĂ©lange de processeurs classiques (CPU) et graphiques (GPU) – peut non seulement optimiser ce mĂȘme type de simulations, mais aussi utiliser l’IA pour aider les chercheurs Ă  mieux diagnostiquer des radios ou scanners, par exemple.NƓuds de calcul du supercalculateur Jean Zay. Chaque nƓud dispose de 192 Go de mĂ©moire et chaque GPU de 32 Go. © Cyril Fresillon/IDRIS/CNRS PhotothĂšque

Mobilisation et modélisation

« Pour le coronavirus, en collaboration avec GENCI, nous avons dĂ» lancer un appel d’offres pour des chercheurs Ă  la fois compĂ©tents dans le domaine et capables d’ĂȘtre immĂ©diatement opĂ©rationnels », prĂ©cise Pierre-François LavallĂ©e. « L’IDRIS a ensuite aidĂ© Ă  adapter, optimiser et mettre en place les simulations. » En temps normal, les attributions d’heures de calcul sont Ă©valuĂ©es deux fois par an, pour partager 16 pĂ©taflops, c’est-Ă -dire seize millions de milliards d’opĂ©rations en virgule flottante effectuĂ©es en une seule seconde, mais les projets consacrĂ©s Ă  la lutte contre le virus SARS-CoV-2 sont devenus totalement prioritaires. 

Certains chercheurs Ă©taient dĂ©jĂ  prĂȘts. Jean-Philip Piquemal, directeur du Laboratoire de chimie thĂ©orique (LCT)4, optimisait ainsi depuis un an ses modĂšles et ses codes de design de mĂ©dicaments pour le supercalculateur. Alors qu’il Ă©tudiait surtout le VIH, il a pu se tourner dĂšs le dĂ©but de l’épidĂ©mie vers la nouvelle menace. En plus de son Ă©quipe du LCT, Jean-Philip Piquemal est Ă©paulĂ© par des chercheurs du CNAM5, du laboratoire XLIM6 et des universitĂ©s amĂ©ricaines d’Austin au Texas et de Saint-Louis dans le Missouri.

« Au LCT, nous avons dĂ©veloppĂ© le code Tinker-HP, dĂ©diĂ© Ă  la modĂ©lisation molĂ©culaire Â», annonce Jean-Philip Piquemal. Â« Il permet des calculs particuliĂšrement prĂ©cis, mais demande du matĂ©riel informatique consĂ©quent. » Ces chercheurs en chimie thĂ©orique s’intĂ©ressent Ă  la protĂ©ine Spike, qui forme les pics que l’on voit Ă  la surface du virus, et qui lui sert Ă  reconnaĂźtre et interagir avec les cellules humaines.

À dĂ©faut de dĂ©truire le pathogĂšne, dĂ©samorcer cette protĂ©ine empĂȘcherait le virus de pĂ©nĂ©trer et d’infecter des cellules hĂŽtes. Sa taille et sa complexitĂ© alourdissent cependant les calculs et modĂ©lisations. Â«â€‰Nous rencontrons le mĂȘme problĂšme qu’avec le VIH Â», poursuit Jean-Philip Piquemal, Â« avec des protĂ©ines qui mutent souvent et risquent de rendre potentiellement inefficaces les solutions que l’on trouverait. Or certaines parties de la protĂ©ine Spike sont trĂšs conservĂ©es au cours de l’évolution des coronavirus, des stratĂ©gies de criblage virtuel peuvent donc identifier des molĂ©cules capables d’empĂȘcher l’entrĂ©e du virus. Afin d’attaquer COVID-19 sous plusieurs angles, nous nous intĂ©ressons aussi Ă  bloquer la machinerie interne des pathogĂšnes en modĂ©lisant d’autres protĂ©ines telles les diverses protĂ©ases ou la polymĂ©rase, qui sont moins susceptibles de muter. »ModĂ©lisation de l’interaction et la liaison entre une partie de la protĂ©ine Spike de n-SARS-Cov-2 (en vert) et une partie du rĂ©cepteur humain ACE2 reprĂ©sentant la premiĂšre Ă©tape de l’entrĂ©e du virus dans la cellule hĂŽte. ©LCPT

Atteindre un modùle à 250 millions d’atomes

Le modĂšle actuel du virus comporte jusqu’à cinq millions d’atomes, un chiffre dĂ©jĂ  colossal alors que l’objectif est d’atteindre les 250 millions. Une taille qui dĂ©passe largement les capacitĂ©s d’ordinateurs classiques, qui plus est dans le contexte trĂšs particulier d’un adversaire dont on ne connaĂźt pas encore grand-chose. « Pour ne pas travailler dans le vide, nous devons peaufiner nos modĂšles avec les nouvelles donnĂ©es expĂ©rimentales obtenues par d’autres Ă©quipes Â», souligne le chercheur. « Nous n’avions que trĂšs peu d’informations fiables sur le virus ne serait-ce que le mois dernier. Mais au moins nous bĂ©nĂ©ficions de la puissance de Jean Zay et de ses 1 300 processeurs GPU, chacune aussi puissante qu’un millier de processeurs grand public. »

Contrer la transmission du virus

De son cĂŽtĂ©, Antonio Monari est responsable de SeekAndDestroy au Laboratoire de physique et chimie thĂ©oriques (LPCT)7, qui rassemble des scientifiques de Nancy, AlcalĂ  de HĂ©nares (Madrid) et Palerme. « Notre projet vise Ă  modĂ©liser au niveau molĂ©culaire les systĂšmes biologiques qui assurent la transmission du virus Â», introduit le chercheur. « Nos deux cibles sont les protĂ©ines Spike, qui permet l’entrĂ©e du virus dans les cellules humaines, et SARS unique domain, prĂ©sente dans tous les virus de cette famille et les aidant Ă  rĂ©sister au systĂšme immunitaire. »

Sars unique domain utilise le repli d’un brin d’ARN pour ne pas ĂȘtre reconnu par les lymphocytes. Une ruse que les chercheurs tentent de dĂ©jouer, avec l’espoir qu’elle soit aussi valable contre les autres coronavirus, y compris ceux qui pourraient apparaĂźtre plus tard. Ces deux pistes reposent en tout cas sur des simulations de dynamique molĂ©culaire, afin de dĂ©crire comment les protĂ©ines Ă©voluent et interagissent. Cela donnerait ensuite une idĂ©e des mĂ©dicaments capables de perturber le virus, en se substituant aux liaisons qu’il utilise pour infecter et se dĂ©fendre.

« La puissance de calcul offerte par Jean Zay est fondamentale, pour obtenir des rĂ©sultats le plus tĂŽt possible et en testant un maximum de molĂ©cules Â», affirme Antonio Monari. « Sans cela, le danger serait de devoir laisser de cĂŽtĂ© certaines solutions. Le supercalculateur permet Ă©galement de prolonger la durĂ©e de chaque simulation, car les interactions entre macromolĂ©cules biologiques peuvent demander du temps. »

Mustafa Tekpinar, du laboratoire Biologie molĂ©culaire structurale et processus infectieux8, souligne lui aussi l’importance de la protĂ©ine Spike, mais s’intĂ©resse surtout Ă  la protĂ©ase de SARS-CoV-2. Cette enzyme, dont l’équivalent chez le VIH, le SARS9 ou le MERS10 avait dĂ©jĂ  Ă©tĂ© Ă©tudiĂ©, est une cible viable pour le dĂ©veloppement d’un vaccin. Il modĂ©lise donc les interactions de la molĂ©cule avec des collĂšgues de l’Institut Pasteur et de l’universitĂ© turque de Siirt.ReprĂ©sentation de l’interaction de la protĂ©ine Spike avec le rĂ©cepteur ACE-2 de la cellule-cible humaine (en gris). Image issue de simulations HPC rĂ©alisĂ©es Ă  Sorbonne UniversitĂ© Ă  l’aide du supercalculateur Jean Zay CNRS/GENCI et du logiciel Tinker-HP. © UniversitĂ© de Limoges/CNAM, visualiseur VTX

L’objectif est d’inhiber la protĂ©ase grĂące Ă  des interactions allostĂ©riques, oĂč une molĂ©cule, en s’accrochant Ă  distance d’un site actif, empĂȘche la protĂ©ine de fonctionner et donc le pathogĂšne de se rĂ©pliquer. LĂ  encore, le manque d’informations sur le virus freine la recherche, d’oĂč l’importance de mieux en connaĂźtre les mĂ©canismes. La protĂ©ase prĂ©sente nĂ©anmoins un avantage technique trĂšs prosaĂŻque : l’enzyme est relativement petite et donc plus facile Ă  modĂ©liser.

« AprĂšs le SARS, le MERS, Ebola et Zika, COVID-19 est la cinquiĂšme Ă©pidĂ©mie virale majeure de ces vingt derniĂšres annĂ©es Â», s’inquiĂšte Mustafa Tekpinar. « Nous savons qu’il y en aura d’autres et que nous devons envisager diffĂ©rentes solutions pour les combattre, en prenant en compte les possibilitĂ©s de mutation. Certaines options ne vont rien donner, mais d’autres seront de vĂ©ritables mines thĂ©rapeutiques. »

Les pistes sont en tout cas nombreuses, rien qu’autour de Jean Zay. « D’autres projets utilisent par exemple l’IA pour diagnostiquer des radios ou scanners des poumons Â», cite Pierre-François LavallĂ©e. « Les rĂ©seaux de neurones ont besoin de beaucoup de donnĂ©es et d’entraĂźnement pour apprendre Ă  repĂ©rer la maladie. » De quoi faire tourner le supercalculateur Ă  plein rĂ©gime pour un bon bout de temps. BaptisĂ© en hommage Ă  l’ancien ministre de l’Éducation nationale et des Beaux-arts, trĂšs impliquĂ© dans la crĂ©ation du CNRS et assassinĂ© par la Milice en 1944, Jean Zay combat Ă  nouveau une menace mondiale.

Notes

  1. La maladie provoquĂ©e par le virus SARS-CoV-2, un nouveau coronavirus identifiĂ© en janvier 2020, a Ă©tĂ© nommĂ©e COVID-19 par l’Organisation mondiale de la SantĂ© (OMS). Les coronavirus sont une grande famille de virus qui provoquent des maladies allant d’un simple rhume Ă  des pathologies plus sĂ©vĂšres comme le SRAS-CoV ou le Mers-CoV
  2. Institut du développement et des ressources en informatique scientifique (CNRS)
  3. Grand Ă©quipement national de calcul intensif
  4. Laboratoire de chimie théorique (CNRS/Sorbonne Université)
  5. Laboratoire Génomique, bioinformatique et chimie moléculaire (GBCM) du Conservatoire national des arts et métiers (CNAM)
  6. Laboratoire XLIM (CNRS/Université de Limoges)
  7. Laboratoire de physique et chimie théoriques (CNRS/Université de Lorraine)
  8. Biologie moléculaire structurale et processus infectieux (CNRS/Institut Pasteur)
  9. La premiĂšre forme de syndrome respiratoire aigu sĂ©vĂšre est apparue en Chine en 2002, provoquant une Ă©pidĂ©mie l’annĂ©e suivante. Les mĂ©dias employaient alors l’acronyme francisĂ© SRAS
  10. Coronavirus du syndrome respiratoire du Moyen-Orient, apparu pour la premiĂšre fois en Arabie Saoudite en 2012

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.