Depuis longtemps, les intelligences artificielles sont utilisées comme objets de recherche. C’est notamment l’un des objectifs que s’est fixée DeepMind, l’unité d’intelligence artificielle de Google.
En 2018, lors de la 13ème édition du CASP (Critical Assessment of Structure Prediction), DeepMind avait impressionné le jury avec son intelligence artificielle AlphaFold, dont le but est de prédire la structure des protéines à partir de leur séquence en acide aminé.
Ainsi, lors de cette compétition bisannuelle, dont le but est de déterminer la structure tridimensionnelle d’une sélection de protéines, AlphaFold avait atteint un score dépassant de loin ceux des éditions précédentes. De façon simplifiée, le GDT (global distance test) varie de 0 à 100 et représente le pourcentage de résidus d’acides aminés situé à une distance seuil de la véritable position. AlphaFold avait dépassé de loin les 50, atteignant presque les 60. Ce programme avait donc réussi à prédire de façon très précise la structure de cibles qui étaient classées comme les plus difficiles de la compétition, et pour lesquelles aucune structure modèle existante n’était disponible.
Les chercheurs de DeepMind ne se sont pas arrêtés à cette victoire. L’entreprise de Google a également remporté la 14èmeédition du CASP en novembre 2020, en atteignant un score médian de 92,4 pour l’ensemble des protéines. À partir de 90 GDT, la méthode est considérée comme compétitive des méthodes expérimentales. Cette révolution est le signe d’un futur ambitieux dans le domaine de la prédiction 3D des protéines. John McGeehan a même déclaré : « ce qui nous prenait des mois ou des années, AlphaFold l’a fait en un week-end ».
Ce n’est qu’en juillet 2021, dans un article de 16 pages publié au magazine Nature que John Jumper, Demis Hassabis et leurs collègues de DeepMind ont publié et rendu accessible publiquement le programme source d’AlphaFold. Ainsi, ce programme est un système d’apprentissage automatique basé sur les données, les ressources en calcul et l’algorithmique. Dans le même temps, l’EMBL (Laboratoire européen de biologie moléculaire) et DeepMind se sont associés afin qu’une base de données en accès libre puisse être mise en place, regroupant des milliers de structures tridimensionnelles de protéines prédites à l’aide d’AlphaFold 2, permettant ainsi de visualiser 98,5% des protéines attendues du corps humain en 3D.
Il s’agit sans nul doute d’une avancée spectaculaire dans le monde de la science des protéines. En effet, les protéines sont des éléments essentiels à partir desquelles l’être humain et plus largement la vie, sont construits. Lorsque certaines viennent à manquer, sont endommagées ou repliées de façon incorrecte, cela peut avoir un impact sur l’organisme. La connaissance de la structure 3D des protéines apparaît alors comme primordiale. Cependant, l’étude de ces protéines reste très complexe, cela tient notamment au fait qu’à partir de quatre éléments différents dans l’ADN, il existe une multitude de combinaisons. C’est ici qu’AlphaFold entre en jeu. À partir de la composition des protéines, le programme a réussi à prédire leur structure 3D de façon rapide et précise. Stephen Cusack a constaté qu’il suffisait d’environ deux heures pour une chaîne de quelques centaines d’acides aminés.
Il a précisé que « cela sera utile à différents niveaux. Par exemple, cela aidera à formuler des hypothèses sur les fonctions biologiques des molécules, testables en introduisant des mutations, ou à rechercher des petites molécules capables de se fixer sur l’une des parties repliées de la protéine afin de bloquer ou perturber sa fonction, en vue de traiter certaines maladies ou de neutraliser des agents pathogènes ». Ainsi, cela crée de nouveaux espoirs de développer des traitements pour les maladies orphelines rares car, du fait de leur faible représentation, la recherche s’avère parfois très longue.
« Ça va changer la médecine. Ça va changer la recherche. Ça va changer la bio-ingénierie. Ça va tout changer » — Andrei Lupas.
Ce changement est tellement important qu’il vient bouleverser les habitudes des chercheurs. La directrice de l’EMBL, Edith Heard, a expliqué que « les biologistes structuraux ne sont pas encore habitués à l’idée qu’ils peuvent simplement vérifier n’importe quoi en quelques secondes, plutôt que de prendre des années pour vérifier expérimentalement ».
Toutefois, Carlos Outeiral conseille de rester prudent sur les résultats : « il y a parfois des erreurs. J’ai pu constater que, pour une partie d’une protéine, le programme prédisait une région sans forme précise, alors qu’elle existe ».
Quant à Benjamin Bardiaux, il retient qu’ « il n’est pas tout à fait exact de dire qu’AlphaFold résout le problème du repliement des protéines, car le programme n’indique pas, par exemple, les étapes du repliement, ou pourquoi dans certains cas une protéine ne se replie pas ». Ce repliement fait encore l’objet de nombreux travaux.
D’autres faiblesses ont également été pointées du doigt, notamment le fait qu’AlphaFold 2 va toujours trouver une conformation, même si celle-ci n’existe pas. Or, certaines protéines n’ont pas de structure, et restent désordonnées, il s’agit de protéines « intrinsèquement désordonnées ». Cela pose des problèmes évidents à DeepMind. De même, l’intelligence artificielle fournit la forme repliée d’une seule protéine. Cependant, cette dernière est souvent associée à d’autres molécules ou protéines, ce qui a pour conséquence pour AlphaFold de lire difficilement ces combinaisons.
L’entreprise de Google s’est déjà penchée sur ces différents problèmes, et a même déposé le 4 octobre dernier une prépublication permettant de régler certains cas d’interaction entre protéines. Et, bien que selon John Moult, cofondateur et organisateur de CASP, « la quinzième édition de CASP prévoit un volet » complexe » pour tester les nouvelles idées des scientifiques », DeepMind n’a pas encore confirmé sa participation au concours de 2022.
Ainsi, malgré les quelques écueils rencontrés, nul doute que l’intelligence artificielle de DeepMind est une révolution en biologie structurale. Avec AlphaFold 2, le rêve semble permis.
Loriane LAVILLE
Sources :
https://www.nature.com/articles/d41586-020-03348-4 (image 1)