Plie-la comme Levinthal

ou comment 75000 geeks ont contribué à l’avancée de la science en jouant au dessein intelligent.

Préambule : 3D Biologie

Vous l’avez sans doute remarqué, la plupart des objets biologiques (animaux, personnes, cellules) existent dans un espace à 3 dimensions. Vous savez peut-être aussi que votre ADN peut se lire et se coder comme une série de lettres correspondant aux 4 acides nucléiques à la base du code génétique (les fameux ACTG). Voici à titre d’ exemple les 600 premières bases codant pour un gène pris au hasard par mes soins, le gène Pax6 (la séquence complète comme la plupart des gènes humains est publique et peut se trouver ici) :

1 tagtaaactt tgtgggagga aaaaaaatag aaacaacccc ggtttctatt ttctttctgg
61 tttgattgtc caaatgtcca ataattgaag actgattaaa taaccaaacc atgttttacc
121 tataagttgc aaaacttgtc attaagaaga ctgtgttgga gagacatatt taatgccatg
181 ggaagacttt tggatcacag taaatggtgg gggaaagcag gttgcaaaac agtttgaatc
241 ttatggccca atgtttgcca agtagtgata gagtgagttt tctagaggaa aaaaacacca
301 agtgttaact ctgggtggaa gaattcagct gatgtttgcc cttccttctt atttgtattt
361 tctagttttt ctataagaaa cacgatttct tgtagatttt aacattgact attttaaaaa
421 tcttcctaag gaatcatttt tgaaactccc atgtttacaa gtgccttcac ccccagctcc
481 tgggccatct cctagaggag aggctgcctc cctggaggag tgaggctcca gggctgatac
541 gcagtgatgc acacagcatt ttcccattcc taggctaaca attggcctgt ggtttttatg

En d’autres termes, fondamentalement, tout le vivant est codé dans cette séquence ordonnée de lettres. Objet qui est donc en fait fondamentalement simple et unidimensionnel. Comment alors générer des objets biologiques très tridimensionnels à partir d’une simple liste (aussi longue soit-elle) ?

Pour répondre à cette question, révisons quelques secondes notre dogme central de la biologie. En général – car il y a évidemment pléthore d’exceptions- l’ADN code donc une telle suite d’acides aminés. Certaines parties de cet ADN sont alors en quelque sorte “recopiées” en ARN, sorte de jumeau (ou d’ancêtre, c’est selon) de l’ADN. Cet ARN messager est plus ou moins libre de ses mouvements, et se trouve transporté dans la cellule vers ce qu’on appelle les ribosomes. Les ribosomes font alors un boulot de traduction : ils lisent cette séquence d’ARN et, utilisant le code génétique, la transforment alors en séquence d’acides aminés, qui elle-même se replie sur elle-même en protéine, structure en trois dimensions (pour s’en convaincre, on pourra consulter ce billet hypergeek de cristallographe déclarant sa flamme à sa structure préférée) . Cette structure 3D des protéines est par ailleurs très importante car la fonction d’une protéine dépend très fortement de sa forme  (et le jour où l’on est capable de prédire à coup sûr la forme 3D d’une protéine à partir d’une séquence d’ADN, on devient capable de concevoir des protéines artificielles pour inventer de nouvelles fonctions biologiques, ce qui constituerait une révolution ).


Problème : replier des protéines

D’où la question : comment passe-t-on simplement d’une séquence linéaire d’acides aminés à une vraie protéine en 3D avec toutes ses fonctions biologiques ?
C’est a priori un problème très compliqué. Cependant, on s’est vite aperçu de la chose suivante : si on fabrique (plus ou moins artificiellement) une séquence d’acides aminés,  celle-ci a tendance a “naturellement” se replier sur elle-même et à acquérir spontanément en solution la forme tridimensionnelle de la protéine observée in vivo. En d’autres termes le passage d’une liste d’acides aminés à une vraie protéine fonctionnelle est un processus purement physique, la nature fait tout le boulot de sculpture tridimensionnelle des protéines à partir de la séquence d’acides aminés. On doit donc être capable a priori, connaissant une séquence d’ADN, le code génétique, et les lois de la physique, de prédire la forme de la protéine correspondante.

Ces lois de la physique peuvent se résumer en quelques lignes. Une protéine contient des acides aminés hydrophiles (qui aiment l’eau) et hydrophobes (qui n’aiment pas l’eau), d’autres chargés positivement ou négativement. La physique impose que les charges opposées s’attirent tandis que les mêmes charges se repoussent; elle impose aussi que les parties hydrophiles essaient de rester au contact de l’eau – le milieu naturel de la cellule- alors que les parties hydrophobes essaient de s’en éloigner le plus possible. Résultat : une séquence d’acide aminé se replie spontanément en une espèce de blob dont l’extérieur, au contact de l’eau est plutôt fait de parties hydrophiles et dont l’intérieur, protégé de l’eau, est fait de parties hydrophobes. Concrètement, tout ça est calculable mathématiquement à l’aide d’une fonction appelée énergie. Et la physique, comme souvent, est implacable : la structure 3D d’une protéine correspond au blob qui minimise l’énergie de repliement de sa séquence d’acides aminés.

Il y a une chose que l’on sait très bien faire  : si l’on vous donne une forme d’une protéine en 3D, connaissant les parties hydrophiles et parties hydrophobes, vous êtes capable de calculer relativement facilement son énergie. Or, pour pouvoir  connaître comment se replie une protéine, il faut savoir résoudre un problème inverse : non pas trouver l’énergie connaissant la structure, mais au contraire la structure correspondant au minimum d’énergie.

Du Paradoxe de Levinthal à la Playstation 3

Le problème physique de la minimisation de l’énergie pour les séquences d’acides aminés a occupé pas mal de gens depuis quelques décennies. C’est en fait un problème hyper difficile : a priori, pour connaître la structure minimisant l’énergie, il faudrait calculer toutes les configurations possibles de la séquence d’acides aminés correspondante. Or, les protéines humaines peuvent être encodées par des séquences de l’ordre du millier d’acides aminés : trouver le nombre de configurations possibles en 3D d’un “serpent” de 1000 acides aminés prend un temps colossal. En 1969, Levinthal avait estimé le nombre de configurations possibles d’une séquence à 10 puissance 143, soulevant alors un paradoxe célèbre : comment la nature elle-même est-elle capable de trouver aussi rapidement – un repliement de protéine prend à peine quelques secondes-  LA bonne forme de protéine parmi les 10 puissances 143 possibles ?

On a pu partiellement résoudre le paradoxe de Levinthal depuis (hypothèse de “l’entonnoir de repliement”, expliqué  sur cette page wikipedia) : les protéines sont “conçues” (par l’évolution) pour se replier très vite via des étapes de repliement intermédiaires, ce qui fait qu’elles n’ont pas besoin d’explorer aléatoirement les 10 puissances 143 configurations possibles pour trouver leur minimum d’énergie. Reste que le scientifique n’est pas plus avancé pour autant : même “aidé” par les simplifications de repliement trouvées par l’évolution, l’homme, s’il veut prédire la structure des protéines, doit énumérer et calculer énormément de configurations d’énergies. C’est d’ailleurs ce qui a motivé l’émergence de certains projets basés sur la force brute, tels que Folding@home ou Rosetta@home, qui propose à l’utilisateur d’installer sur son ordinateur ou sa Playstation 3 un petit programme participant à ce travail colossal d’énumération de séquences possibles lorsque la machine est inutilisée (on pourra consulter la série de vidéos sur ce projet expliquant notamment les enjeux et les besoins en matière de calcul de repliement).


Temps de cerveau humain disponible

Mais une autre piste a été récemment explorée, faisant l’objet principal de ce billet et d’une publication récente dans Nature (voir référence scientifique plus bas). On l’a dit plus haut, l’évolution a fait les choses de façon relativement intelligente pour permettre aux protéines de se replier rapidement. Et si ce design intelligent de la nature pouvait être compris et mis en exergue par notre propre intelligence ?

C’est sur cette idée que le projet Foldit est né : le repliement d’une protéine est un problème certes compliqué, mais peut-être parfaitement analysable par une intelligence capable de voir les choses globalement, avec en plus un zeste d’intuition. Plutôt que d’utiliser la force brute de Deep Blue de la biophysique énumérant toutes les configurations possibles, utilisons les Kasparov qui someillent en chacun de nous pour réaffirmer la supériorité de l’homme sur la machine (un peu à l’image de ce qui s’est passé pour reCAPTCHA ) .

Comment convaincre des centaines, voire des milliers de personnes de s’attaquer à l’ardu problème du repliement des protéines ? L’idée tient en deux mots : jeu et compétition. Zoran Popovic et son équipe mettent au point Foldit un jeu 3D online au charme délicieusement rétro, dans lequel les joueurs jouent les uns contre les autres pour trouver le plus rapidement possible les repliements de protéines particulièrement ardues.

Un article de The Economist daté du 8 Mai 2008 lance la machine et assure un premier afflux de joueurs. David Baker et son groupe (les biochimistes du projet) mettent en ligne quelques structures dont ils connaissent déjà le résultat pour tester la viabilité du projet. Groupes de “folders”, stratégies collectives et wiki émergent rapidement. Sur les 10 structures proposées, les joueurs de Foldit font mieux que Rosetta, le programme maison de Baker, dans 5 cas, et aussi bien dans 3 autres cas. L’essai est concluant et prometteur.

C’est encore Wired qui décrit probablement le mieux l’excitation et l’émulation geek derrière la résolution de ces puzzles :

Vers minuit le 28 juillet 2009, Laurent de Jerphanion(pseudo : Dejerpha) fixait son écran incrédule devant la structure multicolore intriquée. Le manager en marketing parisien de 43 ans travaillait sur la structure T0461 depuis de nombreuses soirées. Aucune amélioration ne semblait possible, la victoire était à lui.

Mais il ne comprenait pas ce qu’il venait de voir sur le tableau de score. Il avait été à l’instant dépassé par un américain de 13 ans appelé Cheese. Le gamin ( vrai nom : Aristides Poehlman) venait juste d’accomplir un saut extraordinaire de plus de 20 points en un seul mouvement, une heure avant la deadline du puzzle. Mais de Jerphanion, l’un des meilleurs joueurs de Foldit n’avait pas l’intention de se laisser faire. “À nous deux maintenant !” .

A l’autre bout de la planète, 7 h du soir en Virginie, la maison Poehlman était en transe. Les parents de Cheese étaient aussi des Folders, à la suite de l’avancée de son fils, Athena, sa mère, envoya un “Wow! Way to go!” dans la fenêtre de chat global de Foldit. D’autres encouragements arrivaient du reste de l’équipe, disséminée aux 4 coins du monde. Mais en quelques minutes, de Jerphanion arrivait encore une fois à tirer son épingle du jeu et était repassé en tête d’un point !

Poehlman trouvait sa structure bonne. Trop bonne. Aucune chance qu’il puisse refaire un progrès de 20 points : il était passé alors par une reconstruction drastique d’une boucle d’acides aminés très profonde, mouvement très risqué. Cheese se força à se concentrer sur des réarrangements plus petits. Il marqua deux points sur la structure, cliqua pour exécuter une torsion suivie d’une secousse d’une chaîne sur le côté. Cette section d’acides aminés s’ébroua comme un chien mouillé, mais le score ne changea pas.

Pendant ce temps, à Paris, de Jerphanion tourna sa propre version de la protéine et la regarda de l’intérieur. Une amélioration solide le rendrait imbattable. Il attrapa une boucle, la força à rentrer dans un trou mais poussa trop fort. La protéine explosa en un feu d’artifice d’alarmes et d’alertes d’acides aminés en collision. Il annula son mouvement.

Poehlman aussi essayait de compresser un autre point. Il tourna la protéine sur elle-même et repéra une boucle pendante à l’extrémité de l’hélice la plus large. Il la tira le long des flancs de la protéine et retenta une petite secousse. Le programme mit à jour son score. Poehlman exulta : “Je viens juste de repasser devant d’ 1 pt.”

A moins d’une minute de la fin, les parents de Poehlman descendirent pour retrouver leur fils se balancer nerveusement en face de son ordinateur tout en se rongeant les ongles. Il savait que de Jerphanion pouvait l’anéantir en un instant.
Finalement, la deadline était passée. Poehlman dansait de joie alors que sa structure 3D était téléchargée sur le serveur de Baker.

Foldit semble marcher du tonnerre. Tous les deux ans est organisée une compétition entre les différents groupes de biochimistes mondiaux (CASP) pour prédire la structure de nouvelles protéines. 15 problèmes avaient été soumis en parallèle à Foldit, sur les 15, 7 ont été primés à CASP, dans la catégorie la plus difficile. Tous ont été résolus par l’équipe Poehlman. Ce qui a incité les concepteurs de Foldit à inviter son leader dans les labos, afin d’étudier soigneusement ses stratégies de repliement dans le but de les implémenter numériquement …

Prochain défi pour les joueurs de Foldit : la conception d’une protéine totalement artificielle, le genre de distraction geek qui peut mener au prix Nobel …

Référence scientifique :
Predicting protein structures with a multiplayer online game

Seth Cooper, Firas Khatib, Adrien Treuille, Janos Barbero, Jeehyung Lee, Michael Beenen, Andrew Leaver-Fay, David Baker, Zoran Popovic & Foldit players

doi:10.1038/nature09304

First paragraph | Full Text | PDF (1,359K) | Supplementary information

Autres références :

Wired

PlayTime


Not Exactly Rocket Science

16 Responses to “Plie-la comme Levinthal”

  1. Taupo Says:

    Et ben le voilà le fameux article sur Foldit!
    Merci!
    (PS: j’ai mis un temps à comprendre le jeu de mot du titre… Joue là comme Beckam! Très bon!)

  2. Tweets that mention Plie-la comme Levinthal — tomroud.com -- Topsy.com Says:

    [...] This post was mentioned on Twitter by Antoine Blanchard, Joachim Schöpfel and Joachim Schöpfel, Duncan. Duncan said: Comment des geeks font avancer la biologie ? L'excellent billet de @tomroud sur le projet collaboratif Fold-it http://bit.ly/dm0Zhr [...]

  3. MathGon Says:

    Je plie depuis 2004 sur F@H et c’est avec un réel plaisir que j’ai dévoré cet article. Afin d’ajouter ma petite part de réflexion à ce sujet, je comprend le caractère indispensable de ces études s’attachant à la stabilité des protéines. Néanmoins, à la vue du titre donné dans l’article de wired, il ne faut pas négliger l’importance des interactions entre protéines.
    La structure très stable d’une protéine seule est certainement biologiquement moins fonctionnelle. Et si le “désordre”, d’une protéine favorisait le recrutement de partenaires permettant d’acquérir une stabilité et un fonctionnement optimal? Ces études sont passionnantes, et il faut bien commencer par le “plus simple” (si c’est déjà 10^43, qu’est ce que ça va être en prenant en compte les interactions!)

    Merci pour cet article passionnant.

  4. anne Says:

    Merci Tom. Passionnant et très clair.
    C’est pas dangereux, d’utiliser l’expression “intelligent design” sans que ce soit pour taper dessus ?

  5. Tom Roud Says:

    @ tous Merci ! (je manque un peu de temps pour bloguer, alors je me suis un peu lâché ;) )

    @ MathGon : en fait je me demande si la structure d’une protéine est effectivement le minimum d’énergie. Je me demande s’il ne peut pas y avoir un gros piégeage cinétique ou un effet “survival of the flattest”.

    http://tomroud.owni.fr/2009/01/24/annee-darwin-survival-of-the-flattest/
    Aussi, il faut bien voir qu’on a des contre-exemples (genre prions) de protéines qui peuvent exister dans plusieures configurations simultanément.

    @ anne : je ne sais pas si c’est dangereux, mais ça m’amuse !

  6. Manu1400 Says:

    Bonjour

    Vous parler “d’installer sur son ordinateur ou sa Playstation 3 un petit programme” or sur la Playstation 3 le programme est il me semble déjà installé.

    Pouvez vous expliquer pourquoi on calcul le repliement de protéine au lieu d’observer la protéine repliée ?
    Merci d’avance

  7. Tom Roud Says:

    En fait, ce n’est pas une partie de plaisir d’observer la protéine repliée. On a affaire à des molécules, pas forcément très stable hors d’une solution, etc… Autrefois, l’observation d’une structure d’une protéine garantissait publication dans Nature ! Et puis, demain, lorsque l’on voudra concevoir une protéine artificielle, il est recommandé d’avoir une idée de la forme finale pour éviter des mauvaises surprises dans le repliement.
    Cela dit, la plupart des groupes cités dans le billet font à la fois ce genre de théorie et des manips en complément.

  8. Taupo Says:

    Allez hop, engageons la polémique:
    http://scepticismescientifique.blogspot.com/2010/08/propos-de-lutilisation-du-concept-de.html

    Ma réflexion n’est pas encore totalement aboutie sur le sujet. Je serai prompt à conseiller la prudence quant à l’utilisation de termes aux accents créationnistes… mais est-ce que la prudence a ses limites?

  9. Tom Roud Says:

    Ah, merci d’avoir posté le lien.
    J’espère ne pas finir par m’énerver, ce serait dommage. (sinon j’ai changé un dessein en design dans le billet parce que le terme était inapproprié à ce que je voulais dire)
    (et j’ai tendance à penser qu’il est interdit de s’interdire).

  10. Tom Roud Says:

    J’ajoute la chose suivante à la polémique :

    http://www.google.ca/search?hl=fr&client=firefox-a&hs=myP&rls=org.mozilla%3Afr%3Aofficial&q=dessein+intelligent+foldit&aq=f&aqi=&aql=&oq=&gs_rfai=

  11. Xochipilli Says:

    Super ton billet, comme d’hab. Ce genre de crowdsourcing me laisse toujours rêveur. Je parie que le genre d’applications du même type vont devenir extrêmement courant d’ici quelques années…

  12. DavidL Says:

    Très bon texte !

    Je ne connaissais pas ce genre d’expérience. Mais pour avoir travaillé un temps à la conception d’algorithmes pour des problèmes d’optimisation combinatoire (transport, gestion des stocks…), j’ai plusieurs fois remarqué qu’il est vraiment difficile pour l’algo de battre l’être humain. Les améliorations qu’on obtient sont au mieux de l’ordre du % voire moins sur des questions de transport, par rapport à ce que “les spécialistes du terrain” font naturellement.

    Une question que je me posais sur le “paysage” qu’on rencontre quand on se promène dans l’espace des configurations : n’y a-t-il pas des cas où on trouve un grand nombre de minimums ayant des énergies très très proches, et qui font qu’il y a des tas de solutions métastables qu’on pourrait trouver quand même dans la réalité.

    Il y a beaucoup de systèmes comme ça dans la nature qui ne relaxent jamais vers le minimum global car ce dernier est à peine meilleur qu’une foultitude de minimums locaux. Quel mécanisme fait qu’on est à coup sûr dans le vrai minimum global ?

  13. Tom Roud Says:

    Sur le paysage, cela rejoint le problème posé par Levinthal. La solution, que je ne comprends probablement pas dans son entièreté, est que l’évolution a probablement sélectionné des paysages d’énergie sans états métastables justement, avec un bon gros minimum local faisant place nette autour. C’est ça l’idée derrière le repliement “en entonnoir” (“funnel”): l’entonnoir est la forme du paysage d’énergie. D’un autre côté ça a du sens : si ta protéine explore des tas de configs métastables, elle est probablement inutile donc contresélectionnée.

    Sinon, je ne suis pas sûr qu’on soit vraiment dans le minimum d’énergie justement, je me demande s’il n’y a pas un piégeage cinétique dû à ce paysage en entonnoir, je m’aperçois que je n’ai pas inclus d’analogie avec l’effet du “survival of the flattest” qui est un peu du même ordre.
    http://tomroud.owni.fr/2009/01/24/annee-darwin-survival-of-the-flattest/

    (Maintenant si un spécialiste de la question passe par-là …)

  14. Lam Son Says:

    Il y a quelqu’un dans mon labo qui planche sur les effets cinétiques et en particulier hydrodynamique.

    Dans la plupart des recherches actuelles, on ne prend en compte le solvant (l’eau) que d’un point de vue thermodynamique. C’est ce dont ce billet parle avec les acides-aminés hydrophobes et hydrophiles.

    Mais dans la nature, l’eau agit également sur la dynamique du pliage. Par exemple
    – Telle région qui devrait se replier très vite se replie moins vite puisqu’il faut chasser l’eau interstitielle. Du coup, le système ne tombe pas dans un minimum d’énergie local qui bloque les tentatives de simulation classiques.
    – Tel mouvement d’un bout de la chaîne met le solvant en mouvement, ce qui induit un mouvement coordonné d’un morceau de la chaîne très éloigné du premier. Lorsqu’on simule la dynamique en oubliant l’hydrodynamique, ces deux morceaux de chaîne se déplacent de façon non corrélée.

    Du coup, la nature est non seulement aidée par un paysage d’énergie en entonnoir, mais aussi par les contraintes que l’hydrodynamique impose au mécanisme de repliement. On peut s’imaginer le problème comme un entonnoir cabossé, avec des minimum locaux tout le long de la descente, mais une hydrodynamique qui fait sauter le système au dessus de ceux-ci lors de la descente afin d’atteindre à coup sur le minimum global.

    Problème : l’hydrodynamique est a priori très coûteuse à simuler.

    Référence : http://link.aps.org/doi/10.1103/PhysRevLett.102.108303

  15. Benjamin Says:

    C’est vraiment astucieux ce truc, il ne manque plus que le chatroulette adapté au blast de génome… Maintenant que l’on peut obtenir des structures 3D basées sur la thermodynamique, est-ce que cela relativise le rôle des protéines chaperonnes dans le repliement des protéines? Question connexe: les structures prédites par ce biais sont-elles en accord avec celles obtenues par cristallographie (qui ne sont pas forcément les structures naturelles)?

  16. Tom Roud Says:

    (je te dois une réponse pour l’article sur les bactéries, je n’ai pas encore eu le temps de relire l’article en détail !)

    Je pense que le rôle des chaperonnes est surtout d’accélérer le repliement, ce qui peut consister à permettre aux protéines de ne pas passer trop de temps dans une (éventuelle) configuration métastable. Cela dit, je n’ai jamais trop compris comment c’était complètement compatible avec l’hypothèse de repliement en entonnoir…
    Sur les structures par cristallo et la différence avec l’in vivo, je ne sais pas; je sais que les “concours” pour les prédictions de repliement par les algos sont sur des structures obtenues par crisallo, mais je n’avais pas conscience que c’était significativement différent.


Nombre de pages vues : 1124140