Après le succès remporté par DeepMInd, une société britannique appartenant à Google, dans la prédiction de la structure 3D de plus de 200 millions de protéines à l’aide de l’algorithme AlphaFold, c’est maintenant au tour de Meta. La société a annoncé qu’elle avait prédit la structure de plus de 600 millions de protéines d’origine microbienne qui n’ont pas encore été caractérisées. Cela a été rendu possible par l’algorithme ESMfold, qui est 60 fois plus rapide mais moins précis que l’AlphaFold.
Le résultat se trouve sur le site de bioRxiv, un site où sont rassemblés tous les articles scientifiques qui n’ont pas encore été soumis à la communauté scientifique. Les chercheurs ont utilisé un modèle d’intelligence artificielle déjà appliqué dans diverses tâches linguistiques, capable de prédire un texte à partir de quelques mots seulement. Cet algorithme a été entraîné en utilisant des séquences de protéines déjà connues, formées par la combinaison de 20 acides aminés, chacun d’entre eux étant représenté par une lettre.
Le système a ainsi appris à compléter automatiquement la séquence de la protéine comme un texte et à déterminer la structure 3D de la protéine. Les séquences d’ADN récupérées à partir de sources telles que le sol, l’eau de mer, l’intestin humain et d’autres habitats de microorganismes ont été utilisées dans le test. La plupart de ces séquences provenaient d’organismes qui n’avaient pas été cultivés en laboratoire et étaient donc essentiellement inconnus des scientifiques.
En deux semaines seulement, plus de 617 millions de structures protéiques ont été prédites, et plus d’un tiers de ces prédictions devraient être de haute qualité et donc très fiables. Les résultats et le code derrière ce modèle d’intelligence artificielle sont librement accessibles.
Laisser un commentaire
Voir les commentaires