Алгоритм AlphaFold от DeepMind решил 50-летнюю задачу фолдинга белка

Выяснение того, в какую форму складываются белки, известное как «проблема сворачивания белков», и последние 50 лет было серьезным вопросом биологии. В DeepMind заявили, что последняя версия системы искусственного интеллекта AlphaFold помогла решить эту задачу. Прорыв признали организаторы проводимой раз в два года критической оценки прогнозирования структуры белка (CASP). В 2018 году AlphaFold уже заняла первое место на CASP.

Алгоритм AlphaFold от DeepMind решил 50-летнюю задачу фолдинга белка

В течение многих лет для определения структур белков использовали ядерный магнитный резонанс и рентгеновскую кристаллографию. Эти методы наряду с криоэлектронной микроскопией могут занять годы работы и требуют использования специализированного оборудования стоимостью в несколько миллионов долларов.

В своей речи на присуждении Нобелевской премии по химии 1972 года Кристиан Анфинсен высказал предположение о том, что теоретически аминокислотная последовательность белка должна полностью определять его структуру. После этого в течение почти 50 лет исследователи искали возможность предсказать трехмерную структуру белка, основываясь исключительно на его одномерной аминокислотной последовательности, с помощью компьютера.

Однако проблема заключалась в том, что белок может свернуться множеством способов. В природе белки сворачиваются спонтанно, некоторые в пределах миллисекунд.

В 1994 году профессоры Джон Моулт и Кшиштоф Фиделис основали CASP для стимулирования исследований, отслеживания прогресса и определения того, как развиваются предсказания структуры белка. CASP выбирает белковые структуры, которые только недавно были определены экспериментально в качестве объектов для команд, которые могут проверить методы прогнозирования структуры. Основным показателем, используемым CASP для измерения точности прогнозов, является Global Distance Test (GDT), который варьируется от 0 до 100. Оценка около 90 GDT неофициально считается конкурентоспособной.

Система AlphaFold получила средний балл 92,4 GDT. Даже для очень сложных белковых мишеней AlphaFold моделирует результат со средним баллом 87,0 GDT.

Свернутый белок можно рассматривать как «пространственный граф», где остатки представляют собой узлы. Для последней версии AlphaFold создали нейросетевую систему, обученную от начала до конца, чтобы интерпретировать структуру этого графа, одновременно рассуждая о неявном графе, который он строит.

Алгоритм AlphaFold от DeepMind решил 50-летнюю задачу фолдинга белка

Система дает надежные прогнозы базовой физической структуры белка за считанные дни. Кроме того, AlphaFold может предсказать, какие части каждой предсказанной структуры белка являются надежными, с помощью внутреннего показателя достоверности.

Систему обучили на общедоступных данных, состоящих из 170 тысяч структур белков из банка данных белков вместе с большими базами данных, содержащими последовательности белков неизвестной структуры. Она использует примерно 128 ядер TPUv3 (эквивалент 100-200 графических процессоров).

Теперь в DeepMind задумались над тем, как лучше всего обеспечить более широкий доступ к системе с возможностью ее масштабирования.

Система уже помогла предсказать несколько белковых структур вируса SARS-CoV-2, включая ORF3a, структура которого ранее была неизвестна, а также ORF8.

В октябре проект Folding@Home объявил, что нашел возможные цели для остановки вируса SARS-CoV-2. Усилия по моделированию белков зафиксировали резкое раскрытие шипов молекулы, а также изменение формы других белков, что позволило выявить более 50 «загадочных» мест. Это и есть искомые цели для разработки противовирусных препаратов.