1 of 12

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

Копылов Кирилл Евгеньевич

ФББ МГУ имени М.В. Ломоносова, выпускник аспирантуры

НИВЦ МГУ, младший научный сотрудник

Курс «Нейронные сети и их применение в научных исследованиях»

2 of 12

2-гидроксибифенил-3-монооксигеназа

  • FAD и NADH-зависимый фермент
  • Перспективный катализатор для фармацевтической промышленности
  • Отсутствует полноатомная структура активного центра – не разрешены петли Tyr256-Ile266 и Arg228-Val236

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

Структура тетрамера 2-гидроксибифенил-3-монооксигеназы

3 of 12

Метадинамика

  • Вариант молекулярной динамики с расширенным сэмплированием
  • Исследование поверхности потенциальной энергии в координатах «коллективных переменных» (collective variables, CV)
  • Системе помогают преодолеть потенциальные барьеры путём постепенного добавления гауссианов
  • ППЭ можно восстановить путём интегрирования гауссианов
  • Расчёт выполняется в нескольких экземплярах молекулярной динамики с общим потенциалом (“walkers”)
  • Число коллективных переменных ограничено

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

https://www.youtube.com/watch?v=IzEBpQ0c8TA

4 of 12

Метадинамика с нейросетевой CV

  • Коллективной переменной метадинамики может быть сложная функция, но для неё должны быть известны производные
  • Возможно проведение метадинамика для исследования ППЭ в пространстве выходов нейросети, действуя на исходное пространство путём вычисления градиентов с помощью функции обратного распространения PyTorch autograd в модуле связывания PyTorch и Plumed
  • Модель необходимо преобразовать в Torch JIT

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

Bonati L., Rizzi V., Parrinello M. Data-driven collective variables for enhanced sampling // The journal of physical chemistry letters. ACS Publications, 2020. Vol. 11, № 8. P. 2998–3004.

5 of 12

Модели

  • Описано применение вариационных автоэнкодеров для понижения размерности третичных структур белков
  • Вход - 48 двугранных углов
  • Размерность латентного пространства - 3
  • Исследуются две модели:
    • классический вариационный автоэнкодер (латентное пространство имеет многомерное нормальное распределение)
    • гиперсферический вариационный автоэнкодер (распределение фон Мизеса-Фишера на многомерной сфере)

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

https://avandekleut.github.io/vae/

6 of 12

Датасет

  • Всего 30 000 структур(Alphafold,Rosetta, разведывательная метадинамика)
  • 24 остатка, для каждого двугранные углы φ и ψ (48 всего)
  • Данные кластеризуют с помощью HDBSCAN для присвоения меток классов

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

Положение петель в разных структурах датасета

Визуализация датасета двугранных углов участков HbpA с помощью UMAP. Раскраска по HDBSCAN

7 of 12

Результаты

  • Обучены два вида вариационных автоэнкодеров: классический и гиперсферический
  • Запущена метадинамика с обоими VAE на суперкомпьютере “Ломоносов-2” для целевого фермента (5 различных стартовых структур в двух повторах, всего 10 GPU)
  • Гиперсферический автоэнкодер показал лучшую стабильность при расчёте (не происходит “взрыв градиентов”) - предпочтителен для данной задачи

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

Отображение датасета с помощью гиперсферического VAE

Отображение датасета с помощью классического VAE

Loss = cosine distance + 1∙10-2 KL divergence

8 of 12

Результаты

  • Метадинамика с гиперсферическим вариационным автоэнкодером показала минимум потенциальной энергии, близкий к структурам, предсказанным Alphafold

  • Разница со следующим классом минимумов (из молекулярной динамики) - порядка 15 ккал/моль

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

Изоповерхность потенциальной энергии метадинамики с гиперсферическим VAE на уровнях

-140 (голубой) и -110 кДж/моль (красный).

Серый - оптимальная структура (минимум “А”)

Цветной - предсказание Alphafold

9 of 12

Валидация

  • Белок Trp-Cage - распространённая модель для молекулярно-динамического фолдинга
  • Получение датасета - гауссова молекулярная динамика с усилением вариабельности двугранных углов
    • из ЯМР структуры 1L2Y
    • из развёрнутого полипептида
  • Метадинамика с VAE CV в трехмерном пространстве эмбеддингов
  • Сравнение структуры в минимуме рассчитанной ППЭ с известной

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

Biedermannova L. et al. Another role of proline: stabilization interactions in proteins and protein complexes concerning proline and tryptophane //Physical Chemistry Chemical Physics. – 2008. – Т. 10. – №. 42. – С. 6350-6359.

10 of 12

Валидация

  • 20 остатков, для каждого углы φ и ψ� ⇒ 38 входов VAE
  • Размер датасета - 400 000 структур
  • Минимум на поверхности потенциальной энергии соответствует структуре, сходной с литературными данными и структурами ЯМР из банка данных PDB

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

Белый- оптимальная структура из метадинамики (минимум “А”)

Серый - структура ЯМР из PDB 1L2Y

Отображение датасета Trp-cage с помощью гиперсферического VAE

11 of 12

Исходный код

Исходный код и датасет Trp-cage доступны в репозитории GitLab:

https://gitlab.school.msu.ru/kkopylov/trp-cage-md-and-vae

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

12 of 12

Моделирование структуры подвижных участков белка с помощью GPU-ускоренной метадинамики с коллективными переменными на основе вариационных автоэнкодеров

  • Разработан метод поиска оптимальных конформаций белков с помощью метадинамики с коллективной переменной – гиперсферическим вариационным автоэнкодером
  • Метод протестирован на модельном белке – 20-аминокислотном полипептиде Trp-cage, получен минимум энергии, близкий к ЯМР-структуре из банка данных PDB
  • Предсказано наиболее вероятное с точки зрения минимума потенциальной энергии положение петель в активном центре фермента 2-гидроксибифенил-3-монооксигеназы, близкое к структурам, предсказанным Alphafold

Заключение