1 of 15

SeQuant: химические цифровые образы биополимеров

Серов Н.С.,

сотрудник Центра химии и искусственного интеллекта

Химико-биологический кластер

Университет ИТМО

Команда: Капустина О., Разливина Ю.

2 of 15

Как это сейчас

  • Доминируют языковые модели
  • Аминокислота – просто буква

3 of 15

Почему это проблема?

  • Никакой химической информации
  • Сложность интерпретации
  • Обучение исключительно на статистике

4 of 15

Необходим

интерпретируемый алгоритм со знанием химии

5 of 15

Для чего это нужно?

Исследование механизмов

Разработка ферментов

Разработка аптамеров

Определение функций новых белков

6 of 15

Решение

F Q S A N

1

2

3

4

5

Последовательность

Свойства аминокислот

1

2

3

4

5

Свойства биополимера

Нейросеть

7 of 15

Результат

Формирование баз данных

200.000 ферментативных реакций

10.000 уникальных ферментов

8.500.000 белков

4.300.000 РНК

2.900.000 ДНК

8 of 15

Результат

Обучение нейросети

Эпохи

Ошибка

Ошибка восстановления

Сверточный автоэнкодер

Архитектура и обучение модели

9 of 15

Результат

Валидация модели

AUC = 0.987

AUC = 0.951

AUC = 0.924

AUC = 0.780

AUC = 0.942

Классификация quorum-sensing белков

Leyi Wei et al., Comparative analysis and prediction of quorum-sensing peptides using feature representation learning and machine learning algorithms, Briefings in Bioinformatics, Volume 21, Issue 1, January 2020, Pages 106–119

10 of 15

Результат

Валидация модели

Классификация белков-субстратов ферментов

Tallorin, L. et al. Discovering de novo peptide substrates for enzymes using machine learning. Nature Communications, 9, 5253 (2018).

AUC = 0.885

11 of 15

Результат

Валидация модели

Кластеризация биополимеров

Белок / ДНК

12 of 15

Результат

Валидация модели

Классификация биополимеров

РНК ДНК белок

РНК ДНК белок

РНК ДНК белок

РНК ДНК белок

train/test

30/29.970

train/test

300/29.700

train/test

3.000/27.000

train/test

24.000/6.000

CV-100

0.933

CV-100

1.000

CV-100

0.999

CV-100

0.999

13 of 15

Что дальше?

Пополнение баз данных

Добавление полипептидных белков,

мРНК, генов

Работа с очень длинными биополимерами

Добавление LSTM и attention слоев,

минимизация паддинга

последовательностей

Добавление параметров мономеров

Экспериментальные свойства

Дообучение модели

> 1.000.000 последовательностей

Общедоступный сервис

Масштабный рефакторинг, сайт

Работа с полипептидами

Учет межпептидных взаимодействий

Добавление AutoML

Отбор признаков, скрининг моделей, оптимизация гиперпараметров

Учет кофакторов

Ионы, эффекторные молекулы

Генеративные модели

Генеративно-состязательные сети,

вариационные автоэнкодеры

Модели обратного дизайна

Ошибка генератора зависит от

модели, сэмплинг латентного пространства

Полная интерпретируемость

Важность параметров,

послойная интерпретация

14 of 15

В чем это поможет?

Более дешевое

производство лекарств

Новые диагностические

point-of-care системы

Установление свойств неизвестных биополимеров

Известные

Неизвестные

Биороботы для терапии рака и наследственных заболеваний

15 of 15

Команда

Никита Серов

аспирант

  • Сопровождение проекта
  • Разработка алгоритмов
  • Сбор баз данных
  • Обучение ИИ

Юлия Разливина

аспирант

  • Консультации по катализу
  • Поиск benchmark данных
  • Тестирование продукта

Ольга Капустина

магистрант

  • Разработка алгоритмов
  • Рефакторинг кода
  • Обучение ИИ