SeQuant: химические цифровые образы биополимеров
Серов Н.С.,
сотрудник Центра химии и искусственного интеллекта
Химико-биологический кластер
Университет ИТМО
Команда: Капустина О., Разливина Ю.
Как это сейчас
Почему это проблема?
Необходим
интерпретируемый алгоритм со знанием химии
Для чего это нужно?
Исследование механизмов
Разработка ферментов
Разработка аптамеров
Определение функций новых белков
Решение
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
|
|
|
|
|
F Q S A N
1
2
3
4
5
Последовательность
Свойства аминокислот
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
1
2
3
4
5
Свойства биополимера
Нейросеть
Результат
Формирование баз данных
200.000 ферментативных реакций
10.000 уникальных ферментов
8.500.000 белков
4.300.000 РНК
2.900.000 ДНК
Результат
Обучение нейросети
Эпохи
Ошибка
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
|
|
|
|
|
Ошибка восстановления
Сверточный автоэнкодер
Архитектура и обучение модели
Результат
Валидация модели
AUC = 0.987
AUC = 0.951
AUC = 0.924
AUC = 0.780
AUC = 0.942
Классификация quorum-sensing белков
Leyi Wei et al., Comparative analysis and prediction of quorum-sensing peptides using feature representation learning and machine learning algorithms, Briefings in Bioinformatics, Volume 21, Issue 1, January 2020, Pages 106–119
Результат
Валидация модели
Классификация белков-субстратов ферментов
Tallorin, L. et al. Discovering de novo peptide substrates for enzymes using machine learning. Nature Communications, 9, 5253 (2018).
AUC = 0.885
Результат
Валидация модели
Кластеризация биополимеров
Белок / ДНК
Результат
Валидация модели
Классификация биополимеров
РНК ДНК белок
РНК ДНК белок
РНК ДНК белок
РНК ДНК белок
train/test
30/29.970
train/test
300/29.700
train/test
3.000/27.000
train/test
24.000/6.000
CV-100
0.933
CV-100
1.000
CV-100
0.999
CV-100
0.999
Что дальше?
Пополнение баз данных
Добавление полипептидных белков,
мРНК, генов
Работа с очень длинными биополимерами
Добавление LSTM и attention слоев,
минимизация паддинга
последовательностей
Добавление параметров мономеров
Экспериментальные свойства
Дообучение модели
> 1.000.000 последовательностей
Общедоступный сервис
Масштабный рефакторинг, сайт
Работа с полипептидами
Учет межпептидных взаимодействий
Добавление AutoML
Отбор признаков, скрининг моделей, оптимизация гиперпараметров
Учет кофакторов
Ионы, эффекторные молекулы
Генеративные модели
Генеративно-состязательные сети,
вариационные автоэнкодеры
Модели обратного дизайна
Ошибка генератора зависит от
модели, сэмплинг латентного пространства
Полная интерпретируемость
Важность параметров,
послойная интерпретация
В чем это поможет?
Более дешевое
производство лекарств
Новые диагностические
point-of-care системы
Установление свойств неизвестных биополимеров
Известные
Неизвестные
Биороботы для терапии рака и наследственных заболеваний
Команда
Никита Серов
аспирант
Юлия Разливина
аспирант
Ольга Капустина
магистрант