1 of 17

Генерация регуляторных последовательностей дрожжей с заданным влиянием на уровень экспрессии генов при помощи методов глубокого обучения

Носкова Елизавета НС235

Факультет биоинженерии и биоинформатики

Курс: «Нейронные сети и их применение в научных исследованиях»

2 of 17

Промотор играет важную роль в регуляции экспрессии генов

Разнообразие морфологии и физиологии эукариотических клеток определяется контролируемой экспрессией генов

Регуляция транскрипции генов зависит от наличия или отсутствия определенных паттернов в промоторных областях

В большинстве генетических конструкций содержится ограниченный набор промоторов

3 of 17

Цель:

создать нейронную сеть для рационального дизайна регуляторных последовательностей, способную генерировать промоторные последовательности с заданным уровнем экспрессии гена.

Задачи:

  1. Подобрать архитектуру и режим обучения модели
  2. Обучить нейронную сеть на целевых данных
  3. Оценить качество генерации регуляторных последовательностей in silico при помощи предобученной модели предсказателя

4 of 17

Данные получены в результате гигантского репортерного эксперимента

6 и 20 миллионов 80 нуклеотидных промоторных последовательностей с известной экспрессией для дрожжей s.cerevisiae, культивированных в богатой и в селективной питательных средах соответственно

Во время обучения данные разделяются на train и test 4 к 1

5 of 17

Подходы к генерации регуляторных последовательностей

Предсказывающая нейросеть

Генерирующая нейросеть + Предсказывающая

Генерирующая нейросеть

5

  1. Набор последовательностей
  2. Внесение мутаций
  3. Отбор лучших

Повторять пока не повезет

CNN

6 of 17

Подходы к генерации регуляторных последовательностей

Предсказывающая нейросеть

6

7 of 17

Подходы к генерации регуляторных последовательностей

Предсказывающая нейросеть

Генерирующая нейросеть + Предсказывающая

Генерирующая нейросеть

7

  1. Набор последовательностей
  2. Внесение мутаций
  3. Отбор лучших

Повторять пока не повезет

CNN

  1. Генерация последовательностей похожих на промоторы
  2. Отбор лучших

Повторять пока не повезет

GAN

8 of 17

Подходы к генерации регуляторных последовательностей

Генерирующая нейросеть + Предсказывающая

8

9 of 17

Подходы к генерации регуляторных последовательностей

Предсказывающая нейросеть

Генерирующая нейросеть + Предсказывающая

Генерирующая нейросеть

9

  1. Набор последовательностей
  2. Внесение мутаций
  3. Отбор лучших

Повторять пока не повезет

CNN

  1. Генерация последовательностей похожих на промоторы
  2. Отбор лучших

Повторять пока не повезет

GAN

  1. Генерация последовательностей с заданными изначально требованиями

cGAN, transformer, diffusion

10 of 17

Генерация диффузионными моделями

10

Успешные примеры применения диффузионных моделей для дизайна белков позволяют предположить, что этот подход можно применять и для дизайна последовательностей ДНК

https://doi.org/10.1101/2022.12.09.519842

11 of 17

Cold diffusion

11

Для диффузионных моделей не важен тип вносимого шума

Важен процесс обучение, в ходе которого модель обучается обращать небольшие изменения

12 of 17

LegNet имеет архитектуру модифицированной EfficientNetV2

EfficientNetV2 - лучшая модель для работы с изображениями

Оригинальная модель LegNet предсказывает экспрессию промоторных последовательностей с высокой точностью

13 of 17

План обучения

Модель обучалась итеративно исправлять мутации в последовательностях ДНК, опираясь на число мутаций и величину экспрессии

14 of 17

Генерация последовательностей

15 of 17

Модель обученная диффузионным методом генерирует последовательности с высокой корреляцией желаемой и предсказанной экспрессии

Все сгенерированные последовательности уникальны

Наилучшая корреляция в зоне высоких значений экспрессии

16 of 17

Модель на основе архитектуры LegNet, обученная методом cold diffusion пригодна для задачи генерации промоторных последовательностей.

Для обучения модели требуется 200 эпох обучения диффузионным методом при внесении от 0 до 300 мутаций в последовательности.

Наилучшая достигнутая корреляция Пирсона и Спирмена составила 0.853 и 0.845 соответственно для модели, обученной на наборе данных из 6 млн и 0.832 и 0.843 для модели, обученной на наборе данных из 20 млн последовательностей. Наилучшее качество генерации в диапазоне экспрессии 12-16 для обоих моделей.

Заключение

17 of 17

Благодарности