1 of 74

Машинное обучение для предсказания активности регуляторных районов генов

Пензар Дмитрий Дмитриевич

Преподаватель ФББ МГУ, мнс ИОГЕН

2 of 74

Зачем?

Большое число заболеваний обусловлено генетическими причинами
Часто мутация может увеличивать риск возникновения того или иного заболевания
Даже если мы не говорим про заболевание, хорошо бы уметь давать рекомендации по образу жизни в зависимости от генетики человека

3 of 74

Схема в идеальном мире

Геном человека

Сильный искуственный интеллект

Прогноз на все случаи жизни

4 of 74

Схема в идеальном мире

Геном человека

Сильный искуственный интеллект

Прогноз на все случаи жизни

5 of 74

Схема в идеальном мире

Геном человека

модель1

модель

…

Аггрегация

предсказаний

Специалист

6 of 74

Мутации

Кодирующие мутации

Регуляторные мутации

Нейтральные
Изменение структуры белка
Нарушение каталитической активности
Нарушение связывания с другими белками

…

Нейтральные
Изменение доступности хроматина
Сплайсинг
Эффекты на уровне регуляции трансляции

…

7 of 74

Текущие проблемы

Малое количество данных
Большой шум в данных
Плохая переносимость
Условия эксперимента != реальные условия

8 of 74

Регуляторные мутации. Сплайсинг

Model(ATGCACCACACAC) - Model(ATGCACGACACAC)

Эффект мутации

Данных о точечных эффектах замен на сплайсинг - мало
Научимся предсказывать для конкретной позиции быть сайтом сплайсинга
Будем использовать разницу оценок для последовательности с мутацией и без как оценку эффекта мутации

10.1016/j.cell.2018.12.015

9 of 74

Регуляторные мутации. �Связывание транскрипционного фактора

Многие важные регуляторные мутации расположены в сайтах связывания транскрипционных факторов

Можно решать вместе с более общей проблемой, можно решать напрямую

10 of 74

Модели для предсказания эффекта регуляторной мутации

Предсказываем некое прокси – влияние на открытость хроматина, данные ChiP-Seq, …

Предсказываем эффект на экспрессию напрямую

Учимся на прямых данных об эффекте мутации или получаем предсказание косвенно

Учимся на данных одного эксперимента, или на нескольких одновременно

11 of 74

Самый частый эффект мутации в регуляторных регионах – изменения открытости хроматина. Из-за изменения связывания конкретно ТФ или нет – не всегда важно

12 of 74

Многие важные регуляторные мутации расположены в сайтах связывания транскрипционных факторов

Можно решать вместе с более общей проблемой, можно решать напрямую

13 of 74

Модели для предсказания эффекта регуляторной мутации

Предсказываем некое прокси – влияние на открытость хроматина, данные ChiP-Seq, …

Предсказываем эффект на экспрессию напрямую

Учимся на прямых данных об эффекте мутации или получаем предсказание косвенно

Учимся на данных одного эксперимента, или на нескольких одновременно

14 of 74

Прямых данных о влиянии мутаций на доступность хроматина мало и они «прямые» (даже если грести все данные)

Есть данные об аллель-специфичном связывании
Большая часть – очень шумная и получена косвенным методом
Можно использовать только для валидации
Скоро будут опубликованы более точные данные, но они тоже не идеальны

10.1038/s41467-021-23007-0

15 of 74

Модели для предсказания эффекта регуляторной мутации

Предсказываем некое прокси – влияние на открытость хроматина, данные ChiP-Seq, …

Предсказываем эффект на экспрессию напрямую

Учимся на прямых данных об эффекте мутации или получаем предсказание косвенно

Учимся на данных одного эксперимента, или на нескольких одновременно

16 of 74

Как мы предсказывали эффект, зная доступность?

A/T

AGTACGACGCACG

AGTACGTCGCACG

Доступность хроматина 1

Доступность хроматина 2

Влияние замены = Доступность хроматина 2 - Доступность хроматина 1

17 of 74

Общая схема косвенного* предсказания

A/T

AGTACGACGCACG

AGTACGTCGCACG

(Предсказанная) Доступность хроматина 1

(Предсказанная)Доступность хроматина 2

Влияние замены = Доступность хроматина 2 - Доступность хроматина 1

* Для увеличения импакта статьи пишем “zero-shot learning”, т.к мы учимся на одних данных, и предсказываем другие, не обучаясь на них специально

18 of 74

Gkm/deltaSVM

Основана на методе опорных векторов и его последующем «огрублении»
Предсказываем доступность хроматина бинарно – доступен или нет
Из SVM можно вытащить число, которое в нулевом приближении соответствует уверенности модели в предсказании класса
Используем это число в предыдущей схеме

doi.org/10.1038/ng.3331

19 of 74

Модели для предсказания эффекта регуляторной мутации

Предсказываем некое прокси – влияние на открытость хроматина, данные ChiP-Seq, …

Предсказываем эффект на экспрессию напрямую

Учимся на прямых данных об эффекте мутации или получаем предсказание косвенно

Учимся на данных одного эксперимента, или на нескольких одновременно

20 of 74

Косвенные данные

https://gtrd.biouml.org/

�

21 of 74

Multi-target learning

1. Каждому объекту соответствует большое число разных значений, которые мы хотим предсказывать.

2. При этом эти значения связаны, например растворимость и токсичность.

3. Данные об одном значении косвенно говорят нам информацию о других (и помогают отсеять шум)

4. Потому обучаясь предсказывать сразу все значения, мы можем достигнуть более высокого качества

…

https://www.youtube.com/playlist?list=PLoROMvodv4rNjRoawgt72BBNwL2V7doGI

22 of 74

Multi-target learning. Доступность хроматина

1. Каждому участку генома соответствует информация из разных типов экспериментов для разных клеточных линий
При этом эти значения связаны:

1) методы оценки доступности хроматина дают коррелированные значения

2) есть похожие клеточные линии, есть константно открытые/закрытые участки

3. Данные об одном значении косвенно говорят нам информацию о других

4. Потому, обучаясь предсказывать сразу все значения, мы можем достигнуть более высокого качества

seq

…

23 of 74

Как перейти от предсказаниядля большого числе экспериментов к одному числу, оцениваниющими эффект мутации?

24 of 74

Как перейти от предсказаниядля большого числе экспериментов к одному числу, оцениваниющими эффект мутации? Вариант 1

1) Учим на этих еще одну модель, используя прямые данные

2) Теряем zero-shot☹

…

Модель

второго

уровня (linreg, xgboost)

score

25 of 74

Как перейти от предсказаниядля большого числе экспериментов к одному числу, оцениваниющими эффект мутации?

Выбрать наиболее подходящий эксперимент (для клеток крови взять данные клеток крови, и т.д.)
Аггрегировать изменения по разным экспериментам в одно число без машинного обучения

26 of 74

Как перейти от предсказаниядля большого числе экспериментов к одному числу, оцениваниющими эффект мутации?

Похоже на агреггацию, но более умные слова:

Используем предсказанные значения как описание последовательностей и считаем между ними расстояние

27 of 74

DeepSEA

10.1038/nmeth.3547

Учим нейронную сеть предсказывать результаты сразу 919 экспериментов (тоже – есть или нет связывание, классификация)
Для этого используем последовательность длины 1000н
Можем посчитать эти предсказания для последовательности без и с заменой
Далее обучаем на этих предсказаниях, используя маленький датасет, дополнительную модель
Потеряли zero-shot, приходится дообучаться на шумных данных

28 of 74

Beluga (DeepSEA-2019)��

2002 эксперимента из ENCODE
Задачу ставим как бинарную классификацию
Окно теперь в 2000 нуклеотидов, предсказываем для 200 центральных нуклеотидов
К полученным признакам применяется понижение размерности, затем на них учится XGBoost предсказывать tissue-specific экспрессию в 200 клеточных линиях

10.1038/s41588-018-0160-6

29 of 74

Sei (DeepSEA-2022)��

10.1038/s41588-022-01102-2

21,907 эксперимента из ENCODE и др
Задачу ставим как бинарную классификацию
Окно теперь в 4000 нуклеотидов,
Якобы «novel architecture» - по сути же novel оно только для линейки DeepSEA
Можно использовать полученные предсказания как эмбединги последовательностей – они (предсказуемо) делятся по ТФ и тд

30 of 74

Классификация vs регрессия

Можем трактовать задачу как классификацию – есть открытые участки хроматина, есть закрытые. Учимся отличать.

Необходимо выбрать правила, по которым считаем участок открытым

Можем трактовать задачу как регрессию. Это более естественно и позволяет нам давать сети данные настолько сырыми, насколько возможно, что по примерам из других доменов - лучше

10.1038/s42256-022-00570-9

31 of 74

Классификация vs регрессия

Можем конвертировать предсказания классификационных моделей в аналог предсказания регрессионных, и наоборот. Сравнивая, получаем, что регрессионные модели всегда лучше. Лучше использовать данные, наиболее близкие к исходным

32 of 74

Basenji2

Регрессионная модель
Предсказываем число каунтов в каждом из бинов размера 128 нуклеотидов (за счет dilated convolutions)
Так как число каунтов – целое, то используется Poisson loss
Сильно бОльшая последовательность - 1024 * 128 = 131072 пар оснований
Берем данные не только для человека, но и для мыши. Улучшает предсказание и на человеке

10.1371/journal.pcbi.1008050

33 of 74

Enformer

Учим нейронную сеть предсказывать численные результаты сразу 7000+ экспериментов (регрессия)
Используем последовательность сильно бОльшего размера (100кб)
Можем посчитать эти предсказания для последовательности без и с заменой
Далее обучаем лассо-регрессию на этих предсказаниях, используя маленький датасет,
Но можно просто усреднить предсказания по клеточным линиям, близким целевой или активным ТФ – тоже получается хорошее предсказание – zero-shot вернулся

10.1038/s41592-021-01252-x

34 of 74

Задача решена?

DeepMind заявил, что да
(Нет, не решена)

35 of 74

Нюансы

При корректном анализе оказывается, что Enformer никак не использует бОльшую глубину окна – не в состоянии улавливать эффекты, проявляющиеся на больших расстояниях (10.1186/s13059-023-02899-9)
Главное заявление статьи – научились предсказывать эффекты мутаций на экспрессию – ложно. Аккуратное измерение этого не подтверждает (10.1101/2023.03.16.532969v1)
Интересно, что силу эффекта получается предсказать лучше, чем направление
Enformer обучался на очень большом числе экспериментов – нужны очень аккуратно выбирать данные для оценки его качества, иначе легко взять данные, которые модель уже видела (data leakage)

36 of 74

Нюансы 2 (данные человеческих промоторов)

Enformer

Simple CNN

10.1101/2023.03.05.531189

37 of 74

Модели для предсказания эффекта регуляторной мутации

Предсказываем некое прокси – влияние на открытость хроматина, данные ChiP-Seq, …

Предсказываем эффект на экспрессию напрямую

Учимся на прямых данных об эффекте мутации или получаем предсказание косвенно

Учимся на данных одного эксперимента, или на нескольких одновременно

38 of 74

Прямых данных мало и они «прямые»

Есть данные об эффекте мутаций в конкретных регуляторных последовательностях
До недавнего времени – данных мало
Большая часть – очень шумная и получена косвенным методом
Можно использовать только для валидации

10.1002/humu.23797

39 of 74

Прямых данных мало и они «прямые»

10.1038/s41586-021-03211-0

Можно получать при помощи SELEX (SNP-SELEX)

Данные грязные и малочисленные

40 of 74

Модели для предсказания эффекта регуляторной мутации

Предсказываем некое прокси – влияние на открытость хроматина, данные ChiP-Seq, …

Предсказываем эффект на экспрессию напрямую

Учимся на прямых данных об эффекте мутации или получаем предсказание косвенно

Учимся на данных одного эксперимента, или на нескольких одновременно

41 of 74

Massively parallel reporter essays (дрожжи)

Вставляют случайные последовательности длины 80н перед экспрессируемым белком
Кроме того, в конструкции есть константно экспрессируемый белок
Если последовательность сильно увеличивает экспрессию – клетка будет светиться желтым. Если сильно понижает – красным. И т.д
Далее остается отсортировать клетки по светимости и отсеквенировать

10.1038/s41587-019-0315-8

42 of 74

DREAM2022 LegNet

На этих данных даже устраиваются конкурсы побеждает наша нейросеть ☺

10.1093/bioinformatics/btad457

43 of 74

Massively parallel reporter assays (человек)

Делают и эксперименты, дающие в том числе непрерывные измерения
Ограничения пока те же, что в прошлом эксперименте – размер последовательности небольшой, и конструкции не позволяют оценивать дальние взаимодействия

doi.org/10.1101/2023.03.05.531189

44 of 74

TL;DR 1й части

Есть множество подходов для предсказания эффектов регуляторных мутаций
На данный момент наиболее известные и разработанные – косвенное предсказание через численно (а не качественно) предсказанную активность хроматина
Даже в этом подходе остается множество вопросов, в частности – текущие модели не учат дальние взаимодействия, хотя потенциально могут
Становится все больше прямых данных об влиянии регуляторных участков на экспрессию, получаемых при помощи MPRA*

*При этом область не так загажена занята

45 of 74

Особенности реализации

46 of 74

Как работать с нуклеотидной последовательностью?

Либо трактовать как текст

Либо трактовать как 1D-изображение

47 of 74

Идейно должно работать примерно так*

*По факту – сильно не всегда, это даже не первое, а нулевое приближение того, что происходит в модели

10.1038/s41576-019-0122-6

48 of 74

Откуда брать идеи для архитектуры?

49 of 74

Откуда брать идеи для архитектуры?

Лучше всего брать архитектуры из области, к которой вы свели свою задачу
Лучше всего посмотреть, какие архитектуры сейчас наиболее популярны
Не попадайтесь на хайп – самая хайповая != наиболее используемая и/или качественная
Хороший выбор для начала – ResNet, DenseNet, EfficientNetV2. Вероятнее всего вам потребуется архитектура сильно меньше
Можете использовать нашу архитектуру – LegNet (https://github.com/autosome-ru/LegNet), она дает как минимум хороший старт

50 of 74

На что стоит обратить внимание?

… training methods and scaling strategies can have even larger impacts [than architectural changes]

Revisiting ResNets … (arxiv.org/abs/2103.07579)

�

Посмотрите, как учили архитектуру, которую вы взяли за основу.
Смиритесь с тем, что подбирать параметры обучения придется, и долго
Один из хороших подходов – OneCycleLR + AdamW

51 of 74

Любая информация - важна

Например, мы знаем, что наша модель должна по-разному работать для прямой и обратной комплементарной последовательности – передаем ей информацию о цепи
Знаем, что часть данных хуже, чем остальные – их тоже можно пометить

52 of 74

Receptive field

53 of 74

Receptive field != размер входной последовательности

Взаимодействия потенциально видим только на таком расстояние – receptive field

Взаимодействия факторов C и D с фактором A мы не увидим

54 of 74

Аугментация – что и зачем?

Многие датасеты, в том числе биологические, в сравнении с уровнем шума в них малы. Даже если вы учитесь на геноме человека
Потому полезно добавить в выборку немного измененные данные – это помогает предотвратить переобучение и сделать модель более устойчивой к шуму

55 of 74

Аугментация – reverse-complement

Для последовательностельностей почти всегда можно делать reverse-complement аугментацию. Если ориентация при этом важна – не забываем сказать модели об этом

56 of 74

Аугментация – shifts

2. Если предсказываем что-то в геноме – можно немного двигать окошко вокруг предсказываемой позиции. Насколько можно двигать и в любую ли сторону – зависит от задачи

57 of 74

Аугментация – общий совет

Если вы знаете, что какое-то изменение в входном объекте не меняет суть задачи – можно попробовать добавлять такое изменение в качестве аугментации

Заимствовать аугментации напрямую из изображений – плохая идея. Многое не работает (mixup и прочее).

58 of 74

Test-time аугментация

Во время предсказания часто можно сделать много немного измененных версий нашего объекта и усреднить предсказание для них всех

59 of 74

Оценка значимости при помощи test-time аугментации

А еще из такого набора предсказаний можно оценить дисперсию предсказаний модели и отбирать только значимые предсказания*

*иногда может выйти чушь

60 of 74

Как разбить данные

61 of 74

Как разбить данные. Случайные последовательности

Сложностей (почти) нет, в принципе, можно разбить случайным образом

Можно разбить на осмысленные группы, например, все последовательности, померянные с хорошей достоверностью, послать в валидацию

62 of 74

GC-состав

Участки открытого хроматина/сайты связывания транскрипционных факторов смещены по gc-составу

Потому качество классификации модели, что учится их отличать по gc-составу будет отлично от 0.5

Можно с этим бороться (грубый способ – biasaway), можно просто бейзлайн выбрать с учетом этого.

63 of 74

Геномные данные. Плохой вариант

Разбить геном на случайные куски – часть идет в обучение, часть идет в тестирование

64 of 74

Геномные данные. Плохой вариант

10.1371/journal.pcbi.1006625

65 of 74

Геномные данные. Плохое разбиение

10.3389/fgene.2019.01078

Можно заменить последовательности абсолютно другими, наложить сигнал с первых и все равно получить хорошее качество

66 of 74

Геномные данные. Плохое разбиение

Разбить геном на случайные куски – часть идет в обучение, часть идет в тестирование

Почти любой геномный сигнал вдоль последовательности непрерывен – близкие участки хорошо говорят друг о друге – модель просто выучивает позиции в геноме.

67 of 74

Геномные данные. Правильные разбиения

Часть хромосом – в обучение

Часть хромосом – в тест

Часть плечей хромосом – в обучение

Часть плечей хромосом – в тест

Позволяет модели смотреть особенности хромосом

68 of 74

TL;DR 2й части

Есть два основных подхода к работе с нуклеотидными последовательностями – трактовать их как текст или как изображения
Обе трактовки позволяют достаточно несложно адаптировать модели из general ml в биологию.
Важна не только архитектура модели, но и то, как ее обучали, какие аугментации использовали и тд
Аугментацию можно использовать и для финального предсказания, усредняя предсказания и оценивая уверенность модели
Очень важной проблемой при работе с геномными последовательностями является правильное разбиение на обучение и валидацию, избегающее data leakage. Повсеместно используется разбиение по хромосомам.

69 of 74

Подробнее про проблему разбиения биологических данных для машинного обучения

Моя лекция на эту тему: https://www.youtube.com/watch?v=AAgZoO6ApIY

Материалы

https://colab.research.google.com/drive/1HtIKAGdjOKKx1yZTyG4MTvBjD5LreCGJ

70 of 74

Unsupervised/Self-supervised

Подходы, основанные на unsupervised/self-supervised обучении хорошо помогают в случае белков (AlphaFold2 использует self-supervised часть в том числе)

Хочется использовать это и для геномных последовательностей. Насколько это работает – вопрос, который осветят в среду

Следущие слайды для кеков.

71 of 74

DNABERT

Авторы заявляют, что у них предобучение работает лучше, чем обычное обучение.

Предобученные модели и модели с случайной инициализацией весов обучали одинаково.

Что происходит на графике?

72 of 74

DNABERT

Трансформеры, особенно сравнительно старые, склонны взрываться и выдавать после этого какое-то константное значение. Модели со случайной инициализацией (кроме 3-init) просто взрываются. В случае 3-init с большой вероятностью померла только часть весов

doi.org/10.1093/bioinformatics/btab083

73 of 74

DNABERT: мораль

ВСЕГДА, когда вам пытаются продать модель, которая училась в несколько этапов, проверяйте, что те модели, с которыми она сравнивалась, учились в максимально похожих с ней

1 of 74

2 of 74

3 of 74

4 of 74

5 of 74

6 of 74

7 of 74

8 of 74

9 of 74

10 of 74

11 of 74

12 of 74

13 of 74

14 of 74

15 of 74

16 of 74

17 of 74

18 of 74

19 of 74

20 of 74

21 of 74

22 of 74

23 of 74

24 of 74

25 of 74

26 of 74

27 of 74

28 of 74

29 of 74

30 of 74

31 of 74

32 of 74

33 of 74

34 of 74

35 of 74

36 of 74

37 of 74

38 of 74

39 of 74

40 of 74

41 of 74

42 of 74

43 of 74

44 of 74

45 of 74

46 of 74

47 of 74

48 of 74

49 of 74

50 of 74

51 of 74

52 of 74

53 of 74

54 of 74

55 of 74

56 of 74

57 of 74

58 of 74

59 of 74

60 of 74

61 of 74

62 of 74

63 of 74

64 of 74

65 of 74

66 of 74

67 of 74

68 of 74

69 of 74

70 of 74

71 of 74

72 of 74

73 of 74

74 of 74