1 of 64

Расшифровка ДНК как египетские иероглифы

Чем занимается сравнительная геномика

На основе материалов манора 2022-23 года Антонова Ивана

2 of 64

Египетские пирамиды

3 of 64

Египетские иероглифы

3

4 of 64

Все известные последовательности ДНК находятся здесь

4

5 of 64

Участок ДНК

5

6 of 64

Поиск повторений в египетских текстах

6

7 of 64

Некоторые повторения в египетских текстах

7

“язык”

8 of 64

Некоторые повторения в египетских текстах

8

“исчезнуть”

9 of 64

Некоторые повторения в египетских текстах

9

“красивые девушки”

10 of 64

Биологические повторы

10

A G G A G G

A G G A G G

“Сайт связывания с рибосомой”

11 of 64

Повторы могут немного отличаться друг от друга

11

Египетские пирамиды

ДНК

Развитие египетского языка

Эволюция

Опечатки, которые допустил древний египтянин

Случайные мутации

Наши ошибки при чтении иероглифов

Ошибки секвенатора

12 of 64

Повторы могут немного отличаться друг от друга

12

Египетские пирамиды

ДНК

Развитие египетского языка

Эволюция

Опечатки, которые допустил древний египтянин

Случайные мутации

Наши ошибки при чтении иероглифов

Ошибки секвенатора

A G G A G G

A G G A G T

13 of 64

Программа MEME – ищет повторы

13

A G G A G G

A G G A G T

A G G A G G

A G G A G G

MEME

MEME

14 of 64

Розетский камень

14

15 of 64

Jean-Francois Champollion

15

Твое

Фото

Может

Быть

Здесь

16 of 64

AB INITIO ПРЕДСКАЗАНИЕ БЕЛОК-КОДИРУЮЩИХ ГЕНОВ

Рамка считывания

17 of 64

Как таблица генетического кода помогает найти потенциальные гены?

17

18 of 64

Как фотография хранится в памяти компьютера?

19 of 64

Фотография состоит из пикселей

20 of 64

Трансляция

00000001011101010101000011111010 … 010101011111

Black

Dark red

Red

Red

Новая строка

ATGAAACCCGGGGTTTACCCCATGG … TGA

M

STOP!

A

C

G

W

N

Q

M

21 of 64

Вернемся к ДНК!

Фотография в компьютере

ДНК в клетке

Название «участка»

Бит

Кодон

Размер «участка»

8

3

Алфавит

1/0

A/C/G/T

Что кодирует один «участка»

Цвет пикселя

Аминокислота в белке

Количество разных «участков»

255 (28-1) цветов

64 разных кодонов

(20 разных аминокислот)

Специальный «участок»

Новая строка

Стоп кодон

Конечный результат

Фотография

Последовательность белка

22 of 64

Таблицы конвертации

22

Black

Dark red

Red

White

Новая строка

00000000

01110101

01010000

11111111

01010101

Метионит (M)

Глутамин (Q)

Валин (V)

Цистеин (C)

Стоп-кодон

ATG

CAG

GTG

TGT

TGA

TAA

TAG

Стоп-кодон

Стоп-кодон

23 of 64

Генетический код: кодон => аминокислота

23

24 of 64

Рамка считывания

00000001011101010101000011111010 … 010101011111

Black

Dark red

Red

Red

Новая строка

Что еще важно, чтобы получить правильную фотографию?

00000001011101010101000011111010 … 010101011111

Green

Dark green

Gray

New Line

New Line

25 of 64

Та же картинка, прочитанная в рамке +1

Много байтов «новая строка» + преждевременный байт окончания файла

26 of 64

Трансляция ДНК в 3х рамках считывания

C T A A C T C T T A A T A T G A A A G A T …

Leu

Thr

Leu

Asn

Ser

Asp

Основная рамка:

Glu

Stop

Leu

Рамка +1:

Leu

Ile

Stop

Lys

Рамка +2:

Asn

Ser

Stop

Tyr

Glu

Arg

Открытая рамка считывания

Open reading frame (ORF)

27 of 64

Кодирующий потенциал

28 of 64

AB INITIO ПРЕДСКАЗАНИЕ БЕЛОК-КОДИРУЮЩИХ ГЕНОВ

Алгоритм GeneMark

29 of 64

Футбол

Владелец «Челси»: 2003 – 2022

Главный тренер «Челси»: 2004 – 2007

2013 – 2015

30 of 64

Результаты Челси 2004-2015 гг (661 игра)

Моуриньо: 2004 – 2007

2013 – 2015

31 of 64

Результаты Челси с 2004 года (661 игра)

32 of 64

Предсказать период, когда Челси тренировал НЕ Моуриньо

W W W W D W D W W W L W W W W W W D D W W W L D W W W W W W D W W W W W D W L L W W W W W W W D L D W D W L W W D W W W W W W W W W D W W W D L W L L W W W W D W W W W W W W W D D D W W L W L W W D W L W W D W W W L W L L L W L W W W W W W D W W W W W D L W W W L D W W D W W W W D D D W D W L W W W W W W D W W W D W W W W D W W W W D W D L D D D W L W W D W L D D L W D W W W W W W W D D W W W W D L W W D W W W W W W W W W W D D W D L W W L W W D W W L W W D W D W W W D L W W D W W D W W D W W W L W W L W L W D D L W W D D W D D L W W W W L D W W W W W W D W L W W W D W D W D W D W W W W W W W W W W W W W L W W L W W W W D W W W W L L D D W D D W W W W W W D W L W W L L W W L D W W W W W L W W W W L W W W W W W L L W W D W W W W L W L L W D D L D L W D L W W W D W L D L W W W D W D L W L W W W W L D L D W W W W L W W D W W W L W L D W L L W L W W W D D D L W W W D W D D L D L W L W W W W L D W W W W D W W D D W L W L W W L W W W L D D W W W W W W L L W D W D L L D D L W W W L W W W W L W L W D W D D D L W W W D L W W L D W W L W W W L L W D W W W W D W W W W W D L L L W W D W W W W W W L W D W L W W L W W L D W W W W W W W W D W W D L W D W W L W W L L W W W L D W L D W W W W W D D W W W W W W D W W D W W W D W L W W W W W D L W W W D L W D W W D D W W D D W W W W D W W D L W L D L W L L W W W D L L W

W – победа, D – ничья, L – поражение

33 of 64

“The special one”

Others

34 of 64

Статистика работы в Челси

“The special one”

Others

Win (W) = 64.7%

Draw (D)= 20.6%

Loss (L) = 14.7%

Win = 60.1%

Draw = 20.9%

Loss = 19.0 %

Последовательность игр Челси

x = W W W

Кто был тренером в это время?

35 of 64

Условная вероятность

x = W W W

P(x|Mourinho) = 0.647*0.647*0.647 = 0.2708

P(x|Other) = 0.601*0.601*0.601 = 0.2171

36 of 64

А какова же вероятность Моуриньо?

P(x|Mourinho) – вероятность того, что ПРИ УСЛОВИИ, что тренером ЯВЛЯЕТСЯ Моуриньо, БУДУТ одержаны 3 победы подряд

А мы хотим знать P(Mourinho|x) – вероятность того, что ПРИ УСЛОВИИ 3-х побед подряд, тренером ЯВЛЯЛСЯ Моуриньо

Теорема Байеса

x = W W W

P(x|Mourinho) = 0.2708

P(x|Other) = 0.2171

Постериорная вероятность:

P(M|x) = P(M)*P(x|M)/(P(M)*P(x|M) + P(O)*P(x|O))

= 0.5*0.2708/(0.5*0.2708+0.5*0.2171) = 55.5%

P(Other|x) = 0.5*0.2171/(0.5*0.2708+0.5*0.2171) = 44.5%

37 of 64

55.5% звучит не очень убедительно…

Проблема в том, что у нас мало наблюдений (всего 3 игры). Что если мы возьмем 50 побед подряд:

X = WWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWW

P(x|Mourinho) = 0.647 ^ 50 = 3.5*10-10

P(x|Other) = 0.601 ^ 50 = 8.78*10-12

Постериорная вероятность:

P(M|x) = 3.5e-10/(8.78e-12+3.5e-10) = 97.5%

38 of 64

Как GeneMark предсказывает гены?

X = WWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWW

2 модели: Моуриньо или Другой тренер

X = GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC

2 модели: белок-кодирующая область или некодирующая

39 of 64

Предсказание генов

Белок-Кодирующая

Некодирующая

P(A) = 20.5%

P(C) = 29.6%

P(G) = 35.4%

P(T) = 14.5%

P(A) = 20.4%

P(C) = 28.3%

P(G) = 32.8%

P(T) = 18.4%

Участок ДНК:

x = GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAG

Теорема Байеса

40 of 64

Третья позиция кодона – особенная

41 of 64

Кодирующая область vs. Некодирующая

Nucleotide frequency patterns �in non-coding DNA (left half of the picture) and protein-coding DNA (right half) �

visualization of alignment of 1000+ E. coli sequences with length 120 nt; �each sequence contains a gene start in the middle

42 of 64

Учет кодонов

Белок-Кодирующая

Некодирующая

Позиция в кодоне

1 2 3

P(A) 19.3% 28.8% 13.2%

P(C) 24.1% 33.4% 31.5%

P(G) 45.8% 19.3% 41.2%

P(T) 10.8% 18.4% 14.1%

P(A) = 20.4%

P(C) = 28.3%

P(G) = 32.8%

P(T) = 18.4%

Участок ДНК:

x = GCG

Можем ли мы сказать, белок-кодирующий он или нет?

43 of 64

Вероятность белок-кодирующего гена?

COD1 – белок-кодирующая последовательность в рамке 0

COD2 – белок-кодирующая последовательность в рамке +1

COD3 – белок-кодирующая последовательность в рамке +2

NON - некодирующая последовательность

x = G C G

P(x|COD1) = ?

P(x|COD2) = ?

P(x|COD3) = ?

P(x|NON) = ?

Постериорные вероятности:

P(COD1|x) = ?

P(COD2|x) = ?

P(COD3|x) = ?

P(NON|x) = ?

44 of 64

Спортивная психология

45 of 64

Учет психологии в нашей модели

“The special one”

Others

WW = 42.3%

LW = 8.8%

DD = 0.0360656

DL = 0.0360656

DW = 0.134426

LD = 0.0262295

LL = 0.0295082

WD = 0.144262

WL = 0.0819672

WW = 36.5%

LW = 12.4%

DD = 0.0449735

DL = 0.0529101

DW = 0.111111

LD = 0.0343915

LL = 0.031746

WD = 0.12963

WL = 0.10582

P(W|L) – вероятность победы при условии, что предыдущую игру проиграли

P(W|W) – вероятность победы при условии, что предыдущую игру выиграли

46 of 64

Условная вероятность вычисляется с учетом предыдущей игры

47 of 64

Метод «Скользящего окна»

W W W W D W D W W W L W W W W W W D D W W W L D W W W W W W D W W W W W D W L L W W W W W W W D L D W D W L W W D W W W W W W W W W D W W W D L W L L W W W W D W W W W W W W W D D D W W L W L W W D W L W W D W W W L W L L L W L W W W W W W D W W W W W D L W W W L D W W D W W W W D D D W D W L W W W W W W D W W W D W W W W D W W W W D W D L D D D W L W W D W L D D L W D W W W W W W W D D W W W W D L W W D W W W W W W W W W W D D W D L W W L W W D W W L W W D W D W W W D L W W D W W D W W D W W W L W W L W L W D D L W W D D W D D L W W W W L D W W W W W W D W L W W W D W D W D W D W W W W W W W W W W W W W L W W L W W W W D W W W W L L D D W D D W W W W W W D W L W W L L W W L D W W W W W L W W W W L W W W W W W L L W W D W W W W L W L L W D D L D L W D L W W W D W L D L W W W D W D L W L W W W W L D L D W W W W L W W D W W W L W L D W L L W L W W W D D D L W W W D W D D L D L W L W W W W L D W W W W D W W D D W L W L W W L W W W L D D W W W W W W L L W D W D L L D D L W W W L W W W W L W L W D W D D D L W W W D L W W L D W W L W W W L L W D W W W W D W W W W W D L L L W W D W W W W W W L W D W L W W L W W L D W W W W W W W W D W W D L W D W W L W W L L W W W L D W L D W W W W W D D W W W W W W D W W D W W W D W L W W W W W D L W W W D L W D W W D D W W D D W W W W D W W D L W L D L W L L W W W D L L W

48 of 64

Результаты Челси с 2004 года (661 игра)

Метод «Скользящего окна» (размер окна = 50, шаг = 1)

2013 – наст. время

49 of 64

Учет кодонов

Белок-Кодирующая

Некодирующая

Позиция в кодоне

1 2 3

P(A) 19.3% 28.8% 13.2%

P(C) 24.1% 33.4% 31.5%

P(G) 45.8% 19.3% 41.2%

P(T) 10.8% 18.4% 14.1%

P(A) = 20.4%

P(C) = 28.3%

P(G) = 32.8%

P(T) = 18.4%

Участок ДНК:

x = GCG

Можем ли мы сказать, белок-кодирующий он или нет?

50 of 64

Учет предыдущего нуклеотида – модель 1го порядка

Белок-Кодирующая

Некодирующая

Позиция в кодоне

1 2 3

P(A|A)

P(A|C)

P(A|G)

P(A|T)

P(C|A)

P(C|C)

P(C|G)

P(C|T)

P(A|A)

P(A|C)

P(A|G)

P(A|T)

P(C|A)

P(C|C)

P(C|G)

P(C|T)

51 of 64

Выдача программы GeneMark

52 of 64

Можем ли мы улучшить предсказание тренера?

Играть «на выезде» тяжелее

53 of 64

Последовательность результатов�(6-ти буквенный алфавит)

W 2 2 W 1 2 D 2 W W 0 W W 2 2 W 2 D D 2 2 W 0 1 W W 2 2 W W D 2 W 2 W 2 D 2 0 0 2 2 W W W 2 W D 0 D W D 2 0 W 2 1 2 2 W W 2 W W 2 W 1 2 W W 1 L W 0 0 W 2 2 W D W 2 W 2 W 2 W 2 D 1 1 W W 0 W L W 2 1 W 0 W W 1 W 2 W L W 0 0 L W 0 2 W W W 2 2 D 2 W W 2 2 1 0 W W W 0 1 2 W D W 2 2 2 D D 1 W 1 W 0 W W W 2 W W 1 W 2 W D 2 W 2 2 D W 2 2 2 1 W D 0 1 D D W L W 2 1 W 0 D D 0 2 D 2 2 2 W W W 2 1 D 2 2 W W D 0 W 2 D W 2 2 W W W 2 2 2 W 1 D W 1 L 2 W 0 W 2 1 W W 0 2 W D 2 1 W W 2 D 0 W 2 D 2 W D 2 2 1 W 2 W L 2 W 0 2 L 2 D 1 L 2 W D 1 W 1 D 0 2 W W W 0 D 2 2 W W 2 2 1 W 0 2 2 W D 2 D 2 1 W D 2 W 2 W 2 W 2 2 W 2 W W W 0 2 W 0 W W W 2 1 W W 2 2 0 0 D D W 1 1 W W W 2 W 2 1 W 0 W 2 0 L W W L 1 2 W 2 2 W 0 W 2 W W L W 2 W 2 2 W L 0 W W 1 2 W 2 W 0 W L 0 W 1 D 0 1 0 W D 0 W W 2 1 2 L 1 L 2 W 2 D W 1 L W 0 2 W W W 0 D 0 1 W W 2 W 0 W W 1 2 W W 0 2 L 1 2 L 0 W L 2 W W 1 1 D L 2 W W 1 2 1 D 0 D 0 W 0 2 W W W 0 D 2 2 W W 1 2 W 1 1 W L W 0 W 2 L 2 W W L 1 D W W 2 2 W 2 0 L W 1 W D 0 0 D D 0 W 2 2 0 2 W 2 2 L 2 L 2 D W 1 1 1 0 W 2 W D 0 2 W 0 1 W W 0 W W W 0 L 2 1 2 W W 2 D 2 2 W W W 1 0 0 L W 2 1 2 2 W 2 W 2 0 W D 2 0 W 2 0 W W 0 1 W W 2 2 2 2 W W D 2 W 1 0 W 1 2 W 0 W W 0 0 W W 2 L 1 2 L D 2 2 W 2 W D 1 W W 2 W 2 W 1 2 W 1 2 W 2 1 W 0 W W 2 2 W 1 0 W W 2 1 L W D 2 W 1 D W 2 D D 2 W 2 W 1 2 W D 0 W 0 D 0 2 L 0 W W 2 1 0 L W

W – победа дома, D – ничья дома, L – поражение дома

0 – поражение на выезде, 1 –ничья на выезде, 2 – победа на выезде

54 of 64

“The special one”

Others

P(00 = 0.0163934

01 = 0.0131148

02 = 0.00983607

0D = 0.00655738

0L = 0.00983607

0W = 0.0557377

10 = 0.0163934

11 = 0.00327869

12 = 0.0327869

1D = 0.00655738

1L = 0.00655738

1W = 0.0393443

20 = 0.0163934

21 = 0.0295082

22 = 0.0655738

2D = 0.0262295

2L = 0.00983607

2W = 0.131148

D0 = 0.0131148

D1 = 0.00983607

D2 = 0.0393443

DD = 0.0163934

DW = 0.0229508

L0 = 0.00327869

L1 = 0.00327869

LD = 0.00327869

LW = 0.0229508

W0 = 0.0459016

W1 = 0.0459016

W2 = 0.131148

WD = 0.042623

WL = 0.00983607

WW = 0.095082

00 = 0.010582

01 = 0.00793651

02 = 0.0291005

0D = 0.0185185

0L = 0.010582

0W = 0.0502646

10 = 0.00529101

11 = 0.0132275

12 = 0.021164

1D = 0.0185185

1L = 0.010582

1W = 0.037037

20 = 0.0132275

21 = 0.0291005

22 = 0.0555556

2D = 0.031746

2L = 0.0185185

2W = 0.116402

D0 = 0.0343915

D1 = 0.00793651

D2 = 0.0343915

DD = 0.00529101

DL = 0.0026455

DW = 0.0185185

L0 = 0.00793651

L1 = 0.010582

L2 = 0.0343915

LW = 0.0132275

W0 = 0.0555556

W1 = 0.037037

W2 = 0.0925926

WD = 0.0291005

WL = 0.021164

WW = 0.0978836

55 of 64

Результаты Челси с 2004 года (661 игра)

Метод «Скользящего окна» для 6-ти буквенного алфавита (размер окна = 50, шаг = 1)

Карло Анчелотти тренировал Челси с августа 2009 до мая 2011 (игры 299-407)

Моуриньо: 2004 – 2007

2013 – 2015

56 of 64

Выдача программы GeneMark для 6 рамок

57 of 64

Что мы можем измерить ,чтобы использовать в модели?

  • Большинство того, что мы знаем о последовательностях относится к

белок-кодирующим характеристикам

    • ORF (Open Reading Frame)/ОРС (открытая рамка считывания): последовательность определяемая по AUG и стоп кодон, что в свою очередь определяет последовательность аминокислот.
    • Codon Usage/Использование кодонов: наиболее часто измеряется в CAI (Codon Adaptation Index/индекс адаптации кодонов)
  • Другие явления
    • Частоты и корреляции нуклеотидов:
    • Функциональные сайты:
      • сайты сплайсинга, промотеры, НТО, сайты полиаденилирования

58 of 64

Статистика кодирующей последовательности

  • Неравное использование кодонов в кодирующих областях – универсальная характеристика геномов.

    • Неравное использование аминокислот в существующих белках
    • Неравное использование синонимичных кодонов (коррелирует с избытком соответствующих tRNAs)

  • Эти характеристики могут быть использованы для разделения между кодирующими и некодирующими областями генома.

  • Статистика кодирования – функция, которая для данной ДНК последовательности вычисляет правдоподобие (условную вероятность) того, что последовательность является кодирующей для белка

58

59 of 64

An Example of Coding Statistics

59

60 of 64

Как нужно поменять модель чтобы предсказывать гены эукариот?

60

61 of 64

61

E0

E1

E2

E2

E1

E0

N

P

Eterm

P

Einit

polyA

5 UTR

I0

I1

I2

I0

I1

I2

Esngl

Esngl

Einit

Eterm

forward strand

backward strand

3 UTR

5 UTR

3 UTR

polyA

E- exons

I- introns

single exon

5 UTRs

3 UTRs

P- promoter region polyA site N- intergenic region

Для эукариот всё сложно.

62 of 64

Практика

Для генома бледной трепонемы

(возбудитель какой болезни?)

NC_000919.1

Запустить:

  • Genemark
  • обученный на e coli
  • Обученный на трипаносоме
  • Самообучающийся
  • Glimmer

63 of 64

Практика

Для генома бледной трепонемы NC_000919.1

Запустить:

  • Genemark
  • обученный на e coli
  • Обученный на трипаносоме
  • Самообучающийся
  • Glimmer

64 of 64

https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-020-6707-9

64