Расшифровка ДНК как египетские иероглифы
Чем занимается сравнительная геномика
На основе материалов манора 2022-23 года Антонова Ивана
Египетские пирамиды
Египетские иероглифы
3
Все известные последовательности ДНК находятся здесь
4
Участок ДНК
5
Поиск повторений в египетских текстах
6
Некоторые повторения в египетских текстах
7
“язык”
Некоторые повторения в египетских текстах
8
“исчезнуть”
Некоторые повторения в египетских текстах
9
“красивые девушки”
Биологические повторы
10
A G G A G G
A G G A G G
“Сайт связывания с рибосомой”
Повторы могут немного отличаться друг от друга
11
Египетские пирамиды | ДНК |
Развитие египетского языка | Эволюция |
Опечатки, которые допустил древний египтянин | Случайные мутации |
Наши ошибки при чтении иероглифов | Ошибки секвенатора |
Повторы могут немного отличаться друг от друга
12
Египетские пирамиды | ДНК |
Развитие египетского языка | Эволюция |
Опечатки, которые допустил древний египтянин | Случайные мутации |
Наши ошибки при чтении иероглифов | Ошибки секвенатора |
A G G A G G
A G G A G T
Программа MEME – ищет повторы
13
A G G A G G
A G G A G T
A G G A G G
A G G A G G
MEME
MEME
Розетский камень
14
Jean-Francois Champollion
15
Твое
Фото
Может
Быть
Здесь
AB INITIO ПРЕДСКАЗАНИЕ БЕЛОК-КОДИРУЮЩИХ ГЕНОВ
Рамка считывания
Как таблица генетического кода помогает найти потенциальные гены?
17
Как фотография хранится в памяти компьютера?
Фотография состоит из пикселей
Трансляция
00000001011101010101000011111010 … 010101011111
Black
Dark red
Red
Red
Новая строка
ATGAAACCCGGGGTTTACCCCATGG … TGA
M
STOP!
A
C
G
W
N
Q
M
Вернемся к ДНК!
| Фотография в компьютере | ДНК в клетке |
Название «участка» | Бит | Кодон |
Размер «участка» | 8 | 3 |
Алфавит | 1/0 | A/C/G/T |
Что кодирует один «участка» | Цвет пикселя | Аминокислота в белке |
Количество разных «участков» | 255 (28-1) цветов | 64 разных кодонов (20 разных аминокислот) |
Специальный «участок» | Новая строка | Стоп кодон |
Конечный результат | Фотография | Последовательность белка |
Таблицы конвертации
22
Black
Dark red
Red
White
Новая строка
00000000
01110101
01010000
11111111
…
01010101
Метионит (M)
Глутамин (Q)
Валин (V)
Цистеин (C)
Стоп-кодон
ATG
CAG
GTG
TGT
…
TGA
TAA
TAG
Стоп-кодон
Стоп-кодон
Генетический код: кодон => аминокислота
23
Рамка считывания
00000001011101010101000011111010 … 010101011111
Black
Dark red
Red
Red
Новая строка
Что еще важно, чтобы получить правильную фотографию?
00000001011101010101000011111010 … 010101011111
Green
Dark green
Gray
New Line
New Line
Та же картинка, прочитанная в рамке +1
Много байтов «новая строка» + преждевременный байт окончания файла
Трансляция ДНК в 3х рамках считывания
C T A A C T C T T A A T A T G A A A G A T …
Leu
Thr
Leu
Asn
Ser
Asp
Основная рамка:
Glu
Stop
Leu
Рамка +1:
Leu
Ile
Stop
Lys
Рамка +2:
Asn
Ser
Stop
Tyr
Glu
Arg
Открытая рамка считывания
Open reading frame (ORF)
Кодирующий потенциал
AB INITIO ПРЕДСКАЗАНИЕ БЕЛОК-КОДИРУЮЩИХ ГЕНОВ
Алгоритм GeneMark
Футбол
Владелец «Челси»: 2003 – 2022
Главный тренер «Челси»: 2004 – 2007
2013 – 2015
Результаты Челси 2004-2015 гг (661 игра)
Моуриньо: 2004 – 2007
2013 – 2015
Результаты Челси с 2004 года (661 игра)
Предсказать период, когда Челси тренировал НЕ Моуриньо
W W W W D W D W W W L W W W W W W D D W W W L D W W W W W W D W W W W W D W L L W W W W W W W D L D W D W L W W D W W W W W W W W W D W W W D L W L L W W W W D W W W W W W W W D D D W W L W L W W D W L W W D W W W L W L L L W L W W W W W W D W W W W W D L W W W L D W W D W W W W D D D W D W L W W W W W W D W W W D W W W W D W W W W D W D L D D D W L W W D W L D D L W D W W W W W W W D D W W W W D L W W D W W W W W W W W W W D D W D L W W L W W D W W L W W D W D W W W D L W W D W W D W W D W W W L W W L W L W D D L W W D D W D D L W W W W L D W W W W W W D W L W W W D W D W D W D W W W W W W W W W W W W W L W W L W W W W D W W W W L L D D W D D W W W W W W D W L W W L L W W L D W W W W W L W W W W L W W W W W W L L W W D W W W W L W L L W D D L D L W D L W W W D W L D L W W W D W D L W L W W W W L D L D W W W W L W W D W W W L W L D W L L W L W W W D D D L W W W D W D D L D L W L W W W W L D W W W W D W W D D W L W L W W L W W W L D D W W W W W W L L W D W D L L D D L W W W L W W W W L W L W D W D D D L W W W D L W W L D W W L W W W L L W D W W W W D W W W W W D L L L W W D W W W W W W L W D W L W W L W W L D W W W W W W W W D W W D L W D W W L W W L L W W W L D W L D W W W W W D D W W W W W W D W W D W W W D W L W W W W W D L W W W D L W D W W D D W W D D W W W W D W W D L W L D L W L L W W W D L L W
W – победа, D – ничья, L – поражение
“The special one”
Others
Статистика работы в Челси
“The special one”
Others
Win (W) = 64.7%
Draw (D)= 20.6%
Loss (L) = 14.7%
Win = 60.1%
Draw = 20.9%
Loss = 19.0 %
Последовательность игр Челси
x = W W W
Кто был тренером в это время?
Условная вероятность
x = W W W
P(x|Mourinho) = 0.647*0.647*0.647 = 0.2708
P(x|Other) = 0.601*0.601*0.601 = 0.2171
А какова же вероятность Моуриньо?
P(x|Mourinho) – вероятность того, что ПРИ УСЛОВИИ, что тренером ЯВЛЯЕТСЯ Моуриньо, БУДУТ одержаны 3 победы подряд
А мы хотим знать P(Mourinho|x) – вероятность того, что ПРИ УСЛОВИИ 3-х побед подряд, тренером ЯВЛЯЛСЯ Моуриньо
Теорема Байеса
x = W W W
P(x|Mourinho) = 0.2708
P(x|Other) = 0.2171
Постериорная вероятность:
P(M|x) = P(M)*P(x|M)/(P(M)*P(x|M) + P(O)*P(x|O))
= 0.5*0.2708/(0.5*0.2708+0.5*0.2171) = 55.5%
P(Other|x) = 0.5*0.2171/(0.5*0.2708+0.5*0.2171) = 44.5%
55.5% звучит не очень убедительно…
Проблема в том, что у нас мало наблюдений (всего 3 игры). Что если мы возьмем 50 побед подряд:
X = WWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWW
P(x|Mourinho) = 0.647 ^ 50 = 3.5*10-10
P(x|Other) = 0.601 ^ 50 = 8.78*10-12
Постериорная вероятность:
P(M|x) = 3.5e-10/(8.78e-12+3.5e-10) = 97.5%
Как GeneMark предсказывает гены?
X = WWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWWW
2 модели: Моуриньо или Другой тренер
X = GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC
2 модели: белок-кодирующая область или некодирующая
Предсказание генов
Белок-Кодирующая
Некодирующая
P(A) = 20.5%
P(C) = 29.6%
P(G) = 35.4%
P(T) = 14.5%
P(A) = 20.4%
P(C) = 28.3%
P(G) = 32.8%
P(T) = 18.4%
Участок ДНК:
x = GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAG
Теорема Байеса
Третья позиция кодона – особенная
Кодирующая область vs. Некодирующая
Nucleotide frequency patterns �in non-coding DNA (left half of the picture) and protein-coding DNA (right half) �
visualization of alignment of 1000+ E. coli sequences with length 120 nt; �each sequence contains a gene start in the middle
Учет кодонов
Белок-Кодирующая
Некодирующая
Позиция в кодоне
1 2 3
P(A) 19.3% 28.8% 13.2%
P(C) 24.1% 33.4% 31.5%
P(G) 45.8% 19.3% 41.2%
P(T) 10.8% 18.4% 14.1%
P(A) = 20.4%
P(C) = 28.3%
P(G) = 32.8%
P(T) = 18.4%
Участок ДНК:
x = GCG
Можем ли мы сказать, белок-кодирующий он или нет?
Вероятность белок-кодирующего гена?
COD1 – белок-кодирующая последовательность в рамке 0
COD2 – белок-кодирующая последовательность в рамке +1
COD3 – белок-кодирующая последовательность в рамке +2
NON - некодирующая последовательность
x = G C G
P(x|COD1) = ?
P(x|COD2) = ?
P(x|COD3) = ?
P(x|NON) = ?
Постериорные вероятности:
P(COD1|x) = ?
P(COD2|x) = ?
P(COD3|x) = ?
P(NON|x) = ?
Спортивная психология
Учет психологии в нашей модели
“The special one”
Others
WW = 42.3%
LW = 8.8%
DD = 0.0360656
DL = 0.0360656
DW = 0.134426
LD = 0.0262295
LL = 0.0295082
WD = 0.144262
WL = 0.0819672
WW = 36.5%
LW = 12.4%
DD = 0.0449735
DL = 0.0529101
DW = 0.111111
LD = 0.0343915
LL = 0.031746
WD = 0.12963
WL = 0.10582
P(W|L) – вероятность победы при условии, что предыдущую игру проиграли
P(W|W) – вероятность победы при условии, что предыдущую игру выиграли
…
Условная вероятность вычисляется с учетом предыдущей игры
Метод «Скользящего окна»
W W W W D W D W W W L W W W W W W D D W W W L D W W W W W W D W W W W W D W L L W W W W W W W D L D W D W L W W D W W W W W W W W W D W W W D L W L L W W W W D W W W W W W W W D D D W W L W L W W D W L W W D W W W L W L L L W L W W W W W W D W W W W W D L W W W L D W W D W W W W D D D W D W L W W W W W W D W W W D W W W W D W W W W D W D L D D D W L W W D W L D D L W D W W W W W W W D D W W W W D L W W D W W W W W W W W W W D D W D L W W L W W D W W L W W D W D W W W D L W W D W W D W W D W W W L W W L W L W D D L W W D D W D D L W W W W L D W W W W W W D W L W W W D W D W D W D W W W W W W W W W W W W W L W W L W W W W D W W W W L L D D W D D W W W W W W D W L W W L L W W L D W W W W W L W W W W L W W W W W W L L W W D W W W W L W L L W D D L D L W D L W W W D W L D L W W W D W D L W L W W W W L D L D W W W W L W W D W W W L W L D W L L W L W W W D D D L W W W D W D D L D L W L W W W W L D W W W W D W W D D W L W L W W L W W W L D D W W W W W W L L W D W D L L D D L W W W L W W W W L W L W D W D D D L W W W D L W W L D W W L W W W L L W D W W W W D W W W W W D L L L W W D W W W W W W L W D W L W W L W W L D W W W W W W W W D W W D L W D W W L W W L L W W W L D W L D W W W W W D D W W W W W W D W W D W W W D W L W W W W W D L W W W D L W D W W D D W W D D W W W W D W W D L W L D L W L L W W W D L L W
Результаты Челси с 2004 года (661 игра)
Метод «Скользящего окна» (размер окна = 50, шаг = 1)
2013 – наст. время
Учет кодонов
Белок-Кодирующая
Некодирующая
Позиция в кодоне
1 2 3
P(A) 19.3% 28.8% 13.2%
P(C) 24.1% 33.4% 31.5%
P(G) 45.8% 19.3% 41.2%
P(T) 10.8% 18.4% 14.1%
P(A) = 20.4%
P(C) = 28.3%
P(G) = 32.8%
P(T) = 18.4%
Участок ДНК:
x = GCG
Можем ли мы сказать, белок-кодирующий он или нет?
Учет предыдущего нуклеотида – модель 1го порядка
Белок-Кодирующая
Некодирующая
Позиция в кодоне
1 2 3
P(A|A)
P(A|C)
P(A|G)
P(A|T)
P(C|A)
P(C|C)
P(C|G)
P(C|T)
…
P(A|A)
P(A|C)
P(A|G)
P(A|T)
P(C|A)
P(C|C)
P(C|G)
P(C|T)
…
Выдача программы GeneMark
Можем ли мы улучшить предсказание тренера?
Играть «на выезде» тяжелее
Последовательность результатов�(6-ти буквенный алфавит)
W 2 2 W 1 2 D 2 W W 0 W W 2 2 W 2 D D 2 2 W 0 1 W W 2 2 W W D 2 W 2 W 2 D 2 0 0 2 2 W W W 2 W D 0 D W D 2 0 W 2 1 2 2 W W 2 W W 2 W 1 2 W W 1 L W 0 0 W 2 2 W D W 2 W 2 W 2 W 2 D 1 1 W W 0 W L W 2 1 W 0 W W 1 W 2 W L W 0 0 L W 0 2 W W W 2 2 D 2 W W 2 2 1 0 W W W 0 1 2 W D W 2 2 2 D D 1 W 1 W 0 W W W 2 W W 1 W 2 W D 2 W 2 2 D W 2 2 2 1 W D 0 1 D D W L W 2 1 W 0 D D 0 2 D 2 2 2 W W W 2 1 D 2 2 W W D 0 W 2 D W 2 2 W W W 2 2 2 W 1 D W 1 L 2 W 0 W 2 1 W W 0 2 W D 2 1 W W 2 D 0 W 2 D 2 W D 2 2 1 W 2 W L 2 W 0 2 L 2 D 1 L 2 W D 1 W 1 D 0 2 W W W 0 D 2 2 W W 2 2 1 W 0 2 2 W D 2 D 2 1 W D 2 W 2 W 2 W 2 2 W 2 W W W 0 2 W 0 W W W 2 1 W W 2 2 0 0 D D W 1 1 W W W 2 W 2 1 W 0 W 2 0 L W W L 1 2 W 2 2 W 0 W 2 W W L W 2 W 2 2 W L 0 W W 1 2 W 2 W 0 W L 0 W 1 D 0 1 0 W D 0 W W 2 1 2 L 1 L 2 W 2 D W 1 L W 0 2 W W W 0 D 0 1 W W 2 W 0 W W 1 2 W W 0 2 L 1 2 L 0 W L 2 W W 1 1 D L 2 W W 1 2 1 D 0 D 0 W 0 2 W W W 0 D 2 2 W W 1 2 W 1 1 W L W 0 W 2 L 2 W W L 1 D W W 2 2 W 2 0 L W 1 W D 0 0 D D 0 W 2 2 0 2 W 2 2 L 2 L 2 D W 1 1 1 0 W 2 W D 0 2 W 0 1 W W 0 W W W 0 L 2 1 2 W W 2 D 2 2 W W W 1 0 0 L W 2 1 2 2 W 2 W 2 0 W D 2 0 W 2 0 W W 0 1 W W 2 2 2 2 W W D 2 W 1 0 W 1 2 W 0 W W 0 0 W W 2 L 1 2 L D 2 2 W 2 W D 1 W W 2 W 2 W 1 2 W 1 2 W 2 1 W 0 W W 2 2 W 1 0 W W 2 1 L W D 2 W 1 D W 2 D D 2 W 2 W 1 2 W D 0 W 0 D 0 2 L 0 W W 2 1 0 L W
W – победа дома, D – ничья дома, L – поражение дома
0 – поражение на выезде, 1 –ничья на выезде, 2 – победа на выезде
“The special one”
Others
P(00 = 0.0163934
01 = 0.0131148
02 = 0.00983607
0D = 0.00655738
0L = 0.00983607
0W = 0.0557377
10 = 0.0163934
11 = 0.00327869
12 = 0.0327869
1D = 0.00655738
1L = 0.00655738
1W = 0.0393443
20 = 0.0163934
21 = 0.0295082
22 = 0.0655738
2D = 0.0262295
2L = 0.00983607
2W = 0.131148
D0 = 0.0131148
D1 = 0.00983607
D2 = 0.0393443
DD = 0.0163934
DW = 0.0229508
L0 = 0.00327869
L1 = 0.00327869
LD = 0.00327869
LW = 0.0229508
W0 = 0.0459016
W1 = 0.0459016
W2 = 0.131148
WD = 0.042623
WL = 0.00983607
WW = 0.095082
00 = 0.010582
01 = 0.00793651
02 = 0.0291005
0D = 0.0185185
0L = 0.010582
0W = 0.0502646
10 = 0.00529101
11 = 0.0132275
12 = 0.021164
1D = 0.0185185
1L = 0.010582
1W = 0.037037
20 = 0.0132275
21 = 0.0291005
22 = 0.0555556
2D = 0.031746
2L = 0.0185185
2W = 0.116402
D0 = 0.0343915
D1 = 0.00793651
D2 = 0.0343915
DD = 0.00529101
DL = 0.0026455
DW = 0.0185185
L0 = 0.00793651
L1 = 0.010582
L2 = 0.0343915
LW = 0.0132275
W0 = 0.0555556
W1 = 0.037037
W2 = 0.0925926
WD = 0.0291005
WL = 0.021164
WW = 0.0978836
Результаты Челси с 2004 года (661 игра)
Метод «Скользящего окна» для 6-ти буквенного алфавита (размер окна = 50, шаг = 1)
Карло Анчелотти тренировал Челси с августа 2009 до мая 2011 (игры 299-407)
Моуриньо: 2004 – 2007
2013 – 2015
Выдача программы GeneMark для 6 рамок
Что мы можем измерить ,чтобы использовать в модели?
белок-кодирующим характеристикам
Статистика кодирующей последовательности
58
An Example of Coding Statistics
59
Как нужно поменять модель чтобы предсказывать гены эукариот?
60
61
E0
E1
E2
E2
E1
E0
N
P
Eterm
P
Einit
polyA
5’ UTR
I0
I1
I2
I0
I1
I2
Esngl
Esngl
Einit
Eterm
forward strand
backward strand
3’ UTR
5’ UTR
3’ UTR
polyA
E- exons
I- introns
single exon
5’ UTRs
3’ UTRs
P- promoter region polyA site N- intergenic region
Для эукариот всё сложно.
Практика
Практика
https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-020-6707-9
64