Предсказание генов и�аннотация их функций
Основано на материалах Антонова Ивана 2022г
1
У нас есть геномная последовательность.
Что дальше?
2
Поиск открытых рамок считывания (ORFs)
3
Фиолетовый – стоп-кодон
Зеленый – старт кодон
GeneMark
Ab initio предсказание генов
4
Поиск генов через сравнение с известными белками
5
Статистика по БД GenBank
Статистика по БД RefSeq
Что такое функция гена?
Какие функции бывают?
6
Поиск генов через сравнение с известными белками
7
Какой BLAST лучше использовать?
8
Почему?
Почему поиск через белки более чувствительный?
9
Матрица замен BLOSUM62
Поиск генов, которые не кодируют белки --некодирующие РНК (rRNA, tRNA, lncRNA и др)
10
https://en.wikipedia.org/wiki/Ribosomal_RNA
Предсказание функции белка
11
Последовательность белка
BLASTp
12
Что делать если гомологичных белков не нашлось?
13
Функцию целого можно попытаться определить по функции частей
Домены
Функциональный домен (биохимия/биоинженерия)
Минимальная часть полипептидной цепи, которая
Эволюционный домен
(биоинформатика: последовательности)
Длинный непрерывный участок полипептидной цепи, который�
Гомеодомены активно перемешивались в эволюции.
Об этом можно судить по 65(!) различным доменным архитектурам гомеобелков, представленным в банке Pfam
Гомеодомен
Парный домен и гомеодомен
Lim домены и гомеодомен
Гомеодомен, продолженный лейциновой молнией
POU домен и гомеодомен
Два гомеодомена
PBX-домен и гомеодомен
Структурный домен�(биоинформатика: 3D структуры)
Обособленная в пространстве часть белка, его структурная единица, имеющая
Эволюционные домены часто, но не всегда совпадают со структурными доменами!
Мотив
В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях.
Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены.
Не в любом выравнивании легко найти мотив.
Как найти домен
nitrogen fixation positive activator protein
Пример белка со сложной доменной архитектурой
Интуитивно понятно:
их аминокислотные последовательности выравниваются по всей длине со значимым весом и имеют сходную доменную структуру.
Мнения расходятся, когда речь идет о критериях:
Superfamily
Family
Subfamily
�PROSITE - биологически значимые сайты, паттерны и профили�
Выравнивание хорошо изученного семейства
Функционально важные остатки
4-5
консервативных остатков
Паттерн
Если находим только «правильные», то ОК
Если много лишнего, то увеличиваем паттерн
Поиск в SP
Паттерн – регулярное выражение UNIX’a:
[AC]-x-V-x(4)-{ED}
Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu или Asp)
http://www.expasy.ch/prosite/
PROSITE�
Релиз 18.25,
14.04 2004
1257 документов,
1706 разных
паттернов, правил и профилей.
Профиль или
весовая
матрица
F K L L S H C L L V
F K A F G Q T M F Q
Y P I V G Q E L L G
F P V V K E A I L K
F K V L A A V I A D
L E F I S E C I I Q
F K L L G N V L V C
A -18 -10 -1 -8 8 -3 3 -10 -2 -8
C -22 -33 -18 -18 -22 -26 22 -24 -19 -7
D -35 0 -32 -33 -7 6 -17 -34 -31 0
E -27 15 -25 -26 -9 23 -9 -24 -23 -1
F 60 -30 12 14 -26 -29 -15 4 12 -29
G -30 -20 -28 -32 28 -14 -23 -33 -27 -5
H -13 -12 -25 -25 -16 14 -22 -22 -23 -10
I 3 -27 21 25 -29 -23 -8 33 19 -23
K -26 25 -25 -27 -6 4 -15 -27 -26 0
L 14 -28 19 27 -27 -20 -9 33 26 -21
M 3 -15 10 14 -17 -10 -9 25 12 -11
N -22 -6 -24 -27 1 8 -15 -24 -24 -4
P -30 24 -26 -28 -14 -10 -22 -24 -26 -18
Q -32 5 -25 -26 -9 24 -16 -17 -23 7
R -18 9 -22 -22 -10 0 -18 -23 -22 -4
S -22 -8 -16 -21 11 2 -1 -24 -19 -4
T -10 -10 -6 -7 -5 -8 2 -10 -7 -11
V 0 -25 22 25 -19 -26 6 19 16 -16
W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28
Y 34 -18 -1 1 -23 -12 -19 0 0 -18
Pfam
Для каждого семейства есть множественное выравнивание и профиль-HMM .
Язык Pfam :
Семейство – коллекция гомологичных белков.
Домен – структурная единица, которую можно найти во множественном выравнивании.
Повтор – короткая единица, нестабильная сама по себе, но образует стабильные структуры, если есть много копий.
Мотив – короткая единица структуры вне глобулярных доменов.
Какая информация закодирована в картинке доменов белка
Домен внутри другого домена
Pfam
новых членов данной группы.
Паттерны для поиска в базах последовательностей
Prosite (http://prosite.expasy.org/ ), fuzzpro и fuzznuc в EMBOSS
31
Паттерн для цинкового пальца
Prosite
Паттерн для цинкового пальца типа С2Н2:
C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
Паттерны (fingerprints) для белков и средства поиска по паттерну есть в ProSite и пакете EMBOSS
Цинковые пальцы C2H2
32
PSSM – аналог PWM для белков
Psi-BLAST – итеративный вариант BLAST, использующий блоки множественного выравнивания и поиск по PSSM
34
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
A | 10 | 2 | 0 | 1 | 13 | 13 | 10 | 0 | 0 | 1 | 0 | 0 | 4 | 0 | 1 | 0 |
G | 2 | 2 | 13 | 0 | 0 | 0 | 0 | 0 | 13 | 4 | 1 | 1 | 3 | 1 | 5 | 0 |
T | 1 | 1 | 0 | 0 | 0 | 0 | 2 | 0 | 0 | 8 | 12 | 12 | 5 | 1 | 3 | 11 |
C | 0 | 8 | 0 | 12 | 0 | 0 | 1 | 13 | 0 | 0 | 0 | 0 | 1 | 11 | 4 | 2 |
Всего | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 | 13 |
ШАГ 1. Подсчёт числа букв N(b,j)
1234567890123456
ACGCAAACGTTTTCTT
TCGCAAACGTTTGCTT
ACGCAAACGTTTTCGT
ACGCAAACGGTTTCGT
ACGCAACCGTTTTCCT
ACGCAAACGTGTGCGT
ACGCAATCGGTTACCT
GCGCAAACGTTTTCGT
AGGAAAACGATTGGCT
AAGCAAACGGTGATTT
ATGCAATCGGTTACGC
AGGCAAACGTTTACCT
GAGCAAACGTTTCCAC
35
ШАГ 2. Частоты букв
G C C T A C C C C A T T A T T T…
Частоты | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
A | 0.77 | 0.15 | 0.00 | 0.08 | 1.00 | 1.00 | 0.77 | 0.00 | 0.00 | 0.08 | 0.00 | 0.00 | 0.31 | 0.00 | 0.08 | 0.00 |
G | 0.15 | 0.15 | 1.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 1.00 | 0.31 | 0.08 | 0.08 | 0.23 | 0.08 | 0.38 | 0.00 |
T | 0.08 | 0.08 | 0.00 | 0.00 | 0.00 | 0.00 | 0.15 | 0.00 | 0.00 | 0.62 | 0.92 | 0.92 | 0.38 | 0.08 | 0.23 | 0.85 |
C | 0.00 | 0.62 | 0.00 | 0.92 | 0.00 | 0.00 | 0.08 | 1.00 | 0.00 | 0.00 | 0.00 | 0.00 | 0.08 | 0.85 | 0.31 | 0.15 |
Всего | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
f(b,j) = N(b,j)/N в примере N=13
36
Частота G в позиции 15 равна 0.38
Значит ли это что-нибудь, если GC состав генома равен 0.7,
Т.е. частота G в геноме равна 0.35?
ЛОГАРИФМ Отношения правдоподобия W как вес различия
наблюдаемой частоты и ожидаемой:
w(G,15) = ln(0.38/0.35) = 0.1
ШАГ 3. Логарифм отношения вероятностей
37
ШАГ 4. Матрица весов PWM
w(b,j) | Фоновые частоты | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
A | 0.15 | 1.6 | 0.0 | -inf | -0.7 | 1.9 | 1.9 | 1.6 | -inf | -inf | -0.7 | -inf | -inf | 0.7 | -inf | -0.7 | -inf |
G | 0.35 | -0.8 | -0.8 | 1.0 | -inf | -inf | -inf | -inf | -inf | 1.0 | -0.1 | -1.5 | -1.5 | -0.4 | -1.5 | 0.1 | -inf |
T | 0.15 | -0.7 | -0.7 | -inf | -inf | -inf | -inf | 0.0 | -inf | -inf | 1.4 | 1.8 | 1.8 | 0.9 | -0.7 | 0.4 | 1.7 |
C | 0.35 | -inf | 0.6 | -inf | 1.0 | -inf | -inf | -1.5 | 1.0 | -inf | -inf | -inf | -inf | -1.5 | 0.9 | -0.1 | -0.8 |
| 1 | -inf | -0.9 | -inf | -inf | -inf | -inf | -inf | -inf | -inf | -inf | -inf | -inf | -0.3 | -inf | -0.3 | -inf |
Шаг 5. Псевдоотсчёты
38
F(b,j) = [N(b,j) + ε(b)] /(N + ε) вместо
f(b,j) = N(b,j)/N
Здесь ε = ε(A) + ε(G) + ε(T) + ε(C)
Все ε(b) маленькие в сравнении с N
Подбираются опытным путем
39
ШАГ 4. Частоты с псевдоотсчётами
F(b,j) | баз. Частоты | e(b) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
A | 0.15 | 0.10 | 0.75 | 0.16 | 0.01 | 0.08 | 0.98 | 0.98 | 0.75 | 0.01 | 0.01 | 0.08 | 0.01 | 0.01 | 0.31 | 0.01 | 0.08 | 0.01 |
G | 0.35 | 0.10 | 0.16 | 0.16 | 0.98 | 0.01 | 0.01 | 0.01 | 0.01 | 0.01 | 0.98 | 0.31 | 0.08 | 0.08 | 0.23 | 0.08 | 0.38 | 0.01 |
T | 0.15 | 0.10 | 0.08 | 0.08 | 0.01 | 0.01 | 0.01 | 0.01 | 0.16 | 0.01 | 0.01 | 0.60 | 0.90 | 0.90 | 0.38 | 0.08 | 0.23 | 0.83 |
C | 0.35 | 0.10 | 0.01 | 0.60 | 0.01 | 0.90 | 0.01 | 0.01 | 0.08 | 0.98 | 0.01 | 0.01 | 0.01 | 0.01 | 0.08 | 0.83 | 0.31 | 0.16 |
| 1 | 0.40 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
40
ШАГ 5. Матрица PWM с псевдоотсчётами
W(b,j) | баз. Частоты | e(b) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
A | 0.15 | 0.10 | 1.6 | 0.0 | -3.0 | -0.6 | 1.9 | 1.9 | 1.6 | -3.0 | -3.0 | -0.6 | -3.0 | -3.0 | 0.7 | -3.0 | -0.6 | -3.0 |
G | 0.35 | 0.10 | -0.8 | -0.8 | 1.0 | -3.8 | -3.8 | -3.8 | -3.8 | -3.8 | 1.0 | -0.1 | -1.5 | -1.5 | -0.4 | -1.5 | 0.1 | -3.8 |
T | 0.15 | 0.10 | -0.6 | -0.6 | -3.0 | -3.0 | -3.0 | -3.0 | 0.0 | -3.0 | -3.0 | 1.4 | 1.8 | 1.8 | 0.9 | -0.6 | 0.4 | 1.7 |
C | 0.35 | 0.10 | -3.8 | 0.5 | -3.8 | 0.9 | -3.8 | -3.8 | -1.5 | 1.0 | -3.8 | -3.8 | -3.8 | -3.8 | -1.5 | 0.9 | -0.1 | -0.8 |
| 1 | 0.40 | -3.6 | -0.8 | -8.8 | -6.5 | -8.8 | -8.8 | -3.6 | -8.8 | -8.8 | -3.2 | -6.5 | -6.5 | -0.2 | -4.2 | -0.2 | -5.9 |
41
PSSM – то же, что PWM
42
Структура ProSite:
http://au.expasy.org/prosite/
Профили выравниваний и поиск по ним в базах последовательностях
HMM = Hidden Markov Model
Технология HMM реализована в пакете HMMER. Он включен в EMBOSS.
В БД Prosite реализована аналогичная, но не идентичная, технология Pftools
Профили
44
HMM Профиль. Немного теории
45
Автомат выглядит так:
from Krogh, “Computational Methods in molecular biology, pages 45-63, Elsevier, 1998.
Выравнивание
Автомат для него
Вероятности в квадратиках называются
эмиссионными вероятностями
Вероятности на стрелочках -
вероятностями перехода
Логарифм отношения правдоподобия, log-odds
47
48
Определим вес данного выравнивания последовательности ACACATC с профилем
m2
m1
m3
m4
m5
m6
i3
Мы нашли
49
Задачу нахождения лучшего по весу выравнивания входной последовательности и HMM профиля решает алгоритм Viterbi
Теперь мы можем оценить любой путь через скрытые состояния, учитывая полученные последовательности.
Перепробовать все варианты? Непрактично, экспоненциальное число путей.
– 1 ген ~ 100,000 оснований 2100,000 путей для 2-х состояний!
– Сохранение частичных вычислений (максимальный счёт до позиции i через состояние k)
Определим Vk(i) = Вероятность наиболее вероятного пути через состояние πi =k
– Используем его для вычисления максимального счёта до позиции i+1 для каждого k’
Находим Vk’(i+1) как функцию maxk { Vk(i) }
– Простое вычисление, нужно учесть emission score + score перехода
Vk(i+1) = ek(xi+1) * maxj ajk Vj (i)
Динамическое программирование работает благодаря оптимальной подструктуре
Поиск оптимального пути
Наиболее вероятный путь
Наиболее вероятный путь π* удовлетворяет
Чтобы найти π*, рассмотрим все возможные пути у которые могут испускать x
Пусть
Тогда
Алгоритм Витерби
Чтобы найти π*, идем обратно, как в динамическом программировании
Нечестное казино
53
Viterbi: пример
1
π
x
0
0
6
2
6
ε
(1/6)×(1/2)
= 1/12
0
(1/2)×(1/2)
= 1/4
(1/6)×max{(1/12)×0.99,
(1/4)×0.2}
= 0.01375
(1/10)×max{(1/12)×0.01,
(1/4)×0.8}
= 0.02
B
F
L
0
0
(1/6)×max{0.01375×0.99,
0.02×0.2}
= 0.00226875
(1/2)×max{0.01375×0.01,
0.02×0.8}
= 0.08
The Viterbi Algorithm
sequence
states
(i,k)
k
k-1
. . .
k-2
k+1
. . .
. . .
Viterbi: Обратный проход
T( T( T( ... T( T(i, L-1), L-2) ..., 2), 1), 0) = 0
Viterbi gets it right more often than not
Вероятность испускания по всем путям
• Каждый путь ассоциирован с некой вероятностью
– некоторые пути более вероятны чем другие: суммирование по ним даст полную вероятность испускания последовательности
– Viterbi наиболее вероятный путь
•Сколько вероятности от полной он в себе содержит?
•решение
– рассчитать сумму
• P(x) = Σπ P(x,π)
– можно использовать динамическое программирование
• аппроксимация
–рассчитать вероятность наиболее вероятного пути (Viterbi) π*
– может хорошо приближать, но, в целом, неправильно
Более сложная ситуация
59
Граф HMM для выравнивания,
в котором восемь колонок не содержат гэпов
Для нормализации веса и вычисления �E-value находок проводят �калибровку HMM профиля �на множестве случайных последовательностей
62
63
Профиль pftools для С2Н2 из Prosite
/GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=28;
/DISJOINT: DEFINITION=PROTECT; N1=3; N2=26;
/NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=-0.6689; R2=0.02078310; TEXT='-LogE';
/CUT_OFF: LEVEL=0; SCORE=441; N_SCORE=8.5; MODE=1; TEXT='!';
/CUT_OFF: LEVEL=-1; SCORE=344; N_SCORE=6.5; MODE=1; TEXT='?';
/DEFAULT: D=-20; I=-20; B1=-50; E1=-50; MI=-105; MD=-105; IM=-105; DM=-105;
A B C D E F G H I K L M N P Q R S T V W Y Z
/I: B1=0; BI=-105; BD=-105;
.............
/M: SY='C'; M=-10,-20,118,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30;
/M: SY='E'; M= -5, 3,-24, 3, 6,-22,-11, -6,-20, 1,-21,-14, 4, -1, 1, -3, 5, 2,-18,-29,-15, 3;
/I: I=-12; MI=0; MD=-30; IM=0; DM=-30;
/M: SY='E'; M= -9, -2,-26, 1, 14,-18,-17, -4,-13, -1,-11, -8, -5,-12, 4, -5, -5, -8,-12,-24, -9, 8;
/M: SY='C'; M=-10,-20,119,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-29,-30;
/M: SY='G'; M= -3, -1,-28, -1, -7,-28, 36,-11,-33,-11,-27,-18, 4,-15,-10,-12, 1,-13,-27,-24,-23, -9;
/M: SY='K'; M=-10, -2,-28, -3, 8,-25,-19, -7,-26, 36,-24, -8, -1,-12, 10, 27, -9, -9,-18,-19, -8, 8;
/M: SY='A'; M= 8, -7, -9,-11, -7,-17, -7,-14,-16, -6,-16,-11, -4,-15, -6, -5, 8, 4, -7,-27,-15, -7;
/M: SY='F'; M=-19,-29,-19,-37,-28, 71,-29,-17, 0,-28, 9, 0,-20,-30,-36,-19,-19, -9, -1, 9, 31,-28;
................
/M: SY='H'; M=-20, 0,-30, 0, 0,-20,-20, 99,-30,-10,-20, 0, 10,-20, 10, 0,-10,-20,-30,-30, 20, 0;
/M: SY='Q'; M=-10,-10,-25,-12, 1,-16,-22, -2, -6, 1, -3, 6, -9,-17, 13, 3, -9, -8, -9,-19, -4, 6;
/M: SY='R'; M=-13, -8,-26, -9, 0,-19,-19, -4,-21, 20,-16, -6, -2,-17, 6, 35, -8, -7,-14,-21, -9, 0;
/I: I=-12; MI=0; MD=-29; IM=0; DM=-29;
/M: SY='V'; M= -3,-16,-17,-21,-17, -6,-25,-20, 11,-15, 2, 3,-12,-18,-14,-14, -2, 9, 13,-25, -7,-17;
/M: SY='H'; M=-20, 0,-30, 0, 0,-20,-20, 97,-30,-10,-20, 0, 10,-20, 10, 0,-10,-20,-30,-30, 19, 0;
...................
/I: E1=0;
C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
Профиль Pftools
64
Строим модель: состояния совпадения (Match States)
По существу это PSSM (Position Specific Scoring Matrix): вес каждой колонки PSSM может быть отмасштабирован от 0 до 1 в соответствии с вероятностями испускания.
Все вероятности переходов назначаются 1: существует только один выбор – двигаться в следующее состояния совпадения.
Состояния вставки (Insertion States)
Состояние делеции (Deletion States)
Profile HMMs
Существует также переход из состоянии вставки в состояние делиции, но такие переходы считаются маловероятными, и их существование помогает при построении модели
Profile HMMs: Example
I1
I2
I3
I4
D1
D2
D3
M1
M2
M3
Интерпретация результатов поиска по профилю
Профиль �
72
HMMer search параметры
73
Проверка профиля на множестве последовательностей с известным ответом про каждую последовательность
74
Таблица проверки предсказания
75
Характеристики предсказания
76
Чувствительность (sensitivity): доля позитивных результатов теста в группе больных
Специфичность (specificity): доля негативных результатов теста в группе здоровых
Точность (precision): доля больных среди давших позитивный тест
Учёные люди знают еще много параметров, которые можно извлечь из таблицы 2×2 (справа)
ROC-кривая �(англ. receiver operating characteristic, операционная характеристика приёмника)�
77
ROC-кривая �(англ. receiver operating characteristic, операционная характеристика приёмника)�
78
Пример сравнения
79
ROC-кривые трёх методов предсказания эпитопов
Пример: Paired-like homeodomain family
80
N-score> 6.5
N-score> 18
Гомеодомен
Гомеодомен встречается еще в 608 архитектурах
Упорядочив веса по убыванию, видим сначала плавное снижение, а затем резкое падение. Вероятно, порог для детекции этого подсемейства гомеодоменов стоит выбрать примерно посредине «ступеньки».
Порог?
Создание интегрированной базы данных InterPro �
PROSITE
PFAM
PRINTS
InterPro
entries
IPR000001-
IPR011000
Интегрирование
родственных подписей «вручную»
ProDom
SMART
TIGRFAMs
PIRSF
SUPERFAMILY
InterPro- an integrated resource of protein families, domains and functional sites.
Entry types in InterPro
Белковые домены
86
Домен белка — элемент третичной структуры белка, представляющий собой достаточно стабильную и независимую подструктуру белка, которая сворачивается независимо от остальных частей белка.
Скрытые Марковские цепи (Hidden Markov Models, HMM)
87
88
… на самом деле HMM выравнивания выглядит так
89
Предсказание доменов в белке
91
Последовательность белка
HMMER
Pfam – protein families DB
GenBank format (NCBI)
92