1 of 92

Предсказание генов и�аннотация их функций

Основано на материалах Антонова Ивана 2022г

1

2 of 92

У нас есть геномная последовательность.

Что дальше?

2

3 of 92

Поиск открытых рамок считывания (ORFs)

3

Фиолетовый – стоп-кодон

Зеленый – старт кодон

4 of 92

GeneMark

Ab initio предсказание генов

4

5 of 92

Поиск генов через сравнение с известными белками

5

Статистика по БД GenBank

Статистика по БД RefSeq

https://www.ncbi.nlm.nih.gov/refseq/statistics/

https://www.ncbi.nlm.nih.gov/genbank/statistics/

6 of 92

Что такое функция гена?

Какие функции бывают?

6

https://www.genome.jp/kegg-bin/show_pathway?dac00860

7 of 92

Поиск генов через сравнение с известными белками

7

8 of 92

Какой BLAST лучше использовать?

8

Почему?

9 of 92

Почему поиск через белки более чувствительный?

9

Матрица замен BLOSUM62

10 of 92

Поиск генов, которые не кодируют белки --некодирующие РНК (rRNA, tRNA, lncRNA и др)

10

https://en.wikipedia.org/wiki/Ribosomal_RNA

11 of 92

Предсказание функции белка

11

Последовательность белка

BLASTp

12 of 92

12

Что делать если гомологичных белков не нашлось?

13 of 92

13

Функцию целого можно попытаться определить по функции частей

14 of 92

Домены

15 of 92

Функциональный домен (биохимия/биоинженерия)

Минимальная часть полипептидной цепи, которая

достаточна в эксперименте для сохранения одной из активностей целого белка
может автономно свернуться в правильную, нативную структуру

16 of 92

Эволюционный домен

(биоинформатика: последовательности)

Длинный непрерывный участок полипептидной цепи, который�

эволюционирует существенно медленнее других участков �
замечен в перемешивании доменов (domain shuffling)

17 of 92

Гомеодомены активно перемешивались в эволюции.

Об этом можно судить по 65(!) различным доменным архитектурам гомеобелков, представленным в банке Pfam

Гомеодомен

Парный домен и гомеодомен

Lim домены и гомеодомен

Гомеодомен, продолженный лейциновой молнией

POU домен и гомеодомен

Два гомеодомена

PBX-домен и гомеодомен

18 of 92

Структурный домен�(биоинформатика: 3D структуры)

Обособленная в пространстве часть белка, его структурная единица, имеющая

сравнительно мало контактов с другими частями белка
собственное гидрофобное ядро

19 of 92

Эволюционные домены часто, но не всегда совпадают со структурными доменами!

20 of 92

Мотив

Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности.

Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры (α-спираль, β-шпилька, β-поворот).

В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях.

Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены.

Не в любом выравнивании легко найти мотив.

21 of 92

Как найти домен

Для нахождения домена нужно собрать все последовательности, имеющие общий консервативный участок и построить выравнивание

с помощью паттерна
с помощью “профили”

Доменом называется достаточно длинный консервативный участок в выравнивании, выделяющийся на фоне неконсервативных участков

достаточно длинный – например, более 20 остатков; строгой границы нет

Подтверждением того, что домен выделен правильно, служит наблюдение явления перетасовки доменов.

nitrogen fixation positive activator protein

Пример белка со сложной доменной архитектурой

22 of 92

Интуитивно понятно:

Семейство - группа белков, имеющая общее происхождение,

их аминокислотные последовательности выравниваются по всей длине со значимым весом и имеют сходную доменную структуру.

Мнения расходятся, когда речь идет о критериях:

насколько должны быть похожи белки одного семейства (id>=30%, id>= 50%) ???
должны ли белки одного семейства выполнять одну и ту же функцию??�

Superfamily

Family

Subfamily

23 of 92

�PROSITE - биологически значимые сайты, паттерны и профили�

Выравнивание хорошо изученного семейства

Функционально важные остатки

4-5

консервативных остатков

Паттерн

Если находим только «правильные», то ОК

Если много лишнего, то увеличиваем паттерн

Поиск в SP

Паттерн – регулярное выражение UNIX’a:

[AC]-x-V-x(4)-{ED}

Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu или Asp)

http://www.expasy.ch/prosite/

24 of 92

PROSITE�

Релиз 18.25,

14.04 2004

1257 документов,

1706 разных

паттернов, правил и профилей.

Профиль или

весовая

матрица

F K L L S H C L L V

F K A F G Q T M F Q

Y P I V G Q E L L G

F P V V K E A I L K

F K V L A A V I A D

L E F I S E C I I Q

F K L L G N V L V C

A -18 -10 -1 -8 8 -3 3 -10 -2 -8

C -22 -33 -18 -18 -22 -26 22 -24 -19 -7

D -35 0 -32 -33 -7 6 -17 -34 -31 0

E -27 15 -25 -26 -9 23 -9 -24 -23 -1

F 60 -30 12 14 -26 -29 -15 4 12 -29

G -30 -20 -28 -32 28 -14 -23 -33 -27 -5

H -13 -12 -25 -25 -16 14 -22 -22 -23 -10

I 3 -27 21 25 -29 -23 -8 33 19 -23

K -26 25 -25 -27 -6 4 -15 -27 -26 0

L 14 -28 19 27 -27 -20 -9 33 26 -21

M 3 -15 10 14 -17 -10 -9 25 12 -11

N -22 -6 -24 -27 1 8 -15 -24 -24 -4

P -30 24 -26 -28 -14 -10 -22 -24 -26 -18

Q -32 5 -25 -26 -9 24 -16 -17 -23 7

R -18 9 -22 -22 -10 0 -18 -23 -22 -4

S -22 -8 -16 -21 11 2 -1 -24 -19 -4

T -10 -10 -6 -7 -5 -8 2 -10 -7 -11

V 0 -25 22 25 -19 -26 6 19 16 -16

W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28

Y 34 -18 -1 1 -23 -12 -19 0 0 -18

25 of 92

Pfam

http://pfam.xfam.org/
Большая коллекция семейств доменов

Для каждого семейства есть множественное выравнивание и профиль-HMM .

Состоит из 2-х частей:

PfamA – курируемая часть, покрывает 76% UniProt
PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов, не вошедших в PfamA (раньше – ProDom, теперь – ADDA) .

Удобна для анализа доменной структуры белков.

26 of 92

Язык Pfam :

Семейство – коллекция гомологичных белков.

Домен – структурная единица, которую можно найти во множественном выравнивании.

Повтор – короткая единица, нестабильная сама по себе, но образует стабильные структуры, если есть много копий.

Мотив – короткая единица структуры вне глобулярных доменов.

27 of 92

Какая информация закодирована в картинке доменов белка

Прямоугольники с закругленными краями – найден домен целиком.
Край прямоугольника зубчатый – найден только фрагмент домена, за зубчиками домен не продолжается, хотя должен был бы быть.
Прямоугольник с острыми краями – мотив, трансмебранный участок, участок малой сложности (например, десять остатков A) и т.п. – не является эволюционным доменом!
Цветная полоска – домен из PfamB, т.е. найденные программой, автоматически выровненные, но не проанализированные экспертом, сходные по последовательности фрагменты разных белков.
Домен, имеющий ID вида DUF… с номером - Domain of Unknown Function

28 of 92

Домен внутри другого домена

В нижней последовательности – всего 2 домена из PfamA плюс домен из PfamB (разноцветная полоска). Домен Hom_end встроен внутрь домена Hom_end_hint. �Это значит, что если из нижней последовательности вырезать фрагмент от начала зеленого до конца второго зеленого а потом удалить красный кусочек и склеить то, что осталось, то полученная последовательность целиком гомологична зеленому фрагменту из верхней последовательности.

29 of 92

Pfam

Множественное выравнивание (ClustalX) некоторого семейства или кластера.
Экспертиза и корректировка выравнивания-затравки.
Построение профиля-НММ для затравки.
Поиск в базе данных а.к. последовательностей

новых членов данной группы.

30 of 92

Паттерны для поиска в базах последовательностей

Prosite (http://prosite.expasy.org/ ), fuzzpro и fuzznuc в EMBOSS

31 of 92

31

Паттерн для цинкового пальца

Prosite

Паттерн для цинкового пальца типа С2Н2:

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

[a-zAZ] −все возможные аминокислоты в данной позиции
Х(2,4) − любая аминокислота от 2 до 4 раз
Х(3) − любая аминокислота ровно 3 раза
{P} − любая аминокислота, кроме пролина

Паттерны (fingerprints) для белков и средства поиска по паттерну есть в ProSite и пакете EMBOSS

32 of 92

Цинковые пальцы C2H2

32

33 of 92

PSSM – аналог PWM для белков

Psi-BLAST – итеративный вариант BLAST, использующий блоки множественного выравнивания и поиск по PSSM

34 of 92

34

	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
A	10	2	0	1	13	13	10	0	0	1	0	0	4	0	1	0
G	2	2	13	0	0	0	0	0	13	4	1	1	3	1	5	0
T	1	1	0	0	0	0	2	0	0	8	12	12	5	1	3	11
C	0	8	0	12	0	0	1	13	0	0	0	0	1	11	4	2
Всего	13	13	13	13	13	13	13	13	13	13	13	13	13	13	13	13

ШАГ 1. Подсчёт числа букв N(b,j)

1234567890123456

ACGCAAACGTTTTCTT

TCGCAAACGTTTGCTT

ACGCAAACGTTTTCGT

ACGCAAACGGTTTCGT

ACGCAACCGTTTTCCT

ACGCAAACGTGTGCGT

ACGCAATCGGTTACCT

GCGCAAACGTTTTCGT

AGGAAAACGATTGGCT

AAGCAAACGGTGATTT

ATGCAATCGGTTACGC

AGGCAAACGTTTACCT

GAGCAAACGTTTCCAC

35 of 92

35

ШАГ 2. Частоты букв

G C C T A C C C C A T T A T T T…

Частоты	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
A	0.77	0.15	0.00	0.08	1.00	1.00	0.77	0.00	0.00	0.08	0.00	0.00	0.31	0.00	0.08	0.00
G	0.15	0.15	1.00	0.00	0.00	0.00	0.00	0.00	1.00	0.31	0.08	0.08	0.23	0.08	0.38	0.00
T	0.08	0.08	0.00	0.00	0.00	0.00	0.15	0.00	0.00	0.62	0.92	0.92	0.38	0.08	0.23	0.85
C	0.00	0.62	0.00	0.92	0.00	0.00	0.08	1.00	0.00	0.00	0.00	0.00	0.08	0.85	0.31	0.15
Всего	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1

f(b,j) = N(b,j)/N в примере N=13

36 of 92

36

Частота G в позиции 15 равна 0.38

Значит ли это что-нибудь, если GC состав генома равен 0.7,

Т.е. частота G в геноме равна 0.35?

ЛОГАРИФМ Отношения правдоподобия W как вес различия

наблюдаемой частоты и ожидаемой:

w(G,15) = ln(0.38/0.35) = 0.1

ШАГ 3. Логарифм отношения вероятностей

37 of 92

37

ШАГ 4. Матрица весов PWM

w(b,j)	Фоновые частоты	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
A	0.15	1.6	0.0	-inf	-0.7	1.9	1.9	1.6	-inf	-inf	-0.7	-inf	-inf	0.7	-inf	-0.7	-inf
G	0.35	-0.8	-0.8	1.0	-inf	-inf	-inf	-inf	-inf	1.0	-0.1	-1.5	-1.5	-0.4	-1.5	0.1	-inf
T	0.15	-0.7	-0.7	-inf	-inf	-inf	-inf	0.0	-inf	-inf	1.4	1.8	1.8	0.9	-0.7	0.4	1.7
C	0.35	-inf	0.6	-inf	1.0	-inf	-inf	-1.5	1.0	-inf	-inf	-inf	-inf	-1.5	0.9	-0.1	-0.8
	1	-inf	-0.9	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-inf	-0.3	-inf	-0.3	-inf

38 of 92

Шаг 5. Псевдоотсчёты

38

F(b,j) = [N(b,j) + ε(b)] /(N + ε) вместо

f(b,j) = N(b,j)/N

Здесь ε = ε(A) + ε(G) + ε(T) + ε(C)

Все ε(b) маленькие в сравнении с N

Подбираются опытным путем

39 of 92

39

ШАГ 4. Частоты с псевдоотсчётами

F(b,j)	баз. Частоты	e(b)	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
A	0.15	0.10	0.75	0.16	0.01	0.08	0.98	0.98	0.75	0.01	0.01	0.08	0.01	0.01	0.31	0.01	0.08	0.01
G	0.35	0.10	0.16	0.16	0.98	0.01	0.01	0.01	0.01	0.01	0.98	0.31	0.08	0.08	0.23	0.08	0.38	0.01
T	0.15	0.10	0.08	0.08	0.01	0.01	0.01	0.01	0.16	0.01	0.01	0.60	0.90	0.90	0.38	0.08	0.23	0.83
C	0.35	0.10	0.01	0.60	0.01	0.90	0.01	0.01	0.08	0.98	0.01	0.01	0.01	0.01	0.08	0.83	0.31	0.16
	1	0.40	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00	1.00

40 of 92

40

ШАГ 5. Матрица PWM с псевдоотсчётами

W(b,j)	баз. Частоты	e(b)	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
A	0.15	0.10	1.6	0.0	-3.0	-0.6	1.9	1.9	1.6	-3.0	-3.0	-0.6	-3.0	-3.0	0.7	-3.0	-0.6	-3.0
G	0.35	0.10	-0.8	-0.8	1.0	-3.8	-3.8	-3.8	-3.8	-3.8	1.0	-0.1	-1.5	-1.5	-0.4	-1.5	0.1	-3.8
T	0.15	0.10	-0.6	-0.6	-3.0	-3.0	-3.0	-3.0	0.0	-3.0	-3.0	1.4	1.8	1.8	0.9	-0.6	0.4	1.7
C	0.35	0.10	-3.8	0.5	-3.8	0.9	-3.8	-3.8	-1.5	1.0	-3.8	-3.8	-3.8	-3.8	-1.5	0.9	-0.1	-0.8
	1	0.40	-3.6	-0.8	-8.8	-6.5	-8.8	-8.8	-3.6	-8.8	-8.8	-3.2	-6.5	-6.5	-0.2	-4.2	-0.2	-5.9

41 of 92

41

PSSM – то же, что PWM

PSSM, или Position-Specific Scoring Matrix, строится по блоку – выравниванию без вставок/делеций
Используется в программе PSI-BLAST (и MEME)

по последовательностям из списка находок, отмеченным для очередной итерации, строится выравнивание
в выравнивании находятся блоки
по блоку строится PSSM
по всем PSSM ведется поиск; веса разных PSSM в одной банковской последовательности суммируются
получается, что PSI-BLAST разрешает участки переменной длины между находками PSSM, но никак их не использует при вычислении веса

42 of 92

42

Структура ProSite:

коллекция белковых семейств и доменов.
аннотации эволюционных доменов
Функциональные участки, мотивы, подписи и профили.
интерфейс (средства поиска, средства сохранения выравниваний и т.д.)‏

http://au.expasy.org/prosite/

43 of 92

Профили выравниваний и поиск по ним в базах последовательностях

HMM = Hidden Markov Model

Технология HMM реализована в пакете HMMER. Он включен в EMBOSS.

В БД Prosite реализована аналогичная, но не идентичная, технология Pftools

44 of 92

Профили

На вход подается выравнивание с инделями
По нему строится т.н. профиль HMM (Hidden Markov Model)
Профиль HMM можно выровнять с последовательностью и получить вес выравнивания. Локальное и глобальное выравнивание.
Профиль калибруется по случайному банку для нормализации веса и расчета E-value
При наличии множества последовательностей, про которые известен ответ – есть в них домен или нет, - можно уточнить порог нормализованного веса для находки
С помощию профиля в базе последовательностей (Uniprot) находятся участки c весом больше порога, следовательно, белки, содержащие домен.
Важное отличие профиля от PWM: �профиль может быть построен по выравниванию с инделями
Надо установить параметры модели такими, чтобы полная вероятность достигала максимума для членов семейства.
Последовательности могут быть протестированы на принадлежность семейству, используя алгоритм Витерби для оценки совпадения с профилем

44

45 of 92

HMM Профиль. Немного теории

По выравниванию создается автомат для генерации последовательностей

Этот автомат умеет генерировать случайные последовательности конечной (но не фиксированной!) длины
Он настроен так, чтобы создавать последовательности, “похожие” на выравнивание, с бóльшей вероятностью

Для каждой входной последовательности можно (т.е. существуют алгоритмы) определить вероятность её сгенерировать этим автоматом.
Если эта вероятность превышает порог, то последовательность считается соответствующей профилю.

45

46 of 92

Автомат выглядит так:

from Krogh, “Computational Methods in molecular biology, pages 45-63, Elsevier, 1998.

Выравнивание

Автомат для него

Вероятности в квадратиках называются

эмиссионными вероятностями

Вероятности на стрелочках -

вероятностями перехода

47 of 92

Логарифм отношения правдоподобия, log-odds

Вероятность буквы в данной позиции следует сравнивать с базовой – по геному - частотой этой буквы.
Пусть базовые частоты всех букв одинаковы и, следовательно, равны 0.25
Отношение правдоподобия для буквы A в первой позиции примера равно 0.8/0.25 = 3.2
Удобнее взять логарифм – чтобы складывать, а не умножать:� log-odds = ln 3.2 = 1.16
Log-odds >> 0 – за то, что буква A не случайно похожа на колонку выравнивания
Log-odds ≈ 0 – за то, что буква A соответствует случайному выбору
Log-odds << 0 – за то, что буква A избегается в колонке выравнивания

47

48 of 92

48

Определим вес данного выравнивания последовательности ACACATC с профилем

m2

m1

m3

m4

m5

m6

i3

49 of 92

Мы нашли

вес ACACATC = 6.64
… и выравнивание относительно профиля:

A C A C A T C
m1 m2 m3 i3 m4 m5 m6

49

Задачу нахождения лучшего по весу выравнивания входной последовательности и HMM профиля решает алгоритм Viterbi

50 of 92

Теперь мы можем оценить любой путь через скрытые состояния, учитывая полученные последовательности.

Как найти наилучший путь?

Перепробовать все варианты? Непрактично, экспоненциальное число путей.

– 1 ген ~ 100,000 оснований 2^100,000 путей для 2-х состояний!

Вместо этого: динамическое программирование - алгоритм Витерби

– Сохранение частичных вычислений (максимальный счёт до позиции i через состояние k)

Определим V_k(i) = Вероятность наиболее вероятного пути через состояние π_i =k

– Используем его для вычисления максимального счёта до позиции i+1 для каждого k’

Находим V_k’(i+1) как функцию maxk { V_k(i) }

– Простое вычисление, нужно учесть emission score + score перехода

V_k(i+1) = e_k(x_i+1) * max_j a_jk Vj (i)

Динамическое программирование работает благодаря оптимальной подструктуре

Лучший путь через заданное состояние:
Лучший путь к предыдущему состоянию
Лучший переход из предыдущего состояния в это состояние
Лучший путь к конечному состоянию

Поиск оптимального пути

51 of 92

Наиболее вероятный путь

Наиболее вероятный путь π^* удовлетворяет

Чтобы найти π^*, рассмотрим все возможные пути у которые могут испускать x

Пусть

Тогда

52 of 92

Алгоритм Витерби

Инициализация (i = 0)�
Рекурсия (i = 1, . . . , L): Для каждого k��
Остановка:

Чтобы найти π^*, идем обратно, как в динамическом программировании

53 of 92

Нечестное казино

53

54 of 92

Viterbi: пример

1

π

x

0

6

2

6

ε

(1/6)×(1/2)

= 1/12

0

(1/2)×(1/2)

= 1/4

(1/6)×max{(1/12)×0.99,

(1/4)×0.2}

= 0.01375

(1/10)×max{(1/12)×0.01,

(1/4)×0.8}

= 0.02

B

F

L

0

(1/6)×max{0.01375×0.99,

0.02×0.2}

= 0.00226875

(1/2)×max{0.01375×0.01,

0.02×0.8}

= 0.08

55 of 92

The Viterbi Algorithm

sequence

states

(i,k)

k

k-1

. . .

k-2

k+1

. . .

56 of 92

Viterbi: Обратный проход

T( T( T( ... T( T(i, L-1), L-2) ..., 2), 1), 0) = 0

57 of 92

Viterbi gets it right more often than not

58 of 92

Вероятность испускания по всем путям

• Каждый путь ассоциирован с некой вероятностью

– некоторые пути более вероятны чем другие: суммирование по ним даст полную вероятность испускания последовательности

– Viterbi наиболее вероятный путь

•Сколько вероятности от полной он в себе содержит?

•решение

– рассчитать сумму

• P(x) = Σπ P(x,π)

– можно использовать динамическое программирование

• аппроксимация

–рассчитать вероятность наиболее вероятного пути (Viterbi) π*

– может хорошо приближать, но, в целом, неправильно

59 of 92

Более сложная ситуация

Возможны вставки (i) в любом месте
Возможны делеции (d) в любом месте
Разрешены все возможные переходы между вершинами b (begin), m (match), i (insertion), d (delelion), e (end):

b => m1, b => d1, b => i1
m => следующую m, m => i, m=>d, m => e
i => i, i => m, i => d, i => e
d => d, d => m, d => i, d => e

59

60 of 92

Граф HMM для выравнивания,

в котором восемь колонок не содержат гэпов

61 of 92

http://eddylab.org/software/hmmer/Userguide.pdf

The first two lines in the main model section are atypical.5 They 5 That is, the first two lines after the optional COMPO line. Don’t be confused by the presence of an optional COMPO line here. The COMPO line is placed in the model section, below the residue column headers, because it’s an array of numbers much like residue scores, but it’s not really part of the model. contain information for the core model’s BEGIN node. This is stored as model node 0, and match state 0 is treated as the BEGIN state. The begin state is mute, so there are no match emission probabilities. The first line is the insert 0 emissions. The second line contains the transitions from the begin state and insert state 0. These seven numbers are: B → M1, B → I0, B → D1; I0 → M1, I0 → I0; then a 0.0 and a ’*’, because by convention, nonexistent transitions from the nonexistent delete state 0 are set to log 1 = 0 and log 0 = −∞ = ‘*’. The remainder of the model has three lines per node, for M nodes (where M is the number of match states, as given by the LENG line). These three lines are (K is the alphabet size in residues): Match emission line The first field is the node number (1 . . . M). The parser verifies this number as a consistency check (it expects the nodes to come in order). The next K numbers for match emissions, one per symbol, in alphabetic order. The next field is the MAP annotation for this node. If MAP was yes in the header, then this is an integer, representing the alignment column index for this match state (1..alen); otherwise, this field is ‘-’. hmmer user’s guide 213 The next field is the CONS consensus residue for this node. If CONS was yes in the header, then this is a single character, representing the consensus residue annotation for this match state; otherwise, this field is ‘-’. The next field is the RF annotation for this node. If RF was yes in the header, then this is a single character, representing the reference annotation for this match state; otherwise, this field is ‘-’. The next field is the MM mask value for this node. If MM was yes in the header, then this is a single ’m’ character, indicating that the position was identified as a masked position during model construction; otherwise, this field is ‘-’. The next field is the CS annotation for this node. If CS was yes, then this is a single character, representing the consensus structure at this match state; otherwise this field is ‘-’. Insert emission line The K fields on this line are the insert emission scores, one per symbol, in alphabetic order. State transition line The seven fields on this line are the transitions for node k, in the order shown by the transition header line: Mk → Mk+1 , Ik , Dk+1 ; Ik → Mk+1 , Ik ; Dk → Mk+1 , Dk+1 . For transitions from the final node M, match state M + 1 is interpreted as the END state E, and there is no delete state M + 1; therefore the final Mk → Dk+1 and Dk → Dk+1 transitions are always * (zero probability), and the final Dk → Mk+1 transition is always 0.0 (probability 1.0).

62 of 92

Для нормализации веса и вычисления �E-value находок проводят �калибровку HMM профиля �на множестве случайных последовательностей

62

63 of 92

63

Профиль pftools для С2Н2 из Prosite

/GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=28;

/DISJOINT: DEFINITION=PROTECT; N1=3; N2=26;

/NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=-0.6689; R2=0.02078310; TEXT='-LogE';

/CUT_OFF: LEVEL=0; SCORE=441; N_SCORE=8.5; MODE=1; TEXT='!';

/CUT_OFF: LEVEL=-1; SCORE=344; N_SCORE=6.5; MODE=1; TEXT='?';

/DEFAULT: D=-20; I=-20; B1=-50; E1=-50; MI=-105; MD=-105; IM=-105; DM=-105;

A B C D E F G H I K L M N P Q R S T V W Y Z

/I: B1=0; BI=-105; BD=-105;

.............

/M: SY='C'; M=-10,-20,118,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30;

/M: SY='E'; M= -5, 3,-24, 3, 6,-22,-11, -6,-20, 1,-21,-14, 4, -1, 1, -3, 5, 2,-18,-29,-15, 3;

/I: I=-12; MI=0; MD=-30; IM=0; DM=-30;

/M: SY='E'; M= -9, -2,-26, 1, 14,-18,-17, -4,-13, -1,-11, -8, -5,-12, 4, -5, -5, -8,-12,-24, -9, 8;

/M: SY='C'; M=-10,-20,119,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-29,-30;

/M: SY='G'; M= -3, -1,-28, -1, -7,-28, 36,-11,-33,-11,-27,-18, 4,-15,-10,-12, 1,-13,-27,-24,-23, -9;

/M: SY='K'; M=-10, -2,-28, -3, 8,-25,-19, -7,-26, 36,-24, -8, -1,-12, 10, 27, -9, -9,-18,-19, -8, 8;

/M: SY='A'; M= 8, -7, -9,-11, -7,-17, -7,-14,-16, -6,-16,-11, -4,-15, -6, -5, 8, 4, -7,-27,-15, -7;

/M: SY='F'; M=-19,-29,-19,-37,-28, 71,-29,-17, 0,-28, 9, 0,-20,-30,-36,-19,-19, -9, -1, 9, 31,-28;

................

/M: SY='H'; M=-20, 0,-30, 0, 0,-20,-20, 99,-30,-10,-20, 0, 10,-20, 10, 0,-10,-20,-30,-30, 20, 0;

/M: SY='Q'; M=-10,-10,-25,-12, 1,-16,-22, -2, -6, 1, -3, 6, -9,-17, 13, 3, -9, -8, -9,-19, -4, 6;

/M: SY='R'; M=-13, -8,-26, -9, 0,-19,-19, -4,-21, 20,-16, -6, -2,-17, 6, 35, -8, -7,-14,-21, -9, 0;

/I: I=-12; MI=0; MD=-29; IM=0; DM=-29;

/M: SY='V'; M= -3,-16,-17,-21,-17, -6,-25,-20, 11,-15, 2, 3,-12,-18,-14,-14, -2, 9, 13,-25, -7,-17;

/M: SY='H'; M=-20, 0,-30, 0, 0,-20,-20, 97,-30,-10,-20, 0, 10,-20, 10, 0,-10,-20,-30,-30, 19, 0;

...................

/I: E1=0;

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

64 of 92

Профиль Pftools

Используется в БД Prosite и MyHits. Как и HMMer, доступен как standalone пакет
Тоже использует HMM, но хранит информацию в другом формате
Формат Pftools несколько удобнее для редактирования профиля вручную
Есть конверторы форматов �Pftools <=> HMMer

64

65 of 92

Строим модель: состояния совпадения (Match States)

Если нам нужно выполнить выравнивание без пропусков, то мы можем использовать простую, неразветвленную HMM, где из каждого состояния совпадения можно перейти в другое состояния совпадения
Для каждого состояния существует вероятность испускания аминокислоты, которые зависят от состояния совпадения

По существу это PSSM (Position Specific Scoring Matrix): вес каждой колонки PSSM может быть отмасштабирован от 0 до 1 в соответствии с вероятностями испускания.

Все вероятности переходов назначаются 1: существует только один выбор – двигаться в следующее состояния совпадения.

66 of 92

Состояния вставки (Insertion States)

Во множественном выравнивании часто встречаются колонки, являющиеся пропусками в большинстве последовательностях, но содержащие аминокислоты в некоторых.

Такие колонки лучше обозначать как состояния вставки.

По мере продвижения по модели и генерирования искомой последовательности, состояния вставки генерируют экстра аминокислоты, находящиеся в этих колонках.
Состояния вставки обладают вероятностями испускания, которые обычно такие же, как и общая пропорция каждой аминокислоты в базе данных.
Состояния вставки замыкаются на себя, что означает, что множество позиций может быть испущено в этом состоянии.
В состояние вставки можно войти из одного состояния совпадения, но выход происходит уже в следующее: вставка происходит между соседними аминокислотами.

67 of 92

Состояние делеции (Deletion States)

Делециями во множественном выравнивании называют позиции, в которых большинство последовательностей имеют аминокислоты, и только небольшое количество – пропуски.
Состояния делиции используются для того, чтобы перескочить между состояниями.

Допускается пропуск состояний совпадения, переходя из одного состояния делиции в другое.
Состояния делиции действуют как афинные штрафы: вероятности перехода из состояния совпадения в состояния делиции равнозначно штрафу за открытие разрыва, и переход из одного состояния делиции в другое равнозначно штрафу за продолжения разрыва.

В противоположность состояниям совпадения и состояниям вставки, состояния делиций являются молчащими, они ничего не испускают.

68 of 92

Profile HMMs

Существует также переход из состоянии вставки в состояние делиции, но такие переходы считаются маловероятными, и их существование помогает при построении модели

69 of 92

Profile HMMs: Example

70 of 92

I₁

I₂

I₃

I₄

D₁

D₂

D₃

M₁

M₂

M₃

71 of 92

Интерпретация результатов поиска по профилю

72 of 92

Профиль �

Служит для предсказания принадлежности последовательности семейству
Если есть профиль, то по последовательности можно получить число (нормализованный вес), характеризующий сходство последовательности и профиля
Чтобы получить предсказание, необходимо выбрать порог t на вес: �вес > t ⇒ предсказываем принадлежность последовательности семейству
Проверку профиля и выбор порога следует выполнять на множестве последовательностей с известным ответом �(если такие есть)
Часто между последовательностями “точно принадлежит” и “точно не из семейства” есть зона неопределенности
Скачок веса может служить признаком для выбора порога

72

73 of 92

HMMer search параметры

E 0.1 (порог на E-value находки)
T 20 (порог на вес находки)

73

74 of 92

Проверка профиля на множестве последовательностей с известным ответом про каждую последовательность

Выберем порог t
Тогда предсказывается, что находка

принадлежит семейству, если ее вес T >= t
не принадлежит, если T < t

(аналогично для E-value)

74

75 of 92

Таблица проверки предсказания

75

76 of 92

Характеристики предсказания

76

Чувствительность (sensitivity): доля позитивных результатов теста в группе больных

Специфичность (specificity): доля негативных результатов теста в группе здоровых

Точность (precision): доля больных среди давших позитивный тест

Учёные люди знают еще много параметров, которые можно извлечь из таблицы 2×2 (справа)

77 of 92

ROC-кривая �(англ. receiver operating characteristic, операционная характеристика приёмника)�

77

78 of 92

ROC-кривая �(англ. receiver operating characteristic, операционная характеристика приёмника)�

Строится в том случае, когда предсказание основано на вычислении числа, например, нормализованного веса находки профиля
Предсказание должно быть проверено на данных с ИЗВЕСТНЫМ ОТВЕТОМ.
Каждая точка кривой – характеристики правила, соответствующего некоторому порогу t.
Может быть использована для выбора порога t.
Также используют для сравнения разных правил предсказания (площадь под кривой)

78

79 of 92

Пример сравнения

79

ROC-кривые трёх методов предсказания эпитопов

80 of 92

Пример: Paired-like homeodomain family

80

N-score> 6.5

N-score> 18

Гомеодомен

Гомеодомен встречается еще в 608 архитектурах

Упорядочив веса по убыванию, видим сначала плавное снижение, а затем резкое падение. Вероятно, порог для детекции этого подсемейства гомеодоменов стоит выбрать примерно посредине «ступеньки».

Порог?

81 of 92

Создание интегрированной базы данных InterPro �

PROSITE

PFAM

PRINTS

InterPro

entries

IPR000001-

IPR011000

Интегрирование

родственных подписей «вручную»

ProDom

SMART

TIGRFAMs

PIRSF

SUPERFAMILY

InterPro- an integrated resource of protein families, domains and functional sites.

82 of 92

83 of 92

Entry types in InterPro

Family - group of evolutionarily related proteins, that share one or more domains/repeats in common.
Domain -independent structural unit which can be found alone or in conjunction with other domains or repeats.
Repeat -region occurring more than once that is not expected to fold into a globular domain on its own.
PTM (post-translational modification) -The sequence motif is defined by the molecular recognition of this region in a cell.
Active site -catalytic pockets of enzymes where the catalytic residues are known.
Binding site –binds compounds but is not necessarily involved in catalysis.

84 of 92

85 of 92

86 of 92

Белковые домены

86

Домен белка — элемент третичной структуры белка, представляющий собой достаточно стабильную и независимую подструктуру белка, которая сворачивается независимо от остальных частей белка.

https://www.ebi.ac.uk/interpro/

87 of 92

Скрытые Марковские цепи (Hidden Markov Models, HMM)

87

88 of 92

88

89 of 92

… на самом деле HMM выравнивания выглядит так

89

90 of 92

http://eddylab.org/software/hmmer/Userguide.pdf

The first two lines in the main model section are atypical.5 They 5 That is, the first two lines after the optional COMPO line. Don’t be confused by the presence of an optional COMPO line here. The COMPO line is placed in the model section, below the residue column headers, because it’s an array of numbers much like residue scores, but it’s not really part of the model. contain information for the core model’s BEGIN node. This is stored as model node 0, and match state 0 is treated as the BEGIN state. The begin state is mute, so there are no match emission probabilities. The first line is the insert 0 emissions. The second line contains the transitions from the begin state and insert state 0. These seven numbers are: B → M1, B → I0, B → D1; I0 → M1, I0 → I0; then a 0.0 and a ’*’, because by convention, nonexistent transitions from the nonexistent delete state 0 are set to log 1 = 0 and log 0 = −∞ = ‘*’. The remainder of the model has three lines per node, for M nodes (where M is the number of match states, as given by the LENG line). These three lines are (K is the alphabet size in residues): Match emission line The first field is the node number (1 . . . M). The parser verifies this number as a consistency check (it expects the nodes to come in order). The next K numbers for match emissions, one per symbol, in alphabetic order. The next field is the MAP annotation for this node. If MAP was yes in the header, then this is an integer, representing the alignment column index for this match state (1..alen); otherwise, this field is ‘-’. hmmer user’s guide 213 The next field is the CONS consensus residue for this node. If CONS was yes in the header, then this is a single character, representing the consensus residue annotation for this match state; otherwise, this field is ‘-’. The next field is the RF annotation for this node. If RF was yes in the header, then this is a single character, representing the reference annotation for this match state; otherwise, this field is ‘-’. The next field is the MM mask value for this node. If MM was yes in the header, then this is a single ’m’ character, indicating that the position was identified as a masked position during model construction; otherwise, this field is ‘-’. The next field is the CS annotation for this node. If CS was yes, then this is a single character, representing the consensus structure at this match state; otherwise this field is ‘-’. Insert emission line The K fields on this line are the insert emission scores, one per symbol, in alphabetic order. State transition line The seven fields on this line are the transitions for node k, in the order shown by the transition header line: Mk → Mk+1 , Ik , Dk+1 ; Ik → Mk+1 , Ik ; Dk → Mk+1 , Dk+1 . For transitions from the final node M, match state M + 1 is interpreted as the END state E, and there is no delete state M + 1; therefore the final Mk → Dk+1 and Dk → Dk+1 transitions are always * (zero probability), and the final Dk → Mk+1 transition is always 0.0 (probability 1.0).

91 of 92

Предсказание доменов в белке

91

Последовательность белка

HMMER

Pfam – protein families DB

92 of 92

GenBank format (NCBI)

E.coli (100 kb region)

https://www.ncbi.nlm.nih.gov/nuccore/NC_000913.3?report=genbank&to=100000

Human (100 kb region of chr1):

https://www.ncbi.nlm.nih.gov/nuccore/NC_000001.11?report=genbank&to=100000

92