Мутации и выравнивание
С.А. Спирин
9 апреля 2024
1
План
2. Выравнивание:
3. Формализация: вес выравнивания
4. Программы парного выравнивания в EMBOSS
5. Редактор выравниваний Jalview
2
Последовательности миоглобинов человека, мыши и быка
>MYG_HUMAN
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE
DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH
PGDFGADAQGAMNKALELFRKDMASNYKELGFQG
>MYG_MOUSE
MGLSDGEWQLVLNVWGKVEADLAGHGQEVLIGLFKTHPETLDKFDKFKNLKSEEDMKGSE
DLKKHGCTVLTALGTILKKKGQHAAEIQPLAQSHATKHKIPVKYLEFISEIIIEVLKKRH
SGDFGADAQGAMSKALELFRNDIAAKYKELGFQG
>MYG_BOVIN
MGLSDGEWQLVLNAWGKVEADVAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE
DLKKHGNTVLTALGGILKKKGHHEAEVKHLAESHANKHKIPVKYLEFISDAIIHVLHAKH
PSDFGADAQAAMSKALELFRNDMAAQYKVLGFHG
3
Напишем последовательности друг под другом, чтобы было видно сходство:
MYG_HUMAN MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60
MYG_MOUSE MGLSDGEWQLVLNVWGKVEADLAGHGQEVLIGLFKTHPETLDKFDKFKNLKSEEDMKGSE 60
MYG_BOVIN MGLSDGEWQLVLNAWGKVEADVAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 60
*************.*******: ******** **. *****:******:**:* :**.**
MYG_HUMAN DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH 120
MYG_MOUSE DLKKHGCTVLTALGTILKKKGQHAAEIQPLAQSHATKHKIPVKYLEFISEIIIEVLKKRH 120
MYG_BOVIN DLKKHGNTVLTALGGILKKKGHHEAEVKHLAESHANKHKIPVKYLEFISDAIIHVLHAKH 120
****** ******* ******:* **:: **:***.*************: **.**: :*
MYG_HUMAN PGDFGADAQGAMNKALELFRKDMASNYKELGFQG 154
MYG_MOUSE SGDFGADAQGAMSKALELFRNDIAAKYKELGFQG 154
MYG_BOVIN PSDFGADAQAAMSKALELFRNDMAAQYKVLGFHG 154
.*******.**.*******:*:*::** ***:*
Видно, что большинство букв совпадает, но некоторые различаются.
Это последовательности гомологичных белков, что означает, что эти белки произошли от общего предка. За время, прошедшее от существования общего предка, некоторые буквы менялись, но большинство остались неизменными.
4
Последовательности миоглобинов человека и рыбы
>MYG_HUMAN
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE
DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH
PGDFGADAQGAMNKALELFRKDMASNYKELGFQG
>MYG_DANRE
MADHDLVLKCWGAVEADYAANGGEVLNRLFKEYPDTLKLFPKFSGISQGDLAGSPAVAAH
GATVLKKLGELLKAKGDHAALLKPLANTHANIHKVALNNFRLITEVLVKVMAEKAGLDAA
GQGALRRVMDAVIGDIDGYYKEIGFAG
Разная длина, как сравнивать?
5
Последовательности миоглобинов человека и рыбы
>MYG_HUMAN
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE
DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH
PGDFGADAQGAMNKALELFRKDMASNYKELGFQG
>MYG_DANRE
MADHDLVLKCWGAVEADYAANGGEVLNRLFKEYPDTLKLFPKFSGISQGDLAGSPAVAAH
GATVLKKLGELLKAKGDHAALLKPLANTHANIHKVALNNFRLITEVLVKVMAEKAGLDAA
GQGALRRVMDAVIGDIDGYYKEIGFAG
6
Разная длина, как сравнивать?
Ответ: выравнивание
MYG_HUMAN MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60
MYG_DANRE ----MADHDLVLKCWGAVEADYAANGGEVLNRLFKEYPDTLKLFPKFSGISQG-DLAGSP 55
.: :***: ** **** .:* *** **** :*:**: * **. :.. :: .*
MYG_HUMAN DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH 120
MYG_DANRE AVAAHGATVLKKLGELLKAKGDHAALLKPLANTHANIHKVALNNFRLITEVLVKVMAEKA 115
: ******. ** :** **.* * :****::**. **: :: :.:*:* :::*: .*
MYG_HUMAN PGDFGADAQGAMNKALELFRKDMASNYKELGFQG 154
MYG_DANRE --GLDAAGQGALRRVMDAVIGDIDGYYKEIGFAG 147
.:.* .***:.:.:: . *: . ***:** *
Источники разнообразия геномов
7
1. Ошибки репликации ДНК
Источники разнообразия геномов
8
2. Повреждения ДНК и их репарация
Гомологичные последовательности
9
>First
CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCGGTGGAGTAACCATTTGGAGCTAGCCGTCGAAGGTGGG
>Second
CGTTCCCGGGCCTTGTACACACCGCCCGTCACACCATGGAAGTCTGCAATGCCCAAAGTCGGTGGGATAACCTTTATAGGAGTCAGCCGCCTAAGGCAGG
Выравнивание �(демонстрирует сходство)
10
>First
CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCGGTGGAGTAACCATTTGGAGCTAGCCGTCGAAGGTGGG
>Second
CGTTCCCGGGCCTTGTACACACCGCCCGTCACACCATGGAAGTCTGCAATGCCCAAAGTCGGTGGGATAACCTTTATAGGAGTCAGCCGCCTAAGGCAGG
First 1 CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAAC 50
||||||||||.|||||||||||||||||||||||||.|..|||.||.||.
Second 1 CGTTCCCGGGCCTTGTACACACCGCCCGTCACACCATGGAAGTCTGCAAT 50
First 51 ACCCGAAGCCGGTGGAGTAACCAT--TTGGAGCTAGCCGTCGAAGGTGGG 98
.|||.|||.||||||..|||||.| |.||||..|||||.|.||||..||
Second 51 GCCCAAAGTCGGTGGGATAACCTTTATAGGAGTCAGCCGCCTAAGGCAGG 100
Негомологичные последовательности
11
>First
CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCGGTGGAGTAACCATTTGGAGCTAGCCGTCGAAGGTGGG
>Third
CCTGCCTTAGGCGGCTGACTCCTATAAAGGTTATCCCACCGACTTTGGGCATTGCAGACTTCCATGGTGTGACGGGCGGTGTGTACAAGGCCCGGGAACG
Выравнивание (бессмысленное)
12
>First
CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCGGTGGAGTAACCATTTGGAGCTAGCCGTCGAAGGTGGG
>Third
CCTGCCTTAGGCGGCTGACTCCTATAAAGGTTATCCCACCGACTTTGGGCATTGCAGACTTCCATGGTGTGACGGGCGGTGTGTACAAGGCCCGGGAACG
First 1 ---------------------------------------CGTTCCCGGGT 11
||.....|||.
Third 1 CCTGCCTTAGGCGGCTGACTCCTATAAAGGTTATCCCACCGACTTTGGGC 50
First 12 CTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCG 61
.|||.|.||..|....||...||.....|.||.|..||..||||....||
Third 51 ATTGCAGACTTCCATGGTGTGACGGGCGGTGTGTACAAGGCCCGGGAACG 100
Гомологичные нуклеотиды ставим друг под другом
ПРЕДОК
сын
13
Выравнивание последовательностей потомков относительно предка
Гомологичные нуклеотиды ставим друг под другом
ПРЕДОК
сын
внук
правнук
14
Выравнивание последовательностей потомков относительно предка
Гомологичные нуклеотиды ставим друг под другом
ПРЕДОК
сын
внук
правнук
праправнук
прапраправнук
15
Выравнивание последовательностей потомков относительно предка
Гомологичные нуклеотиды ставим друг под другом
ПРЕДОК
сын
внук
правнук
праправнук
прапраправнук
………
……..
……..
16
Выравнивание последовательностей потомков относительно предка
Выравнивание последовательностей потомков относительно предка
Гомологичные нуклеотиды ставим друг под другом
ПРЕДОК
сын
внук
правнук
праправнук
прапраправнук
………
……..
……..
Из 20-и позиций (колонок) выравнивания 11 (55%) консервативны – не изменились от предка
17
Выравнивание геномов двух потомков общего предка микоплазм: M.capricolum и M.mycoides, � (маленький фрагмент)
18
В среднем 92% совпадающих букв на гомологичных участках
19
19
ДНК и белки
Геном
3 млрд. букв у человека�0,5–10 млн. букв у бактерий
Кодирующие участки
< 2% у человека�~90% у бактерий
Белки
~25 000 у человека�600–6000 у бактерий
содержит
кодируют
20
Классификация мутаций в кодирующих последовательностях ДНК
Синонимическая или молчащая: не меняет кодируемый аминокислотный остаток
Миссенс (missense): меняет остаток
Нонсенс (nonsense): заменяет кодон остатка на стоп-кодон
Вставка (insertion) или делеция (deletion) нескольких кодонов
Сдвиг рамки (frameshift): вставка или делеция размера, не кратного трём�Результатом являются совсем другие аминокислоты после мутации и, как правило, стоп-кодон сравнительно недалеко (в среднем через 21 триплет после мутации)
21
Точечные замены в гене
22
Судьба мутации
23
Бактерия разделилась, и у одного из потомков произошла мутация.
(ошибка репликации, или повреждение ДНК и ошибка репарации).
Что будет с потомством мутанта? Увидим ли мы эту мутацию, если отсеквенируем 1 000 000 бактерий этого штамма через 10 лет?
Потомство бактерии
24
В благоприятных условиях бактерия может делиться каждый час.
Сколько будет бактерий через 24 часа? А через год????
Потомство бактерии
25
В благоприятных условиях бактерия может делиться каждый час.
Сколько будет бактерий через 24 часа? А через год????
Ответ: примерно столько же, сколько сейчас.
Потомство бактерии
26
В благоприятных условиях бактерия может делиться каждый час.
Сколько будет бактерий через 24 часа? А через год????
Ответ: примерно столько же, сколько сейчас.
Численность подавляющего большинства популяций постоянна (по крайней мере на отрезках времени порядка лет) – погибает примерно столько же, сколько рождается.�Современная популяция человека – исключение!
Если члены популяции генетически идентичны, то вероятность оставить потомство для всех одинакова (точнее, зависит от только от внешних факторов).
Следствие: математическое ожидание числа потомков одной бактерии через достаточно большой промежуток времени равно 1.
Судьба нейтральной мутации
27
Предположим, что мутация нейтральна = никак не влияет на матожидание числа потомков (таких мутаций довольно много).
Мутация произошла и передаётся потомкам мутанта. Значит, в популяции появился новый полиморфизм. У данного варианта кода есть частота (сначала очень маленькая).
Судьба нейтральной мутации
28
Предположим, что мутация нейтральна = никак не влияет на матожидание числа потомков (таких мутаций довольно много).
Мутация произошла и передаётся потомкам мутанта. Значит, в популяции появился новый полиморфизм. У данного варианта генома есть частота (сначала очень маленькая).
Что произойдёт с частотой через пару суток?
Судьба нейтральной мутации
29
Предположим, что мутация нейтральна = никак не влияет на матожидание числа потомков (таких мутаций довольно много).
Мутация произошла и передаётся потомкам мутанта. Значит, в популяции появился новый полиморфизм. У данного варианта генома есть частота (сначала очень маленькая).
Что произойдёт с частотой через пару суток?
Ответ: частота либо немного возрастёт, либо немного упадёт. То и другое примерно равновероятно.
Случайное блуждание
30
Частота любого нейтрального полиморфизма постоянно колеблется случайным образом (это называется «генетический дрейф»).
Математическая модель такого процесса называется «случайное блуждание».
На тротуаре стоит пьяный и каждые 10 сек. делает шаг либо направо, либо налево, случайно выбирая направление. Как далеко он уйдёт за время T?
Ответ: в среднем на расстояние, пропорциональное корню квадратному из T.
Случайное блуждание с поглощением
31
По длинной дамбе идёт пьяный и с каждым шагом отклоняется либо на полметра вправо, либо на полметра влево. Как скоро он свалится с дамбы?
Ответ: скоро…
Когда частота генетического варианта достигает 100% или 0%, процесс её изменения прекращается.
За исторически короткое время любой нейтральный вариант либо исчезает из популяции, либо закрепляется в ней!
Закрепление мутаций как результат генетического дрейфа
32
Вероятность закрепиться для новой нейтральной мутации очень мала, но не 0.
Организмов в популяции много, мутаций в них происходит тоже много
(примерно 10−8 на п.н. на поколение – каждая сотая новорождённая бактерия несёт новую мутацию). Значительная доля мутаций нейтральна.
Итог: геномы независимых популяций начинают различаться, чем дальше, тем больше – в них независимо накапливаются нейтральные мутации.
А если мутация не нейтральна?
33
Каждому варианту генома можно сопоставить его «приспособленность» f = матожидание числа потомков организма с таким геномом (через какой-то фиксированный промежуток времени).
В подавляющем большинстве случаев новая мутация порождает либо нейтральный вариант �(f = 1) либо вредный (f < 1).
Вредный вариант тоже начинает «блуждать», но вероятность «шага вверх» оказывается меньше вероятности «шага вниз». Это очень сильно уменьшает вероятность закрепления – тем сильнее, чем меньше f, и тем сильнее, чем больше популяция.
Явление невозможности закрепления вредной мутации называется стабилизирующий отбор или же отрицательный отбор.
Положительный отбор
34
Если вдруг f > 1 , то вероятность закрепления мутации вырастает во много раз.
Процесс закрепления полезных мутаций называется положительным отбором.
Собственно, полезных мутаций так мало именно потому, что большинство возможных полезных мутаций уже закрепились.
Обычно полезные мутации начинают появляться в заметном количестве только при изменении условий жизни организмов – например при появлении нового источника пищи или новой опасности или попадании части популяции в другой климат…
Эволюция белков
35
Мутации возникают случайно.
Конкретная мутация может быть:
летальной;
вредной;
слабовредной;
нейтральной;
полезной.
Мутация порождает полиморфизм данного белка в популяции.
Доля каждого варианта подвержена случайным изменением (модель: «случайное блуждание с поглощением»).
За исторически короткое время один из вариантов (старый или новый) исчезает. В первом случае говорят, что мутация закрепилась.
Как правило, пространственная структура белка почти не меняется при эволюции его последовательности. В первом приближении верно утверждение: гомологичные белки имеют почти одинаковые 3D-структуры.
Множественное выравнивание белковых последовательностей
36
Мы видим только закрепившиеся мутации!
Гомология – общность происхождения
37
Выравнивание последовательностей касается всех студентов МГУ!
Положение об обеспечении самостоятельности выполнения письменных работ в МГУ имени М.В.Ломоносова на основе системы «Антиплагиат»
Самостоятельное выполнение письменных работ обучающимися в МГУ имени М.В.Ломоносова (далее – МГУ) является необходимым условием эффективности этих работ как элементов учебного процесса, развития у обучающихся навыков научной работы.
К обучающимся в Университете относятся студенты, аспиранты, докторанты, слушатели и соискатели (ст.ст. 123-128 Устава МГУ).
www.msu.ru/projects/antiplagiat/antiplagiat.doc
38
Для данных двух последовательностей существует много разных выравниваний
39
TGGAGTAACCAT-
TGGGATAACCTTG
TGGA--GTAACCAT--
TGGGATAA---CCTTG
TGGAGTAACCAT-------------
------------TGGGATAACCTTG
-TGGAGTAACCAT
TGGGATAACCTTG
Биоинформатическая задача: выбрать среди множества выравниваний правильное
Всего для двух последовательностей одинаковой длины n имеется около 2n разных выравниваний
Алгоритм выравнивания решает математическую задачу, а не биологическую
Математическая задача разбивается на две:
�
40
Три понимания «правильного» выравнивания
Оптимальное выравнивание: наилучшее по весу
Его ищут программы.
Оптимальное выравнивание существует для любого набора последовательностей, даже негомологичных!
Эволюционное выравнивание: запись, отражающая ход эволюции
Не поддается достоверной реконструкции в большинстве реальных случаев; может отличаться от оптимального выравнивания. �Алгоритм вычисления веса стараются выбрать так, чтобы можно было ожидать, что эволюционное выравнивание будет среди нескольких оптимальных.
Для негомологичных последовательностей эволюционного выравнивания не существует!
Функциональное выравнивание: сопоставление функционально идентичных частей белков или нуклеиновых кислот
Объясняет сохранение в эволюции одних частей белка и варьирование других. Поскольку функция и 3D-структура белка очень тесно связаны, функционально выровненные аминокислотные остатки должны иметь примерно одинаковое расположение в пространстве.
1
2
3
41
Вес парного выравнивания
42
За каждую колонку с совпадающими буквами прибавляем число A
За каждую колонку с разными буквами вычитаем число B
За каждую «чёрточку» (гэп) вычитаем число C
Простейший вариант
Вес парного выравнивания
43
За каждую колонку с совпадающими буквами прибавляем число A
За каждую колонку с разными буквами вычитаем число B
За каждую «чёрточку» (гэп) вычитаем число C
Простейший вариант
First TGGAGTAACCAT--TAGGAGCTAGCCG� |||..|||||.| ||||||..|||||
Second TGGGATAACCTTGATAGGAGTCAGCCG
Здесь 20 совпадений, 5 несовпадений, два гэпа, значит вес 20A – 5B – 2C
Например, при A =5, B = 4, C = 6 вес равен 68.
Проверьте, что ни у какого выравнивания этих последовательностей вес не будет бо́льшим. Это выравнивание является оптимальным при данных параметрах A, B, C.
Вес парного выравнивания – белки
44
Какое выравнивание имеет бóльшие шансы оказаться правильным?
AFTGAHAYL AFTGAHAYL
AYS---AYM AY---SAYM
Вес парного выравнивания – белки
45
Серин S
Треонин T
Гистидин H
Мутация серина в треонин закрепляется с гораздо большей вероятностью по сравнению с мутацией серина в гистидин.
Поэтому если в одной колонке выравнивания оказались буквы S и T, это скорее аргумент за данное выравнивание, чем против него. Значит, за такую колонку лучше увеличивать вес, чем уменьшать.
Матрица весов аминокислотных замен BLOSUM62
Из работы (Henikoff&Henikoff, 1992, PNAS)
Треугольная (симметричная)
матрица
46
# Matrix made by matblas from blosum62.iij
# * column uses minimum score
# BLOSUM Clustered Scoring Matrix in 1/2 Bit Units
# Blocks Database = /data/blocks_5.0/blocks.dat
# Cluster Percentage: >= 62
# Entropy = 0.6979, Expected = -0.5209
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
47
Матрица BLOSUM62
Вес парного выравнивания – белки
48
Посчитаем веса выравниваний, используя матрицу BLOSUM62
AFTGAHAYL AFTGAHAYL
AYS---AYM AY---SAYM
Обозначим значения матрицы на пересечении строки A и столбца B через M(A,B)
Тогда вес левого выравнивания равен: �M(A,A) + M(F,Y) + M(T,S) + M(A,A) +M(Y,Y) + M(L,M) – штраф за гэпы,�а правого:�M(A,A) + M(F,Y) + M(H,S) + M(A,A) +M(Y,Y) + M(L,M) – штраф за гэпы.
Штрафы за гэпы одинаковы, значит веса различаются слагаемым M(T,S) слева против M(H,S) справа. Но M(T,S) = 1, а M(H,S) = –1, поэтому вес левого выравнивания больше на 2.
Вес парного выравнивания:�аффинные штрафы за гэпы
49
First TGGAGTAACCAT--TTGGAGCTAGCCG
|||..|||||.| |.||||..|||||
Second TGGGATAACCTTTATAGGAGTCAGCCG
First TGGAGTAACCAT-TT-GGAGCTAGCCG
|||..|||||.| .| ||||..|||||
Second TGGGATAACCTTTATAGGAGTCAGCCG
Выравнивание 1
Выравнивание 2
Вес парного выравнивания:�аффинные штрафы за гэпы
50
First TGGAGTAACCAT--TTGGAGCTAGCCG
|||..|||||.| |.||||..|||||
Second TGGGATAACCTTTATAGGAGTCAGCCG
First TGGAGTAACCAT-TT-GGAGCTAGCCG
|||..|||||.| .| ||||..|||||
Second TGGGATAACCTTTATAGGAGTCAGCCG
Выравнивание 1
Выравнивание 2
Выравнивание 1 биологически более вероятно, чем выравнивание 2�(потому что одна делеция в две буквы случается чаще, чем две делеции в одну букву)
Чтобы выравнивание 1 имело больший вес, чем выравнивание 2, штрафы за гэпы делают зависимым от числа подряд идущих гэпов. Стандартный способ: за первый гэп вычитается «штраф за открытие», за каждый последующий — меньший «штраф за удлинение»
Терминология: гэпы и индели
51
Один знак "–", означающий отсутствие в данной последовательности одной буквы, гомологичной другим буквам данного столбца, мы будем называть «гэп»
Совокупность нескольких подряд идущих гэпов мы будем называть «индель», от инсерция/делеция.
First TGGAGTAACCAT--TTGGAGCTAGCCG
|||..|||||.| |.||||..|||||
Second TGGGATAACCTTTATAGGAGTCAGCCG
К сожалению, терминология не вполне устоялась. В литературе и описаниях программ вы можете встретить употребление термина «гэп» для обозначения инделя.
Тут два гэпа и один индель
Парное выравнивание: локальное и глобальное
52
Задача глобального выравнивания: найти выравнивание с наибольшим весом. При вычислении весов учитываются: матрица замен (BLOSUM62) и аффинные штрафы за гэпы.
Задача локального выравнивания: найти
– участок в первой последовательности;
– участок во второй последовательности;
– выравнивание выбранных участков;
так, чтобы вес выравнивания был наибольшим.
Разница в том, что теперь выбираем не только как выравнивать, но и что.
На самом деле это две формализации одной и той же задачи: даны последовательности двух белков, найти гомологичные аминокислотные остатки.
Для самостоятельного обдумывания
53
Форматы хранения выравниваний
54
Fasta-формат
>CHICK
MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQAGGDATENFEDVG
HSTDARALSETFIIGELH-PDDRPKLQK--PAETLITTVQSNSSSWSN---WVIP-AIAAIIVALMYRSYMS
E-
>HUMAN
---MAEQSDEAVK--YYTLEEIQKHNHSKSTWLILHHKVYDLTKFLEEHPGGEEVLREQAGGDATENFEDVG
HSTDAREMSKTFIIGELH-PDDRPKLNK--PPETLITTIDSSSSWWTN---WVIP-AISAVAVALMYRLYMA
ED
>CUSRE
------MGGSKV----YSLAEVSEHSQPNDCWLVIGGKVYDVTKFLDDHPGGADVLLSSTAKDATDDFEDIG
HSSSARAMMDEMCVGDID-SSTIPTKTSYTPPKQPLYNQDKTPQFIIKLLQFLVPLIILGVAVGIRFYKKQS
SD
Aln-формат (он же Clustal)
CHICK MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA
HUMAN ---MAEQSDEAVK--YYTLEEIQKHNHSKSTWLILHHKVYDLTKFLEEHPGGEEVLREQA
CUSRE ------MGGSKV----YSLAEVSEHSQPNDCWLVIGGKVYDVTKFLDDHPGGADVLLSST
CHICK GGDATENFEDVGHSTDARALSETFIIGELH-PDDRPKLQK--PAETLITTVQSNSSSWSN
HUMAN GGDATENFEDVGHSTDAREMSKTFIIGELH-PDDRPKLNK--PPETLITTIDSSSSWWTN
CUSRE AKDATDDFEDIGHSSSARAMMDEMCVGDID-SSTIPTKTSYTPPKQPLYNQDKTPQFIIK
CHICK ---WVIP-AIAAIIVALMYRSYMSE-
HUMAN ---WVIP-AISAVAVALMYRLYMAED
CUSRE LLQFLVPLIILGVAVGIRFYKKQSSD
Программы
55
Парное глобальное выравнивание:
в EMBOSS: needle, stretcher
Парное локальное выравнивание: � в EMBOSS: water, matcher� прочие: пакет BLAST (blastn для НК, blastp для белков)
Множественное выравнивание: � в EMBOSS: emma, edialign� прочие: Muscle, MAFFT, ClustalW, Pride, …
Редакторы выравниваний: Jalview, GeneDoc, …
Изменение формата в EMBOSS
56
Из fasta (или любого другого) в clustal:
seqret alignment.fasta clustal::alignment.aln
Из любого в fasta:
seqret alignment.aln fasta::alignment.fasta
Важно: формат задаётся префиксом вида «формат::», а не расширением имени файла! �Если вы напишете seqret one.fasta clustal::two.fasta, то в файле two.fasta окажется выравнивание в формате clustal, а не fasta (так делать не надо, чтобы не запутать себя)
Список форматов: http://emboss.open-bio.org/html/use/ch05s04.html
Программы needle, water, stretcher, matcher по умолчанию используют собственные (не переформатируемые) форматы. Заставить их выдать выравнивание в одном из стандартных форматов можно опцией� –aformat <название формата>, например –aformat fasta
Изменение формата через BioPython
57
Если у вас установлен BioPython:
from Bio import AlignIO
inh = open("input_file.fasta", "r")
outh = open("output_file.aln", "w")
alignment = AlignIO.parse(inh, "fasta")
AlignIO.write(alignment, outh, "clustal")
inh.close()
outh.close()
Список форматов см. https://biopython.org/wiki/AlignIO �Он включает форматы stockholm и phylip-relaxed,�которые не поддерживаются в EMBOSS
Jalview
58
Словарик
59
Alignment Выравнивание
Gap Гэп
Indel Индель
Gap penalty Штраф за гэпы
Gap opening penalty Штраф за открытие гэпа
Gap extension penalty Штраф за удлинение гэпа
Score Вес выравнивания
Scoring matrix Матрица замен аминокислот
Вопросы и ответы
Что такое гомология?
Ответ: общность происхождения
(НЕПРАВИЛЬНО говорить «последовательности гомологичны на 56%. Последовательности либо гомологичны, либо нет)
Как определить, гомологичны ли белки?
Ответ: в большинстве случаев единственный способ — выровнять их последовательности и посмотреть на процент совпадающих букв. Если он достаточно велик, то белки, вероятно, гомологичны. Если нет, то всякое может быть.
Если для обоих белков известны пространственные структуры, то есть гораздо более чувствительный способ: сравнить ход полипептидной цепи в пространстве.
Какой процент идентичности служит надёжным признаком гомологии?
Ответ: для белков обычно более 20–25% на достаточно длинном участке
(более точный ответ будет дан в следующих лекциях)
60