Выравнивание последовательностей
1
18 сентября 2024
Так выглядит выравнивание
Секвенирование миллиардов последовательностей делается главным образом ради выравниваний
2
Пример из интернета: выравнивание в жизни (спецслужб?)
Text1: The caller ident--ified the bomber
Text2: The caller ---n-am---ed the bomber
Text1: as ----------- Yussef Attala, 20,
Text2: as 20-year old Yussef Attala- ---
Text1: from the Balata refugee camp near
Text2: from the Balata refugee camp near
Text1: Nablus
Text2: Nablus
Проверка дипломов с помощью Антиплагиата
3
Бессмысленное выравнивание
В выравнивании есть содержательные колонки и �бессмысленные
4
При репликации ДНК большинство нуклеотидов потомка “знают” своего предка в геноме родителя
Иногда из-за ошибок репликации ДНК (или после деления клетки) в ДНК новой клетки появляются небольшие локальные изменения по сравнению с ДНК родительской клетки. �
При замене нуклеотида на другой можно указать какой именно нуклеотид родителя изменился!
Гомологичные нуклеотиды двух потомков – те, которые произошли от того же самого нуклеотида общего предка
Гомология нуклеотидов ДНК
ЛОКАЛЬНУЮ ЭВОЛЮЦИЮ ПОСЛЕДОВАТЕЛЬНОСТИ �МОЖНО ОТОБРАЗИТЬ ВЫРАВНИВАНИЕМ
Гомологичные нуклеотиды разных последовательностей располагают в одной колонке выравнивания
5
Правильное выравнивание последовательностей ДНК живущих сегодня организмов
1. TAT--GCGAAT-GCCCTGAA
2. TAT--GCAAAT-GCCCTGAA замена
3. TAT--GCAAAT-GCTCTGAA замена
4. TAT--GCAAATCGCTCGGAA вставка и замена
5. TAT--GCAAAGCGCTCGGAA замена
6. TAT--GCAAA-CGCTCGGAA делеция
…. ……………………………………………………
a. TAT--GCATA-CGC---GAA дел. 3, зам.1.
b. TATATGCAAAGCGCTCGGAA вставка 2 п.н.
c. TAT--GCAAA--GCGCTGAA дел. 1, зам. 2
Гомологичные нуклеотиды ставим друг под другом
ПРЕДОК
сын
внук
правнук
праправнук-1
праправнук-2
………
живет сейчас
живет сейчас
живет сейчас
6
Задача построения правильного выравнивания сложна и неоднозначно решается
7
a. TAT--GCATA-CGC---GAA
b. TATATGCAAAGCGCTCGGAA
c. TAT--GCAAA--GCGCTGAA
Вот правильное выравнивание с пред. слайда
Программа выравнивания ориентируется на сходство.�Сдвиг даст больше совпадений b. и c.
ПРОГРАММЫ ВЫРАВНИВАНИЯ МОГУТ ОШИБАТЬСЯ!
Эволюция последовательности белка – следствие эволюции кодирующей последовательности
Последовательности большинства белков находится под стабилизирующим отбором – против изменений
8
Выравнивание белков
9
Можно ли проверить правильность выравнивания?
10
Белки: совмещение структур и выравнивание последовательностей
11
ПРОГРАММЫ ВЫРАВНИВАНИЯ
Все программы ищут сходство, �а сходство — не то же, что гомология!
12
Что нужно знать об алгоритме выравнивания двух последовательностей?
Программа успешно выровняет любые две последовательности, даже не гомологичные!
13
Упражнение: вычислите вес выравнивания
gap open –6
gap extension –2
| A | R | N | D | C | Q | E | G | H | I | … |
A | 4 | -1 | -2 | -2 | 0 | -1 | -1 | 0 | -2 | -1 | -1 |
R | -1 | 5 | 0 | -2 | -3 | 1 | 0 | -2 | 0 | -3 | -2 |
N | -2 | 0 | 6 | 1 | -3 | 0 | 0 | 0 | 1 | -3 | -3 |
D | -2 | -2 | 1 | 6 | -3 | 0 | 2 | -1 | -1 | -3 | -4 |
C | 0 | -3 | -3 | -3 | 9 | -3 | -4 | -3 | -3 | -1 | -1 |
Q | -1 | 1 | 0 | 0 | -3 | 5 | 2 | -2 | 0 | -3 | -2 |
E | -1 | 0 | 0 | 2 | -4 | 2 | 5 | -2 | 0 | -3 | -3 |
G | 0 | -2 | 0 | -1 | -3 | -2 | -2 | 6 | -2 | -4 | -4 |
H | -2 | 0 | 1 | -1 | -3 | 0 | 0 | -2 | 8 | -3 | -3 |
I | -1 | -3 | -3 | -3 | -1 | -3 | -3 | -4 | -3 | 4 | 2 |
… | -1 | -2 | -3 | -4 | -1 | -2 | -3 | -4 | -3 | 2 | 4 |
Штраф за продолжение
маленький, т.к. делеция
нескольких кодонов
может произойти как
одно событие
14
Матрица BLOSUM62
15
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
Парное выравнивание
16
Выравнивание последовательностей
Название последовательности
Номер столбца выравнивания
Номер последнего в строке остатка ИЗ ЭТОЙ ПОСЛЕДОВАТЕЛЬНОСТИ
Консервативный остаток
Функционально консервативная позиция
17
Множественное выравнивание
18
Примеры выравниваний
РНК-зависимые РНК полимеразы пикорнавирусов
Фрагменты геномов двух видов бруцелл
19
Пример: выравнивание POU-белков. Блоки достоверного выравнивания. Домены.
20
Продолжение
Биологически осмысленное выравнивание может быть в одной части
выданного программой выравнивания и не быть в другой!
21
Множественное выравнивание
22
ГЛОБАЛЬНЫЕ ПЕРЕСТРОЙКИ ГЕНОМОВ
Кроме точечных изменений редко, но происходят крупные перестройки ДНК (или РНК – для РНК вирусов)
23
André de Carvalho - ICMC/USP
Крупные перестройки ДНК
Инверсия Дупликация Делеция
CCAAAAAGT
GAC
ACTTTTTGG
TATATA
CATGT
AAATAAT
CG
AACCCCCG
GAC
GGG
AAATAAT
AACCCCG
CATGT
GGG
TATATA
CATGT
Транслокация
Участки могут состоять из сотен, тысяч и миллионов пар нуклеотидов
Карта локального сходства позволяет
описывать крупные перестройки геномов
последовательность 1
последовательность 2
25
26
Карта сходства двух последовательностей
C | | | | | * | | | | * |
C | | | | | * | | | | * |
T | | * | * | | | | | * | |
A | * | | | | | | * | | |
G | | | | * | | * | | | |
C | | | | | * | | | | * |
T | | * | * | | | | | * | |
T | | * | * | | | | | * | |
A | * | | | | | | * | | |
| A | T | T | G | C | G | A | T | C |
27
Карта сходства двух последовательностей �с учетом комплементарной цепочки
G | C | | | | + | | + | | | |
T | A | . | + | + | | | | . | + | |
G | C | | | | + | . | + | | | . |
C | G | | | | . | + | . | | | + |
G | C | | | | + | . | + | | | . |
A | T | + | . | . | | | | + | . | |
T | A | . | + | + | | | | . | + | |
C | G | | | | . | + | . | | | + |
T | A | . | + | + | | | | . | + | |
| | A | T | T | G | C | G | A | T | C |
28
Крупные эволюционные события на карте локального сходства. �На примере двух бактериальных хромосом
A
B
C
Bc
C
A
B
A
A
B
С
Делеция
Инверсия
B
A
x
|
Карта локального сходства геномов� M.capricolum и M.mycoides
30
Mycoplasma mycoides
Mycoplasma capricolum
Pfam –одна из популярных БД семейств доменов белков и их выравниваний
31
Примеры доменных архитектур с гомеодоменом �(зеленый)
2005 белков
5068 белков
2370 белков
32
Крупные перестройки встречаются и в последовательностях белков
Молекулярная филогения
33
Филогенетическое дерево видов
34
Филогенетическое дерево последовательностей энолаз из фирмикут
35
Описание структуры дерева (терминология)
популяции) на две независимо эволюционирующие. Соответствует
внутренней вершине графа, изображающего эволюцию.
общего предка и всех потомков этого предка.
Корень
Клада
Лист
Ветвь
Узел
36
37
Входные данные для построения филогенетического дерева – выравнивание последовательностей
Схема алгоримов построения деревьев
Выравнивание
Матрица расстояний между последовательностями
Дерево
символьно-ориентированные методы
Neighbor-Joining, Fitch, FastME
38
Матрица расстояний
| MUSDO | CHICK | BOVIN | HUMAN |
MUSDO | 0 | 9.5 | 8.9 | 9.2 |
CHICK | 9.5 | 0 | 3.4 | 2.8 |
BOVIN | 8.9 | 3.4 | 0 | 1.7 |
HUMAN | 9.2 | 2.8 | 1.7 | 0 |
39
Матрица расстояний
40
6
ENO_CLOTE/ 0.000000 0.422314 0.412416 0.703889 0.374250 0.356587
ENO_FINM2/ 0.422314 0.000000 0.397118 0.748527 0.345432 0.328530
ENO_ENTFA/ 0.412416 0.397118 0.000000 0.756866 0.240851 0.271009
ENO_LACAC/ 0.703889 0.748527 0.756866 0.000000 0.732893 0.710658
ENO_LISMO/ 0.374250 0.345432 0.240851 0.732893 0.000000 0.212414
ENO_BACSU/ 0.356587 0.328530 0.271009 0.710658 0.212414 0.000000
Расстояние между листьями на дереве
41
Задача алгоритма – построить такое дерево, чтобы расстояния между листьями на дереве было примерно таким же, как в матрице расстояний
Когда хотят отразить разное число мутаций, произошедших на пути от общего предка, получается что-то вроде такого.
Human
Chicken
Mouse
Human
Mouse
Chicken
«Молекулярные часы»: всегда идут, но иногда неточно
42
Небинарное дерево
Human
Chicken
Mouse
Human
Mouse
Chicken
Dog
Dog
43
Неукоренённое дерево
Human
Mouse
Dog
Cat
Rat
Monkey
44
Может быть укоренено многими способами
45
Если вы видите что-то такое, то это не значит, что A отделился первым, но почти не эволюционировал!
Скорее всего, это неукоренённое дерево, которое пользователь должен укоренить сам.
Скобочная формула
Newick Standard:
((((VICFA:3, BRANA:3):3, MARPO:6):2, PROWI:8):7, ((MOUSE:3, HUMAN:3):3, CAEEL:6):9);
«The reason for the name is that the second and final session of the committee met at Newick's restaurant in Dover, and we enjoyed the meal of lobsters.»
Joseph Felsenstein, http://evolution.genetics.washington.edu/phylip/newicktree.html
46
Топология дерева
=
47
Можно ли проверить достоверность дерева? �Бутстрэп-анализ�(пример результата)
48
Эволюция видов и эволюция белков
Когда виды разделяются, то разделяются пути эволюции всех их белков…
В результате большинству белков одного вида соответствует ортолог в другом виде.
Но:
49
Ортологи и паралоги. Пример.
50
Программы
Веб-интерфейс к нескольким программам:�https://ngphylogeny.fr/
Сервис iTOL https://itol.embl.de/ можно использовать для изображения деревьев
51