1 of 51

Выравнивание последовательностей

1

18 сентября 2024

2 of 51

Так выглядит выравнивание

Секвенирование миллиардов последовательностей делается главным образом ради выравниваний

2

3 of 51

Пример из интернета: выравнивание в жизни (спецслужб?)

Text1: The caller ident--ified the bomber

Text2: The caller ---n-am---ed the bomber

Text1: as ----------- Yussef Attala, 20,

Text2: as 20-year old Yussef Attala- ---

Text1: from the Balata refugee camp near

Text2: from the Balata refugee camp near

Text1: Nablus

Text2: Nablus

Проверка дипломов с помощью Антиплагиата

3

Бессмысленное выравнивание

В выравнивании есть содержательные колонки и бессмысленные

4 of 51

4

При репликации ДНК большинство нуклеотидов потомка “знают” своего предка в геноме родителя

Иногда из-за ошибок репликации ДНК (или после деления клетки) в ДНК новой клетки появляются небольшие локальные изменения по сравнению с ДНК родительской клетки.

При замене нуклеотида на другой можно указать какой именно нуклеотид родителя изменился!

Гомологичные нуклеотиды двух потомков – те, которые произошли от того же самого нуклеотида общего предка

Гомология нуклеотидов ДНК

5 of 51

ЛОКАЛЬНУЮ ЭВОЛЮЦИЮ ПОСЛЕДОВАТЕЛЬНОСТИ МОЖНО ОТОБРАЗИТЬ ВЫРАВНИВАНИЕМ

Гомологичные нуклеотиды разных последовательностей располагают в одной колонке выравнивания

5

6 of 51

Правильное выравнивание последовательностей ДНК живущих сегодня организмов

1. TAT--GCGAAT-GCCCTGAA

2. TAT--GCAAAT-GCCCTGAA замена

3. TAT--GCAAAT-GCTCTGAA замена

4. TAT--GCAAATCGCTCGGAA вставка и замена

5. TAT--GCAAAGCGCTCGGAA замена

6. TAT--GCAAA-CGCTCGGAA делеция

…. ……………………………………………………

a. TAT--GCATA-CGC---GAA дел. 3, зам.1.

b. TATATGCAAAGCGCTCGGAA вставка 2 п.н.

c. TAT--GCAAA--GCGCTGAA дел. 1, зам. 2

Гомологичные нуклеотиды ставим друг под другом

ПРЕДОК

сын

внук

правнук

праправнук-1

праправнук-2

………

живет сейчас

живет сейчас

живет сейчас

6

7 of 51

Задача построения правильного выравнивания сложна и неоднозначно решается

7

a. TAT--GCATA-CGC---GAA

b. TATATGCAAAGCGCTCGGAA

c. TAT--GCAAA--GCGCTGAA

Вот правильное выравнивание с пред. слайда

Программа выравнивания ориентируется на сходство.Сдвиг даст больше совпадений b. и c.

ПРОГРАММЫ ВЫРАВНИВАНИЯ МОГУТ ОШИБАТЬСЯ!

8 of 51

Эволюция последовательности белка – следствие эволюции кодирующей последовательности

Последовательности большинства белков находится под стабилизирующим отбором – против изменений

8

9 of 51

Выравнивание белков

  • Теория: аминокислотные остатки белков гомологичны, если их кодоны гомологичны. В выравнивании гомологичные остатки располагают друг под другом
  • Практика: гомологичность белков, участков и отдельных остатков выводят из выравнивания, построенного программой на основе сходства букв
  • Выравнивать последовательности генов или белков? БЕЛКОВ:
    • в нуклеотидном выравнивании программа может нарушить кодонную структуру
    • в нуклеотидном выравнивании больше мутаций, чем в белковом, из-за синонимичных замен
    • белковое выравнивание учитывает сходство свойств аминокислот

9

10 of 51

Можно ли проверить правильность выравнивания?

  • Программа может построить неправильное выравнивание. Есть ли способы независимой проверки?
  • ДНК: нет способов (не считая генноинженерного мутагенеза в лаборатории)
  • Белки: можно! – если известна 3D структура белка.
    • Если при совмещении полипептидных цепей хорошо совмещаются Cα атомы, то такие остатки можно считать гомологичными
    • Ограничение: Структуры известны для 80 000 белков, а последовательности – для 250 000 000
    • Есть базы эталонных выравниваний, построенных по совмещению структур (Balibase и др.). Их используют для сравнения программ выравнивания
  • РНК: частично да. Тоже можно учитывать 3D структуру

10

11 of 51

Белки: совмещение структур и выравнивание последовательностей

11

12 of 51

ПРОГРАММЫ ВЫРАВНИВАНИЯ

Все программы ищут сходство, �а сходство — не то же, что гомология!

12

13 of 51

Что нужно знать об алгоритме выравнивания двух последовательностей?

  • Матрица весов замен
  • Штраф за открытие “гэпа”
  • Штраф за продолжение “гэпа”
  • Вес выравнивания
  • Оптимальное выравнивание – выравнивание с максимальным весом

Программа успешно выровняет любые две последовательности, даже не гомологичные!

13

14 of 51

Упражнение: вычислите вес выравнивания

gap open –6

gap extension –2

A

R

N

D

C

Q

E

G

H

I

A

4

-1

-2

-2

0

-1

-1

0

-2

-1

-1

R

-1

5

0

-2

-3

1

0

-2

0

-3

-2

N

-2

0

6

1

-3

0

0

0

1

-3

-3

D

-2

-2

1

6

-3

0

2

-1

-1

-3

-4

C

0

-3

-3

-3

9

-3

-4

-3

-3

-1

-1

Q

-1

1

0

0

-3

5

2

-2

0

-3

-2

E

-1

0

0

2

-4

2

5

-2

0

-3

-3

G

0

-2

0

-1

-3

-2

-2

6

-2

-4

-4

H

-2

0

1

-1

-3

0

0

-2

8

-3

-3

I

-1

-3

-3

-3

-1

-3

-3

-4

-3

4

2

-1

-2

-3

-4

-1

-2

-3

-4

-3

2

4

Штраф за продолжение

маленький, т.к. делеция

нескольких кодонов

может произойти как

одно событие

14

15 of 51

Матрица BLOSUM62

15

A R N D C Q E G H I L K M F P S T W Y V B Z X *

A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4

R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4

N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4

D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4

C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4

Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4

E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4

H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4

I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4

K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4

M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4

F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4

P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4

S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4

T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4

W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4

Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4

V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4

B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4

Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4

* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

16 of 51

Парное выравнивание

  • Локальное (алгоритм Smith – Waterman) – находит наиболее сходные участки двух последовательностей.
  • Глобальное (Needleman – Wunsch) – по всей длине последовательностей: пригодно только для последовательностей, гомологичных по всей длине!

16

17 of 51

Выравнивание последовательностей

Название последовательности

Номер столбца выравнивания

Номер последнего в строке остатка ИЗ ЭТОЙ ПОСЛЕДОВАТЕЛЬНОСТИ

Консервативный остаток

Функционально консервативная позиция

17

18 of 51

Множественное выравнивание

  • Как правило, глобальное; программы
    • Muscle
    • MAFFT
    • Clustal Omega
    • T-coffee
    • ….
  • Локальное – находит лучшие т.н. “мотивы” – короткие похожие участки
    • MEME
    • ….

18

19 of 51

Примеры выравниваний

РНК-зависимые РНК полимеразы пикорнавирусов

Фрагменты геномов двух видов бруцелл

19

20 of 51

Пример: выравнивание POU-белков. Блоки достоверного выравнивания. Домены.

20

21 of 51

Продолжение

Биологически осмысленное выравнивание может быть в одной части

выданного программой выравнивания и не быть в другой!

21

22 of 51

Множественное выравнивание

  • Программа JalView https://www.jalview.org/ позволяет визуализировать выравнивание. Она же может послать ваши последовательности на один из серверов, делающих выравнивания.

22

23 of 51

ГЛОБАЛЬНЫЕ ПЕРЕСТРОЙКИ ГЕНОМОВ

Кроме точечных изменений редко, но происходят крупные перестройки ДНК (или РНК – для РНК вирусов)

23

24 of 51

André de Carvalho - ICMC/USP

Крупные перестройки ДНК

Инверсия Дупликация Делеция

CCAAAAAGT

GAC

ACTTTTTGG

TATATA

CATGT

AAATAAT

CG

AACCCCCG

GAC

GGG

AAATAAT

AACCCCG

CATGT

GGG

TATATA

CATGT

Транслокация

Участки могут состоять из сотен, тысяч и миллионов пар нуклеотидов

25 of 51

Карта локального сходства позволяет

описывать крупные перестройки геномов

последовательность 1

последовательность 2

25

26 of 51

26

27 of 51

Карта сходства двух последовательностей

C

*

*

C

*

*

T

*

*

*

A

*

*

G

*

*

C

*

*

T

*

*

*

T

*

*

*

A

*

*

A

T

T

G

C

G

A

T

C

27

28 of 51

Карта сходства двух последовательностей с учетом комплементарной цепочки

G

C

+

+

T

A

.

+

+

.

+

G

C

+

.

+

.

C

G

.

+

.

+

G

C

+

.

+

.

A

T

+

.

.

+

.

T

A

.

+

+

.

+

C

G

.

+

.

+

T

A

.

+

+

.

+

A

T

T

G

C

G

A

T

C

28

29 of 51

Крупные эволюционные события на карте локального сходства. �На примере двух бактериальных хромосом

A

B

C

Bc

C

A

B

A

A

B

С

Делеция

Инверсия

B

A

x

|

30 of 51

Карта локального сходства геномов M.capricolum и M.mycoides

30

Mycoplasma mycoides

Mycoplasma capricolum

31 of 51

Pfam –одна из популярных БД семейств доменов белков и их выравниваний

31

32 of 51

Примеры доменных архитектур с гомеодоменом (зеленый)

2005 белков

5068 белков

2370 белков

32

Крупные перестройки встречаются и в последовательностях белков

33 of 51

Молекулярная филогения

33

34 of 51

Филогенетическое дерево видов

34

35 of 51

Филогенетическое дерево последовательностей  энолаз из фирмикут

35

36 of 51

Описание структуры дерева (терминология)

  • Узел (node) — точка разделения предковой последовательности (вида,

популяции) на две независимо эволюционирующие. Соответствует

внутренней вершине графа, изображающего эволюцию.

  • Лист (leaf) — реальный (современный) объект; внешняя вершина графа.
  • Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.
  • Корень (root) — гипотетический общий предок.
  • Кла́да — группа организмов, которые являются потомками единственного

общего предка и всех потомков этого предка.

Корень

Клада

Лист

Ветвь

Узел

36

37 of 51

37

Входные данные для построения филогенетического дерева – выравнивание последовательностей

38 of 51

Схема алгоримов построения деревьев

Выравнивание

Матрица расстояний между последовательностями

Дерево

символьно-ориентированные методы

Neighbor-Joining, Fitch, FastME

38

39 of 51

Матрица расстояний

MUSDO

CHICK

BOVIN

HUMAN

MUSDO

0

9.5

8.9

9.2

CHICK

9.5

0

3.4

2.8

BOVIN

8.9

3.4

0

1.7

HUMAN

9.2

2.8

1.7

0

39

40 of 51

Матрица расстояний

40

6

ENO_CLOTE/ 0.000000 0.422314 0.412416 0.703889 0.374250 0.356587

ENO_FINM2/ 0.422314 0.000000 0.397118 0.748527 0.345432 0.328530

ENO_ENTFA/ 0.412416 0.397118 0.000000 0.756866 0.240851 0.271009

ENO_LACAC/ 0.703889 0.748527 0.756866 0.000000 0.732893 0.710658

ENO_LISMO/ 0.374250 0.345432 0.240851 0.732893 0.000000 0.212414

ENO_BACSU/ 0.356587 0.328530 0.271009 0.710658 0.212414 0.000000

41 of 51

Расстояние между листьями на дереве

41

Задача алгоритма – построить такое дерево, чтобы расстояния между листьями на дереве было примерно таким же, как в матрице расстояний

42 of 51

Когда хотят отразить разное число мутаций, произошедших на пути от общего предка, получается что-то вроде такого.

Human

Chicken

Mouse

Human

Mouse

Chicken

«Молекулярные часы»: всегда идут, но иногда неточно

42

43 of 51

Небинарное дерево

Human

Chicken

Mouse

Human

Mouse

Chicken

Dog

Dog

43

44 of 51

Неукоренённое дерево

Human

Mouse

Dog

Cat

Rat

Monkey

44

45 of 51

Может быть укоренено многими способами

45

Если вы видите что-то такое, то это не значит, что A отделился первым, но почти не эволюционировал!

Скорее всего, это неукоренённое дерево, которое пользователь должен укоренить сам.

46 of 51

Скобочная формула

Newick Standard:

((((VICFA:3, BRANA:3):3, MARPO:6):2, PROWI:8):7, ((MOUSE:3, HUMAN:3):3, CAEEL:6):9);

«The reason for the name is that the second and final session of the committee met at Newick's restaurant in Dover, and we enjoyed the meal of lobsters.»

Joseph Felsenstein, http://evolution.genetics.washington.edu/phylip/newicktree.html

46

47 of 51

Топология дерева

=

47

48 of 51

Можно ли проверить достоверность дерева? Бутстрэп-анализ(пример результата)

48

49 of 51

Эволюция видов и эволюция белков

Когда виды разделяются, то разделяются пути эволюции всех их белков…

В результате большинству белков одного вида соответствует ортолог в другом виде.

Но:

  1. Бывают дупликации белков без разделения видов: два родственных белка существуют в одном геноме и эволюционируют (почти) независимо – такие белки называются паралогами.
  2. Бывают потери генов. Если в двух видах потерялись по одному белку из пары паралогов, то может получиться, что общий предок белков, которые выглядят как ортологи, «жил» существенно раньше, чем общий предок видов.
  3. Бывает, что два белка объединяются в один многодоменный, и наоборот.Поэтому правильнее говорить об эволюции белковых доменов.

49

50 of 51

Ортологи и паралоги. Пример.

50

51 of 51

Программы

Веб-интерфейс к нескольким программам:https://ngphylogeny.fr/

Сервис iTOL https://itol.embl.de/ можно использовать для изображения деревьев

51