1 of 60

Мутации и выравнивание

С.А. Спирин

9 апреля 2024

1

2 of 60

План

  1. Введение: гомологичные белки
  2. Источники гомологичных белков
    • Мутации:
      • Ошибки репликации.
      • Повреждения ДНК и их репарация.
    • Закрепление мутаций

2. Выравнивание:

  • последовательностей потомков относительно предка;
  • двух потомков одного предка.

3. Формализация: вес выравнивания

4. Программы парного выравнивания в EMBOSS

5. Редактор выравниваний Jalview

2

3 of 60

Последовательности миоглобинов человека, мыши и быка

>MYG_HUMAN

MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE

DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH

PGDFGADAQGAMNKALELFRKDMASNYKELGFQG

>MYG_MOUSE

MGLSDGEWQLVLNVWGKVEADLAGHGQEVLIGLFKTHPETLDKFDKFKNLKSEEDMKGSE

DLKKHGCTVLTALGTILKKKGQHAAEIQPLAQSHATKHKIPVKYLEFISEIIIEVLKKRH

SGDFGADAQGAMSKALELFRNDIAAKYKELGFQG

>MYG_BOVIN

MGLSDGEWQLVLNAWGKVEADVAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE

DLKKHGNTVLTALGGILKKKGHHEAEVKHLAESHANKHKIPVKYLEFISDAIIHVLHAKH

PSDFGADAQAAMSKALELFRNDMAAQYKVLGFHG

3

4 of 60

Напишем последовательности друг под другом, чтобы было видно сходство:

MYG_HUMAN MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60

MYG_MOUSE MGLSDGEWQLVLNVWGKVEADLAGHGQEVLIGLFKTHPETLDKFDKFKNLKSEEDMKGSE 60

MYG_BOVIN MGLSDGEWQLVLNAWGKVEADVAGHGQEVLIRLFTGHPETLEKFDKFKHLKTEAEMKASE 60

*************.*******: ******** **. *****:******:**:* :**.**

MYG_HUMAN DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH 120

MYG_MOUSE DLKKHGCTVLTALGTILKKKGQHAAEIQPLAQSHATKHKIPVKYLEFISEIIIEVLKKRH 120

MYG_BOVIN DLKKHGNTVLTALGGILKKKGHHEAEVKHLAESHANKHKIPVKYLEFISDAIIHVLHAKH 120

****** ******* ******:* **:: **:***.*************: **.**: :*

MYG_HUMAN PGDFGADAQGAMNKALELFRKDMASNYKELGFQG 154

MYG_MOUSE SGDFGADAQGAMSKALELFRNDIAAKYKELGFQG 154

MYG_BOVIN PSDFGADAQAAMSKALELFRNDMAAQYKVLGFHG 154

.*******.**.*******:*:*::** ***:*

Видно, что большинство букв совпадает, но некоторые различаются.

Это последовательности гомологичных белков, что означает, что эти белки произошли от общего предка. За время, прошедшее от существования общего предка, некоторые буквы менялись, но большинство остались неизменными.

4

5 of 60

Последовательности миоглобинов человека и рыбы

>MYG_HUMAN

MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE

DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH

PGDFGADAQGAMNKALELFRKDMASNYKELGFQG

>MYG_DANRE

MADHDLVLKCWGAVEADYAANGGEVLNRLFKEYPDTLKLFPKFSGISQGDLAGSPAVAAH

GATVLKKLGELLKAKGDHAALLKPLANTHANIHKVALNNFRLITEVLVKVMAEKAGLDAA

GQGALRRVMDAVIGDIDGYYKEIGFAG

Разная длина, как сравнивать?

5

6 of 60

Последовательности миоглобинов человека и рыбы

>MYG_HUMAN

MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE

DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH

PGDFGADAQGAMNKALELFRKDMASNYKELGFQG

>MYG_DANRE

MADHDLVLKCWGAVEADYAANGGEVLNRLFKEYPDTLKLFPKFSGISQGDLAGSPAVAAH

GATVLKKLGELLKAKGDHAALLKPLANTHANIHKVALNNFRLITEVLVKVMAEKAGLDAA

GQGALRRVMDAVIGDIDGYYKEIGFAG

6

Разная длина, как сравнивать?

Ответ: выравнивание

MYG_HUMAN MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60

MYG_DANRE ----MADHDLVLKCWGAVEADYAANGGEVLNRLFKEYPDTLKLFPKFSGISQG-DLAGSP 55

.: :***: ** **** .:* *** **** :*:**: * **. :.. :: .*

MYG_HUMAN DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH 120

MYG_DANRE AVAAHGATVLKKLGELLKAKGDHAALLKPLANTHANIHKVALNNFRLITEVLVKVMAEKA 115

: ******. ** :** **.* * :****::**. **: :: :.:*:* :::*: .*

MYG_HUMAN PGDFGADAQGAMNKALELFRKDMASNYKELGFQG 154

MYG_DANRE --GLDAAGQGALRRVMDAVIGDIDGYYKEIGFAG 147

.:.* .***:.:.:: . *: . ***:** *

7 of 60

Источники разнообразия геномов

  • Регулярное переписывание информации как способ сохранения имеет определенные преимущества. Рукопись «Слова о полку Игореве» сгорела, но информация сохранилась.
  • При переписывании бывают ошибки – мутации.
  • ДНК любого ныне живущего организма получилась переписыванием ДНК организма, жившего примерно 3,5 млрд лет тому назад. Этот организм называют LUCA (Last Universal Common Ancestor). При переписывании случались и добавления, при этом источники «новой» ДНК довольно загадочны.
  • Текст ДНК, конечно, изменился до неузнаваемости.Но родство (гомологичность) последовательностей некоторых белков во всех современных организмах устанавливается достаточно надежно

7

1. Ошибки репликации ДНК

8 of 60

Источники разнообразия геномов

  • Имеется много источников повреждений ДНК
    • ультрафиолетовое излучение
    • различные химические вещества, содержащиеся в пище, воздухе, табачном дыме…
    • некоторые ферменты самого организма
  • Повреждения ДНК контролируются клеткой и репарируютсяУвы, не всегда правильно. Одно из следствий – онкологические заболевания.

8

2. Повреждения ДНК и их репарация

9 of 60

Гомологичные последовательности

9

>First

CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCGGTGGAGTAACCATTTGGAGCTAGCCGTCGAAGGTGGG

>Second

CGTTCCCGGGCCTTGTACACACCGCCCGTCACACCATGGAAGTCTGCAATGCCCAAAGTCGGTGGGATAACCTTTATAGGAGTCAGCCGCCTAAGGCAGG

10 of 60

Выравнивание (демонстрирует сходство)

10

>First

CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCGGTGGAGTAACCATTTGGAGCTAGCCGTCGAAGGTGGG

>Second

CGTTCCCGGGCCTTGTACACACCGCCCGTCACACCATGGAAGTCTGCAATGCCCAAAGTCGGTGGGATAACCTTTATAGGAGTCAGCCGCCTAAGGCAGG

First 1 CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAAC 50

||||||||||.|||||||||||||||||||||||||.|..|||.||.||.

Second 1 CGTTCCCGGGCCTTGTACACACCGCCCGTCACACCATGGAAGTCTGCAAT 50

First 51 ACCCGAAGCCGGTGGAGTAACCAT--TTGGAGCTAGCCGTCGAAGGTGGG 98

.|||.|||.||||||..|||||.| |.||||..|||||.|.||||..||

Second 51 GCCCAAAGTCGGTGGGATAACCTTTATAGGAGTCAGCCGCCTAAGGCAGG 100

11 of 60

Негомологичные последовательности

11

>First

CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCGGTGGAGTAACCATTTGGAGCTAGCCGTCGAAGGTGGG

>Third

CCTGCCTTAGGCGGCTGACTCCTATAAAGGTTATCCCACCGACTTTGGGCATTGCAGACTTCCATGGTGTGACGGGCGGTGTGTACAAGGCCCGGGAACG

12 of 60

Выравнивание (бессмысленное)

12

>First

CGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCGGTGGAGTAACCATTTGGAGCTAGCCGTCGAAGGTGGG

>Third

CCTGCCTTAGGCGGCTGACTCCTATAAAGGTTATCCCACCGACTTTGGGCATTGCAGACTTCCATGGTGTGACGGGCGGTGTGTACAAGGCCCGGGAACG

First 1 ---------------------------------------CGTTCCCGGGT 11

||.....|||.

Third 1 CCTGCCTTAGGCGGCTGACTCCTATAAAGGTTATCCCACCGACTTTGGGC 50

First 12 CTTGTACACACCGCCCGTCACACCACGAGAGTTTGTAACACCCGAAGCCG 61

.|||.|.||..|....||...||.....|.||.|..||..||||....||

Third 51 ATTGCAGACTTCCATGGTGTGACGGGCGGTGTGTACAAGGCCCGGGAACG 100

13 of 60

  1. TATGCGAATGCCCTGAA
  2. TATGCAAATGCCCTGAA замена

Гомологичные нуклеотиды ставим друг под другом

ПРЕДОК

сын

13

Выравнивание последовательностей потомков относительно предка

14 of 60

  1. TATGCGAAT-GCCCTGAA
  2. TATGCAAAT-GCCCTGAA замена
  3. TATGCAAAT-GCTCTGAA замена
  4. TATGCAAATCGCTCGGAA вставка 1 п.н.

Гомологичные нуклеотиды ставим друг под другом

ПРЕДОК

сын

внук

правнук

14

Выравнивание последовательностей потомков относительно предка

15 of 60

  1. TATGCGAAT-GCCCTGAA
  2. TATGCAAAT-GCCCTGAA замена
  3. TATGCAAAT-GCTCTGAA замена
  4. TATGCAAATCGCTCGGAA вставка 1 п.н.
  5. TATGCAAAACGCTCGGAA замена
  6. TATGCAAA-CGCTCGGAA делеция 1п.н.

Гомологичные нуклеотиды ставим друг под другом

ПРЕДОК

сын

внук

правнук

праправнук

прапраправнук

15

Выравнивание последовательностей потомков относительно предка

16 of 60

  1. TAT--GCGAAT-GCCCTGAA
  2. TAT--GCAAAT-GCCCTGAA замена
  3. TAT--GCAAAT-GCTCTGAA замена
  4. TAT--GCAAATCGCTCGGAA вставка 1 п.н.
  5. TAT--GCAAAACGCTCGGAA замена
  6. TAT--GCAAA-CGCTCGGAA делеция 1п.н.
  7. TAT--GCATA-CGCTCGGAA замена
  8. TAT--GCATA-CGC---GAA делеция 3 п.н.
  9. TATATGCATA-CGC---GAA вставка 2 п.н.

Гомологичные нуклеотиды ставим друг под другом

ПРЕДОК

сын

внук

правнук

праправнук

прапраправнук

………

……..

……..

16

Выравнивание последовательностей потомков относительно предка

17 of 60

Выравнивание последовательностей потомков относительно предка

  1. TAT--GCGAAT-GCCCTGAA
  2. TAT--GCAAAT-GCCCTGAA замена
  3. TAT--GCAAAT-GCTCTGAA замена
  4. TAT--GCAAATCGCTCGGAA вставка 1 п.н.
  5. TAT--GCAAAACGCTCGGAA замена
  6. TAT--GCAAA-CGCTCGGAA делеция 1п.н.
  7. TAT--GCATA-CGCTCGGAA замена
  8. TAT--GCATA-CGC---GAA делеция 3 п.н.
  9. TATATGCATA-CGC---GAA вставка 2 п.н.

Гомологичные нуклеотиды ставим друг под другом

ПРЕДОК

сын

внук

правнук

праправнук

прапраправнук

………

……..

……..

Из 20-и позиций (колонок) выравнивания 11 (55%) консервативны – не изменились от предка

17

18 of 60

Выравнивание геномов двух потомков общего предка микоплазм: M.capricolum и M.mycoides, (маленький фрагмент)

18

В среднем 92% совпадающих букв на гомологичных участках

19 of 60

19

19

ДНК и белки

Геном

3 млрд. букв у человека�0,5–10 млн. букв у бактерий

Кодирующие участки

< 2% у человека�~90% у бактерий

Белки

~25 000 у человека�600–6000 у бактерий

содержит

кодируют

20 of 60

20

21 of 60

Классификация мутаций в кодирующих последовательностях ДНК

Синонимическая или молчащая: не меняет кодируемый аминокислотный остаток

Миссенс (missense): меняет остаток

Нонсенс (nonsense): заменяет кодон остатка на стоп-кодон

Вставка (insertion) или делеция (deletion) нескольких кодонов

Сдвиг рамки (frameshift): вставка или делеция размера, не кратного трём�Результатом являются совсем другие аминокислоты после мутации и, как правило, стоп-кодон сравнительно недалеко (в среднем через 21 триплет после мутации)

21

22 of 60

Точечные замены в гене

22

23 of 60

Судьба мутации

23

Бактерия разделилась, и у одного из потомков произошла мутация.

(ошибка репликации, или повреждение ДНК и ошибка репарации).

Что будет с потомством мутанта? Увидим ли мы эту мутацию, если отсеквенируем 1 000 000 бактерий этого штамма через 10 лет?

24 of 60

Потомство бактерии

24

В благоприятных условиях бактерия может делиться каждый час.

Сколько будет бактерий через 24 часа? А через год????

25 of 60

Потомство бактерии

25

В благоприятных условиях бактерия может делиться каждый час.

Сколько будет бактерий через 24 часа? А через год????

Ответ: примерно столько же, сколько сейчас.

26 of 60

Потомство бактерии

26

В благоприятных условиях бактерия может делиться каждый час.

Сколько будет бактерий через 24 часа? А через год????

Ответ: примерно столько же, сколько сейчас.

Численность подавляющего большинства популяций постоянна (по крайней мере на отрезках времени порядка лет) погибает примерно столько же, сколько рождается.Современная популяция человека – исключение!

Если члены популяции генетически идентичны, то вероятность оставить потомство для всех одинакова (точнее, зависит от только от внешних факторов).

Следствие: математическое ожидание числа потомков одной бактерии через достаточно большой промежуток времени равно 1.

27 of 60

Судьба нейтральной мутации

27

Предположим, что мутация нейтральна = никак не влияет на матожидание числа потомков (таких мутаций довольно много).

Мутация произошла и передаётся потомкам мутанта. Значит, в популяции появился новый полиморфизм. У данного варианта кода есть частота (сначала очень маленькая).

28 of 60

Судьба нейтральной мутации

28

Предположим, что мутация нейтральна = никак не влияет на матожидание числа потомков (таких мутаций довольно много).

Мутация произошла и передаётся потомкам мутанта. Значит, в популяции появился новый полиморфизм. У данного варианта генома есть частота (сначала очень маленькая).

Что произойдёт с частотой через пару суток?

29 of 60

Судьба нейтральной мутации

29

Предположим, что мутация нейтральна = никак не влияет на матожидание числа потомков (таких мутаций довольно много).

Мутация произошла и передаётся потомкам мутанта. Значит, в популяции появился новый полиморфизм. У данного варианта генома есть частота (сначала очень маленькая).

Что произойдёт с частотой через пару суток?

Ответ: частота либо немного возрастёт, либо немного упадёт. То и другое примерно равновероятно.

30 of 60

Случайное блуждание

30

Частота любого нейтрального полиморфизма постоянно колеблется случайным образом (это называется «генетический дрейф»).

Математическая модель такого процесса называется «случайное блуждание».

На тротуаре стоит пьяный и каждые 10 сек. делает шаг либо направо, либо налево, случайно выбирая направление. Как далеко он уйдёт за время T?

Ответ: в среднем на расстояние, пропорциональное корню квадратному из T.

31 of 60

Случайное блуждание с поглощением

31

По длинной дамбе идёт пьяный и с каждым шагом отклоняется либо на полметра вправо, либо на полметра влево. Как скоро он свалится с дамбы?

Ответ: скоро…

Когда частота генетического варианта достигает 100% или 0%, процесс её изменения прекращается.

За исторически короткое время любой нейтральный вариант либо исчезает из популяции, либо закрепляется в ней!

32 of 60

Закрепление мутаций как результат генетического дрейфа

32

Вероятность закрепиться для новой нейтральной мутации очень мала, но не 0.

Организмов в популяции много, мутаций в них происходит тоже много

(примерно 10−8 на п.н. на поколение – каждая сотая новорождённая бактерия несёт новую мутацию). Значительная доля мутаций нейтральна.

Итог: геномы независимых популяций начинают различаться, чем дальше, тем больше – в них независимо накапливаются нейтральные мутации.

33 of 60

А если мутация не нейтральна?

33

Каждому варианту генома можно сопоставить его «приспособленность» f = матожидание числа потомков организма с таким геномом (через какой-то фиксированный промежуток времени).

В подавляющем большинстве случаев новая мутация порождает либо нейтральный вариант (f = 1) либо вредный (f < 1).

Вредный вариант тоже начинает «блуждать», но вероятность «шага вверх» оказывается меньше вероятности «шага вниз». Это очень сильно уменьшает вероятность закрепления – тем сильнее, чем меньше f, и тем сильнее, чем больше популяция.

Явление невозможности закрепления вредной мутации называется стабилизирующий отбор или же отрицательный отбор.

34 of 60

Положительный отбор

34

Если вдруг f > 1 , то вероятность закрепления мутации вырастает во много раз.

Процесс закрепления полезных мутаций называется положительным отбором.

Собственно, полезных мутаций так мало именно потому, что большинство возможных полезных мутаций уже закрепились.

Обычно полезные мутации начинают появляться в заметном количестве только при изменении условий жизни организмов – например при появлении нового источника пищи или новой опасности или попадании части популяции в другой климат…

35 of 60

Эволюция белков

35

Мутации возникают случайно.

Конкретная мутация может быть:

летальной;

вредной;

слабовредной;

нейтральной;

полезной.

Мутация порождает полиморфизм данного белка в популяции.

Доля каждого варианта подвержена случайным изменением (модель: «случайное блуждание с поглощением»).

За исторически короткое время один из вариантов (старый или новый) исчезает. В первом случае говорят, что мутация закрепилась.

Как правило, пространственная структура белка почти не меняется при эволюции его последовательности. В первом приближении верно утверждение: гомологичные белки имеют почти одинаковые 3D-структуры.

36 of 60

Множественное выравнивание белковых последовательностей

36

Мы видим только закрепившиеся мутации!

37 of 60

Гомология – общность происхождения

  • При репликации почти всегда каждый нуклеотид потомка происходит от определенного нуклеотида предка.
  • В выравнивании гомологичных последовательностей у разных потомков одного и того же предка гомологичные нуклеотиды должны стоять в одной колонке.
  • Как правило, нам известны геномы только современных организмов, и потому у нас нет способа проверить, какие нуклеотиды гомологичны.
  • Гомологичность последовательностей часто можно установить анализом их выравнивания.
  • Проблема построения выравнивания обсуждается ниже.

37

38 of 60

Выравнивание последовательностей касается всех студентов МГУ!

Положение об обеспечении самостоятельности выполнения письменных работ в МГУ имени М.В.Ломоносова на основе системы «Антиплагиат»

 

Самостоятельное выполнение письменных работ обучающимися в МГУ имени М.В.Ломоносова (далее – МГУ) является необходимым условием эффективности этих работ как элементов учебного процесса, развития у обучающихся навыков научной работы.

К обучающимся в Университете относятся студенты, аспиранты, докторанты, слушатели и соискатели (ст.ст. 123-128 Устава МГУ).

www.msu.ru/projects/antiplagiat/antiplagiat.doc

38

39 of 60

Для данных двух последовательностей существует много разных выравниваний

39

TGGAGTAACCAT-

TGGGATAACCTTG

TGGA--GTAACCAT--

TGGGATAA---CCTTG

TGGAGTAACCAT-------------

------------TGGGATAACCTTG

-TGGAGTAACCAT

TGGGATAACCTTG

Биоинформатическая задача: выбрать среди множества выравниваний правильное

Всего для двух последовательностей одинаковой длины n имеется около 2n разных выравниваний

40 of 60

Алгоритм выравнивания решает математическую задачу, а не биологическую

Математическая задача разбивается на две:

    • Любому выравниванию сопоставить число – его вес
    • Для данных последовательностей построить выравнивание с наибольшим весом

40

41 of 60

Три понимания «правильного» выравнивания

Оптимальное выравнивание: наилучшее по весу

Его ищут программы.

Оптимальное выравнивание существует для любого набора последовательностей, даже негомологичных!

Эволюционное выравнивание: запись, отражающая ход эволюции

Не поддается достоверной реконструкции в большинстве реальных случаев; может отличаться от оптимального выравнивания. Алгоритм вычисления веса стараются выбрать так, чтобы можно было ожидать, что эволюционное выравнивание будет среди нескольких оптимальных.

Для негомологичных последовательностей эволюционного выравнивания не существует!

Функциональное выравнивание: сопоставление функционально идентичных частей белков или нуклеиновых кислот

Объясняет сохранение в эволюции одних частей белка и варьирование других. Поскольку функция и 3D-структура белка очень тесно связаны, функционально выровненные аминокислотные остатки должны иметь примерно одинаковое расположение в пространстве.

1

2

3

41

42 of 60

Вес парного выравнивания

42

За каждую колонку с совпадающими буквами прибавляем число A

За каждую колонку с разными буквами вычитаем число B

За каждую «чёрточку» (гэп) вычитаем число C

Простейший вариант

43 of 60

Вес парного выравнивания

43

За каждую колонку с совпадающими буквами прибавляем число A

За каждую колонку с разными буквами вычитаем число B

За каждую «чёрточку» (гэп) вычитаем число C

Простейший вариант

First TGGAGTAACCAT--TAGGAGCTAGCCG |||..|||||.| ||||||..|||||

Second TGGGATAACCTTGATAGGAGTCAGCCG

Здесь 20 совпадений, 5 несовпадений, два гэпа, значит вес 20A – 5B – 2C

Например, при A =5, B = 4, C = 6 вес равен 68.

Проверьте, что ни у какого выравнивания этих последовательностей вес не будет бо́льшим. Это выравнивание является оптимальным при данных параметрах A, B, C.

44 of 60

Вес парного выравнивания – белки

44

Какое выравнивание имеет бóльшие шансы оказаться правильным?

AFTGAHAYL AFTGAHAYL

AYS---AYM AY---SAYM

45 of 60

Вес парного выравнивания – белки

45

Серин S

Треонин T

Гистидин H

Мутация серина в треонин закрепляется с гораздо большей вероятностью по сравнению с мутацией серина в гистидин.

Поэтому если в одной колонке выравнивания оказались буквы S и T, это скорее аргумент за данное выравнивание, чем против него. Значит, за такую колонку лучше увеличивать вес, чем уменьшать.

46 of 60

Матрица весов аминокислотных замен BLOSUM62

Из работы (Henikoff&Henikoff, 1992, PNAS)

Треугольная (симметричная)

матрица

46

47 of 60

# Matrix made by matblas from blosum62.iij

# * column uses minimum score

# BLOSUM Clustered Scoring Matrix in 1/2 Bit Units

# Blocks Database = /data/blocks_5.0/blocks.dat

# Cluster Percentage: >= 62

# Entropy = 0.6979, Expected = -0.5209

A R N D C Q E G H I L K M F P S T W Y V B Z X *

A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4

R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4

N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4

D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4

C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4

Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4

E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4

H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4

I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4

K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4

M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4

F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4

P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4

S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4

T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4

W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4

Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4

V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4

B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4

Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4

X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4

* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

47

Матрица BLOSUM62

48 of 60

Вес парного выравнивания – белки

48

Посчитаем веса выравниваний, используя матрицу BLOSUM62

AFTGAHAYL AFTGAHAYL

AYS---AYM AY---SAYM

Обозначим значения матрицы на пересечении строки A и столбца B через M(A,B)

Тогда вес левого выравнивания равен: M(A,A) + M(F,Y) + M(T,S) + M(A,A) +M(Y,Y) + M(L,M) – штраф за гэпы,а правого:M(A,A) + M(F,Y) + M(H,S) + M(A,A) +M(Y,Y) + M(L,M) – штраф за гэпы.

Штрафы за гэпы одинаковы, значит веса различаются слагаемым M(T,S) слева против M(H,S) справа. Но M(T,S) = 1, а M(H,S) = –1, поэтому вес левого выравнивания больше на 2.

49 of 60

Вес парного выравнивания:аффинные штрафы за гэпы

49

First TGGAGTAACCAT--TTGGAGCTAGCCG

|||..|||||.| |.||||..|||||

Second TGGGATAACCTTTATAGGAGTCAGCCG

First TGGAGTAACCAT-TT-GGAGCTAGCCG

|||..|||||.| .| ||||..|||||

Second TGGGATAACCTTTATAGGAGTCAGCCG

Выравнивание 1

Выравнивание 2

50 of 60

Вес парного выравнивания:аффинные штрафы за гэпы

50

First TGGAGTAACCAT--TTGGAGCTAGCCG

|||..|||||.| |.||||..|||||

Second TGGGATAACCTTTATAGGAGTCAGCCG

First TGGAGTAACCAT-TT-GGAGCTAGCCG

|||..|||||.| .| ||||..|||||

Second TGGGATAACCTTTATAGGAGTCAGCCG

Выравнивание 1

Выравнивание 2

Выравнивание 1 биологически более вероятно, чем выравнивание 2(потому что одна делеция в две буквы случается чаще, чем две делеции в одну букву)

Чтобы выравнивание 1 имело больший вес, чем выравнивание 2, штрафы за гэпы делают зависимым от числа подряд идущих гэпов. Стандартный способ: за первый гэп вычитается «штраф за открытие», за каждый последующий — меньший «штраф за удлинение»

51 of 60

Терминология: гэпы и индели

51

Один знак "–", означающий отсутствие в данной последовательности одной буквы, гомологичной другим буквам данного столбца, мы будем называть «гэп»

Совокупность нескольких подряд идущих гэпов мы будем называть «индель», от инсерция/делеция.

First TGGAGTAACCAT--TTGGAGCTAGCCG

|||..|||||.| |.||||..|||||

Second TGGGATAACCTTTATAGGAGTCAGCCG

К сожалению, терминология не вполне устоялась. В литературе и описаниях программ вы можете встретить употребление термина «гэп» для обозначения инделя.

Тут два гэпа и один индель

52 of 60

Парное выравнивание: локальное и глобальное

52

Задача глобального выравнивания: найти выравнивание с наибольшим весом. При вычислении весов учитываются: матрица замен (BLOSUM62) и аффинные штрафы за гэпы.

Задача локального выравнивания: найти

– участок в первой последовательности;

– участок во второй последовательности;

– выравнивание выбранных участков;

так, чтобы вес выравнивания был наибольшим.

Разница в том, что теперь выбираем не только как выравнивать, но и что.

На самом деле это две формализации одной и той же задачи: даны последовательности двух белков, найти гомологичные аминокислотные остатки.

53 of 60

Для самостоятельного обдумывания

53

  1. (формальный вопрос). Если не штрафовать гэпы до первого сопоставления и после последнего, то глобальное выравнивание сведётся к локальному. Иначе говоря, задачу локального выравнивания можно сформулировать так: найти выравнивание с наибольшим весом, но при этом вес считаем хитрее: штрафуем только те гэпы, которые оказались между сопоставлениями букв.
  2. (содержательный вопрос). Почему локальное выравнивание довольно часто имеет больший биологический смысл по сравнению с глобальным?

54 of 60

Форматы хранения выравниваний

54

Fasta-формат

>CHICK

MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQAGGDATENFEDVG

HSTDARALSETFIIGELH-PDDRPKLQK--PAETLITTVQSNSSSWSN---WVIP-AIAAIIVALMYRSYMS

E-

>HUMAN

---MAEQSDEAVK--YYTLEEIQKHNHSKSTWLILHHKVYDLTKFLEEHPGGEEVLREQAGGDATENFEDVG

HSTDAREMSKTFIIGELH-PDDRPKLNK--PPETLITTIDSSSSWWTN---WVIP-AISAVAVALMYRLYMA

ED

>CUSRE

------MGGSKV----YSLAEVSEHSQPNDCWLVIGGKVYDVTKFLDDHPGGADVLLSSTAKDATDDFEDIG

HSSSARAMMDEMCVGDID-SSTIPTKTSYTPPKQPLYNQDKTPQFIIKLLQFLVPLIILGVAVGIRFYKKQS

SD

Aln-формат (он же Clustal)

CHICK MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA

HUMAN ---MAEQSDEAVK--YYTLEEIQKHNHSKSTWLILHHKVYDLTKFLEEHPGGEEVLREQA

CUSRE ------MGGSKV----YSLAEVSEHSQPNDCWLVIGGKVYDVTKFLDDHPGGADVLLSST

CHICK GGDATENFEDVGHSTDARALSETFIIGELH-PDDRPKLQK--PAETLITTVQSNSSSWSN

HUMAN GGDATENFEDVGHSTDAREMSKTFIIGELH-PDDRPKLNK--PPETLITTIDSSSSWWTN

CUSRE AKDATDDFEDIGHSSSARAMMDEMCVGDID-SSTIPTKTSYTPPKQPLYNQDKTPQFIIK

CHICK ---WVIP-AIAAIIVALMYRSYMSE-

HUMAN ---WVIP-AISAVAVALMYRLYMAED

CUSRE LLQFLVPLIILGVAVGIRFYKKQSSD

55 of 60

Программы

55

Парное глобальное выравнивание:

в EMBOSS: needle, stretcher

Парное локальное выравнивание: � в EMBOSS: water, matcher� прочие: пакет BLAST (blastn для НК, blastp для белков)

Множественное выравнивание: � в EMBOSS: emma, edialign� прочие: Muscle, MAFFT, ClustalW, Pride, …

Редакторы выравниваний: Jalview, GeneDoc, …

56 of 60

Изменение формата в EMBOSS

56

Из fasta (или любого другого) в clustal:

seqret alignment.fasta clustal::alignment.aln

Из любого в fasta:

seqret alignment.aln fasta::alignment.fasta

Важно: формат задаётся префиксом вида «формат::», а не расширением имени файла! �Если вы напишете seqret one.fasta clustal::two.fasta, то в файле two.fasta окажется выравнивание в формате clustal, а не fasta (так делать не надо, чтобы не запутать себя)

Список форматов: http://emboss.open-bio.org/html/use/ch05s04.html

Программы needle, water, stretcher, matcher по умолчанию используют собственные (не переформатируемые) форматы. Заставить их выдать выравнивание в одном из стандартных форматов можно опцией� –aformat <название формата>, например –aformat fasta

57 of 60

Изменение формата через BioPython

57

Если у вас установлен BioPython:

from Bio import AlignIO

inh = open("input_file.fasta", "r")

outh = open("output_file.aln", "w")

alignment = AlignIO.parse(inh, "fasta")

AlignIO.write(alignment, outh, "clustal")

inh.close()

outh.close()

Список форматов см. https://biopython.org/wiki/AlignIO �Он включает форматы stockholm и phylip-relaxed,�которые не поддерживаются в EMBOSS

58 of 60

Jalview

58

59 of 60

Словарик

59

Alignment Выравнивание

Gap Гэп

Indel Индель

Gap penalty Штраф за гэпы

Gap opening penalty Штраф за открытие гэпа

Gap extension penalty Штраф за удлинение гэпа

Score Вес выравнивания

Scoring matrix Матрица замен аминокислот

60 of 60

Вопросы и ответы

Что такое гомология?

Ответ: общность происхождения

(НЕПРАВИЛЬНО говорить «последовательности гомологичны на 56%. Последовательности либо гомологичны, либо нет)

Как определить, гомологичны ли белки?

Ответ: в большинстве случаев единственный способ — выровнять их последовательности и посмотреть на процент совпадающих букв. Если он достаточно велик, то белки, вероятно, гомологичны. Если нет, то всякое может быть.

Если для обоих белков известны пространственные структуры, то есть гораздо более чувствительный способ: сравнить ход полипептидной цепи в пространстве.

Какой процент идентичности служит надёжным признаком гомологии?

Ответ: для белков обычно более 20–25% на достаточно длинном участке

(более точный ответ будет дан в следующих лекциях)

60