1 of 18

BLAST – программа поиска в БД последовательностей, похожих на данную

18 сентября 2024

2 of 18

Зачем нужен BLAST?

  • Секвенировали геном вируса. Что за вирус, какому семейству принадлежит?
  • Какие белки закодированы в геноме? Известны ли они, встречались ли в других вирусах?
  • Имеем последовательность одного из белков.� Какова его функция, хотя бы предположительно?� Насколько распространен этот белок?� Какие аминокислотные остатки этого белка наиболее важны для его функции?

Для этого надо постараться найти последовательности, гомологичные данной

2

3 of 18

>WP_015027971 TdeIII family type II restriction endonuclease [Emticicia oligotrophica]MTQQQIQQVETVLRNSLRHKFQNYNPEPAVMPFHTRLLGQDRMALFSFIHSLNTNFGTSIFEPVAKALALSTFASAESQQTAGNQISSEAHRVIQNIMDGLAVATSSPNKIEEINAIRVVCQTGEMKTVKPTKVDVKLVGHDGTIYLFDIKTAKPNAGGFKEFKRTLLEWVATTLAANPTANVQTIIAIPYNPYEPQPYNRWTMRGMLDLDNELKVAAEFWDFLGGQGAYTDLLDIFERIGLELRPEIDAYFARYNRQ

BLASTP

Где искать

Что искать

3

На что смотреть

5. E-value достоверность находки

4. Query cover

Какая часть входной последовательности похожа на находку

6. Identity

Процент одинаковых остатков

1. Description название находки

7. Accession

Код находки в БД

Список находок

4

3

2

1

6

7

5

4 of 18

Варианты BLAST

Два варианта посредине нужны потому, что сходство белков информативнее сходства их генов

4

5 of 18

ON-LINE BLAST В NCBI

https://blast.ncbi.nlm.nih.gov

5

6 of 18

Интерфейс ввода данных http://blast.ncbi.nlm.nih.gov/

вводим последовательность

база данных

таксон (если надо ограничить)

дополнительные параметры (нужны)

6

7 of 18

Дополнительные параметры

максимальный размер выдачи

порог на E-value

параметры выравнивания

борьба с «участками малой сложности»

длина слова – зародыша выравнивания

7

8 of 18

Для каждой находки указывается E-value – показатель достоверности

E-value ≤ 0.0001 – можно считать достоверным результатом (последовательности, наверное, гомологичны)

E-value ≥ 1 – можно считать недостоверным результатом (последовательности, скорее всего, негомологичны)

Но это не закон. Возможны исключения

E-value зависит от веса S веса выравнивания входной последовательности и находки �(чем больше вес, тем меньше E-value) �и размера области поиска N (чем меньше N, тем меньше E-value)

8

9 of 18

Пусть S — вес выравнивания находки и входной последовательности.

E – это математическое ожидание числа СЛУЧАЙНЫХ находок с весом XS в банке того же размера, при поиске по последовательности той же длины.

Формула для вычисления: E = N/2S, её запоминать не обязательно.

Здесь N = n·m, где n – длина входной последовательности, m – суммарная длина последовательностей в области поиска.

S – нормализованный вес, или вес в битах, вычисляется из обычного веса и неких констант по формуле

E-value

9

Константы λ и K зависят от выбора параметров вычисления веса выравнивания: матрицы замен и штрафов за гэпы

10 of 18

Находка с E = 5 значит, что в списке находок примерно пять находок такого или лучшего качества могли появится случайно

Находка с E = 0.1 значит, что находка такого качества появляется в выдаче случайно в среднем один раз на десять запусков программы

Находка с E = 0.0001 значит, что находку такого качества можно получить случайно лишь с вероятностью около �p = 1/10000

E-value “для чайников”

10

11 of 18

Участок малой сложности

Ищем: белок P02929

Если отключить “Compositional adjustments” и фильтр, то одной из находок будет:

в исходном белке имеется участок, содержащий очень много пролина и глутаминовой кислоты

Данное выравнивание не свидетельствует о гомологии, несмотря на хорошее значение E-value (10-9)

11

12 of 18

Длина слова W существенно влияет на результат BLAST

12

  • BLAST быстро находит банковские последовательности, в которых есть слово длины W, совпадающее (в случае белков очень похожее) с каким-то словом длины W во входной последовательности (это делается для ускорения программы)
  • Начиная с этого слова, BLAST начинает продолжать выравнивание в две стороны
  • Сначала продолжается без гэпов.
  • Затем полученные выравнивания объединяются с гэпами

13 of 18

Роль длины слова. Мой эксперимент

Вход: последовательность из 466 остатков

NCBI BLAST (https://blast.ncbi.nlm.nih.gov/)

Область поиска: Swissprot, белки из бактерий

Параметры (кроме wordsize) по умолчанию. Порог на E —10

W = 6

Найдено 16 последовательностей, в них 18 находок

8 из них E < 0.001

Время работы сервиса NCBI – менее одной минуты

W = 2

Найдено 69 последовательностей, в них 75 находок

12 находок с E < 0.001

Время работы сервиса NCBI – около 35 мин

13

14 of 18

Выбор варианта нуклеотидного BLAST (по умолчанию стоит megablast)

14

15 of 18

Три вида blastn

Программа

Wordsize

Цели

megablast

28 нк

Очень близкие гомологи

discontiguous megablast

11 нк

Близкие гомологи

blastn

11 нк

Достоверные гомологи

15

16 of 18

Что выдает BLAST?

Список последовательностей, сходных с входной последовательностью (см. слайд 3)

Выравнивания входной последовательности с каждой найденной (локальное)

Разные удобности для просмотра и скачивания

16

17 of 18

Список находок

17

18 of 18

Length=129 Number of matches=1

Score = 78.6 bits (192), Expect = 9e-15, Method: Compositional matrix adjust.

Identities = 34/73 (47%), Positives = 50/73 (68%), Gaps = 0/73 (0%)

Query 17 YRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQAGGDATENFEDVGHSTD 76

Y EEV +H W+I++ ++Y+I+ ++DEHPGGEEV+ + AG DATE F+D+GHS +

Sbjct 11 YTHEEVAQHTTHDDLWVILNGKVYNISNYIDEHPGGEEVILDCAGTDATEAFDDIGHSDE 70

Query 77 ARALSETFIIGEL 89

A + E IG L

Sbjct 71 AHEILEKLYIGNL 83

Вес в битах

Вес

E-value

Число совпадений

Длина выравнивания

Длина найденного белка

Число сходных “букв”

Число символов гэпа

18

Сходные буквы (positives) — те, для которых значение из матрицы BLOSUM62 положительно.