BLAST – программа поиска в БД последовательностей, похожих на данную
18 сентября 2024
Зачем нужен BLAST?
Для этого надо постараться найти последовательности, гомологичные данной
2
>WP_015027971 TdeIII family type II restriction endonuclease [Emticicia oligotrophica]�MTQQQIQQVETVLRNSLRHKFQNYNPEPAVMPFHTRLLGQDRMALFSFIHSLNTNFGTSIFEPVAKALALSTFASAESQQ�TAGNQISSEAHRVIQNIMDGLAVATSSPNKIEEINAIRVVCQTGEMKTVKPTKVDVKLVGHDGTIYLFDIKTAKPNAGGF�KEFKRTLLEWVATTLAANPTANVQTIIAIPYNPYEPQPYNRWTMRGMLDLDNELKVAAEFWDFLGGQGAYTDLLDIFERI�GLELRPEIDAYFARYNRQ
BLASTP
Где искать
Что искать
3
На что смотреть
5. E-value �достоверность находки
4. Query cover
Какая часть входной последовательности похожа на находку
6. Identity
Процент одинаковых остатков
1. Description� название находки
7. Accession
Код находки в БД
Список находок
4
3
2
1
6
7
5
Варианты BLAST
Два варианта посредине нужны потому, что сходство белков информативнее сходства их генов
4
ON-LINE BLAST В NCBI
https://blast.ncbi.nlm.nih.gov
5
Интерфейс ввода данных http://blast.ncbi.nlm.nih.gov/
вводим последовательность
база данных
таксон (если надо ограничить)
дополнительные параметры (нужны)
6
Дополнительные параметры
максимальный размер выдачи
порог на E-value
параметры выравнивания
борьба с «участками малой сложности»
длина слова – зародыша выравнивания
7
Для каждой находки указывается E-value – показатель достоверности
E-value ≤ 0.0001 – можно считать достоверным результатом (последовательности, наверное, гомологичны)
E-value ≥ 1 – можно считать недостоверным результатом (последовательности, скорее всего, негомологичны)
Но это не закон. Возможны исключения
E-value зависит от веса S веса выравнивания входной последовательности и находки �(чем больше вес, тем меньше E-value) �и размера области поиска N (чем меньше N, тем меньше E-value)
8
Пусть S — вес выравнивания находки и входной последовательности.
E – это математическое ожидание числа СЛУЧАЙНЫХ находок с весом X ≥ S в банке того же размера, при поиске по последовательности той же длины.
Формула для вычисления: E = N/2S′, её запоминать не обязательно.
Здесь N = n·m, где n – длина входной последовательности, �m – суммарная длина последовательностей в области поиска.
S′ – нормализованный вес, или вес в битах, вычисляется из обычного веса и неких констант по формуле
E-value
9
Константы λ и K зависят от выбора параметров вычисления веса выравнивания: матрицы замен и штрафов за гэпы
Находка с E = 5 значит, что в списке находок примерно пять находок такого или лучшего качества могли появится случайно
Находка с E = 0.1 значит, что находка такого качества появляется в выдаче случайно в среднем один раз на десять запусков программы
Находка с E = 0.0001 значит, что находку такого качества можно получить случайно лишь с вероятностью около �p = 1/10000
E-value “для чайников”
10
Участок малой сложности
Ищем: белок P02929
Если отключить “Compositional adjustments” и фильтр, то одной из находок будет:
в исходном белке имеется участок, содержащий очень много пролина и глутаминовой кислоты
Данное выравнивание не свидетельствует о гомологии, несмотря на хорошее значение E-value (10-9)
11
Длина слова W существенно влияет на результат BLAST
12
Роль длины слова. Мой эксперимент
Вход: последовательность из 466 остатков
NCBI BLAST (https://blast.ncbi.nlm.nih.gov/)
Область поиска: Swissprot, белки из бактерий
Параметры (кроме wordsize) по умолчанию. Порог на E —10
W = 6
Найдено 16 последовательностей, в них 18 находок
8 из них E < 0.001
Время работы сервиса NCBI – менее одной минуты
W = 2
Найдено 69 последовательностей, в них 75 находок
12 находок с E < 0.001
Время работы сервиса NCBI – около 35 мин
13
Выбор варианта нуклеотидного BLAST �(по умолчанию стоит megablast)
14
Три вида blastn
Программа | Wordsize | Цели |
megablast | 28 нк | Очень близкие гомологи |
discontiguous megablast | 11 нк | Близкие гомологи |
blastn | 11 нк | Достоверные гомологи |
15
Что выдает BLAST?
Список последовательностей, сходных с входной последовательностью (см. слайд 3)
Выравнивания входной последовательности с каждой найденной (локальное)
Разные удобности для просмотра и скачивания
16
Список находок
17
Length=129 Number of matches=1
Score = 78.6 bits (192), Expect = 9e-15, Method: Compositional matrix adjust.
Identities = 34/73 (47%), Positives = 50/73 (68%), Gaps = 0/73 (0%)
Query 17 YRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQAGGDATENFEDVGHSTD 76
Y EEV +H W+I++ ++Y+I+ ++DEHPGGEEV+ + AG DATE F+D+GHS +
Sbjct 11 YTHEEVAQHTTHDDLWVILNGKVYNISNYIDEHPGGEEVILDCAGTDATEAFDDIGHSDE 70
Query 77 ARALSETFIIGEL 89
A + E IG L
Sbjct 71 AHEILEKLYIGNL 83
Вес в битах
Вес
E-value
Число совпадений
Длина выравнивания
Длина найденного белка
Число сходных “букв”
Число символов гэпа
18
Сходные буквы (positives) — те, для которых значение из матрицы BLOSUM62 положительно.