1
Pfam, ProSite, InterPro, ...
Банки структурной биологической информации
GenBank, ENA(EMBL), DDBJ
RefSeq
Архивные базы последовательностей
нуклеиновых кислот
Автоматическая база�различных последовательностей НК
/Swiss-Prot
Курируемая база�последовательностей белков
/TrEMBL
Автоматическая база�предсказаний�последовательностей белков
PDB
Архивная база пространственных
структур макромолекул
И многие другие...
Банки семейств белков
UniprotKB
Геномные проекты
Последовательности от исследователей
Последовательности белков
2
Базы данных (общие принципы)
3
Пример: БД “библиотека”
4
Банк данных Swiss-Prot
5
1986
Swiss-Prot – база знаний о белковых последовательностях
http://web.expasy.org/docs/swiss-prot_guideline.html
Банк данных Swiss-Prot
6
Амос Байрох
Долговременный руководитель группы Swiss-Prot в Швейцарском Институте Биоинформатики
С 1987 поддерживается в сотрудничестве между
Swiss Institute of Bioinformatics (SIB)
European Bioinformatics Institute (EBI)
С 2002 является частью Uniprot knowledgebase, �поддерживаемой Uniprot consortium
Физически Swiss-Prot – это один текстовый файл специального формата.
Банк данных TrEMBL
7
Вместе со Swiss-Prot образует UniprotKB.
Формальная трансляция всех кодирующих нуклеотидных последовательностей из банка EMBL.
Автоматическая классификация и аннотация.
Формат записи тот же, что у Swiss-Prot. �Запись можно отличить по слову Unreviewed в первой строке.
TrEMBL (Translated EMBL)
Документ (запись, entry) Uniprot
8
Описание документа: идентификатор,
имя, дата создания и модификации
Аннотация
последовательности
Последовательность
Основные поля Uniprot
9
ID – идентификатор в текущем релизе. Всегда один, но может меняться от релиза к релизу.
AC – так называемый «номер доступа» (Accession number). Раз появившись, не исчезнет (поэтому именно на AC надо указывать в публикациях при использовании данных из Uniprot). �Может быть не один (по разным причинам).
DE – «description», описание белка. Имеет внутреннюю структуру, т.е. делится на подполя (краткое рекомендуемое название, полное рекомендуемое название, синонимы и др.)
OS – видовое название организма – источника данного белка
OC – таксономия организма (в соответствии с текущим стандартом NCBI)
DR – ссылки на другие базы данных
FT – “feature table”, особенности частей последовательности
Структура идентификатора �записи Swiss-Prot
10
ENO_BACSU: энолаза из сенной палочки
Мнемоника функции белка
Мнемоника организма
Как правило, мнемоника организма состоит из 3 букв родового названия и 2 букв видового (Bacillus subtilis → BACSU).
Для штаммов бактерий из видового названия берётся одна буква, а последний символ используется для различения штаммов.�Исключения: �а) 16 наиболее представленных организмов �(BOVIN for Bovine, CHICK for Chicken, ECOLI for Escherichia coli, HORSE for Horse, HUMAN for Human, MAIZE for Maize (Zea mays) , MOUSE for Mouse, PEA for Garden pea (Pisum sativum), PIG for Pig, RABIT for Rabbit, RAT for Rat, SHEEP for Sheep, SOYBN for Soybean (Glycine max), TOBAC for Common tobacco (Nicotiana tabacum), WHEAT for Wheat (Triticum aestivum), YEAST for Baker's yeast (Saccharomyces cerevisiae));
б) вирусы (например, BPP21 для фага P21, MEASY для штамма Yamagata вируса кори (measles) и пр.);
в) случаи неопределенного видового названия.
Содержимое поля FT
11
Feature Table — характеристики участков последовательности
В частности:
и т. п.
Имеет строгий формат: Feature Key, Feature Location. �В следующей строке или строках может содержаться дополнительная информация
Например:
FT DISULFID 36..47
FT TRANSMEM 74..82
FT /note="Helical"
Uniprot на 2024
12
Для сравнения: банк PDB (пространственные структуры) содержит 224 572 записи, представляющих 129 970 различных белков (включая искусственные мутанты) или 82 472 природных белка
13
Последовательностей во много раз больше, чем структур
Большинство последовательностей не аннотированы
Число белков в разных БД
14
Более половины последовательностей Swiss-Prot не охарактеризовано экспериментально
Банки GenBank, ENA, DDBJ
15
Содержат результаты работ по секвенированию нуклеиновых кислот.
Архивные банки: за содержание записей несут ответственность только их авторы.
С конца 1980-х годов журналы не публикуют работы о секвенировании последовательностей ДНК и РНК, если сами эти последовательности не депонированы в один из этих банков.
Ежедневный обмен данными.
Версия ENA от 9 сентября 2024 г. содержит около 5 млрд. последовательностей, содержащих 25,9 трлн. нуклеотидов
(https://www.ebi.ac.uk/ena/browser/about/statistics ).
Точнее, речь о части Европейского нуклеотидного архива (ENA), которая исторически называлась EMBL database
ENA
16
https://www.ebi.ac.uk/ena/browser/about/content
Разделы EMBL
17
HUM: Human
MUS: Mus musculus
ROD: Other Rodents
MAM: Other Mammals
VRT: Other Vertebrates
INV: Invertebrates
FUN: Fungi
PLN: Plants
PRO: Prokaryotes
VRL: Viruses
PHG: Bacteriophage
ENV: Environmental Samples
SYN: Synthetic
TGN: Transgenic
UNC: Unclassified
Классы данных EMBL
18
19
RefSeq
20
Геномные браузеры
21
Форматы хранения последовательностей
22
Формат Fasta
23
>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE
Формат Fasta
24
>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE
Знак “>” – показатель строки с названием
Формат Fasta
25
>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE
Знак “>” – показатель строки с названием
Имя последовательности �(до первого пробела). �В данном случае состоит из трёх «полей».
Формат Fasta
26
>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE
Знак “>” – показатель строки с названием
Имя последовательности �(до первого пробела). �В данном случае состоит из трёх «полей».
Описание последовательности �(от первого пробела до конца строки). �Может отсутствовать.
Формат Fasta
27
>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE
Знак “>” – показатель строки с названием
Имя последовательности �(до первого пробела). �В данном случае состоит из трёх «полей».
Описание последовательности �(от первого пробела до конца строки). �Может отсутствовать.
Последовательность в однобуквенном коде, в одну или несколько строк.
Формат Fasta�(много последовательностей)
28
>sp|P00167|CYB5_HUMAN Cytochrome b5 OS=Homo sapiens GN=CYB5A PE=1 SV=2
MAEQSDEAVKYYTLEEIQKHNHSKSTWLILHHKVYDLTKFLEEHPGGEEVLREQAGGDAT
ENFEDVGHSTDAREMSKTFIIGELHPDDRPKLNKPPETLITTIDSSSSWWTNWVIPAISA
VAVALMYRLYMAED
>sp|O43169|CYB5B_HUMAN Cytochrome b5 type B OS=Homo sapiens GN=CYB5B PE=1 SV=2
MATAEASGSDGKGQEVETSVTYYRLEEVAKRNSLKELWLVIHGRVYDVTRFLNEHPGGEE
VLLEQAGVDASESFEDVGHSSDAREMLKQYYIGDIHPSDLKPESGSKDPSKNDTCKSCWA
YWILPIIGAVLLGFLYRYYTSESKSS
>sp|P04166|CYB5B_RAT Cytochrome b5 type B OS=Rattus norvegicus GN=Cyb5b PE=1 SV=2
MATPEASGSGRNGQGSDPAVTYYRLEEVAKRNTAEETWMVIHGRVYDITRFLSEHPGGEE
VLLEQAGADATESFEDVGHSPDAREMLKQYYIGDVHPNDLKPKDGDKDPSKNNSCQSSWA
YWIVPIVGAILIGFLYRHFWADSKSS
>sp|P00173|CYB5_RAT Cytochrome b5 OS=Rattus norvegicus GN=Cyb5a PE=1 SV=2
MAEQSDKDVKYYTLEEIQKHKDSKSTWVILHHKVYDLTKFLEEHPGGEEVLREQAGGDAT
ENFEDVGHSTDARELSKTYIIGELHPDDRSKIAKPSETLITTVESNSSWWTNWVIPAISA
LVVALMYRLYMAED
>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4
MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA
GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI
PAIAAIIVALMYRSYMSE