1 of 28

1

Pfam, ProSite, InterPro, ...

Банки структурной биологической информации

GenBank, ENA(EMBL), DDBJ

RefSeq

Архивные базы последовательностей

нуклеиновых кислот

Автоматическая база�различных последовательностей НК

/Swiss-Prot

Курируемая база�последовательностей белков

/TrEMBL

Автоматическая база�предсказаний�последовательностей белков

PDB

Архивная база пространственных

структур макромолекул

И многие другие...

Банки семейств белков

UniprotKB

Геномные проекты

Последовательности от исследователей

2 of 28

Последовательности белков

2

3 of 28

Базы данных (общие принципы)

  • БД состоит из одного или нескольких хранилищ (“таблиц”)
  • Единица хранения (строка таблицы) называется записью (entry).
  • Все записи состоят из полей (fields). Поля с одним и тем же названием (колонки таблицы) содержат однородную информацию.
  • Записи из разных хранилищ (таблиц) ссылаются друг на друга

3

4 of 28

Пример: БД “библиотека”

  • Запись – книга
  • Поля:
    • Название
    • Авторы
    • Год издания
    • Аннотация
    • Текст

4

5 of 28

Банк данных Swiss-Prot

5

1986

Swiss-Prot – база знаний о белковых последовательностях

http://web.expasy.org/docs/swiss-prot_guideline.html

    • Курируемая база данных
    • Золотой стандарт” аннотации

6 of 28

Банк данных Swiss-Prot

6

Амос Байрох

Долговременный руководитель группы Swiss-Prot в Швейцарском Институте Биоинформатики

С 1987 поддерживается в сотрудничестве между

Swiss Institute of Bioinformatics (SIB)

European Bioinformatics Institute (EBI)

С 2002 является частью Uniprot knowledgebase, �поддерживаемой Uniprot consortium

Физически Swiss-Prot – это один текстовый файл специального формата.

7 of 28

Банк данных TrEMBL

7

Вместе со Swiss-Prot образует UniprotKB.

Формальная трансляция всех кодирующих нуклеотидных последовательностей из банка EMBL.

Автоматическая классификация и аннотация.

Формат записи тот же, что у Swiss-Prot. �Запись можно отличить по слову Unreviewed в первой строке.

TrEMBL (Translated EMBL)

8 of 28

Документ (запись, entry) Uniprot

8

Описание документа: идентификатор,

имя, дата создания и модификации

Аннотация

последовательности

Последовательность

9 of 28

Основные поля Uniprot

9

ID – идентификатор в текущем релизе. Всегда один, но может меняться от релиза к релизу.

AC – так называемый «номер доступа» (Accession number). Раз появившись, не исчезнет (поэтому именно на AC надо указывать в публикациях при использовании данных из Uniprot). �Может быть не один (по разным причинам).

DE – «description», описание белка. Имеет внутреннюю структуру, т.е. делится на подполя (краткое рекомендуемое название, полное рекомендуемое название, синонимы и др.)

OS – видовое название организма – источника данного белка

OC – таксономия организма (в соответствии с текущим стандартом NCBI)

DR – ссылки на другие базы данных

FT – “feature table”, особенности частей последовательности

10 of 28

Структура идентификатора �записи Swiss-Prot

10

ENO_BACSU: энолаза из сенной палочки

Мнемоника функции белка

Мнемоника организма

Как правило, мнемоника организма состоит из 3 букв родового названия и 2 букв видового (Bacillus subtilis → BACSU).

Для штаммов бактерий из видового названия берётся одна буква, а последний символ используется для различения штаммов.�Исключения: �а) 16 наиболее представленных организмов �(BOVIN for Bovine, CHICK for Chicken, ECOLI for Escherichia coli, HORSE for Horse, HUMAN for Human, MAIZE for Maize (Zea mays) , MOUSE for Mouse, PEA for Garden pea (Pisum sativum), PIG for Pig, RABIT for Rabbit, RAT for Rat, SHEEP for Sheep, SOYBN for Soybean (Glycine max), TOBAC for Common tobacco (Nicotiana tabacum), WHEAT for Wheat (Triticum aestivum), YEAST for Baker's yeast (Saccharomyces cerevisiae));

б) вирусы (например, BPP21 для фага P21, MEASY для штамма Yamagata вируса кори (measles) и пр.);

в) случаи неопределенного видового названия.

11 of 28

Содержимое поля FT

11

Feature Table — характеристики участков последовательности

В частности:

  • трансмембранные участки;
  • сигнальные последовательности
  • сайты связывания разнообразных лигандов, ионов, нуклеиновых кислот;
  • сайты посттрансляционной модификации;
  • вторичная структура;
  • домены;
  • разночтения в последовательности (“CONFLICT”);
  • варианты (напр., альтернативный сплайсинг “VARSPLIC”);

и т. п.

Имеет строгий формат: Feature Key, Feature Location. �В следующей строке или строках может содержаться дополнительная информация

Например:

FT DISULFID 36..47

FT TRANSMEM 74..82

FT /note="Helical"

12 of 28

Uniprot на 2024

  • SwissProt – 571 864 �(чуть более полумиллиона белков)
  • TrEMBL – 245 324 902�(около четверти миллиарда записей)
  • UniRef100 – 412 245 268 (>400 млн. различных аминокислотных последовательностей)

12

Для сравнения: банк PDB (пространственные структуры) содержит 224 572 записи, представляющих 129 970 различных белков (включая искусственные мутанты) или 82 472 природных белка

13 of 28

13

Последовательностей во много раз больше, чем структур

Большинство последовательностей не аннотированы

Число белков в разных БД

14 of 28

14

Более половины последовательностей Swiss-Prot не охарактеризовано экспериментально

15 of 28

Банки GenBank, ENA, DDBJ

15

Содержат результаты работ по секвенированию нуклеиновых кислот.

Архивные банки: за содержание записей несут ответственность только их авторы.

С конца 1980-х годов журналы не публикуют работы о секвенировании последовательностей ДНК и РНК, если сами эти последовательности не депонированы в один из этих банков.

Ежедневный обмен данными.

Версия ENA от 9 сентября 2024 г. содержит около 5 млрд. последовательностей, содержащих 25,9 трлн. нуклеотидов

(https://www.ebi.ac.uk/ena/browser/about/statistics ).

Точнее, речь о части Европейского нуклеотидного архива (ENA), которая исторически называлась EMBL database

16 of 28

ENA

16

https://www.ebi.ac.uk/ena/browser/about/content

17 of 28

Разделы EMBL

17

HUM: Human

MUS: Mus musculus

ROD: Other Rodents

MAM: Other Mammals

VRT: Other Vertebrates

INV: Invertebrates

FUN: Fungi

PLN: Plants

PRO: Prokaryotes

VRL: Viruses

PHG: Bacteriophage

ENV: Environmental Samples

SYN: Synthetic

TGN: Transgenic

UNC: Unclassified

18 of 28

Классы данных EMBL

18

19 of 28

19

20 of 28

RefSeq

  • Поддерживается NCBI: https://www.ncbi.nlm.nih.gov/refseq/
  • Не содержит повторений (в отличие от GenBank, ENA, DDBJ)
  • Состоит из трёх частей: RefSeq genomic, RefSeq transcripts (только мРНК!), RefSeq proteins�RefSeq genomic содержит геномные последовательности 152 668 организмов, RefSeq transcripts — 63,5 млн. записей, RefSeq proteins — 334,8 млн. записей
  • Призван навести порядок в сумбуре секвенируемых последовательностей. Но, конечно, в связи с этим отстаёт…

20

21 of 28

Геномные браузеры

  • USCS Genome Browser (http://genome.ucsc.edu/cgi-bin/hgGateway )
    • продвинутый графический интерфейс для аннотированных геномов избранных животных, а также дрожжей и двух вирусов
  • NCBI (https://www.ncbi.nlm.nih.gov/genome/browse)
    • все полные геномы
  • EnsEMBL (http://www.ensembl.org/)
    • продвинутый графический интерфейс для геномов хордовых,�C. elegans, плодовой мушки и дрожжей
  • EnsemblGenomes (http://ensemblgenomes.org/ )
    • расширение возможностей EnsEMBL на другие геномы (разделы EnsemblPlants, EnsemblBacteria, Ensembl COVID-19, ...)

21

22 of 28

Форматы хранения последовательностей

22

  • Swiss-Prot – для белков
  • EMBL, GenBank – для нуклеотидных последовательностей
  • Fasta – универсальный формат для хранения одной или многих последовательностей.Понимается подавляющим большинством программ работы с последовательностями.

23 of 28

Формат Fasta

23

>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE

24 of 28

Формат Fasta

24

>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE

Знак “>” – показатель строки с названием

25 of 28

Формат Fasta

25

>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE

Знак “>” – показатель строки с названием

Имя последовательности �(до первого пробела). �В данном случае состоит из трёх «полей».

26 of 28

Формат Fasta

26

>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE

Знак “>” – показатель строки с названием

Имя последовательности �(до первого пробела). �В данном случае состоит из трёх «полей».

Описание последовательности �(от первого пробела до конца строки). �Может отсутствовать.

27 of 28

Формат Fasta

27

>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI PAIAAIIVALMYRSYMSE

Знак “>” – показатель строки с названием

Имя последовательности �(до первого пробела). �В данном случае состоит из трёх «полей».

Описание последовательности �(от первого пробела до конца строки). �Может отсутствовать.

Последовательность в однобуквенном коде, в одну или несколько строк.

28 of 28

Формат Fasta�(много последовательностей)

28

>sp|P00167|CYB5_HUMAN Cytochrome b5 OS=Homo sapiens GN=CYB5A PE=1 SV=2

MAEQSDEAVKYYTLEEIQKHNHSKSTWLILHHKVYDLTKFLEEHPGGEEVLREQAGGDAT

ENFEDVGHSTDAREMSKTFIIGELHPDDRPKLNKPPETLITTIDSSSSWWTNWVIPAISA

VAVALMYRLYMAED

>sp|O43169|CYB5B_HUMAN Cytochrome b5 type B OS=Homo sapiens GN=CYB5B PE=1 SV=2

MATAEASGSDGKGQEVETSVTYYRLEEVAKRNSLKELWLVIHGRVYDVTRFLNEHPGGEE

VLLEQAGVDASESFEDVGHSSDAREMLKQYYIGDIHPSDLKPESGSKDPSKNDTCKSCWA

YWILPIIGAVLLGFLYRYYTSESKSS

>sp|P04166|CYB5B_RAT Cytochrome b5 type B OS=Rattus norvegicus GN=Cyb5b PE=1 SV=2

MATPEASGSGRNGQGSDPAVTYYRLEEVAKRNTAEETWMVIHGRVYDITRFLSEHPGGEE

VLLEQAGADATESFEDVGHSPDAREMLKQYYIGDVHPNDLKPKDGDKDPSKNNSCQSSWA

YWIVPIVGAILIGFLYRHFWADSKSS

>sp|P00173|CYB5_RAT Cytochrome b5 OS=Rattus norvegicus GN=Cyb5a PE=1 SV=2

MAEQSDKDVKYYTLEEIQKHKDSKSTWVILHHKVYDLTKFLEEHPGGEEVLREQAGGDAT

ENFEDVGHSTDARELSKTYIIGELHPDDRSKIAKPSETLITTVESNSSWWTNWVIPAISA

LVVALMYRLYMAED

>sp|P00174|CYB5_CHICK Cytochrome b5 OS=Gallus gallus GN=CYB5A PE=1 SV=4

MVGSSEAGGEAWRGRYYRLEEVQKHNNSQSTWIIVHHRIYDITKFLDEHPGGEEVLREQA

GGDATENFEDVGHSTDARALSETFIIGELHPDDRPKLQKPAETLITTVQSNSSSWSNWVI

PAIAAIIVALMYRSYMSE