2 of 52

Біологічні бази даних

Біологічні бази даних – це архіви узгоджених даних, що зберігаються у єдиній формі.

Ці бази містять дані широкого спектру різних областей молекулярної біології

Дуже важливо, що вони, як правило, доступні через інтернет та оснащені інтуїтивно зрозумілим інтерфейсом для пошуку інформації.

Біологічні бази даних

3 of 52

Всеосяжні бази даних

Організмоспецифічні

Молекулярноспецифічні

Додаткові бази даних

Типи баз даних

4 of 52

Бібліографічні (MEDLINE)

Таксономічні

Нуклеотидні

Геномні

Microarray Databases

Білкові

«Вторинні» бази

Просторові структури макромолекул

Типи баз даних

5 of 52

Первинні або архівні бази даних містять анотовані первинні структури ДНК та білків, просторові структури нуклеїнових кислот та білків, а також protein expression profiles –профілі експресії генів білків клітин.
Вторинні (derived) бази даних містять результати аналізів первинних джерел, включаючи інформацію про специфічні мотиви в послідовності (sequence patterns and motifs),варіантах та мутаціях, а також еволюційних зв'язках. До цих же баз даних можна зарахувати інші бібліографічні бази даних, такі як Medline та PubMed

Типи баз даних

6 of 52

http://www.ncbi.nlm.nih.gov/Taxonomy/ - сама популярна база даних.

Розташована у NCBI. Ієрархічна та заснована на нуклеотидних послідовностях генів. Ціль – централізувати класифікацію всіх організмів, представлених у основі хоча б однієї послідовністю гена чи білка.

Може бути використана для визначення положення досліджуваного організму в ієрархії або для отримання послідовностей генів організму чи групи організмів.

Таксономічні бази даних

7 of 52

The Tree of Life project

http://tolweb.org/tree/phylogeny.html

Species 2000 http://www.sp2000.org/
Integrated Taxonomic Information System

http://www.itis.usda.gov/itis/ (зараз не піддтримується)

Таксономічна база даних

8 of 52

OMIM – On-line Mendelian Inheritance in Man.

Найбільша база даних з людських генів та генетичних захворювань, створив базу лікар МакКасік (Victor A. McKusick) з колегами в центрі медичної генетики (Johns Hopkins University, Baltimore, USA), NCBI підтримує наповнення та оновлення бази. Містить загальні огляди по захворюванням та конкретним генам, а також посилання на бази даних ENTREZ.

Адреса: http://www.ncbi.nlm.nih.gov/omim/

OMIM база даних

10 of 52

EMBL-Bank at the European Bioinformatics Institute

(EBI) http://www.ebi.ac.uk/embl/index.html

The DNA Data Bank of Japan (DDBJ) at the Center for Information Biology (CIB)

http://www.ddbj.nig.ac.jp/

GenBank at the National Center for Biotechnology

Information (NCBI)

http://www.ncbi.nlm.nih.gov/Genbank/

Нуклеотидні бази даних

11 of 52

GenBank – база даних генетичних послідовностей, підтримується NIH (Національний Інститут Здоров'я США), анотована база відомих послідовностей ДНК, РНК та білків, з літературними посиланнями на джерела та інформацією біологічного характеру. Оновлюється кожні два місяці. Є частиною International Nucleotide Sequence Database Collaboration, яка поєднує три найбільші колекції нуклеотидних послідовностей: DDBJ (NIG), EMBL (EBI) та GenBank (NCBI). Три організації здійснюють поділ праці та щодня обмінюються новою інформацією. Більшість журналів вимагають попередньої надсилання послідовностей у будь-яку з цих трьох баз даних до опублікування статтею про них. У статтях, присвячених черговій порції секвенованих послідовностей, має згадуватися лише номер послідовності у базі даних. NCBI постійно вдосконалює та створює нові засоби для розміщення нових послідовностей у базу, засоби ефективного пошуку у базі.

13 of 52

GenBank: відкрита база даних нуклеотидних та амінокислотних послідовностей

Джерела інформації:

Пряме подання від дослідників.
Література
Центри досліджень послідовностей (Sanger, TIgr)
Обмін із іншими базами (swiss-prot, PDB).

NCBI - GenBank

14 of 52

GenBank поділений на підбази:

Organism specific (Human, Bacteria, etc).�

Molecule specific (DNA, RNA, protein).�
Sequence specific (Genome, mRNA, ESTs etc).

NCBI - GenBank

15 of 52

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

Genomes

Taxonomy

Structure

Domains

Exp’ profiles

16 of 52

EMBL – EMBL Nucleotide Sequence Database. База даних нуклеотидних послідовностей Європейської Молекулярно-Біологічної Лабораторії поповнюється переважно безпосередньо авторами, визначили первинну структуру фрагмента ДНК чи РНК і, крім послідовності нуклеотидів, містить різноманітну інформацію про кожному фрагменті, включаючи літературні посилання, перехресні посилання документи інших баз даних, таблиці особливостей та інших. Існує з 1982 року. База даних – продукт співпраці EMBL (ФРН), GenBank (США) та DDJP (Японія), кожна з цих груп збирає свою порцію інформації з усіх можливих світових джерел, щодня обмінюючись новими та оновленими документами один із одним. Зручна своєю географічною близькістю для доступу на території Європи

19 of 52

Protein Sequence Databases

Nucleotide sequence databases
GenBank	http://www.ncbi.nlm.nih.gov/Entrez
EMBL	http://www.ebi.ac.uk
DDBJ	http://www.ddbj.nig.ac.jp

GenPept	http://www.ncbi.nlm.nih.gov/entrez
SWISS-PROT	http://www.expasy.org/sprot
ENZYME	http://www.expasy.org/enzyme
TrEMBL	http://www.expasy.org/sprot
PIR	http://pir.georgetown.edu
MIPS	http://mips.gsf.de/proj/protseqdb
PRF	http://www.prf.or.jp/en

20 of 52

SWISS-PROT|UniProt – the protein sequence data bank.

База даних містить анотовані амінокислотні послідовності, що транслюються з нуклеотидних послідовностей EMBL; адаптовані послідовності з PIR; а також послідовності, опубліковані в літературі та надіслані безпосередньо самими авторами. Містить високоякісні надмірні інструкції, перехресні посилання інші споріднені бази даних (EMBL, Prosite, PDB). Кожна інструкція містить опис функції білка, його доменної структури, особливостей посттрансляційної модифікації, різні варіанти. Є неанотований додаток (TrEMBL). Виходить Женевським університетом (Department of Medical Biochemistry of the University of Geneva) та EMBL (EBI). Для академічних користувачів – безкоштовна.

22 of 52

trEMBL – EMBL protein-coding DNA sequence features translated into peptide sequences.

База даних, створена автоматично, є додатком до SWISS-PROT. Містить амінокислотні послідовності, трансльовані програмно з кодуючих нуклеотидних ділянок, взятих з бази даних EMBL.

23 of 52

Motif and Domain Databases

PROSITE	http://www.expasy.org/prosite
BLOCKS	http://blocks.fhcrc.org
Pfam	http://www.sanger.ac.uk/Software/Pfam
	http://pfam.wustl.edu
	http://www.cgr.ki.se/Pfam
	http://pfam.jouy.inra.fr
SMART	http://smart.embl-heidelberg.de
ProDom	http://www.toulouse.inra.fr/prodom.html
COGs	http://www.ncbi.nlm.nih.gov/COG
InterPro	http://www.ebi.ac.uk/interpro
CDD	http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

24 of 52

Structure Databases

PDB	http://www.rcsb.org/pdb
	http://rutgers.rcsb.org/pdb
	http://nist.rcsb.org/pdb
MMDB	http://www.ncbi.nlm.nih.gov/Structure
FSSP	http://www.bioinfo.biocenter.helsinki.fi:8080/dali/index.html
SCOP	http://scop.mrc-lmb.cam.ac.uk/scop
	http://scop.berkeley.edu
CATH	http://www.biochem.ucl.ac.uk/bsm/cath_new

26 of 52

Головна база даних 3D структур білків
Включає близько 23 000 білкових структур.
Білки організовані групи, сімейства тощо.
Має близько 5600 точних структур.

PDB – Protein Data Bank

27 of 52

General Genomics Databases

NCBI Genomes	http://www.ncbi.nlm.nih.gov/Genomes
NCBI FTP site	ftp://ftp.ncbi.nih.gov/genbank/genomes/
DDBJ GIB	http://gib.genes.nig.ac.jp
EBI Genomes	http://www.ebi.ac.uk/genomes
TIGR	http://www.tigr.org/tdb/mdb/mdbinprogress.html
GOLD	http://wit.integratedgenomics.com/GOLD

29 of 52

Organism-specific Databases

Escherichia coli
E. coli genome	http://www.genome.wisc.edu
Essential genes	http://www.genome.wisc.edu/resources/essential.htm
GenoBase	http://ecoli.aist-nara.ac.jp/
PEC	http://shigen.lab.nig.ac.jp/ecoli/pec
EcoGene	http://bmb.med.miami.edu/EcoGene/EcoWeb/
E. coli index	http://web.bham.ac.uk/bcm4ght6
CGSC	http://cgsc.biology.yale.edu
EcoCyc	http://ecocyc.org
RegulonDB	http://www.cifn.unam.mx/Computational_Genomics/regulondb/
Colibri	http://genolist.pasteur.fr/Colibri/

Bacillus subtilis
Subtilist	http://genolist.pasteur.fr/SubtiList/
Micado	http://locus.jouy.inra.fr
Sporulation	http://www.rhul.ac.uk/Biological-Sciences/cutting/

30 of 52

Saccharomyces cerevisiae
SGD	http://genome-www.stanford.edu/Saccharomyces
MIPS	http://mips.gsf.de/proj/yeast
YPD	http://www.proteome.com/databases
TRIPLES	http://ygac.med.yale.edu
MitoPD	http://bmerc-www.bu.edu/mito
Genome Deletion Project	http://www-sequence.stanford.edu/group/yeast_deletion_project/deletions3.html
Saccharomyces Promoter Database	http://cgsigma.cshl.org/jian

31 of 52

Drosophila melanogaster
FlyBase	http://flybase.bio.indiana.edu/
GadFly	http://www.fruitfly.org
FlyBrain	http://flybrain.neurobio.arizona.edu
InterActive Fly	http://sdb.bio.purdue.edu/fly/aimain/1aahome.htm
Drosophila gene expression	http://flytrap.med.yale.edu
Drosophila Community Portal	http://biol.net/Drosophila.htm

32 of 52

Specialized Genomics Databases

COGs	http://www.ncbi.nlm.nih.gov/COG
KEGG	http://www.genome.ad.jp/kegg
TIGR	http://www.tigr.org/tdb
WIT	http://www-wit.mcs.anl.gov/wit3/
ERGO	http://ergo.integratedgenomics.com/ERGO
MBGD	http://mbgd.genome.ad.jp
PEDANT	http://pedant.gsf.de

33 of 52

HGMD – Human Gene Mutation Database.

Містить інформацію про всі опубліковані ушкодження генів, що призводять до спадкових захворюванням у людини. Документи бази анотують усі гени, що у ядрі. Гени мітохондріального геному та соматичні мутації виключені. Мутації, виявлені лише на рівні білкового сиквенса, не входять у основу щоб уникнути помилок через відсутність аналізу лише на рівні ДНК. Мовчазні мутації, які призводять до зміни амінокислотної послідовності теж виключені. З березня 1999 включені дані про поліморфізм, пов'язаний з хворобами. Дані беруться з тих самих журналів, як і дані про мутації (>250). Супроводжується Інститутом медичної генетики(University of Wales, Cardiff, UK).

34 of 52

KEGG – Kyoto Encyclopedia of Genes and Genomes.

Спроба комп'ютеризувати все сучасне знання молекулярної та клітинної біології в термінах інформаційних шляхів. Це основа знань з систематичного аналізу функцій генів. Створюється інститутом хімічних досліджень (Kyoto University, Japan) у рамках японської програми з геному людини. Містить 6 баз даних – метаболічних шляхів (PATHWAY), генів (GENES) та лігандів (LIGAND), експериментальних даних експресії генів (EXPRESSION і BRITE), білків (SSDB) та великі можливості для роботи з усіма великими світовими інформаційними ресурсами. Бази даних KEGG представляють дані у вигляді графічних діаграм, що включають більшість метаболічних шляхів та деякі з найвідоміших регуляторних шляхів. Крім того, інформація про шляхи наведена у вигляді таблиць ортологів, які містять як гени-ортологи, так і паралоги з різних організмів. Оновлюються бази щоденно.

35 of 52

UniGene.

База даних містить кластери схожих послідовностей. Кожен кластер представляє один ген і містить попутну інформацію, наприклад назву тканини, де цей ген експресований. Крім добре відомих генів у базу даних включені сотні тисяч нових кінців послідовностей, що експресуються (EST – expressed sequence tags). Служить пошуку генів у нових послідовностях, і навіть визначення реагентів при секвенировании генів та його експресії. Кластеризація здійснюється автоматично.

36 of 52

ENSEMBL

Ensembl – спільний проект EMBL – EBI та Sanger Centre з метою створення програмної системи для автоматичної анотації еукаріотичних геномів. Здійснює (безкоштовно) такі можливості: пошук ДНК з людського геному, огляд хромосом, пошук білків та білкових сімейств. Проект Ensembl прагне забезпечувати відповідність наступним критеріям: точний, автоматичний аналіз даних геному; аналіз та анотації засновані на поточних, своєчасно оновлюваних даних; доступність даних для всіх через мережу Інтернет; надання даним іншим лабораторіям по біоінформатики. Основний акцент у базі даних Ensembl зроблено на хребетних геномах, але інші групи адаптували систему для використання з рослинними та грибковими геномами.

37 of 52

Біологічні бази даних зростали останні 20 років:

Надмірність: множинні записи.

Неправильні послідовності та записи.

Відкритість (дані додаються користувачами):

Зміни вносяться власниками записів.

Старі послідовності.

Неправильні послідовності.

Неповні інструкції.

Проблеми

39 of 52

GenBank, база данных последовательностей NCBI.

В 1982 году:

700,000 bp,

700 последовательностей.

В 2002 году :

29,000,000,000

22,000,000 последовательностей

В 2009 году:

145,959,997,864 bp

49,063,546 последовательностей

В 2015 году:

189232925 проаннотированных локусов,

20393911071 оснований входящих в состав

189232925 описанных секвенированных

геномов

Пример GenBank

42 of 52

Параллельная GenBank база данных.

EMBL

43 of 52

Swiss prot

База данных белков:

Очень хорошо аннотированная.
Отсутствует избыточность.
Имеются перекрёстные ссылки.
ID для нескольких связанных файлов белков

44 of 52

Организмоориентированные базы

45 of 52

Молекулоспецифические базы

Базы данных, ориентированные на группы молекул

GtRDB: The Genomic tRNA Database

46 of 52

NCBI - Entrez

Entrez - поисковая машина для баз NCBI.

Поиск начинается с выбора адекватной области для поикса (Nucleotide, белки).

Можно использовать определители полей, логические операторы, условия и т.д.

47 of 52

NCBI - Entrez

Ограничения:

48 of 52

Исталлирована на множестве серверов.
Имеет связи со многими базами данных.
Предоставляет множество инструментов и служб для анализа.
Позволяет сохранить результаты работы и анализа и продолжить работу локально.

SRS (Sequence Retrieval System).

49 of 52

SRS

Рабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

1 of 52

2 of 52

3 of 52

4 of 52

5 of 52

6 of 52

7 of 52

8 of 52

9 of 52

10 of 52

11 of 52

12 of 52

13 of 52

14 of 52

15 of 52

16 of 52

17 of 52

18 of 52

19 of 52

20 of 52

21 of 52

22 of 52

23 of 52

24 of 52

25 of 52

26 of 52

27 of 52

28 of 52

29 of 52

30 of 52

31 of 52

32 of 52

33 of 52

34 of 52

35 of 52

36 of 52

37 of 52

38 of 52

39 of 52

40 of 52

41 of 52

42 of 52

43 of 52

44 of 52

45 of 52

46 of 52

47 of 52

48 of 52

49 of 52

50 of 52

51 of 52

52 of 52