1 of 52

Джерела інформації та бази даних в Інтернеті

2 of 52

Біологічні бази даних

Біологічні бази даних – це архіви узгоджених даних, що зберігаються у єдиній формі.

Ці бази містять дані широкого спектру різних областей молекулярної біології

Дуже важливо, що вони, як правило, доступні через інтернет та оснащені інтуїтивно зрозумілим інтерфейсом для пошуку інформації.

Біологічні бази даних

3 of 52

  • Всеосяжні бази даних

  • Організмоспецифічні

  • Молекулярноспецифічні

  • Додаткові бази даних

Типи баз даних

4 of 52

  • Бібліографічні (MEDLINE)

  • Таксономічні

  • Нуклеотидні

  • Геномні

  • Microarray Databases

  • Білкові

  • «Вторинні» бази

  • Просторові структури макромолекул

Типи баз даних

5 of 52

  • Первинні або архівні бази даних містять анотовані первинні структури ДНК та білків, просторові структури нуклеїнових кислот та білків, а також protein expression profiles –профілі експресії генів білків клітин.
  • Вторинні (derived) бази даних містять результати аналізів первинних джерел, включаючи інформацію про специфічні мотиви в послідовності (sequence patterns and motifs),варіантах та мутаціях, а також еволюційних зв'язках. До цих же баз даних можна зарахувати інші бібліографічні бази даних, такі як Medline та PubMed

Типи баз даних

6 of 52

  • http://www.ncbi.nlm.nih.gov/Taxonomy/ - сама популярна база даних.

Розташована у NCBI. Ієрархічна та заснована на нуклеотидних послідовностях генів. Ціль – централізувати класифікацію всіх організмів, представлених у основі хоча б однієї послідовністю гена чи білка.

Може бути використана для визначення положення досліджуваного організму в ієрархії або для отримання послідовностей генів організму чи групи організмів.

Таксономічні бази даних

7 of 52

  • The Tree of Life project

http://tolweb.org/tree/phylogeny.html

  • Species 2000 http://www.sp2000.org/
  • Integrated Taxonomic Information System

http://www.itis.usda.gov/itis/ (зараз не піддтримується)

Таксономічна база даних

8 of 52

OMIM – On-line Mendelian Inheritance in Man.

Найбільша база даних з людських генів та генетичних захворювань, створив базу лікар МакКасік (Victor A. McKusick) з колегами в центрі медичної генетики (Johns Hopkins University, Baltimore, USA), NCBI підтримує наповнення та оновлення бази. Містить загальні огляди по захворюванням та конкретним генам, а також посилання на бази даних ENTREZ.

Адреса: http://www.ncbi.nlm.nih.gov/omim/

OMIM база даних

9 of 52

10 of 52

  • EMBL-Bank at the European Bioinformatics Institute

(EBI) http://www.ebi.ac.uk/embl/index.html

  • The DNA Data Bank of Japan (DDBJ) at the Center for Information Biology (CIB)

http://www.ddbj.nig.ac.jp/

  • GenBank at the National Center for Biotechnology

Information (NCBI)

http://www.ncbi.nlm.nih.gov/Genbank/

Нуклеотидні бази даних

11 of 52

GenBank – база даних генетичних послідовностей, підтримується NIH (Національний Інститут Здоров'я США), анотована база відомих послідовностей ДНК, РНК та білків, з літературними посиланнями на джерела та інформацією біологічного характеру. Оновлюється кожні два місяці. Є частиною International Nucleotide Sequence Database Collaboration, яка поєднує три найбільші колекції нуклеотидних послідовностей: DDBJ (NIG), EMBL (EBI) та GenBank (NCBI). Три організації здійснюють поділ праці та щодня обмінюються новою інформацією. Більшість журналів вимагають попередньої надсилання послідовностей у будь-яку з цих трьох баз даних до опублікування статтею про них. У статтях, присвячених черговій порції секвенованих послідовностей, має згадуватися лише номер послідовності у базі даних. NCBI постійно вдосконалює та створює нові засоби для розміщення нових послідовностей у базу, засоби ефективного пошуку у базі.

12 of 52

13 of 52

GenBank: відкрита база даних нуклеотидних та амінокислотних послідовностей

Джерела інформації:

  • Пряме подання від дослідників.
  • Література
  • Центри досліджень послідовностей (Sanger, TIgr)
  • Обмін із іншими базами (swiss-prot, PDB).

NCBI - GenBank

14 of 52

GenBank поділений на підбази:

  • Organism specific (Human, Bacteria, etc).�
    • Molecule specific (DNA, RNA, protein).�
    • Sequence specific (Genome, mRNA, ESTs etc).

NCBI - GenBank

15 of 52

NCBI (National center for biotechnology information)

NCBI

PubMed

Books

OMIM

Nucleotides

Proteins

Genomes

Taxonomy

Structure

Domains

Exp’ profiles

16 of 52

EMBL – EMBL Nucleotide Sequence Database. База даних нуклеотидних послідовностей Європейської Молекулярно-Біологічної Лабораторії поповнюється переважно безпосередньо авторами, визначили первинну структуру фрагмента ДНК чи РНК і, крім послідовності нуклеотидів, містить різноманітну інформацію про кожному фрагменті, включаючи літературні посилання, перехресні посилання документи інших баз даних, таблиці особливостей та інших. Існує з 1982 року. База даних – продукт співпраці EMBL (ФРН), GenBank (США) та DDJP (Японія), кожна з цих груп збирає свою порцію інформації з усіх можливих світових джерел, щодня обмінюючись новими та оновленими документами один із одним. Зручна своєю географічною близькістю для доступу на території Європи

17 of 52

18 of 52

19 of 52

Protein Sequence Databases

Nucleotide sequence databases

GenBank

EMBL

DDBJ

GenPept

SWISS-PROT

ENZYME

TrEMBL

PIR

MIPS

PRF

20 of 52

SWISS-PROT|UniProt – the protein sequence data bank.

База даних містить анотовані амінокислотні послідовності, що транслюються з нуклеотидних послідовностей EMBL; адаптовані послідовності з PIR; а також послідовності, опубліковані в літературі та надіслані безпосередньо самими авторами. Містить високоякісні надмірні інструкції, перехресні посилання інші споріднені бази даних (EMBL, Prosite, PDB). Кожна інструкція містить опис функції білка, його доменної структури, особливостей посттрансляційної модифікації, різні варіанти. Є неанотований додаток (TrEMBL). Виходить Женевським університетом (Department of Medical Biochemistry of the University of Geneva) та EMBL (EBI). Для академічних користувачів – безкоштовна.

21 of 52

22 of 52

trEMBL – EMBL protein-coding DNA sequence features translated into peptide sequences.

База даних, створена автоматично, є додатком до SWISS-PROT. Містить амінокислотні послідовності, трансльовані програмно з кодуючих нуклеотидних ділянок, взятих з бази даних EMBL.

23 of 52

Motif and Domain Databases

PROSITE

BLOCKS

Pfam

SMART

ProDom

COGs

InterPro

CDD

24 of 52

Structure Databases

PDB

MMDB

FSSP

SCOP

CATH

25 of 52

26 of 52

  • Головна база даних 3D структур білків
  • Включає близько 23 000 білкових структур.
  • Білки організовані групи, сімейства тощо.
  • Має близько 5600 точних структур.

PDB – Protein Data Bank

27 of 52

General Genomics Databases

NCBI Genomes

NCBI FTP site

DDBJ GIB

EBI Genomes

TIGR

GOLD

28 of 52

29 of 52

Organism-specific Databases

Escherichia coli

E. coli genome

Essential genes

GenoBase

PEC

EcoGene

E. coli index

CGSC

EcoCyc

RegulonDB

Colibri

Bacillus subtilis

Subtilist

Micado

Sporulation

30 of 52

Saccharomyces cerevisiae

SGD

MIPS

YPD

http://www.proteome.com/databases

TRIPLES

http://ygac.med.yale.edu

MitoPD

http://bmerc-www.bu.edu/mito

Genome Deletion Project

http://www-sequence.stanford.edu/group/yeast_deletion_project/deletions3.html

Saccharomyces Promoter Database

http://cgsigma.cshl.org/jian

31 of 52

Drosophila melanogaster

FlyBase

http://flybase.bio.indiana.edu/

GadFly

http://www.fruitfly.org

FlyBrain

http://flybrain.neurobio.arizona.edu

InterActive Fly

http://sdb.bio.purdue.edu/fly/aimain/1aahome.htm

Drosophila gene expression

http://flytrap.med.yale.edu

Drosophila Community Portal

http://biol.net/Drosophila.htm

32 of 52

Specialized Genomics Databases

COGs

http://www.ncbi.nlm.nih.gov/COG

KEGG

http://www.genome.ad.jp/kegg

TIGR

http://www.tigr.org/tdb

WIT

http://www-wit.mcs.anl.gov/wit3/

ERGO

http://ergo.integratedgenomics.com/ERGO

MBGD

http://mbgd.genome.ad.jp

PEDANT

http://pedant.gsf.de

33 of 52

HGMD – Human Gene Mutation Database.

Містить інформацію про всі опубліковані ушкодження генів, що призводять до спадкових захворюванням у людини. Документи бази анотують усі гени, що у ядрі. Гени мітохондріального геному та соматичні мутації виключені. Мутації, виявлені лише на рівні білкового сиквенса, не входять у основу щоб уникнути помилок через відсутність аналізу лише на рівні ДНК. Мовчазні мутації, які призводять до зміни амінокислотної послідовності теж виключені. З березня 1999 включені дані про поліморфізм, пов'язаний з хворобами. Дані беруться з тих самих журналів, як і дані про мутації (>250). Супроводжується Інститутом медичної генетики(University of Wales, Cardiff, UK).

34 of 52

KEGG – Kyoto Encyclopedia of Genes and Genomes.

Спроба комп'ютеризувати все сучасне знання молекулярної та клітинної біології в термінах інформаційних шляхів. Це основа знань з систематичного аналізу функцій генів. Створюється інститутом хімічних досліджень (Kyoto University, Japan) у рамках японської програми з геному людини. Містить 6 баз даних – метаболічних шляхів (PATHWAY), генів (GENES) та лігандів (LIGAND), експериментальних даних експресії генів (EXPRESSION і BRITE), білків (SSDB) та великі можливості для роботи з усіма великими світовими інформаційними ресурсами. Бази даних KEGG представляють дані у вигляді графічних діаграм, що включають більшість метаболічних шляхів та деякі з найвідоміших регуляторних шляхів. Крім того, інформація про шляхи наведена ​​у вигляді таблиць ортологів, які містять як гени-ортологи, так і паралоги з різних організмів. Оновлюються бази щоденно.

35 of 52

UniGene.

База даних містить кластери схожих послідовностей. Кожен кластер представляє один ген і містить попутну інформацію, наприклад назву тканини, де цей ген експресований. Крім добре відомих генів у базу даних включені сотні тисяч нових кінців послідовностей, що експресуються (EST – expressed sequence tags). Служить пошуку генів у нових послідовностях, і навіть визначення реагентів при секвенировании генів та його експресії. Кластеризація здійснюється автоматично.

36 of 52

ENSEMBL

Ensembl – спільний проект EMBL – EBI та Sanger Centre з метою створення програмної системи для автоматичної анотації еукаріотичних геномів. Здійснює (безкоштовно) такі можливості: пошук ДНК з людського геному, огляд хромосом, пошук білків та білкових сімейств. Проект Ensembl прагне забезпечувати відповідність наступним критеріям: точний, автоматичний аналіз даних геному; аналіз та анотації засновані на поточних, своєчасно оновлюваних даних; доступність даних для всіх через мережу Інтернет; надання даним іншим лабораторіям по біоінформатики. Основний акцент у базі даних Ensembl зроблено на хребетних геномах, але інші групи адаптували систему для використання з рослинними та грибковими геномами.

37 of 52

  • Біологічні бази даних зростали останні 20 років:

Надмірність: множинні записи.

Неправильні послідовності та записи.

  • Відкритість (дані додаються користувачами):

Зміни вносяться власниками записів.

Старі послідовності.

Неправильні послідовності.

Неповні інструкції.

Проблеми

38 of 52

39 of 52

GenBank, база данных последовательностей NCBI.

В 1982 году:

700,000 bp,

700 последовательностей.

В 2002 году :

29,000,000,000

22,000,000 последовательностей

В 2009 году:

145,959,997,864 bp

49,063,546 последовательностей

В 2015 году:

189232925 проаннотированных локусов,

20393911071 оснований входящих в состав

189232925 описанных секвенированных

геномов

Пример GenBank

40 of 52

41 of 52

42 of 52

Параллельная GenBank база данных.

EMBL

43 of 52

Swiss prot

База данных белков:

  1. Очень хорошо аннотированная.
  2. Отсутствует избыточность.
  3. Имеются перекрёстные ссылки.
  4. ID для нескольких связанных файлов белков

44 of 52

Организмоориентированные базы

45 of 52

Молекулоспецифические базы

  • Базы данных, ориентированные на группы молекул

GtRDB: The Genomic tRNA Database

46 of 52

NCBI - Entrez

  • Entrez - поисковая машина для баз NCBI.

  • Поиск начинается с выбора адекватной области для поикса (Nucleotide, белки).

  • Можно использовать определители полей, логические операторы, условия и т.д.

47 of 52

NCBI - Entrez

Ограничения:

48 of 52

  • Исталлирована на множестве серверов.
  • Имеет связи со многими базами данных.
  • Предоставляет множество инструментов и служб для анализа.
  • Позволяет сохранить результаты работы и анализа и продолжить работу локально.

SRS (Sequence Retrieval System).

49 of 52

SRS

Рабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

50 of 52

51 of 52

52 of 52