Джерела інформації та бази даних в Інтернеті
Біологічні бази даних
Біологічні бази даних – це архіви узгоджених даних, що зберігаються у єдиній формі.
Ці бази містять дані широкого спектру різних областей молекулярної біології
Дуже важливо, що вони, як правило, доступні через інтернет та оснащені інтуїтивно зрозумілим інтерфейсом для пошуку інформації.
Біологічні бази даних
Типи баз даних
Типи баз даних
Типи баз даних
Розташована у NCBI. Ієрархічна та заснована на нуклеотидних послідовностях генів. Ціль – централізувати класифікацію всіх організмів, представлених у основі хоча б однієї послідовністю гена чи білка.
Може бути використана для визначення положення досліджуваного організму в ієрархії або для отримання послідовностей генів організму чи групи організмів.
Таксономічні бази даних
http://tolweb.org/tree/phylogeny.html
http://www.itis.usda.gov/itis/ (зараз не піддтримується)
Таксономічна база даних
OMIM – On-line Mendelian Inheritance in Man.
Найбільша база даних з людських генів та генетичних захворювань, створив базу лікар МакКасік (Victor A. McKusick) з колегами в центрі медичної генетики (Johns Hopkins University, Baltimore, USA), NCBI підтримує наповнення та оновлення бази. Містить загальні огляди по захворюванням та конкретним генам, а також посилання на бази даних ENTREZ.
Адреса: http://www.ncbi.nlm.nih.gov/omim/
OMIM база даних
(EBI) http://www.ebi.ac.uk/embl/index.html
http://www.ddbj.nig.ac.jp/
Information (NCBI)
http://www.ncbi.nlm.nih.gov/Genbank/
Нуклеотидні бази даних
GenBank – база даних генетичних послідовностей, підтримується NIH (Національний Інститут Здоров'я США), анотована база відомих послідовностей ДНК, РНК та білків, з літературними посиланнями на джерела та інформацією біологічного характеру. Оновлюється кожні два місяці. Є частиною International Nucleotide Sequence Database Collaboration, яка поєднує три найбільші колекції нуклеотидних послідовностей: DDBJ (NIG), EMBL (EBI) та GenBank (NCBI). Три організації здійснюють поділ праці та щодня обмінюються новою інформацією. Більшість журналів вимагають попередньої надсилання послідовностей у будь-яку з цих трьох баз даних до опублікування статтею про них. У статтях, присвячених черговій порції секвенованих послідовностей, має згадуватися лише номер послідовності у базі даних. NCBI постійно вдосконалює та створює нові засоби для розміщення нових послідовностей у базу, засоби ефективного пошуку у базі.
GenBank: відкрита база даних нуклеотидних та амінокислотних послідовностей
Джерела інформації:
NCBI - GenBank
GenBank поділений на підбази:
NCBI - GenBank
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
Genomes
Taxonomy
Structure
Domains
Exp’ profiles
EMBL – EMBL Nucleotide Sequence Database. База даних нуклеотидних послідовностей Європейської Молекулярно-Біологічної Лабораторії поповнюється переважно безпосередньо авторами, визначили первинну структуру фрагмента ДНК чи РНК і, крім послідовності нуклеотидів, містить різноманітну інформацію про кожному фрагменті, включаючи літературні посилання, перехресні посилання документи інших баз даних, таблиці особливостей та інших. Існує з 1982 року. База даних – продукт співпраці EMBL (ФРН), GenBank (США) та DDJP (Японія), кожна з цих груп збирає свою порцію інформації з усіх можливих світових джерел, щодня обмінюючись новими та оновленими документами один із одним. Зручна своєю географічною близькістю для доступу на території Європи
Protein Sequence Databases
Nucleotide sequence databases | |
GenBank | |
EMBL | |
DDBJ | |
GenPept | |
SWISS-PROT | |
ENZYME | |
TrEMBL | |
PIR | |
MIPS | |
PRF |
SWISS-PROT|UniProt – the protein sequence data bank.
База даних містить анотовані амінокислотні послідовності, що транслюються з нуклеотидних послідовностей EMBL; адаптовані послідовності з PIR; а також послідовності, опубліковані в літературі та надіслані безпосередньо самими авторами. Містить високоякісні надмірні інструкції, перехресні посилання інші споріднені бази даних (EMBL, Prosite, PDB). Кожна інструкція містить опис функції білка, його доменної структури, особливостей посттрансляційної модифікації, різні варіанти. Є неанотований додаток (TrEMBL). Виходить Женевським університетом (Department of Medical Biochemistry of the University of Geneva) та EMBL (EBI). Для академічних користувачів – безкоштовна.
trEMBL – EMBL protein-coding DNA sequence features translated into peptide sequences.
База даних, створена автоматично, є додатком до SWISS-PROT. Містить амінокислотні послідовності, трансльовані програмно з кодуючих нуклеотидних ділянок, взятих з бази даних EMBL.
Motif and Domain Databases
PROSITE | |
BLOCKS | |
Pfam | |
| |
| |
| |
SMART | |
ProDom | |
COGs | |
InterPro | |
CDD |
Structure Databases
PDB | |
| |
| |
MMDB | |
FSSP | |
SCOP | |
| |
CATH |
PDB – Protein Data Bank
General Genomics Databases
NCBI Genomes | |
NCBI FTP site | |
DDBJ GIB | |
EBI Genomes | |
TIGR | |
GOLD |
Organism-specific Databases
Escherichia coli | |
E. coli genome | |
Essential genes | |
GenoBase | |
PEC | |
EcoGene | |
E. coli index | |
CGSC | |
EcoCyc | |
RegulonDB | |
Colibri | |
Bacillus subtilis | |
Subtilist | |
Micado | |
Sporulation | |
Saccharomyces cerevisiae | |
SGD | |
MIPS | |
YPD | http://www.proteome.com/databases |
TRIPLES | http://ygac.med.yale.edu |
MitoPD | http://bmerc-www.bu.edu/mito |
Genome Deletion Project | http://www-sequence.stanford.edu/group/yeast_deletion_project/deletions3.html |
Saccharomyces Promoter Database | http://cgsigma.cshl.org/jian |
Drosophila melanogaster | |
FlyBase | http://flybase.bio.indiana.edu/ |
GadFly | http://www.fruitfly.org |
FlyBrain | http://flybrain.neurobio.arizona.edu |
InterActive Fly | http://sdb.bio.purdue.edu/fly/aimain/1aahome.htm |
Drosophila gene expression | http://flytrap.med.yale.edu |
Drosophila Community Portal | http://biol.net/Drosophila.htm |
Specialized Genomics Databases
COGs | http://www.ncbi.nlm.nih.gov/COG |
KEGG | http://www.genome.ad.jp/kegg |
TIGR | http://www.tigr.org/tdb |
WIT | http://www-wit.mcs.anl.gov/wit3/ |
ERGO | http://ergo.integratedgenomics.com/ERGO |
MBGD | http://mbgd.genome.ad.jp |
PEDANT | http://pedant.gsf.de |
HGMD – Human Gene Mutation Database.
Містить інформацію про всі опубліковані ушкодження генів, що призводять до спадкових захворюванням у людини. Документи бази анотують усі гени, що у ядрі. Гени мітохондріального геному та соматичні мутації виключені. Мутації, виявлені лише на рівні білкового сиквенса, не входять у основу щоб уникнути помилок через відсутність аналізу лише на рівні ДНК. Мовчазні мутації, які призводять до зміни амінокислотної послідовності теж виключені. З березня 1999 включені дані про поліморфізм, пов'язаний з хворобами. Дані беруться з тих самих журналів, як і дані про мутації (>250). Супроводжується Інститутом медичної генетики(University of Wales, Cardiff, UK).
KEGG – Kyoto Encyclopedia of Genes and Genomes.
Спроба комп'ютеризувати все сучасне знання молекулярної та клітинної біології в термінах інформаційних шляхів. Це основа знань з систематичного аналізу функцій генів. Створюється інститутом хімічних досліджень (Kyoto University, Japan) у рамках японської програми з геному людини. Містить 6 баз даних – метаболічних шляхів (PATHWAY), генів (GENES) та лігандів (LIGAND), експериментальних даних експресії генів (EXPRESSION і BRITE), білків (SSDB) та великі можливості для роботи з усіма великими світовими інформаційними ресурсами. Бази даних KEGG представляють дані у вигляді графічних діаграм, що включають більшість метаболічних шляхів та деякі з найвідоміших регуляторних шляхів. Крім того, інформація про шляхи наведена у вигляді таблиць ортологів, які містять як гени-ортологи, так і паралоги з різних організмів. Оновлюються бази щоденно.
UniGene.
База даних містить кластери схожих послідовностей. Кожен кластер представляє один ген і містить попутну інформацію, наприклад назву тканини, де цей ген експресований. Крім добре відомих генів у базу даних включені сотні тисяч нових кінців послідовностей, що експресуються (EST – expressed sequence tags). Служить пошуку генів у нових послідовностях, і навіть визначення реагентів при секвенировании генів та його експресії. Кластеризація здійснюється автоматично.
ENSEMBL
Ensembl – спільний проект EMBL – EBI та Sanger Centre з метою створення програмної системи для автоматичної анотації еукаріотичних геномів. Здійснює (безкоштовно) такі можливості: пошук ДНК з людського геному, огляд хромосом, пошук білків та білкових сімейств. Проект Ensembl прагне забезпечувати відповідність наступним критеріям: точний, автоматичний аналіз даних геному; аналіз та анотації засновані на поточних, своєчасно оновлюваних даних; доступність даних для всіх через мережу Інтернет; надання даним іншим лабораторіям по біоінформатики. Основний акцент у базі даних Ensembl зроблено на хребетних геномах, але інші групи адаптували систему для використання з рослинними та грибковими геномами.
Надмірність: множинні записи.
Неправильні послідовності та записи.
Зміни вносяться власниками записів.
Старі послідовності.
Неправильні послідовності.
Неповні інструкції.
Проблеми
GenBank, база данных последовательностей NCBI.
В 1982 году:
700,000 bp,
700 последовательностей.
В 2002 году :
29,000,000,000
22,000,000 последовательностей
В 2009 году:
145,959,997,864 bp
49,063,546 последовательностей
В 2015 году:
189232925 проаннотированных локусов,
20393911071 оснований входящих в состав
189232925 описанных секвенированных
геномов
Пример GenBank
Параллельная GenBank база данных.
EMBL
Swiss prot
База данных белков:
Организмоориентированные базы
Молекулоспецифические базы
GtRDB: The Genomic tRNA Database
NCBI - Entrez
NCBI - Entrez
Ограничения:
SRS (Sequence Retrieval System).
SRS
Рабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов