PHASTEST
Бактеріофаги, також відомі як фаги, є найпоширенішими біологічними
утвореннями на Землі.
Фаги - це віруси, які специфічно інфікують бактеріальні клітини та розмножуються в них. Вони, як правило, поділяються на дві категорії: літичні фаги та помірні фаги.
Літичні фаги, такі як Т4, інфікують і розмножуються всередині бактерій, що призводить до остаточного лізису (і смерті) інфікованої бактерії. Помірні фаги, такі як фаг лямбда, не завжди негайно лізують інфіковану клітину. Після зараження більшість фагів проходять через літичний цикл, тоді як невелика частина піддається лізогенезу. Лізогенія передбачає стабільну інтеграцію генома фага в хромосому бактерії-господоря або стабільне утворення позахромосомної плазміди всередині бактерії. Ці інтегровані фаги називаються ендогенними фагами або профагами.
Профаги можуть залишатися вбудованими в геном через численні
клітинні поділи до активації зовнішнім фактором, який призводить до виробництва нових фагових частинок, викликаючи лізис клітини. У деяких випадках профаги можуть назавжди вбудовуватися в бактеріальний геном і називаються криптичними профагами.
Ці таємничі фаги скалічені і не можуть пройти через літичний цикл. Ймовірно, численні цикли реплікації в бактеріальному геномі спричинили інактивацію або видалення генів літичного циклу. Однак присутність криптичного профага в бактеріальному геномі дозволяє бактерії уникнути лізису клітини або повторного зараження тим самим фагом, оскільки гени імунітету можуть бути неушкодженими. Криптичні профаги також можуть надати клітині ряд інших селективних переваг, таких як стійкість до антибіотиків, підвищена вірулентність або підвищена метаболічна здатність виживати в суворих умовах .
У багатьох випадках криптичні профаги функціонують як генетичний «резерв» для майбутніх еволюційних змін бактерії-господаря. Ці фаги можуть становити до 20% генетичного матеріалу в деяких бактеріальних геномах
Той факт, що фаги та профаги настільки рясні та відіграють таку важливу
роль в бактеріальній еволюції та патології, призвів до підвищеного
інтересу до ідентифікації та анотування профагових послідовностей у бактеріальних геномах.
Деякі з програм пошуку фагів містять так звані «традиційні» інструменти пошуку фагів, такі як Phage_Finder, Prophage Finder і Prophinder. Ці інструменти використовують порівняння послідовностей (з відомими генами фагів і бактерій), прогнозування тРНК і динуклеотидний аналіз, а також виявлення місць прикріплення за допомогою різних методів зіставлення шаблонів. Нещодавно з’явилася низка інструментів для пошуку фагів «нового покоління», які використовують більш просунуті методи машинного або глибокого навчання. До них належать Prophage Hunter, PPR-Meta і DeepVirFinder, які використовують нейронні мережі для ідентифікації фагів.
PHASTEST (PHAge Search Tool with Enhanced Sequence Translation), є наступником попередніх членів сімейства серверів профагів PHAST.
PHASTEST — це веб-сервер, розроблений для підтримки швидкої ідентифікації, анотації та візуалізації послідовностей профагів у бактеріальних геномах і плазмідах. PHASTEST не тільки пропонує швидші та точніші анотації профагів, ніж його попередники, він також надає повніші анотації всього геному та значно покращені можливості візуалізації геному. Ці вдосконалення в здатності PHASTEST анотувати бактеріальні геноми тепер роблять його особливо потужним інструментом для анотації всього геному.
Пошук профагів є обчислювально інтенсивним завданням, яке вимагає
точної ідентифікації ORF, а також великомасштабних порівнянь і
вирівнювання послідовностей (білок або РНК).
Попередні версії сімейства PHAST шукачів профагів використовували GLIMMER для початкової ідентифікації ORF і фази трансляції білка. У PHASTEST замінили GLIMMER на Prodigal. Порівняння між GLIMMER і Prodigal показало, що Prodigal не тільки мав набагато нижчий хибнопозитивний і нижчий хибнонегативний рівень ідентифікації ORF, він також був швидшим, ніж GLIMMER.
PHASTEST має розширений конвеєр PHASTER для вирівнювання послідовностей білків для покращення швидкості, точності та взаємодії з користувачем. PHASTEST підтримує використання BLAST + із локально керованою базою даних із 420 000 фагових білків для вирівнювання послідовності фагів, але замінив BLAST+ на Diamond BLAST для швидшого вирівнювання бактеріальної послідовності. Для неанотованих вхідних даних послідовності FASTA PHASTEST виконує двоетапний процес анотації, починаючи з вирівнювання послідовності фагів, а потім – вирівнювання послідовності бактерій.
Для вхідних даних GenBank, якщо запит включає набір попередньо анотованих областей CDS, виконується лише етап вирівнювання послідовності фагів. Якщо немає попередньо анотованих областей CDS, то виконується двоетапний процес анотації. Крім того, для користувачів, які надіслали номери доступу або послідовності FASTA, які вже були анотовані, PHASTEST отримає попередньо обчислені результати (якщо введено номер доступу) або результат вирівнювання послідовності (якщо введено послідовність FASTA) зі свого архіву PHASTEST попереднього анотованих геномів (PHAST-ARCHIVE) безпосередньо, дозволяючи користувачам взагалі обійти трудомісткий етап вирівнювання послідовностей. Ця опція доступна для пришвидшення процесу анотації та отримання результатів для попередньо анотованих геномів і послідовностей.
Крім того, у рамках свого нового фокусу на «розширеній трансляції послідовностей» PHASTEST тепер пропонує два режими анотації
бактеріальних послідовностей – «спрощений» режим анотації, який використовує базу даних Swiss-Prot з майже 600 000 послідовностями бактеріальних білків, і режим «глибокої» анотації, який використовує спеціальну базу даних бактеріальних послідовностей (PHAST-BSD), що містить понад 16 мільйонів послідовностей бактеріальних білків.
Інструкції
або файл послідовності ДНК FASTA. Якщо ви завантажуєте файл FASTA, що містить метагеномні контиги, потрібно позначити опцію прямо під кнопкою «Вибрати файл». Сервер обробить ваші метагеномні данні і поверне результати, що стосуються кожного контига.
Виберіть режим анотації для бактеріальних генів. Спрощений режим
використовує базу даних Swissprot (швидше), а глибокий режим
використовує базу даних PHAST-BSD (повільніше).
Зніміть прапорець «Використовувати попередньо обчислені результати»,
якщо ви бажаєте запустити завдання без отримання наявних результатів.
Ви також повинні перевірити «Мій вхід складається з кількох окремих контиґів (тільки у форматі FASTA)», якщо ваш вхід є мультифаста файлом.�
Натисніть кнопку «Надіслати». Ви можете будь-коли змінити статус
«Запам'ятати мене». Будь ласка, зверніть увагу, що ця опція потребує
файлів cookie, щоб зберігати інформацію про вашу заявку.�
Після завершення завантаження файлу буде показано наступну сторінку результатів. Ви можете завантажити зведення звіту, натиснувши посилання
для завантаження "summary.txt". Повний пакет результатів можна завантажити за посиланням «Завантажити результати» у верхній частині розділу результатів.
Ви можете переглянути таблицю результатів для окремих фагових регіонів, натиснувши вкладку «Фагові гени». Результати, позначені кольором,
виділяють різні фагові секції, і користувачі можуть вибрати/скасувати вибір потрібної області.
Ви можете переглянути таблицю бактеріальних результатів, натиснувши
вкладку «Бактеріальні гени». Знову ж таки, ви можете завантажити файл
details.tx
Ви можете переглянути детальні результати, клацнувши нашу останню
вкладку «Програма перегляду геномів 2.0». Це забезпечує графічне
(кругове та лінійне) подання анотованих областей. Результати, позначені
кольором, відображаються в області перегляду, і користувачі можуть перемикати вікно перегляду для різних параметрів. Ви можете натиснути на окремі передбачені гени або регіони, щоб переглянути їх деталі у форматі текстового файлу внизу. Клацання генів або регіонів у круговому переглядачі автоматично прокрутить униз до лінійного перегляду, який потім автоматично збільшить клацану область генома.
Перегляд генома за замовчуванням для PHASTEST є круговим переглядачем.
За допомогою цього кругового перегляду користувачі можуть легше та
інтерактивніше досліджувати свою послідовність запитів і переглядати всі
передбачені області фагів, усі передбачені фагові гени та всі передбачені бактеріальні гени. Це дозволяє користувачам легко побачити, як різні ділянки фагів розташовані одна відносно одної в усьому геномі (рис. 1 ). У нижньому лівому куті круглого зображення геному представлена зведена таблиця геному. Він містить інформацію про довжину послідовності геному, кількість знайдених фагових ділянок і загальну кількість знайдених генів. Користувачі можуть використовувати мишу або трекпад, щоб натиснути на певні регіони або певні гени, що автоматично прокрутить веб-сторінку вниз до «надрозширеного» лінійного переглядача (рис. 2 ).
Потім лінійний переглядач автоматично масштабується до вибраного регіону або гена. Текстова панель у нижній частині засобу перегляду лінійного геному відображає інформацію про вибрану функцію у стислому табличному форматі. Наприклад, якщо користувач клацне на передбачуваній ділянці фага, на текстовій панелі відобразиться назва передбачуваного фага, який, швидше за все, відповідає за цей конкретний кластер фагових генів, розташування області профага (початкова та кінцева позиції), довжина послідовності, вміст GC, рівень повноти та послідовність ДНК для цієї ділянки. І кругові, і лінійні засоби перегляду геному мають спливаючу картку, яка відкривається, коли користувач наводить курсор на будь-яку передбачувану область або ген (рис. 3 ). Користувачі також можуть вводити позиції генів у полі пошуку у верхньому лівому куті, щоб локалізувати та розширити перегляд. Якщо кілька назв генів збігаються, вони будуть виділені на карті геному іншим кольором, і користувач повинен вручну клацнути на виділеному гені, щоб розгорнути та переглянути його більш детально.
Карти геномів, представлені на глядачах, структуровані ідентично, за
винятком того, що одна є кільцевою, а друга – лінійною. У круговому
оглядачі є чотири доріжки зовні та три доріжки всередині «основи» геному, яка містить саму послідовність. Магістраль відображає послідовність ДНК, коли користувач достатньо збільшує масштаб (за допомогою колеса прокручування миші або трекпада). Дві крайні доріжки містять бактеріальні гени, позначені помаранчевим кольором і розділені напрямком ланцюга. Наступні дві доріжки містять передбачувані фагові гени, пофарбовані відповідно до нашої схеми анотацій, які також розділені напрямком ланцюга. Усі гени показані у вигляді прямокутних дуг зі стрілками, що вказують на їхню орієнтацію. Перша доріжка всередині магістралі містить передбачувані фагові ділянки, які представлені прямокутними дугами та позначені кольором відповідно до рівня повноти. Наступні дві доріжки ілюструють перекіс GC і вміст GC послідовності.
Вихідні данні
�PHASTEST створює чотири різні результати:
Критерії оцінки ділянок профага (як інтактних, сумнівних або неповних):
Метод 1: Якщо кількість певного фагового організму в цій таблиці (https://www.ncbi.nlm.nih.gov/genomes/GenomesGroup.cgi?taxid=10239&opt=Virus&sort=genome) більше або дорівнює 100% від загальної кількості CDS регіону, регіон позначається загальним балом 150. Якщо менше 100%, будуть використані методи 2 і 3 .
Метод 2:
Якщо кількість певного фагового організму в цій таблиці (https://www.ncbi.nlm.nih.gov/genomes/GenomesGroup.cgi?taxid=10239&opt=Virus&sort=genome) становить більше 50% від загальної кількості CDS регіону, цей фаговий організм вважається основним потенційним фагом для цього регіону; обчислюється відсоток загальної кількості фагового організму в цій таблиці (https://www.ncbi.nlm.nih.gov/genomes/GenomesGroup.cgi?taxid=10239&opt=Virus&sort=genome) в загальній кількості білків регіону, а потім множиться на 100; обчислюється відсоток довжини цього фагового організму в цій таблиці (https://www.ncbi.nlm.nih.gov/genomes/GenomesGroup.cgi?taxid=10239&opt=Virus&sort=genome) в довжині області, а потім множиться на 50 (враховується здатність головки фага до інкапсуляції)
Метод 3:
Якщо будь-яке з конкретних ключових слів, пов’язаних із фагом (таких як «капсид», «голова», «інтеграза», «пластина», «хвіст», «волокно», «шерсть», «транспозаза», «портал», «терміназа», ', 'протеаза' або 'лізин'), оцінка буде збільшена на 10 для кожного знайденого ключового слова.
Якщо розмір регіону перевищує 30 Кб, оцінка буде збільшена на 10.
Якщо в регіоні є не менше 40 білків, оцінка буде збільшена на 10.
Якщо всі пов’язані з фагом білки та гіпотетичні білки становлять понад 70% від загальної кількості білків у регіоні, оцінка буде збільшена на 10.
Порівнюючи загальний бал методу 2 із загальним балом методу 3, більший з них вибирається як загальний бал регіону.
Якщо загальний бал регіону менше 70, він позначається як неповний;
якщо від 70 до 90, позначається як сумнівний;
якщо більше 90, воно позначається як неушкоджений.