1 of 85

Геном

Сергей Александрович Спирин

Институт физико-химической биологии им. А.Н.Белозерского МГУ, Москва

на основе лекции А.В.Алексеевского 2023 г.

МФК «Биоинформатика» �весна 2023

14 февраля 2024

2 of 85

Гено́м — совокупность наследственной информации о живом организме

2

3 of 85

Вопросы

  • Что такое информация? Есть такое определение:�ИНФОРМАЦИЯ — сведения независимо от формы их представления))) 1)�Теория информации, основанная Шенноном – математическая теория передачи данных2) – используется в биоинформатике, но слишком формализована и проста для объяснения биологических феноменов�
  • Какая информация закодирована в геноме? �
  • Сведения: от кого (отправитель)? кому (получатель)?

  • Как кодируется информация в геноме?

  • Как прочитать её людям и зачем?

3

1) Wikipedia со ссылкой на Р.М. Когаловского, �специалиста по информационным систем.�2) C.Shannon, “The Mathematical Theory of Communications” , 1948

4 of 85

Носители информации

  • Книги, электронные носители,�рисунки, песни, разговоры, обычаи
  • Носители наследственной информации �ДНК (и РНК)

4

5 of 85

ДНК — это молекула

A C G T

C N O P

В живой клетке ДНК — комплекс из двух молекул, каждая из которых — гетерополимер из мономеров четырёх типов: A, C, G, T

6 of 85

Химическая формула ДНК

6

A аденин

G гуанин

С цитозин

T тимин

5’-конец

3’-конец

= AGCT

7 of 85

Формула молекулы ДНК определяется последовательностью букв A, T, G, C

7

A аденин

G гуанин

С цитозин

T тимин

= AGCT

Как определить направление 5’→ 3’,

находясь в середине цепочки?

сахар

|

фосфат

|

СН2

|

сахар

|

фосфат

Основания ДНК

Сахаро-фосфатный остов

5’-конец

3’-конец

8 of 85

ДНК состоит из двух антипараллельных комплементарных цепочек

8

5’

5’

3’

3’

= GAGCT

Гуанин (G) связан тремя водородными связями с цитозином (C)

Аденин (A) связан двумя водородными связями с тимином (T)�

AGCTС=

9 of 85

Последовательность одной цепи ДНК

  1. Состоит из букв A, T, G, C
  2. Всегда пишется в направлении �от 5’-конца к 3’-концу
  3. Химическая формула ДНК однозначно определяется последовательностью
  4. Последовательность несёт всю наследственную информацию.

9

10 of 85

Последовательность двухцепочечной ДНК

— это последовательность одной из цепей.

Какой?

10

gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa

aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt

caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac

aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca

cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata

ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg

ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg

cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca

agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa

11 of 85

Последовательность двухцепочечной ДНК

— это последовательность одной из цепочек

Какой?

А всё равно!

Последовательность второй цепочки однозначно восстанавливается «по комплементарности»

11

gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa

aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt

caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac

aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca

cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata

ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg

ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg

cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca

agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa

12 of 85

Упражнение

12

Последовательность цепи ДНК gatcaacactacttgactt

Напишите последовательность комплементарной цепи

13 of 85

Репликация ДНК

13

При делении клетки происходит репликация ДНК

Двойная спираль расплетается, и к каждой из двух цепей пристраивается новая комплементарная цепь. Получаются две копии исходной двойной спирали.

http://profil.adu.by/pluginfile.php/4323/mod_book/chapter/11948/16.4.jpg

14 of 85

Передача информации между поколениями

14

Благодаря репликации ДНК двух клеток, получившихся при делении, идентична ДНК исходной клетки

… или не совсем идентична:

  1. Бывают ошибки репликации (вставляется не тот нуклеотид)
  2. Между делениями ДНК может испортится, в том числе какая-то пара нуклеотидов может замениться (из-за ошибок репарации. Репарация — это «починка» неминуемых повреждений)

15 of 85

Можно ли прочитать последовательность ДНК?

  • Можно. Но не просто.
    • Секвенаторы (автоматы для прочтения последовательности ДНК) умеют читать только относительно короткие последовательности ДНК (например, 150 п.н.)
    • Задача биоинформатики — из коротких последовательностей составить последовательность всей ДНК
    • Об этом будет лекция

15

16 of 85

Геном организма с точки зрения биоинформатики — это

  1. набор последовательностей всех ДНК из одной клетки. Т.е. число последовательностей равно числу двойных молекул ДНК в клетке.
  2. У многоклеточных (у нас с вами) геномы всех клеток совпадают (почти — см. выше)
  3. В референсном геноме вида (человека) – из различающихся последовательностей берут «самую типичную» (на самом деле первую попавшуюся :)

16

Бывают различия: соматические мутации; запланированное многообразие (гены иммуноглобулинов)

17 of 85

Размер генома

17

У человека: 3 млрд. пар нуклеотидов (п.н., по-английски base pairs, bp)

У многоклеточных животных: от сотен млн. п.н. (круглые черви) до десятков млрд. п.н. (тритоны)

У высших растений: от сотен млн. до сотен млрд. п.н.

У гриб(к)ов: от 9 млн. до 177 млн. п.н., в среднем около 40 млн. п.н.�Геном дрожжей — около 12 млн. п.н.

У типичных бактерий: один-три миллиона п.н. Бывают исключения в обе стороны (от 130 тысяч до 14 миллионов)

У вирусов: от двух тысяч до миллиона п.н. �Референсный геном SARS-CoV-2 состоит из 29903 букв.�У многих вирусов (в том числе у коронавирусов) носителем генома является не ДНК, а РНК (немного другая молекула, менее стабильная)

18 of 85

Отступление: классификация живых организмов

18

Прокариоты

Эукариоты

Животные

Археи

Бактерии

Растения

Грибы

Протистами называются все эукариоты, кроме (многоклеточных) животных, (высших) растений и грибов

Вирусы

Протисты

19 of 85

Геном — неизвестный текст, иногда из известного организма, иногда – нет (метагеном). �С чего начнем? �Знаем:

  • В алфавите четыре буквы A, T, G, C (понятно)�НАМ ПОВЕЗЛО С ЭТИМ �(см. след. слайд для неспециалиста)
  • Буквы идут неупорядоченно, �похоже на случайную последовательность?

19

20 of 85

20

21 of 85

Лингвистический анализ текста

  • Одинаковы ли частоты букв?�G+C – состав = % процент букв G и C вместе = GC-состав. Чем G и C отличаются от A и T?
  • Часто и редко встречающиеся слова �(т.е. короткие последовательности)
  • Равномерность частоты букв и слов вдоль текста

Все эти вопросы изучаются и имеют биологический смысл! Примеры наблюдений:

  • #C ≈ #G, #T ≈ #A (# = число)
  • Слов CG (С вслед за G в одной цепи) мало во многих геномах (в т.ч. в человечкском)

Слов TA мало во всех геномах�Мало по сравнению с ожидаемым при случайном расположении букв в тексте.�Самое простое предположение: �Ожидаемое #CG = частота(С) x частота(G) x (число букв в геноме). Для др. слов аналогично

  • В некоторых геномах #C > #G в одной части и

#G > #C в другой части («GС skew») �

21

22 of 85

Всерьёз думают о живых вакцинах, основанных на вирусах с увеличенным числом CG или TA!

22

Martinez et al., 2019, NAR

Interestingly, most mammalian RNA viruses have low frequencies of CpGs (45,46). Furthermore, viruses with high CpG frequencies may be more recognizable by pathogen innate immune sensors (47–50). ��Attenuation of the classical oral poliovirus vaccine is based on very few point mutations, which can revert to virulence after a few rounds of viral replication (144). These pioneering results obtained with recoded polioviruses suggest that codon-usage in recoded viruses may be much more stable than most RNA virus point mutants, and could possibly enable the development of live attenuated RNA virus vaccines with superior genetic stability. 

23 of 85

23

 Ronca et al., 2015

ВОПРОС: У какой бактерии G+C состав больше: живущей �(i) в пустыне НАМИБ в Африке или �(ii) в Антарктиде?

https://www.sci.news/biology/science-microbes-deep-lake-antarctica-01424.html

24 of 85

24

Fig. 1. Relationship between the optimum growth temperature and the G + C content of the 16S rRNAs of archaea and bacteria. 

Lebedinsky et al., REVIEW: Phylogenetic Systematics of Microorganisms Inhabiting

Thermal Environments, 2007

25 of 85

Откуда взялась dsDNA как носитель генома?

  • Носителем генома у всех живых клеточных организмов – эукариот и прокариот (архей и бактерий) является dsDNA
  • Поэтому считается, что геном LUCA = Last Universal Common Ancestor также был записан на dsDNA.
  • Носителем генома вирусов бывает и РНК, и ДНК.

25

26 of 85

26

27 of 85

Откуда возникла ДНК (или РНК) первого живого организма на Земле?

  • НИКТО НЕ ЗНАЕТ
  • Есть гипотезы
  • Читайте Евгения Кунина “Логика случая” и его интервью последних лет�Он умный и пытается рационально подойти к решению этого вопроса.

Пока данных маловато, на мой вкус. А.В.А.

27

28 of 85

28

29 of 85

Из Кунина

29

Интервью: Что нового после издания книги?

�“Эпигенетика, метагеномика. Что-то еще нового и важного?https://nplus1.ru/material/2018/12/04/kunin

«Я бы остановился на этом. Для меня это два крайне важных, фундаментальных направления, получивших неожиданно большое развитие за последние семь лет. Способные сильно повлиять на будущую науку и жизнь (на самом деле они уже влияют)»

30 of 85

Эпигеномика это

описание химических модификаций ДНК в клетке и их наследования при делении клеток.

Одна из самых частых и хорошо изученных модификаций – присоединение метильной группы к определенному основанию в определенной последовательности.

В геноме человека – метилирование цитозина в последовательности из двух букв CG

30

31 of 85

Метагеномика это

Секвенирование тотальной ДНК из образца, чтобы определить, какие микроорганизмы обитают в определенном месте.�

Делают метаагеномы микробных сообществ почвы, кишечного тракта или полости рта человека, проб воды и многих-многих других микробиот.

31

32 of 85

РНК тоже имеет отношение к кодированию информации

  • У многих вирусов носителем наследственной информации служит РНК
  • У клеточных организмов (т.е., не вирусов) последовательность любой молекулы РНК является копией участка одной из цепей ДНК
  • Ген — это участок генома, с которого копируется функциональная РНК
  • С гена белка копируется мРНК, которая служит матрицей для синтеза белка

32

33 of 85

6. РНК отличия от ДНК

33

ДезоксирибоНуклеиновая Кислота

РибоНуклеиновая Кислота

34 of 85

Урацил вместо тимина

34

U урацил

вместо T

U: атомы, участвующие в образовании водородных связей те же, что у T

U

35 of 85

Все возможные комплементарные двойные цепочки из ДНК и РНК образуются в клетках

  • ДНК-ДНК = dsDNA
  • ДНК-РНК гибриды
  • РНК-РНК = dsRNA

35

Потому, что урацил сохраняет способность образовывать две водородные связи с аденином, так как отсутствующая у него СH3 группа (метильная группа) не участвует в образовании водородных связей.

36 of 85

Всего два отличия, а какая разница в биологии!!!

ДНК

  • ДНК двухцепочечная, �бывает длинной (до сотен млн п.н.), линейной или кольцевой
  • Носитель генома у клеточных организмов и многих вирусов����

РНК

  • Обычно одноцепочечная и не очень длинная
  • Разные РНК имеют разные функции
    • мРНК копирует последовательность ДНК, кодирующую белок
    • рРНК
    • тРНК
    • множество других с разными функциями
  • Сложная 3D структура
  • Носитель генома у некоторых вирусов

36

37 of 85

Двойная спираль ДНК

37

3D cтруктура фрагмента ДНК

Получена с помощью рентгеноструктурного анализа (РСА).

Шарик = атом

Водороды не видны, т.к. маленькие и РСА их не видит

Атомы остова – фиолетовые двух оттенков чтобы различать цепочки.

В большой бороздке красный – кислород, синий – азот, зеленый – углерод. Малая бороздка не окрашена�

В клетках имеются белки, которые могут узнать последовательность участка ДНК по расположению атомов N, O, C в большой бороздке.

38 of 85

38

Нуклеосома:�ДНК человека на “катушке” из гистонов: вид сбоку (гистоны – такие белки)

Двойная спираль

ДНК.

Обе структуры расшифрованы с помощью рентгеноструктурного анализа.

39 of 85

Пространственная структура РНК отличается от таковой у ДНК

39

PDB 4GXY �Рентгеноструктурная расшифровка 3D структуры РНК, регулирующей экспрессию некоторых генов бактерии. Схематическое изображение, построенное на основе расшифровки координат всех атомов

Structural insights into ligand binding and gene expression control by an adenosylcobalamin riboswitch.

Peselis, A.Serganov, A.(2012) Nat Struct Mol Biol 19: 1182-1184

  • PubMed23064646 Search on PubMed
  • DOI: 10.1038/nsmb.2405
  • Primary Citation of Related Structures:  �4GXY
  • PubMed Abstract: 

Coenzyme B(12) has a key role in various enzymatic reactions and controls expression of bacterial genes through riboswitches. Here we report the crystal structure of the Symbiobacterium thermophilum B(12) riboswitch bound to its ligand adenosylcobalamin. The riboswitch forms a unique junctional structure with a large ligand-binding pocket tailored for specific recognition of the adenosyl moiety and flanked by structural elements that stabilize the regulatory region and enable control of gene expression.

Видны участки dsRNA!

40 of 85

Что записано в геноме (и б.м. понятно нам)

  • Гены белков – участки ДНК, кодирующие аминокислотные последовательности
    • ДНК-зависимая РНК-полимераза переписывает участок ДНК, содержащий ген белка, в матричную РНК с той же последовательностью оснований (с заменой T на U)
    • Рибосома в соответствии с триплетами мРНК синтезирует белок
  • Гены РНК, отличных от мРНК
  • Сигналы для белков и молекулярных машин
  • Много чего другого ….

40

41 of 85

41

42 of 85

Crick’s first outline of the central dogma, from an unpublished note made in 1956.

42

?

+

+

+

+

+

Х

43 of 85

Человеческий геном

Референсный геном человека

  • двадцать две аутосомы (в ядре клетки)
  • две половые хромосомы Х и Y (в ядре)
  • митохондриальная ДНК человека (в митохондриях, вне ядра клетки)
  • содержат вместе 3 099 734 149 пар оснований

около 3 миллиардов букв A, T, G, C

43

В ядре клетки содержится такой набор хромосом

М 22 аутосомы от мамы, 22 аутосомы от папы, X, Y = 46

Ж 22 аутосомы от мамы, 22 аутосомы от папы, X, X = 46

44 of 85

ДНК в ядре клетки человека. Разные ДНК покрашены в разные цвета, одинаковые по последовательности (>99%) – в одинаковые цвета

44

Bolzer A et al. Three-dimensional maps of all chromosomes in fibroblast nuclei and prometaphase rosettes. PLoS Biol. 2005

45 of 85

Как получена микрофотография

45

К каждой ДНК подобраны многочисленные пробы – кусочки ДНК, полностью комплементарные участку данной ДНК. Probe size can range from few kb to megabases (Mb), depending on the application.  �К концам проб присоединены флюорофоры одного из 7 цветов. Пропорции проб к одной ДНК с флюорофорами разных цветов подобраны специально, чтобы различать разные ДНК.

(A) Деконволюция (объединение)  флюоресцентных микрофотографий в семи каналах �(one channel for DAPI (DNA counterstain and seven channels for the following fluorochromes: diethylaminocoumarin (Deac), Spectrum Green (SG), and the cyanine dyes Cy3, Cy3.5, Cy5,Cy5.5, and Cy7) Окраска изображения разных хромосом (1–22, X, and Y) в 24 цвета получена наложением семи каналов�(B) Прорисовка изображения с искусственно подобранными цветами

46 of 85

Исходные микрофотографии в восьми каналах и их совмещение

46

47 of 85

Человеческий геном

47

https://link.springer.com/chapter/10.1007/978-3-030-73151-9_1/figures/1

48 of 85

Что записано в геноме

  • Гены белков – участки ДНК, кодирующие аминокислотную последовательность белка.
    • ДНК-зависимая РНК-полимераза переписывает участок ДНК содержащий ген белка в матричную РНК с той же последовательностью оснований (с заменой T на U)
    • Рибосома в соответствии с триплетами мРНК синтезирует белок
  • Гены молекул РНК, отличных от мРНК
  • Сигналы для белков и молекулярных машин

48

49 of 85

Геном бактерии

  • Одна или несколько кольцевых молекул ДНК – хромосом
  • Размер хромосомы порядка 1 млн п.н.
  • Часто ещё несколько маленьких ДНК, называемых плазмидами.
  • Родственные бактерии обмениваются плазмидами и фрагментами хромосом. Для эволюции – это неполовой способ обмена генетическим материалом
  • Пример – обмен плазмидами, несущими устойчивость к антибиотикам

49

50 of 85

Геном кишечной палочки E.coli штамм Y5. Одна хромосома и три плазмиды

50

Detection of an Escherichia coli ST167 strain with two tandem copies of bla NDM-1 encoded in the chromosome

51 of 85

Один из способов обмена ДНК между бактериями

51

Слайд из презентации https://ppt-online.org/388476, посвященной генетике бактерий.�Автор мне неизвестен. Понятная подача материала

52 of 85

Микрофотография маленькой кольцевой ДНК бактерии — плазмиды

Маленькая плазмида бактерии

Электронная микроскопия

53 of 85

Геном адено-ассоциированного вируса AAV2 используют для генной терапии людей с не поддающимися иному лечению патологиями.��Проходят клинические испытания.�

Wang et al. , Adeno-associated virus vector as a platform for gene therapy delivery, 2019

53

54 of 85

Список заболеваний, при которых применяется генная терапия с помощью AAV2. Фазы испытаний.

54

55 of 85

55

56 of 85

Adeno-associated viruses (AAV)

  • AAV поражают людей и других примат
  • Для быстрого размножения им необходим вирус-помощник: аденовирус (AdV)или некоторые другие
  • При отсутствии вируса-помощника они встраиваются в геном зараженной клетки и латентно реплицируются по мере репликации клетки-хозяина неограниченно долго
  • Если аденовирус заражает КЛЕТКУ, ЗАРАЖЁННУЮ AAV, то AAV получает возможность быстро размножаться, выходит из клетки и заражает новые клетки

56

57 of 85

Так выглядит AAV в собранном виде

57

РСА расшифровка

капсида AAV2 �

Капсид имеет симметрию икосаэдра

T.P. Wörner et al., Adeno-associated virus capsid assembly is divergent and stochastic, Nature Communications 12:1642 (2021)

58 of 85

Геном AAV

  • Геном AAV – ssDNA — одна цепочка ДНК!
  • В геноме закодировано ДВА гена: rep и cap
  • rep участвует в репликации
  • cap – белок образующий икосаэдральный капсид вириона, содержащий ssDNA
  • 5’ и 3’ концы ДНК содержат инвертированные повторы из 145 нуклеотидов
  • Хотя генов два, они кодируют семь белков благодаря альтернативному сплайсингу.

58

Придумал непростое задание на дом про этот геном. �Будьте внимательны)))

59 of 85

Промоторы и альтернативный сплайсинг

  • Промотор – это участок ДНК, содержащий сигнал
    • для ДНК-зависимой РНК полимеразы (которая делает мРНК)
    • о том, что после него (промотора) надо начинать транскрипцию – переписывание гена на мРНК
  • Сплайсинг мРНК состоит в том, что из мРНК удаляются определенные участки, называемые интронами. Какие именно – указывается сигналами сплайсинга.
  • Альтернативный сплайсинг состоит в том, что какой-то интрон иногда удаляется, а иногда нет т.е. может получиться белок с неким фрагментом или без него
  • Хотя генов в геноме AAV два, они кодируют семь белков благодаря альтернативному сплайсингу.

59

Промоторы p5, p19, p40

Кодирующие последовательности

генов изображены

прямоугольниками

60 of 85

Для репликации генома AAV нужен хозяйский белок RPA, заделывающий одноцепочечные участки ДНК

60

RPA реагирует на обрыв dsDNA как в овале.

Белки Rep78 и Rep68 связываются с тем же местом, препятствуя связыванию RPA

Белки вирусов помощников (жёлтые и красные) прогоняют Rep78 и Rep68

… и далее. Получается dsDNA AAV

61 of 85

Векторы rAAV на основе AAV генома для генной терапии

61

Today, recombinant AAVs (rAAVs) are the leading platform for in vivo delivery of gene therapies. The first rAAV gene therapy product, alipogene tiparvovec (Glybera), was approved by the European Medicines Agency to treat lipoprotein lipase deficiency in 2012

Although the clinical success of rAAV gene therapy is encouraging, we must acknowledge the limitations and challenges of this gene delivery platform, which include issues with rAAV manufacturing and immunological barriers to delivery AAV is found in multiple vertebrate species, including human and non-human primates (NHPs).

The current consensus is that AAV does not cause any human diseases

Wang et al., Adeno-associated virus

vector as aplatform for gene therapy delivery, 2019

rAAV не встраиваются в геном

человека. Существуют в виде �транскрибируемой dsDNA в виде

Гантели (см. пред. Слайды)

Для их репликации добавляют белки

bз AdV

62 of 85

ДАЛЕЕ ПРИВЕДЕНА ПОСЛЕДОВАТЕЛЬНОСТЬ ПОЛНОГО ГЕНОМА AAV2

Она вам пригодится для выполнения нетривиального домашнего задания

62

63 of 85

63

>NC_001401.2 Adeno-associated virus - 2, complete genome 4679 bp

TTGGCCACTCCCTCTCTGCGCGCTCGCTCGCTCACTGAGGCCGGGCGACCAAAGGTCGCCCGACGCCCGG

GCTTTGCCCGGGCGGCCTCAGTGAGCGAGCGAGCGCGCAGAGAGGGAGTGGCCAACTCCATCACTAGGGG

TTCCTGGAGGGGTGGAGTCGTGACGTGAATTACGTCATAGGGTTAGGGAGGTCCTGTATTAGAGGTCACG

TGAGTGTTTTGCGACATTTTGCGACACCATGTGGTCACGCTGGGTATTTAAGCCCGAGTGAGCACGCAGG

GTCTCCATTTTGAAGCGGGAGGTTTGAACGCGCAGCCGCCATGCCGGGGTTTTACGAGATTGTGATTAAG

GTCCCCAGCGACCTTGACGAGCATCTGCCCGGCATTTCTGACAGCTTTGTGAACTGGGTGGCCGAGAAGG

AATGGGAGTTGCCGCCAGATTCTGACATGGATCTGAATCTGATTGAGCAGGCACCCCTGACCGTGGCCGA

GAAGCTGCAGCGCGACTTTCTGACGGAATGGCGCCGTGTGAGTAAGGCCCCGGAGGCCCTTTTCTTTGTG

CAATTTGAGAAGGGAGAGAGCTACTTCCACATGCACGTGCTCGTGGAAACCACCGGGGTGAAATCCATGG

TTTTGGGACGTTTCCTGAGTCAGATTCGCGAAAAACTGATTCAGAGAATTTACCGCGGGATCGAGCCGAC

TTTGCCAAACTGGTTCGCGGTCACAAAGACCAGAAATGGCGCCGGAGGCGGGAACAAGGTGGTGGATGAG

TGCTACATCCCCAATTACTTGCTCCCCAAAACCCAGCCTGAGCTCCAGTGGGCGTGGACTAATATGGAAC

AGTATTTAAGCGCCTGTTTGAATCTCACGGAGCGTAAACGGTTGGTGGCGCAGCATCTGACGCACGTGTC

GCAGACGCAGGAGCAGAACAAAGAGAATCAGAATCCCAATTCTGATGCGCCGGTGATCAGATCAAAAACT

TCAGCCAGGTACATGGAGCTGGTCGGGTGGCTCGTGGACAAGGGGATTACCTCGGAGAAGCAGTGGATCC

AGGAGGACCAGGCCTCATACATCTCCTTCAATGCGGCCTCCAACTCGCGGTCCCAAATCAAGGCTGCCTT

GGACAATGCGGGAAAGATTATGAGCCTGACTAAAACCGCCCCCGACTACCTGGTGGGCCAGCAGCCCGTG

GAGGACATTTCCAGCAATCGGATTTATAAAATTTTGGAACTAAACGGGTACGATCCCCAATATGCGGCTT

CCGTCTTTCTGGGATGGGCCACGAAAAAGTTCGGCAAGAGGAACACCATCTGGCTGTTTGGGCCTGCAAC

TACCGGGAAGACCAACATCGCGGAGGCCATAGCCCACACTGTGCCCTTCTACGGGTGCGTAAACTGGACC

AATGAGAACTTTCCCTTCAACGACTGTGTCGACAAGATGGTGATCTGGTGGGAGGAGGGGAAGATGACCG

CCAAGGTCGTGGAGTCGGCCAAAGCCATTCTCGGAGGAAGCAAGGTGCGCGTGGACCAGAAATGCAAGTC

CTCGGCCCAGATAGACCCGACTCCCGTGATCGTCACCTCCAACACCAACATGTGCGCCGTGATTGACGGG

AACTCAACGACCTTCGAACACCAGCAGCCGTTGCAAGACCGGATGTTCAAATTTGAACTCACCCGCCGTC

TGGATCATGACTTTGGGAAGGTCACCAAGCAGGAAGTCAAAGACTTTTTCCGGTGGGCAAAGGATCACGT

GGTTGAGGTGGAGCATGAATTCTACGTCAAAAAGGGTGGAGCCAAGAAAAGACCCGCCCCCAGTGACGCA

GATATAAGTGAGCCCAAACGGGTGCGCGAGTCAGTTGCGCAGCCATCGACGTCAGACGCGGAAGCTTCGA

TCAACTACGCAGACAGGTACCAAAACAAATGTTCTCGTCACGTGGGCATGAATCTGATGCTGTTTCCCTG

CAGACAATGCGAGAGAATGAATCAGAATTCAAATATCTGCTTCACTCACGGACAGAAAGACTGTTTAGAG

TGCTTTCCCGTGTCAGAATCTCAACCCGTTTCTGTCGTCAAAAAGGCGTATCAGAAACTGTGCTACATTC

ATCATATCATGGGAAAGGTGCCAGACGCTTGCACTGCCTGCGATCTGGTCAATGTGGATTTGGATGACTG

CATCTTTGAACAATAAATGATTTAAATCAGGTATGGCTGCCGATGGTTATCTTCCAGATTGGCTCGAGGA

64 of 85

64

CACTCTCTCTGAAGGAATAAGACAGTGGTGGAAGCTCAAACCTGGCCCACCACCACCAAAGCCCGCAGAG

CGGCATAAGGACGACAGCAGGGGTCTTGTGCTTCCTGGGTACAAGTACCTCGGACCCTTCAACGGACTCG

ACAAGGGAGAGCCGGTCAACGAGGCAGACGCCGCGGCCCTCGAGCACGACAAAGCCTACGACCGGCAGCT

CGACAGCGGAGACAACCCGTACCTCAAGTACAACCACGCCGACGCGGAGTTTCAGGAGCGCCTTAAAGAA

GATACGTCTTTTGGGGGCAACCTCGGACGAGCAGTCTTCCAGGCGAAAAAGAGGGTTCTTGAACCTCTGG

GCCTGGTTGAGGAACCTGTTAAGACGGCTCCGGGAAAAAAGAGGCCGGTAGAGCACTCTCCTGTGGAGCC

AGACTCCTCCTCGGGAACCGGAAAGGCGGGCCAGCAGCCTGCAAGAAAAAGATTGAATTTTGGTCAGACT

GGAGACGCAGACTCAGTACCTGACCCCCAGCCTCTCGGACAGCCACCAGCAGCCCCCTCTGGTCTGGGAA

CTAATACGATGGCTACAGGCAGTGGCGCACCAATGGCAGACAATAACGAGGGCGCCGACGGAGTGGGTAA

TTCCTCGGGAAATTGGCATTGCGATTCCACATGGATGGGCGACAGAGTCATCACCACCAGCACCCGAACC

TGGGCCCTGCCCACCTACAACAACCACCTCTACAAACAAATTTCCAGCCAATCAGGAGCCTCGAACGACA

ATCACTACTTTGGCTACAGCACCCCTTGGGGGTATTTTGACTTCAACAGATTCCACTGCCACTTTTCACC

ACGTGACTGGCAAAGACTCATCAACAACAACTGGGGATTCCGACCCAAGAGACTCAACTTCAAGCTCTTT

AACATTCAAGTCAAAGAGGTCACGCAGAATGACGGTACGACGACGATTGCCAATAACCTTACCAGCACGG

TTCAGGTGTTTACTGACTCGGAGTACCAGCTCCCGTACGTCCTCGGCTCGGCGCATCAAGGATGCCTCCC

GCCGTTCCCAGCAGACGTCTTCATGGTGCCACAGTATGGATACCTCACCCTGAACAACGGGAGTCAGGCA

GTAGGACGCTCTTCATTTTACTGCCTGGAGTACTTTCCTTCTCAGATGCTGCGTACCGGAAACAACTTTA

CCTTCAGCTACACTTTTGAGGACGTTCCTTTCCACAGCAGCTACGCTCACAGCCAGAGTCTGGACCGTCT

CATGAATCCTCTCATCGACCAGTACCTGTATTACTTGAGCAGAACAAACACTCCAAGTGGAACCACCACG

CAGTCAAGGCTTCAGTTTTCTCAGGCCGGAGCGAGTGACATTCGGGACCAGTCTAGGAACTGGCTTCCTG

GACCCTGTTACCGCCAGCAGCGAGTATCAAAGACATCTGCGGATAACAACAACAGTGAATACTCGTGGAC

TGGAGCTACCAAGTACCACCTCAATGGCAGAGACTCTCTGGTGAATCCGGGCCCGGCCATGGCAAGCCAC

AAGGACGATGAAGAAAAGTTTTTTCCTCAGAGCGGGGTTCTCATCTTTGGGAAGCAAGGCTCAGAGAAAA

CAAATGTGGACATTGAAAAGGTCATGATTACAGACGAAGAGGAAATCAGGACAACCAATCCCGTGGCTAC

GGAGCAGTATGGTTCTGTATCTACCAACCTCCAGAGAGGCAACAGACAAGCAGCTACCGCAGATGTCAAC

ACACAAGGCGTTCTTCCAGGCATGGTCTGGCAGGACAGAGATGTGTACCTTCAGGGGCCCATCTGGGCAA

AGATTCCACACACGGACGGACATTTTCACCCCTCTCCCCTCATGGGTGGATTCGGACTTAAACACCCTCC

TCCACAGATTCTCATCAAGAACACCCCGGTACCTGCGAATCCTTCGACCACCTTCAGTGCGGCAAAGTTT

GCTTCCTTCATCACACAGTACTCCACGGGACAGGTCAGCGTGGAGATCGAGTGGGAGCTGCAGAAGGAAA

ACAGCAAACGCTGGAATCCCGAAATTCAGTACACTTCCAACTACAACAAGTCTGTTAATGTGGACTTTAC

TGTGGACACTAATGGCGTGTATTCAGAGCCTCGCCCCATTGGCACCAGATACCTGACTCGTAATCTGTAA

TTGCTTGTTAATCAATAAACCGTTTAATTCGTTTCAGTTGAACTTTGGTCTCTGCGTATTTCTTTCTTAT

CTAGTTTCCATGGCTACGTAGATAAGTAGCATGGCGGGTTAATCATTAACTACAAGGAACCCCTAGTGAT

GGAGTTGGCCACTCCCTCTCTGCGCGCTCGCTCGCTCACTGAGGCCGGGCGACCAAAGGTCGCCCGACGC

CCGGGCTTTGCCCGGGCGGCCTCAGTGAGCGAGCGAGCGCGCAGAGAGGGAGTGGCCAA

65 of 85

Вирус SARS-CoV-2

  • Ну его – надоел)))

65

66 of 85

Что записано в файле с геномом SARS-CoV-2 для людей?

  • Последовательность
  • Аннотация – формализованное описание того, что известно про последовательность

66

Из аннотации записи NC_045512 в банке данных Refseq на сайте NCBI

LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020�DEFINITION Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome.�ACCESSION NC_045512

gene 21563..25384 /gene="S" /gene_synonym="spike glycoprotein" �CDS 21563..25384 /gene="S" spike protein" /product="surface glycoprotein" /protein_id="YP_009724390.1" /translation="MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFR SSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIR GWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVY�…………………………………………………………………………………………………………………………………………………………�…………………………………………………………………………………………………………………………………………………………

…………………………………………………………………………………………………………………………………………………………

67 of 85

ГЕНЫ БЕЛКОВ ранние и поздние гены разделены линией

67

По оси X нуклеотиды РНК:

1 10 000 20 000 29 903

Гены изображены красными и коричневыми полосками

68 of 85

ГЕНЫ ORF1ab и ORF1a�красные полоски до вертикальной линии

68

А зрелые белки, которые они кодируют, изображены коричневыми полосками.

Как так?

И почему два гена на одном месте, но разной длины?

69 of 85

ТРАНСЛЯЦИЯ: СИНТЕЗ МОЛЕКУЛЫ БЕЛКА

При заражении covid-19 в клетке хозяина (человека) оказывается РНК вируса.

РИБОСОМА (молекулярная машина для синтеза белков) опознаёт ее как мРНК - матричную РНК гена�

Как удаётся коронавирусу выдать свою РНК за мРНК? Нужны соответствующие сигналы…

69

70 of 85

В клетке для синтеза белка нужна матричная РНК

  • мРНК это молекула РНК, на которой записана копия гена �(комплементарная к комплементарной цепочке гена!� «минус на минус = плюс»)
  • Белок синтезирует рибосома используя мРНК
  • В клетке человека много РНК разных типов �(в лекции А.Жариковой будет об этом).
  • Рибосома отличает мРНК по двум сигналам
    • Специальная группа атомов cap на 5’ конце.
    • ПолиА на 3’-конце

70

71 of 85

�В клетке хозяина (человека) оказывается РНК коронавируса �

71

……AAAATTAATTTTAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGGAGAATGACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

РНК коронавируса несет оба эти сигнала.� - ПолиА на 3’-конце конце РНК видны в файле с РНК (см)

- Кэп тоже есть

72 of 85

Одна мРНК – один ген и один белок

72

У человека и других эукариот. Бывают исключения, но они редки!!!

https://ru.wikipedia.org/wiki/Матричная_РНК#Трансляция

* Малая субъединица рибосомы узнает кэп и сканирует мРНК

до появления кодона АTG.�Причем не просто ATG, а ATG в подходящем окружении, �так называемая последовательность Кóзак

* C триплета ATG начинается синтез белка рибосомой, по кодонам. Заканчивается на стоп кодоне.

73 of 85

По таблице генетического кода!

73

AAA

K

CAA

Q

GAA

E

TAA

Stop

AAG

K

CAG

Q

GAG

E

TAG

Stop

AAC

N

CAC

H

GAC

D

TAC

Y

AAT

N

CAT

H

GAT

D

TAT

Y

ACA

T

CCA

P

GCA

A

TCA

S

ACG

T

CCG

P

GCG

A

TCG

S

ACC

T

CCC

P

GCC

A

TCC

S

ACT

T

CCT

P

GCT

A

TCT

S

AGA

R

CGA

R

GGA

G

TGA

Stop

AGG

R

CGG

R

GGG

G

TGG

W

AGC

S

CGC

R

GGC

G

TGC

C

AGT

S

CGT

R

GGT

G

TGT

C

ATA

I

CTA

L

GTA

V

TTA

L

ATG

M

CTG

L

GTG

V

TTG

L

ATC

I

CTC

L

GTC

V

TTC

F

ATT

I

CTT

L

GTT

V

TTT

F

74 of 85

Так рибосомы делают белки

74

аминокислота

мРНК

белок

тРНК

75 of 85

Ген ORF1a заканчивается стоп-кодоном, как положено. �Так и транслируется рибосомой человека

75

ORF1a

ORF1ab

Как же транслируется ген ORF1ab???

76 of 85

Не бывает правил без исключений!�Программируемый рибосомный сдвиг. �Рибосома останавливается из-за шпильки на РНК� и slippery sequence. Отскакивает на ОДИН нуклеотид. И продолжает синтез белка

76

77 of 85

Продукты генов ORF1ab и ORF1a - Большие белки – полипротеины. См. след слайд

77

Они сами себя разрезают на отдельные белки

78 of 85

78

79 of 85

Функции некоторых ранних белков

79

Name

Число а/к

зачем нужен

NSP1

180

Деградирует некоторые хозяйские РНК

NSP3a

1945

Протеиназа, отрезает nsp1, nsp2, nsp3

NSP5a

306

Протеиназа, режет полипротеин в 11 местах

NSP8

198

Помогает при репликации РНК

NSP12a

932

Полимераза – по РНК делает комплементарную РНК (RDRp)

NSP13

601

Хеликаза (расплетает двойную спираль РНК)

NSP14

527

Присоединяет cap к РНК

NSP15a

346

Уклонение от защиты хозяйских клеток

Yoshimoto, Protein J 39, 198–216 (2020).

80 of 85

Как транслируются поздние белки?��Среди поздних генов все белки составляющие вирион, который существует пока вирус вне хозяина.�Оно и понятно – вирион собирается в конце заражения, когда есть много РНК – геномов и пора выходить из клетки.

80

81 of 85

Коронавирус вирус: белкиСхема вириона, существующего между заражениями

81

Xu J, et al. Antibodies and vaccines against Middle East respiratory syndrome coronavirus.

Emerg Microbes Infect 2019, Review. MERS-CoV

Четыре белка:

S, M, E, N

и РНК

оставляют

вирион

РНК облеплена

белками N

82 of 85

Функции белков

  • M белок составляет оболочку (капсид) вириона, вместе с липидной мембраной (желтая)�
  • E белок нужен для правильной кривизны капсида. 2я функция - в хозяйской клетке. Пентамер E является ионным каналом в мембране органеллы ERGIC1)Коронавирусы, лишенные E, могут размножаться, хотя и менее патогенны�
  • N белок облепляет РНК в конформации бусы на струне для сохранности генома. При сборке капсида он обладает удивительной способностью связываться только с РНК коронавируса!

1) Между эндоплазматическим ретикулумом и аппаратом Гольджи)

82

83 of 85

Коронавирус синтезирует отдельные мРНК для поздних генов (называют сгмРНК, субгеномные)

83

ИДЕЯ коронавируса: лидерную последовательность «склеить» с участком начиная от позднего гена и до конца!� Сохраняются все 5’ концевые и 3’ концевые сигналы (КЭП, полиA и др.) �

СДЕЛАВ ЭТО, ПРЕДОК КОРОНАВИРУСОВ ЗАКРИЧАЛ ЭВРИКА! И заразил множество хозяев.

84 of 85

РНК зависимая РНК полимераза коронавируса

  • Для синтеза новых РНК нужных для сборки новых частиц вируса нужен белок «РНК зависимая РНК полимераза, RdRP», его ген 11-й среди зрелых ранних белков коронавирусов.�
  • С РНК коронавируса, которую обозначают +РНК, он делает комплементарную копию, называемую -РНК�
  • RDRP может копировать любую РНК, в частности, -РНК�
  • Минус на минус будет плюс!!!

84

RdRP

ПОМНИМ:

В РНК U вместо T

85 of 85

Коронавирусам (эволюции) пришлось долго ломать голову чтобы придумать такое! Сигналы TRS – последовательности похожие на CTAAAC – обозначены черным прямоугольником, желтым на цветном рисунке.

85

По –сгРНК полимераза RdRP делает �+сгмРНК.

И рибосома транслирует первый ген на ней в белок

TRS есть перед геном

ORF1ab и перед каждым

поздним геном