Геном
Сергей Александрович Спирин
Институт физико-химической биологии им. А.Н.Белозерского МГУ, Москва
на основе лекции А.В.Алексеевского 2023 г.
МФК «Биоинформатика» �весна 2023
14 февраля 2024
Гено́м — совокупность наследственной информации о живом организме
2
Вопросы
3
1) Wikipedia со ссылкой на Р.М. Когаловского, �специалиста по информационным систем.�2) C.Shannon, “The Mathematical Theory of Communications” , 1948
Носители информации
4
ДНК — это молекула
A C G T
C N O P
В живой клетке ДНК — комплекс из двух молекул, каждая из которых — гетерополимер из мономеров четырёх типов: A, C, G, T
Химическая формула ДНК
6
A аденин
G гуанин
С цитозин
T тимин
5’-конец
3’-конец
= AGCT
Формула молекулы ДНК определяется последовательностью букв A, T, G, C
7
A аденин
G гуанин
С цитозин
T тимин
= AGCT
Как определить направление 5’→ 3’,
находясь в середине цепочки?
сахар
|
фосфат
|
СН2
|
сахар
|
фосфат
Основания ДНК
Сахаро-фосфатный остов
5’-конец
3’-конец
ДНК состоит из двух антипараллельных комплементарных цепочек
8
5’
5’
3’
3’
= GAGCT
Гуанин (G) связан тремя водородными связями с цитозином (C)
Аденин (A) связан двумя водородными связями с тимином (T)�
AGCTС=
Последовательность одной цепи ДНК
9
Последовательность двухцепочечной ДНК
— это последовательность одной из цепей.
Какой?
10
gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa
aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt
caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac
aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca
cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata
ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg
ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg
cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca
agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa
Последовательность двухцепочечной ДНК
— это последовательность одной из цепочек
Какой?
А всё равно!
Последовательность второй цепочки однозначно восстанавливается «по комплементарности»
11
gatcaacactacttgacttcaagacttaccataaagaaaactatagtgtggtattggcaa
aagacaagacaaatagatcaacataacaaaataaagggccatgaaatagacccatatagt
caattgatttttgacaaagaaggattggcaatagaatggggtaaagatagtcttctcaac
aaacggtaccagaatgactgaatacccacatgcaaaaagaaaaagaaatgaacctagaca
cagatcttatacagttcacaaaaatgtaactcaaaatgaatcatagacctaaatataata
ttcaagactataaaaccctaaaatataacataggggaaaatctaaacaatcttgagtttg
ttaatgactttttagatacaataccaaaggcaggatccaggaaagaatcgataagctggg
cttcattaaaattaaaatatttctgctctatgaagccactgtcaagagaaggaaaaggca
agccatagactgggagaaaatatttacaaaagacatacatgataaaggactattatccaa
Упражнение
12
Последовательность цепи ДНК gatcaacactacttgactt
Напишите последовательность комплементарной цепи
Репликация ДНК
13
При делении клетки происходит репликация ДНК
Двойная спираль расплетается, и к каждой из двух цепей пристраивается новая комплементарная цепь. Получаются две копии исходной двойной спирали.
http://profil.adu.by/pluginfile.php/4323/mod_book/chapter/11948/16.4.jpg
Передача информации между поколениями
14
Благодаря репликации ДНК двух клеток, получившихся при делении, идентична ДНК исходной клетки
… или не совсем идентична:
Можно ли прочитать последовательность ДНК?
15
Геном организма с точки зрения биоинформатики — это
16
Бывают различия: соматические мутации; запланированное многообразие (гены иммуноглобулинов)
Размер генома
17
У человека: 3 млрд. пар нуклеотидов (п.н., по-английски base pairs, bp)
У многоклеточных животных: от сотен млн. п.н. (круглые черви) до десятков млрд. п.н. (тритоны)
У высших растений: от сотен млн. до сотен млрд. п.н.
У гриб(к)ов: от 9 млн. до 177 млн. п.н., в среднем около 40 млн. п.н.�Геном дрожжей — около 12 млн. п.н.
У типичных бактерий: один-три миллиона п.н. Бывают исключения в обе стороны (от 130 тысяч до 14 миллионов)
У вирусов: от двух тысяч до миллиона п.н. �Референсный геном SARS-CoV-2 состоит из 29903 букв.�У многих вирусов (в том числе у коронавирусов) носителем генома является не ДНК, а РНК (немного другая молекула, менее стабильная)
Отступление: классификация живых организмов
18
Прокариоты
Эукариоты
Животные
Археи
Бактерии
Растения
Грибы
Протистами называются все эукариоты, кроме (многоклеточных) животных, (высших) растений и грибов
Вирусы
Протисты
Геном — неизвестный текст, иногда из известного организма, иногда – нет (метагеном). �С чего начнем? �Знаем:
19
20
Лингвистический анализ текста
Все эти вопросы изучаются и имеют биологический смысл! Примеры наблюдений:
Слов TA мало во всех геномах�Мало по сравнению с ожидаемым при случайном расположении букв в тексте.�Самое простое предположение: �Ожидаемое #CG = частота(С) x частота(G) x (число букв в геноме). Для др. слов аналогично
#G > #C в другой части («GС skew») �
21
Всерьёз думают о живых вакцинах, основанных на вирусах с увеличенным числом CG или TA!
22
Martinez et al., 2019, NAR
Interestingly, most mammalian RNA viruses have low frequencies of CpGs (45,46). Furthermore, viruses with high CpG frequencies may be more recognizable by pathogen innate immune sensors (47–50). ��Attenuation of the classical oral poliovirus vaccine is based on very few point mutations, which can revert to virulence after a few rounds of viral replication (144). These pioneering results obtained with recoded polioviruses suggest that codon-usage in recoded viruses may be much more stable than most RNA virus point mutants, and could possibly enable the development of live attenuated RNA virus vaccines with superior genetic stability.
23
Ronca et al., 2015
ВОПРОС: У какой бактерии G+C состав больше: живущей �(i) в пустыне НАМИБ в Африке или �(ii) в Антарктиде?
https://www.sci.news/biology/science-microbes-deep-lake-antarctica-01424.html
24
Fig. 1. Relationship between the optimum growth temperature and the G + C content of the 16S rRNAs of archaea and bacteria.
Lebedinsky et al., REVIEW: Phylogenetic Systematics of Microorganisms Inhabiting
Thermal Environments, 2007
Откуда взялась dsDNA как носитель генома?
25
26
Откуда возникла ДНК (или РНК) первого живого организма на Земле?
�Пока данных маловато, на мой вкус. А.В.А.
27
28
Из Кунина
29
Интервью: Что нового после издания книги?
�“Эпигенетика, метагеномика. Что-то еще нового и важного?�https://nplus1.ru/material/2018/12/04/kunin
«Я бы остановился на этом. Для меня это два крайне важных, фундаментальных направления, получивших неожиданно большое развитие за последние семь лет. Способные сильно повлиять на будущую науку и жизнь (на самом деле они уже влияют)»
Эпигеномика это
описание химических модификаций ДНК в клетке и их наследования при делении клеток.
Одна из самых частых и хорошо изученных модификаций – присоединение метильной группы к определенному основанию в определенной последовательности.
В геноме человека – метилирование цитозина в последовательности из двух букв CG
30
Метагеномика это
Секвенирование тотальной ДНК из образца, чтобы определить, какие микроорганизмы обитают в определенном месте.�
Делают метаагеномы микробных сообществ почвы, кишечного тракта или полости рта человека, проб воды и многих-многих других микробиот.
31
РНК тоже имеет отношение к кодированию информации
32
6. РНК отличия от ДНК
33
ДезоксирибоНуклеиновая Кислота
РибоНуклеиновая Кислота
Урацил вместо тимина
34
U урацил
вместо T
U: атомы, участвующие в образовании водородных связей те же, что у T
U
Все возможные комплементарные двойные цепочки из ДНК и РНК образуются в клетках
35
Потому, что урацил сохраняет способность образовывать две водородные связи с аденином, так как отсутствующая у него СH3 группа (метильная группа) не участвует в образовании водородных связей.
Всего два отличия, а какая разница в биологии!!!
ДНК
РНК
36
Двойная спираль ДНК
37
3D cтруктура фрагмента ДНК
Получена с помощью рентгеноструктурного анализа (РСА).
Шарик = атом
Водороды не видны, т.к. маленькие и РСА их не видит
Атомы остова – фиолетовые двух оттенков чтобы различать цепочки.
В большой бороздке красный – кислород, синий – азот, зеленый – углерод. Малая бороздка не окрашена�
В клетках имеются белки, которые могут узнать последовательность участка ДНК по расположению атомов N, O, C в большой бороздке.
38
Нуклеосома:�ДНК человека на “катушке” из гистонов: вид сбоку (гистоны – такие белки)
Двойная спираль
ДНК.
Обе структуры расшифрованы с помощью рентгеноструктурного анализа.
Пространственная структура РНК отличается от таковой у ДНК
39
PDB 4GXY �Рентгеноструктурная расшифровка 3D структуры РНК, регулирующей экспрессию некоторых генов бактерии. Схематическое изображение, построенное на основе расшифровки координат всех атомов
Structural insights into ligand binding and gene expression control by an adenosylcobalamin riboswitch.
Peselis, A., Serganov, A.�(2012) Nat Struct Mol Biol 19: 1182-1184
Coenzyme B(12) has a key role in various enzymatic reactions and controls expression of bacterial genes through riboswitches. Here we report the crystal structure of the Symbiobacterium thermophilum B(12) riboswitch bound to its ligand adenosylcobalamin. The riboswitch forms a unique junctional structure with a large ligand-binding pocket tailored for specific recognition of the adenosyl moiety and flanked by structural elements that stabilize the regulatory region and enable control of gene expression.
Видны участки dsRNA!
Что записано в геноме (и б.м. понятно нам)
��
40
41
Crick’s first outline of the central dogma, from an unpublished note made in 1956.
42
?
+
+
+
+
+
Х
Человеческий геном
Референсный геном человека
около 3 миллиардов букв A, T, G, C
43
В ядре клетки содержится такой набор хромосом
М 22 аутосомы от мамы, 22 аутосомы от папы, X, Y = 46
Ж 22 аутосомы от мамы, 22 аутосомы от папы, X, X = 46
ДНК в ядре клетки человека. Разные ДНК покрашены в разные цвета, одинаковые по последовательности (>99%) – в одинаковые цвета
44
Bolzer A et al. Three-dimensional maps of all chromosomes in fibroblast nuclei and prometaphase rosettes. PLoS Biol. 2005
Как получена микрофотография
45
К каждой ДНК подобраны многочисленные пробы – кусочки ДНК, полностью комплементарные участку данной ДНК. �Probe size can range from few kb to megabases (Mb), depending on the application. �К концам проб присоединены флюорофоры одного из 7 цветов. Пропорции проб к одной ДНК с флюорофорами разных цветов подобраны специально, чтобы различать разные ДНК.�
(A) Деконволюция (объединение) флюоресцентных микрофотографий в семи каналах �(one channel for DAPI (DNA counterstain and seven channels for the following fluorochromes: diethylaminocoumarin (Deac), Spectrum Green (SG), and the cyanine dyes Cy3, Cy3.5, Cy5,Cy5.5, and Cy7) �Окраска изображения разных хромосом (1–22, X, and Y) в 24 цвета получена наложением семи каналов�(B) Прорисовка изображения с искусственно подобранными цветами
Исходные микрофотографии в восьми каналах и их совмещение
46
Человеческий геном
47
https://link.springer.com/chapter/10.1007/978-3-030-73151-9_1/figures/1
Что записано в геноме
��
48
Геном бактерии
49
Геном кишечной палочки E.coli штамм Y5. Одна хромосома и три плазмиды
50
Detection of an Escherichia coli ST167 strain with two tandem copies of bla NDM-1 encoded in the chromosome
Один из способов обмена ДНК между бактериями
51
Слайд из презентации https://ppt-online.org/388476, посвященной генетике бактерий.�Автор мне неизвестен. Понятная подача материала
Микрофотография маленькой кольцевой ДНК бактерии — плазмиды
Маленькая плазмида бактерии
Электронная микроскопия
Геном адено-ассоциированного вируса AAV2 используют для генной терапии людей с не поддающимися иному лечению патологиями.��Проходят клинические испытания.�
Wang et al. , Adeno-associated virus vector as a platform for gene therapy delivery, 2019
53
Список заболеваний, при которых применяется генная терапия с помощью AAV2. Фазы испытаний.
54
55
Adeno-associated viruses (AAV)
56
Так выглядит AAV в собранном виде
57
РСА расшифровка
капсида AAV2 �
Капсид имеет симметрию икосаэдра
T.P. Wörner et al., Adeno-associated virus capsid assembly is divergent and stochastic, Nature Communications 12:1642 (2021)
Геном AAV
58
Придумал непростое задание на дом про этот геном. �Будьте внимательны)))
Промоторы и альтернативный сплайсинг
59
Промоторы p5, p19, p40
Кодирующие последовательности
генов изображены
прямоугольниками
Для репликации генома AAV нужен хозяйский белок RPA, заделывающий одноцепочечные участки ДНК
60
RPA реагирует на обрыв dsDNA как в овале.
Белки Rep78 и Rep68 связываются с тем же местом, препятствуя связыванию RPA
Белки вирусов помощников (жёлтые и красные) прогоняют Rep78 и Rep68
… и далее. Получается dsDNA AAV
Векторы rAAV на основе AAV генома для генной терапии
61
Today, recombinant AAVs (rAAVs) are the leading platform for in vivo delivery of gene therapies. The first rAAV gene therapy product, alipogene tiparvovec (Glybera), was approved by the European Medicines Agency to treat lipoprotein lipase deficiency in 2012
Although the clinical success of rAAV gene therapy is encouraging, we must acknowledge the limitations and challenges of this gene delivery platform, which include issues with rAAV manufacturing and immunological barriers to delivery AAV is found in multiple vertebrate species, including human and non-human primates (NHPs).
The current consensus is that AAV does not cause any human diseases
Wang et al., Adeno-associated virus
vector as aplatform for gene therapy delivery, 2019
rAAV не встраиваются в геном
человека. Существуют в виде �транскрибируемой dsDNA в виде
Гантели (см. пред. Слайды)
Для их репликации добавляют белки
bз AdV
ДАЛЕЕ ПРИВЕДЕНА ПОСЛЕДОВАТЕЛЬНОСТЬ ПОЛНОГО ГЕНОМА AAV2
Она вам пригодится для выполнения нетривиального домашнего задания
62
63
>NC_001401.2 Adeno-associated virus - 2, complete genome 4679 bp
TTGGCCACTCCCTCTCTGCGCGCTCGCTCGCTCACTGAGGCCGGGCGACCAAAGGTCGCCCGACGCCCGG
GCTTTGCCCGGGCGGCCTCAGTGAGCGAGCGAGCGCGCAGAGAGGGAGTGGCCAACTCCATCACTAGGGG
TTCCTGGAGGGGTGGAGTCGTGACGTGAATTACGTCATAGGGTTAGGGAGGTCCTGTATTAGAGGTCACG
TGAGTGTTTTGCGACATTTTGCGACACCATGTGGTCACGCTGGGTATTTAAGCCCGAGTGAGCACGCAGG
GTCTCCATTTTGAAGCGGGAGGTTTGAACGCGCAGCCGCCATGCCGGGGTTTTACGAGATTGTGATTAAG
GTCCCCAGCGACCTTGACGAGCATCTGCCCGGCATTTCTGACAGCTTTGTGAACTGGGTGGCCGAGAAGG
AATGGGAGTTGCCGCCAGATTCTGACATGGATCTGAATCTGATTGAGCAGGCACCCCTGACCGTGGCCGA
GAAGCTGCAGCGCGACTTTCTGACGGAATGGCGCCGTGTGAGTAAGGCCCCGGAGGCCCTTTTCTTTGTG
CAATTTGAGAAGGGAGAGAGCTACTTCCACATGCACGTGCTCGTGGAAACCACCGGGGTGAAATCCATGG
TTTTGGGACGTTTCCTGAGTCAGATTCGCGAAAAACTGATTCAGAGAATTTACCGCGGGATCGAGCCGAC
TTTGCCAAACTGGTTCGCGGTCACAAAGACCAGAAATGGCGCCGGAGGCGGGAACAAGGTGGTGGATGAG
TGCTACATCCCCAATTACTTGCTCCCCAAAACCCAGCCTGAGCTCCAGTGGGCGTGGACTAATATGGAAC
AGTATTTAAGCGCCTGTTTGAATCTCACGGAGCGTAAACGGTTGGTGGCGCAGCATCTGACGCACGTGTC
GCAGACGCAGGAGCAGAACAAAGAGAATCAGAATCCCAATTCTGATGCGCCGGTGATCAGATCAAAAACT
TCAGCCAGGTACATGGAGCTGGTCGGGTGGCTCGTGGACAAGGGGATTACCTCGGAGAAGCAGTGGATCC
AGGAGGACCAGGCCTCATACATCTCCTTCAATGCGGCCTCCAACTCGCGGTCCCAAATCAAGGCTGCCTT
GGACAATGCGGGAAAGATTATGAGCCTGACTAAAACCGCCCCCGACTACCTGGTGGGCCAGCAGCCCGTG
GAGGACATTTCCAGCAATCGGATTTATAAAATTTTGGAACTAAACGGGTACGATCCCCAATATGCGGCTT
CCGTCTTTCTGGGATGGGCCACGAAAAAGTTCGGCAAGAGGAACACCATCTGGCTGTTTGGGCCTGCAAC
TACCGGGAAGACCAACATCGCGGAGGCCATAGCCCACACTGTGCCCTTCTACGGGTGCGTAAACTGGACC
AATGAGAACTTTCCCTTCAACGACTGTGTCGACAAGATGGTGATCTGGTGGGAGGAGGGGAAGATGACCG
CCAAGGTCGTGGAGTCGGCCAAAGCCATTCTCGGAGGAAGCAAGGTGCGCGTGGACCAGAAATGCAAGTC
CTCGGCCCAGATAGACCCGACTCCCGTGATCGTCACCTCCAACACCAACATGTGCGCCGTGATTGACGGG
AACTCAACGACCTTCGAACACCAGCAGCCGTTGCAAGACCGGATGTTCAAATTTGAACTCACCCGCCGTC
TGGATCATGACTTTGGGAAGGTCACCAAGCAGGAAGTCAAAGACTTTTTCCGGTGGGCAAAGGATCACGT
GGTTGAGGTGGAGCATGAATTCTACGTCAAAAAGGGTGGAGCCAAGAAAAGACCCGCCCCCAGTGACGCA
GATATAAGTGAGCCCAAACGGGTGCGCGAGTCAGTTGCGCAGCCATCGACGTCAGACGCGGAAGCTTCGA
TCAACTACGCAGACAGGTACCAAAACAAATGTTCTCGTCACGTGGGCATGAATCTGATGCTGTTTCCCTG
CAGACAATGCGAGAGAATGAATCAGAATTCAAATATCTGCTTCACTCACGGACAGAAAGACTGTTTAGAG
TGCTTTCCCGTGTCAGAATCTCAACCCGTTTCTGTCGTCAAAAAGGCGTATCAGAAACTGTGCTACATTC
ATCATATCATGGGAAAGGTGCCAGACGCTTGCACTGCCTGCGATCTGGTCAATGTGGATTTGGATGACTG
CATCTTTGAACAATAAATGATTTAAATCAGGTATGGCTGCCGATGGTTATCTTCCAGATTGGCTCGAGGA
64
CACTCTCTCTGAAGGAATAAGACAGTGGTGGAAGCTCAAACCTGGCCCACCACCACCAAAGCCCGCAGAG
CGGCATAAGGACGACAGCAGGGGTCTTGTGCTTCCTGGGTACAAGTACCTCGGACCCTTCAACGGACTCG
ACAAGGGAGAGCCGGTCAACGAGGCAGACGCCGCGGCCCTCGAGCACGACAAAGCCTACGACCGGCAGCT
CGACAGCGGAGACAACCCGTACCTCAAGTACAACCACGCCGACGCGGAGTTTCAGGAGCGCCTTAAAGAA
GATACGTCTTTTGGGGGCAACCTCGGACGAGCAGTCTTCCAGGCGAAAAAGAGGGTTCTTGAACCTCTGG
GCCTGGTTGAGGAACCTGTTAAGACGGCTCCGGGAAAAAAGAGGCCGGTAGAGCACTCTCCTGTGGAGCC
AGACTCCTCCTCGGGAACCGGAAAGGCGGGCCAGCAGCCTGCAAGAAAAAGATTGAATTTTGGTCAGACT
GGAGACGCAGACTCAGTACCTGACCCCCAGCCTCTCGGACAGCCACCAGCAGCCCCCTCTGGTCTGGGAA
CTAATACGATGGCTACAGGCAGTGGCGCACCAATGGCAGACAATAACGAGGGCGCCGACGGAGTGGGTAA
TTCCTCGGGAAATTGGCATTGCGATTCCACATGGATGGGCGACAGAGTCATCACCACCAGCACCCGAACC
TGGGCCCTGCCCACCTACAACAACCACCTCTACAAACAAATTTCCAGCCAATCAGGAGCCTCGAACGACA
ATCACTACTTTGGCTACAGCACCCCTTGGGGGTATTTTGACTTCAACAGATTCCACTGCCACTTTTCACC
ACGTGACTGGCAAAGACTCATCAACAACAACTGGGGATTCCGACCCAAGAGACTCAACTTCAAGCTCTTT
AACATTCAAGTCAAAGAGGTCACGCAGAATGACGGTACGACGACGATTGCCAATAACCTTACCAGCACGG
TTCAGGTGTTTACTGACTCGGAGTACCAGCTCCCGTACGTCCTCGGCTCGGCGCATCAAGGATGCCTCCC
GCCGTTCCCAGCAGACGTCTTCATGGTGCCACAGTATGGATACCTCACCCTGAACAACGGGAGTCAGGCA
GTAGGACGCTCTTCATTTTACTGCCTGGAGTACTTTCCTTCTCAGATGCTGCGTACCGGAAACAACTTTA
CCTTCAGCTACACTTTTGAGGACGTTCCTTTCCACAGCAGCTACGCTCACAGCCAGAGTCTGGACCGTCT
CATGAATCCTCTCATCGACCAGTACCTGTATTACTTGAGCAGAACAAACACTCCAAGTGGAACCACCACG
CAGTCAAGGCTTCAGTTTTCTCAGGCCGGAGCGAGTGACATTCGGGACCAGTCTAGGAACTGGCTTCCTG
GACCCTGTTACCGCCAGCAGCGAGTATCAAAGACATCTGCGGATAACAACAACAGTGAATACTCGTGGAC
TGGAGCTACCAAGTACCACCTCAATGGCAGAGACTCTCTGGTGAATCCGGGCCCGGCCATGGCAAGCCAC
AAGGACGATGAAGAAAAGTTTTTTCCTCAGAGCGGGGTTCTCATCTTTGGGAAGCAAGGCTCAGAGAAAA
CAAATGTGGACATTGAAAAGGTCATGATTACAGACGAAGAGGAAATCAGGACAACCAATCCCGTGGCTAC
GGAGCAGTATGGTTCTGTATCTACCAACCTCCAGAGAGGCAACAGACAAGCAGCTACCGCAGATGTCAAC
ACACAAGGCGTTCTTCCAGGCATGGTCTGGCAGGACAGAGATGTGTACCTTCAGGGGCCCATCTGGGCAA
AGATTCCACACACGGACGGACATTTTCACCCCTCTCCCCTCATGGGTGGATTCGGACTTAAACACCCTCC
TCCACAGATTCTCATCAAGAACACCCCGGTACCTGCGAATCCTTCGACCACCTTCAGTGCGGCAAAGTTT
GCTTCCTTCATCACACAGTACTCCACGGGACAGGTCAGCGTGGAGATCGAGTGGGAGCTGCAGAAGGAAA
ACAGCAAACGCTGGAATCCCGAAATTCAGTACACTTCCAACTACAACAAGTCTGTTAATGTGGACTTTAC
TGTGGACACTAATGGCGTGTATTCAGAGCCTCGCCCCATTGGCACCAGATACCTGACTCGTAATCTGTAA
TTGCTTGTTAATCAATAAACCGTTTAATTCGTTTCAGTTGAACTTTGGTCTCTGCGTATTTCTTTCTTAT
CTAGTTTCCATGGCTACGTAGATAAGTAGCATGGCGGGTTAATCATTAACTACAAGGAACCCCTAGTGAT
GGAGTTGGCCACTCCCTCTCTGCGCGCTCGCTCGCTCACTGAGGCCGGGCGACCAAAGGTCGCCCGACGC
CCGGGCTTTGCCCGGGCGGCCTCAGTGAGCGAGCGAGCGCGCAGAGAGGGAGTGGCCAA
Вирус SARS-CoV-2
65
Что записано в файле с геномом SARS-CoV-2 для людей?
��
66
Из аннотации записи NC_045512 в банке данных Refseq на сайте NCBI
LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020�DEFINITION Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome.�ACCESSION NC_045512
gene 21563..25384 /gene="S" /gene_synonym="spike glycoprotein" �CDS 21563..25384 /gene="S" spike protein" /product="surface glycoprotein" /protein_id="YP_009724390.1" /translation="MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFR SSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIR GWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVY�…………………………………………………………………………………………………………………………………………………………�…………………………………………………………………………………………………………………………………………………………
…………………………………………………………………………………………………………………………………………………………
ГЕНЫ БЕЛКОВ ранние и поздние гены разделены линией
67
По оси X нуклеотиды РНК:
1 10 000 20 000 29 903
Гены изображены красными и коричневыми полосками
ГЕНЫ ORF1ab и ORF1a�красные полоски до вертикальной линии
68
А зрелые белки, которые они кодируют, изображены коричневыми полосками.
Как так?
И почему два гена на одном месте, но разной длины?
ТРАНСЛЯЦИЯ: СИНТЕЗ МОЛЕКУЛЫ БЕЛКА
При заражении covid-19 в клетке хозяина (человека) оказывается РНК вируса.
РИБОСОМА (молекулярная машина для синтеза белков) опознаёт ее как мРНК - матричную РНК гена�
Как удаётся коронавирусу выдать свою РНК за мРНК? Нужны соответствующие сигналы…
69
В клетке для синтеза белка нужна матричная РНК
70
�В клетке хозяина (человека) оказывается РНК коронавируса �
71
……AAAATTAATTTTAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGGAGAATGACAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
РНК коронавируса несет оба эти сигнала.� - ПолиА на 3’-конце конце РНК видны в файле с РНК (см)
- Кэп тоже есть
Одна мРНК – один ген и один белок
72
У человека и других эукариот. Бывают исключения, но они редки!!!
https://ru.wikipedia.org/wiki/Матричная_РНК#Трансляция
* Малая субъединица рибосомы узнает кэп и сканирует мРНК
до появления кодона АTG.�Причем не просто ATG, а ATG в подходящем окружении, �так называемая последовательность Кóзак
* C триплета ATG начинается синтез белка рибосомой, по кодонам. Заканчивается на стоп кодоне.
По таблице генетического кода!
73
AAA | K | CAA | Q | GAA | E | TAA | Stop |
AAG | K | CAG | Q | GAG | E | TAG | Stop |
AAC | N | CAC | H | GAC | D | TAC | Y |
AAT | N | CAT | H | GAT | D | TAT | Y |
ACA | T | CCA | P | GCA | A | TCA | S |
ACG | T | CCG | P | GCG | A | TCG | S |
ACC | T | CCC | P | GCC | A | TCC | S |
ACT | T | CCT | P | GCT | A | TCT | S |
AGA | R | CGA | R | GGA | G | TGA | Stop |
AGG | R | CGG | R | GGG | G | TGG | W |
AGC | S | CGC | R | GGC | G | TGC | C |
AGT | S | CGT | R | GGT | G | TGT | C |
ATA | I | CTA | L | GTA | V | TTA | L |
ATG | M | CTG | L | GTG | V | TTG | L |
ATC | I | CTC | L | GTC | V | TTC | F |
ATT | I | CTT | L | GTT | V | TTT | F |
Так рибосомы делают белки
74
аминокислота
мРНК
белок
тРНК
Ген ORF1a заканчивается стоп-кодоном, как положено. �Так и транслируется рибосомой человека
75
ORF1a
ORF1ab
Как же транслируется ген ORF1ab???
Не бывает правил без исключений!�Программируемый рибосомный сдвиг. �Рибосома останавливается из-за шпильки на РНК� и slippery sequence. Отскакивает на ОДИН нуклеотид. И продолжает синтез белка
76
Продукты генов ORF1ab и ORF1a - Большие белки – полипротеины. См. след слайд
77
Они сами себя разрезают на отдельные белки
78
Функции некоторых ранних белков
79
Name | Число а/к | зачем нужен |
NSP1 | 180 | Деградирует некоторые хозяйские РНК |
NSP3a | 1945 | Протеиназа, отрезает nsp1, nsp2, nsp3 |
NSP5a | 306 | Протеиназа, режет полипротеин в 11 местах |
NSP8 | 198 | Помогает при репликации РНК |
NSP12a | 932 | Полимераза – по РНК делает комплементарную РНК (RDRp) |
NSP13 | 601 | Хеликаза (расплетает двойную спираль РНК) |
NSP14 | 527 | Присоединяет cap к РНК |
NSP15a | 346 | Уклонение от защиты хозяйских клеток |
Yoshimoto, Protein J 39, 198–216 (2020).
Как транслируются поздние белки?��Среди поздних генов все белки составляющие вирион, который существует пока вирус вне хозяина.�Оно и понятно – вирион собирается в конце заражения, когда есть много РНК – геномов и пора выходить из клетки.
80
Коронавирус вирус: белки�Схема вириона, существующего между заражениями
81
Xu J, et al. Antibodies and vaccines against Middle East respiratory syndrome coronavirus.
Emerg Microbes Infect 2019, Review. MERS-CoV
Четыре белка:
S, M, E, N
и РНК
оставляют
вирион
РНК облеплена
белками N
Функции белков
1) Между эндоплазматическим ретикулумом и аппаратом Гольджи)
82
Коронавирус синтезирует отдельные мРНК для поздних генов (называют сгмРНК, субгеномные)
83
ИДЕЯ коронавируса: лидерную последовательность «склеить» с участком начиная от позднего гена и до конца!� Сохраняются все 5’ концевые и 3’ концевые сигналы (КЭП, полиA и др.) �
СДЕЛАВ ЭТО, ПРЕДОК КОРОНАВИРУСОВ ЗАКРИЧАЛ ЭВРИКА! И заразил множество хозяев.
РНК зависимая РНК полимераза коронавируса
84
RdRP
ПОМНИМ:
В РНК U вместо T
Коронавирусам (эволюции) пришлось долго ломать голову чтобы придумать такое! Сигналы TRS – последовательности похожие на CTAAAC – обозначены черным прямоугольником, желтым на цветном рисунке.
85
По –сгРНК полимераза RdRP делает �+сгмРНК.
И рибосома транслирует первый ген на ней в белок
TRS есть перед геном
ORF1ab и перед каждым
поздним геном