De novo сборка генома
1
В идеальном мире
2
[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]
WGS секвенирование
Несколько копий ДНК молекул
Фрагменты длиной 200 - 200,000 п.н.
Не остается
информации из какой части генома взят тот или иной фрагмент
3
WGS секвенирование: фрагменты
Секвенатор считывает по 100-1000 п.н. с конца/концов фрагмента.
Размеры фрагментов известны с точностью ± 10-20%.
CAAGCTGAT... Неизвестная последовательность…GTTTGGAAC
4
Пары чтений
Пушкиномика
У лукоморья дуб зеленый; Златая цепь на дубе том:
5
Пушкиномика
Как нам получить из этих фрагментов исходные строки?
Чтения:
У лукоморья ду морья дуб зеле зуб зеленый; З
6
леный; Златая Златая цепь н я цепь на дубе
пь на дубе том
Пушкиномика
Чтения:
У лукоморья ду морья дуб зеле зуб зеленый; З
леный; Златая Златая цепь н я цепь на дубе
пь на дубе том
Перекрытия:
У лукоморья ду
морья дуб зеле
зуб зеленый; З
леный; Златая
Златая цепь н
я цепь на дубе
пь на дубе том
7
Пушкиномика
Перекрытия:
У лукоморья ду
морья дуб зеле
зуб зеленый; З
леный; Златая
Златая цепь н
я цепь на дубе
пь на дубе том
8
Пушкиномика
Перекрытия:
У лукоморья ду
морья дуб зеле
зуб зеленый; З
леный; Златая
Златая цепь н
я цепь на дубе
пь на дубе том
Консенсус:
У лукоморья дуб зеленый; Златая цепь на дубе том
9
Overlap layout consensus (OLC)
Overlap
Layout
Consensus
OLC generally works in three steps:
first overlaps (O) among all the reads are found,
then it carries out a layout (L) of all the reads and overlaps information on a graph
finally the consensus (C) sequence is inferred.
Overlap graph
11
AGCTACAGTATGCT
TACAGTATGCTTAT
GTATGCTTATCTGA TGATACCTTAGCCA
TGCTTATCTGATAC
Overlap graph
12
TACAGTATGCTTAT AGCTACAGTATGCT
TACAGTATGCTTAT
TACAGTATGCTTAT GTATGCTTATCTGA
TACAGTATGCTTAT
TGCTTATCTGATAC
Overlap graph
AGCTACAGTATGCT
TACAGTATGCTTAT
AGCTACAGTATGCT
TACAGTATGCTTAT
13
Overlap graph
AGCTACAGTATGCT TACAGTATGCTTAT
AGCTACAGTATGCT
TACAGTATGCTTAT
14
Overlap graph
AGCTACAGTATGCT
TACAGTATGCTTAT
GTATGCTTATCTGA
TGCTTATCTGATAC
TGATACCTTAGCCA
15
Какой путь нужно найти, чтобы получить исходный геном?
Overlap graph
AGCTACAGTATGCT
TACAGTATGCTTAT
GTATGCTTATCTGA
TGCTTATCTGATAC
TGATACCTTAGCCA
17
Overlap graph
AGCTACAGTATGCT
TACAGTATGCTTAT
GTATGCTTATCTGA
TGCTTATCTGATAC
TGATACCTTAGCCA
18
Overlap graph
19
AGCTACAGTATGCT TACAGTATGCTTAT
GTATGCTTATCTGA TGCTTATCTGATAC
TGATACCTTAGCCA
AGCTACAGTATGCTATCTGATACCTTAGCCA
Секвенирования с помощью гибридизации
20
Секвенирование с помощью гибридизации
21
Целевая ДНК: AAATGCG
K-меры. De Bruijn граф.
22
K=5
AGCTACAGTATGC
AGCTA
K-меры. De Bruijn граф.
23
K=5
AGCTACAGTATGC
AGCTA GCTAC
K-меры. De Bruijn граф.
24
K=5
AGCTACAGTATGC
AGCTA GCTAC CTACA
K-меры. De Bruijn граф.
25
K=5
AGCTACAGTATGC
AGCTA GCTAC CTACA TACAG
K-меры. De Bruijn граф.
26
K=5
AGCTACAGTATGC
AGCTA GCTAC CTACA TACAG ACAGT
K-меры. De Bruijn граф.
27
K=5
AGCTACAGTATGC
AGCTA | GCTAC | CTACA |
TACAG | ACAGT | CAGTA |
K-меры. De Bruijn граф.
28
K=5
AGCTACAGTATGC
AGCTA | GCTAC | CTACA |
TACAG | ACAGT | CAGTA |
AGTAT | | |
K-меры. De Bruijn граф.
27
K=5
AGCTACAGTATGC
AGCTA | GCTAC | CTACA |
TACAG | ACAGT | CAGTA |
AGTAT | GTATG | |
K-меры. De Bruijn граф.
30
K=5
AGCTACAGTATGC
AGCTA | GCTAC | CTACA |
TACAG | ACAGT | CAGTA |
AGTAT | GTATG | TATGC |
K-меры. De Bruijn граф.
31
AGCTACAGTATGC
TATGCTTATCTGA
K-меры. De Bruijn граф.
32
AGCTACAGTATGC
TATGCTTATCTGA
AGCTACAGTATGC TATGCTTATCTGA
AGCTA GCTAC
TACAG CTACA
AGTAT ACAGT
GTATG CAGTA
TATGC
GCTTA CTTAT TATCT TGCTT
ATGCT TTATC ATCTG TCTGA
K-меры. De Bruijn граф.
33
AGTAT
GTATG
TATGC
K+1=6
AGCTACAGTATGC
AGCTA GCTAC CTACA AGCTAC
TACAG ACAGT CAGTA
K-меры. De Bruijn граф.
K+1=6
AGCTACAGTATGC
AGCTA GCTAC CTACA
AGCTAC GCTACA
TACAG ACAGT CAGTA
AGTAT
GTATG
TATGC
33
K-меры. De Bruijn граф.
K+1=6
AGCTACAGTATGC
AGCTA GCTAC CTACA
AGCTAC GCTACA CTACAG
TACAG ACAGT CAGTA
TACAGT ACAGTA CAGTAT
AGTAT
GTATG
TATGC
AGAGTG
GTATGC
33
K-меры. De Bruijn граф.
36
AGCTA
GCTAC
K-меры. De Bruijn граф.
37
AGCTA
AGCTA
GCTAC
GCTAC
K-меры. De Bruijn граф.
38
AGCTA
GCTAC
AGCTA AGCTAC
GCTAC
K-меры. De Bruijn граф.
39
AGCTA
AGCTAC GCTAC
AGCTA AGCTAC
GCTAC
K-меры. De Bruijn граф.
AGCTACAGTATGC
TATGCTTATCTGA
AGCTA | GCTAС | CTAСA | TAСAG |
GTATG | AGTAT | СAGTA | AСAGT |
TATGC | ATGCT | TGCTT | GCTTA |
ATCTG | TATCT | TTATC | CTTAT |
TCTGA
102
K=5
K-меры. De Bruijn граф.
AGCTACAGTATGC
TATGCTTATCTGA
AGCTA GCTAС CTAСA TAСAG
GTATG AGTAT СAGTA AСAGT
K=5
GCTTA
CTTAT
TATGC ATGCT TGCTT
ATCTG TATCT TTATC
TCTGA
103
K-меры. De Bruijn граф.
AGCTACAGTATGC
TATGCTTATCTGA
AGCTA | GCTAС | CTAСA | TAСAG |
GTATG | AGTAT | СAGTA | AСAGT |
TATGC | ATGCT | TGCTT | GCTTA |
ATCTG | TATCT | TTATC | CTTAT |
TCTGA
104
K=5
Что будет если поменять K?
K-меры. De Bruijn граф.
44
K=2
AC
AG
GC
CA
GA
AT
AGCTACAGTATGC
TATGCTTATCTGA
TT
CT TA
GT
TG
TC
K-мер. De Bruijn граф.
45
K=10
AGCTACAGTATGC
TATGCTTATCTGA
AGCTACAGTA GCTACAGTAT CTACAGTATG
TACAGTATGC
TATGCTTATC
ATGCTTATCT
TGCTTATCTG
GCTTATCTGA
Более реалистичный пример графа
[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]
43
Число возможных реконструкций генома
44
[Kingsford C. et al. Assembly complexity of prokaryotic genomes using short reads.
BMC Bioinformatics. 2010 Jan 12;11:21]
Что усложняет графы
48
Что такое повтор?
49
Эффект оказываемый на сборку
Повторяющиеся элементы сливаются в один контиг.
47
SOAPdenovo
48
[Ruiqiang Li et al. De novo assembly of human genomes with massively parallel short read sequencing, Genome Res., 2010]
Контиги
[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/
FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]
49
Типы чтений
53
– atcgtatgatcttgagattctctcttcccttatagctgctata
– atcgtatgatcttgagattctctcttcccttatagctgctata
От контигов к скаффолдам
54
Парные чтения
Контиги
Скаффолд
Гэпы
Гэпы
Если вы хотите собрать большой геном
55
[Ellegren H et al. , The genomic landscape of species divergence in Ficedula flycatchers.
Требуйте библиотеки с разными длинами вставок Геном Ficedula flycatchers - 1.1 Gb
Библиотеки: | | |
1)~200 | 4)~500 | 7)~5100 |
2)~300 | 5)~2400 | 8)~18000 |
3)~400 | 6)~4100 | 9)~21000 |
Nature 2012, 491.]
Что такое N50?
N50 показывает качество сборки
N50 – это такая минимальная длина контига (скаффолда), что контиги (скаффолды) с длинами большими либо равными ей покрывают 50%
генома.
53
Сборка генома сельдерея
55
[https://doi.org/10.1038/s41438-019-0235-2]
Сборка генома сельдерея
56
[https://doi.org/10.1038/s41438-019-0235-2]
Library insert size | Library number | Clean data (Gb) | Sequence coverage (×) |
180 bp | 18 | 211.47 | 66.50 |
500 bp | 14 | 152.35 | 47.91 |
800 bp | 18 | 136.35 | 42.88 |
2 kb | 8 | 47.78 | 15.03 |
5 kb | 8 | 27.78 | 8.74 |
10 kb | 2 | 25.07 | 7.88 |
Total | 68 | 600.80 | 188.93 |
CutAdapt+SOAPdenovo2
+GapCloser
Сборка генома сельдерея
57
[https://doi.org/10.1038/s41438-019-0235-2]
Feature | Value |
Genome size | 2.21 Gb |
Genome GC% | 35.35% |
Gene number | 34,277 |
Gene no. per 100 kb | 1.44 |
Average gene length (bp) | 3267 |
Exon region GC (%) | 42.06% |
Exon number | 180,591 |
Average exon length (bp) | 243.48 |
Exon no. per gene | 5.27 |
Property | Contig | Scaffold |
Min sequence length (bp) | 500 | 500 |
Max sequence length (bp) | 228,328 | 556,749 |
Total sequence number | 432,762 | 257,842 |
N50 length (bp) | 13,108 | 35,567 |
N90 length (bp) | 1136 | 4841 |
N number | 648,982 | 280,637, 212 |
N rate (%) | 0.031 | 11.8 |
Total sequence length (bp) | 2,017,581,028 | 2,372,941,895 |
Сборка генома сельдерея
57
[https://doi.org/10.1038/s41438-019-0235-2]
Feature | Value |
Genome size | 2.21 Gb |
Genome GC% | 35.35% |
Gene number | 34,277 |
Gene no. per 100 kb | 1.44 |
Average gene length (bp) | 3267 |
Exon region GC (%) | 42.06% |
Exon number | 180,591 |
Average exon length (bp) | 243.48 |
Exon no. per gene | 5.27 |
Property | Contig | Scaffold |
Min sequence length (bp) | 500 | 500 |
Max sequence length (bp) | 228,328 | 556,749 |
Total sequence number | 432,762 | 257,842 |
N50 length (bp) | 13,108 | 35,567 |
N90 length (bp) | 1136 | 4841 |
N number | 648,982 | 280,637, 212 |
N rate (%) | 0.031 | 11.8 |
Total sequence length (bp) | 2,017,581,028 | 2,372,941,895 |
Как собирали геном морковки?
58
Sequencing method | Insert Size | Read Length (nt) | Total Data (nt×109) | Sequence Depth (×) |
Illumina, Paired- ends | 170nt | 100 | 29,2 | 61,7 |
285nt | 100 | 25,1 | 53,2 | |
800nt | 100 | 15,5 | 32,8 | |
2knt | 49 | 12,9 | 27,2 | |
5knt | 49 | 7,1 | 14,9 | |
10knt | 49 | 20,5 | 43,3 | |
20knt | 49 | 22,4 | 47,4 | |
40knt | 49 | 14,4 | 30,5 | |
Total | — | — | 147,2 | 311,1 |
Sanger, BAC | 148±70knt | 566 | 0,04 | 0,08 |
Какие были данные
Размер генома
~470 млн. п.н.
Daucus carota
[Massimo Iorizzo et al. Nature genetics Volume 48 Number 6 June 2016]
Как собирали геном морковки?
59
SOAPdenovo ver 2.04
Illumina reads
Со вставкой меньше 20 тыс. п.н.
GapCloser
Linkage map(2075
маркеров)
Версия 1 генома
N50 787280 п.н.
Число посл-тей 8096
29875 BAC клонов
Генерация
псевдомолекул
Версия 2 генома
9 псевдомолекул, составляющих 362 млн. п.н. и 3379 скаффолдов. Общая длина сборки 421,5 млн. п.н.
Чтений может быть недостаточно!
Как решить проблему повторов?
SMRT (PacBio)
Сборка из чтений PacBio
60
Pacific Bioscience
Сборка из чтений PacBio
61
Oropetium thomaeum
Размер генома ~250 млн. п.н.
[Robert VanBuren et al., Nature 527, 508–511 (26 November 2015) ]
Сборка из чтений PacBio
62
[Robert VanBuren et al., Nature 527, 508–511 (26 November 2015) ]
Irys technology
63
Scaffolding by HiC
64
[The cells sequenced in (A) normal conditions, (B) during mitosis, and (C) Dovetail Chicago]
Сборка генома Ophiorrhiza pumila
65
[doi: 10.1038/s41467-020-20508-2]
Сборка генома Ophiorrhiza pumila
66
[doi: 10.1038/s41467-020-20508-2]
Сборка генома Ophiorrhiza pumila
67
[doi: 10.1038/s41467-020-20508-2]
Что нужно знать о данных из которых вы собираетесь делать de novo сборку
68
Что такое покрытие?
69
Это сколько раз в среднем покрыт ридами нуклеотид генома?
Влияние покрытия на N50
70
[Ruiqiang Li et al. De novo assembly of human genomes with massively parallel short read sequencing, Genome Res., 2010]
Подготовка чтений
71
Trimmomatic
Подготовка чтений
72
Quake, BayesHammer, …
Подготовка чтений
PEAR. FLASH …
http://thegenomefactory.blogspot.ru/2012/11/tools-to-merge-overlapping-paired- end.html
73
Подготовка чтений
74
[http://www.illumina.com/documents/products/technotes/technote_nextera_matepair
_data_processing.pdf]
Что делать с загрязнением?
75
Набор чтений
База данных нуклеотидных
последовательностей
Картирование(bowtie2) и отбор
последовательностей
Сборка
Что делать с загрязнением?
76
Набор контигов
База данных
нуклеотидных
последовательностей
Картирование(BLAST) и отбор
последовательностей
Сборка
RNA-seq чтения
Evgeny V Leushkin et al. The miniature genome of a carnivorous plant Genlisea aureacontains a low number of genes and short non-coding sequences. BMC Genomics 2013, 14:476
Чем собирать?
Spades, Ray, IDBA, Abyss….
SOAP, MaSuRCA, Meraculous, Platanus, ALLPaths- LG, IDBA, Ray, Abyss, Minia…..
Newbler, Celera assembler, MIRA,ARACHNE, SGA, HGAP, Falcon, MHAP, SSPACE, CANU, PBcR, Sprai….
dipSpades, Platanus, newbler
77
Оценка качества сборки
78
Валидация сборки
методов секвенирования
«рестрикционных карт»
79
Программы для оценки качества и валидации сборки
80
81
ALE
[Scott C. Clark et al. ALE: a generic assembly likelihood evaluation framework for assessing
the accuracy of genome and metagenome assemblies. Bioinformatics (2013) 29 (4): 435-
443.]
82
ALE
[Scott C. Clark et al. ALE: a generic assembly likelihood evaluation framework for assessing
the accuracy of genome and metagenome assemblies. Bioinformatics (2013) 29 (4): 435-
443.]
83
ALE
84
Советы
85
сборщик.
Полезные ссылки
86
Monya Baker. De novo genome assembly: what every biologist should know. Nature Methods 9, 333-337 (2012).
http://bsc2010.bioinformatics.ucdavis.edu/hand son/index.html
ВОПРОСЫ?
87
При составлении слайдов использовались следующие материалы:
Автор большинства слайдов Артем Касьянов