1 of 93

De novo сборка генома

1

2 of 93

В идеальном мире

2

[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

3 of 93

WGS секвенирование

Несколько копий ДНК молекул

Фрагменты длиной 200 - 200,000 п.н.

Не остается

информации из какой части генома взят тот или иной фрагмент

3

4 of 93

WGS секвенирование: фрагменты

Секвенатор считывает по 100-1000 п.н. с конца/концов фрагмента.

Размеры фрагментов известны с точностью ± 10-20%.

CAAGCTGAT... Неизвестная последовательность…GTTTGGAAC

4

Пары чтений

5 of 93

Пушкиномика

У лукоморья дуб зеленый; Златая цепь на дубе том:

5

6 of 93

Пушкиномика

Как нам получить из этих фрагментов исходные строки?

Чтения:

У лукоморья ду морья дуб зеле зуб зеленый; З

6

леный; Златая Златая цепь н я цепь на дубе

пь на дубе том

7 of 93

Пушкиномика

Чтения:

У лукоморья ду морья дуб зеле зуб зеленый; З

леный; Златая Златая цепь н я цепь на дубе

пь на дубе том

Перекрытия:

У лукоморья ду

морья дуб зеле

зуб зеленый; З

леный; Златая

Златая цепь н

я цепь на дубе

пь на дубе том

7

8 of 93

Пушкиномика

Перекрытия:

У лукоморья ду

морья дуб зеле

зуб зеленый; З

леный; Златая

Златая цепь н

я цепь на дубе

пь на дубе том

8

9 of 93

Пушкиномика

Перекрытия:

У лукоморья ду

морья дуб зеле

зуб зеленый; З

леный; Златая

Златая цепь н

я цепь на дубе

пь на дубе том

Консенсус:

У лукоморья дуб зеленый; Златая цепь на дубе том

9

10 of 93

Overlap layout consensus (OLC)

Overlap

Layout

Consensus

OLC generally works in three steps:

first overlaps (O) among all the reads are found,

then it carries out a layout (L) of all the reads and overlaps information on a graph

finally the consensus (C) sequence is inferred.

11 of 93

Overlap graph

11

AGCTACAGTATGCT

TACAGTATGCTTAT

GTATGCTTATCTGA TGATACCTTAGCCA

TGCTTATCTGATAC

12 of 93

Overlap graph

12

TACAGTATGCTTAT AGCTACAGTATGCT

TACAGTATGCTTAT

TACAGTATGCTTAT GTATGCTTATCTGA

TACAGTATGCTTAT

TGCTTATCTGATAC

13 of 93

Overlap graph

AGCTACAGTATGCT

TACAGTATGCTTAT

AGCTACAGTATGCT

TACAGTATGCTTAT

13

14 of 93

Overlap graph

AGCTACAGTATGCT TACAGTATGCTTAT

AGCTACAGTATGCT

TACAGTATGCTTAT

14

15 of 93

Overlap graph

AGCTACAGTATGCT

TACAGTATGCTTAT

GTATGCTTATCTGA

TGCTTATCTGATAC

TGATACCTTAGCCA

15

16 of 93

Какой путь нужно найти, чтобы получить исходный геном?

17 of 93

Overlap graph

AGCTACAGTATGCT

TACAGTATGCTTAT

GTATGCTTATCTGA

TGCTTATCTGATAC

TGATACCTTAGCCA

17

18 of 93

Overlap graph

AGCTACAGTATGCT

TACAGTATGCTTAT

GTATGCTTATCTGA

TGCTTATCTGATAC

TGATACCTTAGCCA

18

19 of 93

Overlap graph

19

AGCTACAGTATGCT TACAGTATGCTTAT

GTATGCTTATCTGA TGCTTATCTGATAC

TGATACCTTAGCCA

AGCTACAGTATGCTATCTGATACCTTAGCCA

20 of 93

Секвенирования с помощью гибридизации

20

21 of 93

Секвенирование с помощью гибридизации

21

  • ДНК чип с 43 пробами

Целевая ДНК: AAATGCG

22 of 93

K-меры. De Bruijn граф.

22

K=5

AGCTACAGTATGC

AGCTA

23 of 93

K-меры. De Bruijn граф.

23

K=5

AGCTACAGTATGC

AGCTA GCTAC

24 of 93

K-меры. De Bruijn граф.

24

K=5

AGCTACAGTATGC

AGCTA GCTAC CTACA

25 of 93

K-меры. De Bruijn граф.

25

K=5

AGCTACAGTATGC

AGCTA GCTAC CTACA TACAG

26 of 93

K-меры. De Bruijn граф.

26

K=5

AGCTACAGTATGC

AGCTA GCTAC CTACA TACAG ACAGT

27 of 93

K-меры. De Bruijn граф.

27

K=5

AGCTACAGTATGC

AGCTA

GCTAC

CTACA

TACAG

ACAGT

CAGTA

28 of 93

K-меры. De Bruijn граф.

28

K=5

AGCTACAGTATGC

AGCTA

GCTAC

CTACA

TACAG

ACAGT

CAGTA

AGTAT

29 of 93

K-меры. De Bruijn граф.

27

K=5

AGCTACAGTATGC

AGCTA

GCTAC

CTACA

TACAG

ACAGT

CAGTA

AGTAT

GTATG

30 of 93

K-меры. De Bruijn граф.

30

K=5

AGCTACAGTATGC

AGCTA

GCTAC

CTACA

TACAG

ACAGT

CAGTA

AGTAT

GTATG

TATGC

31 of 93

K-меры. De Bruijn граф.

31

AGCTACAGTATGC

TATGCTTATCTGA

32 of 93

K-меры. De Bruijn граф.

32

AGCTACAGTATGC

TATGCTTATCTGA

AGCTACAGTATGC TATGCTTATCTGA

AGCTA GCTAC

TACAG CTACA

AGTAT ACAGT

GTATG CAGTA

TATGC

GCTTA CTTAT TATCT TGCTT

ATGCT TTATC ATCTG TCTGA

33 of 93

K-меры. De Bruijn граф.

33

AGTAT

GTATG

TATGC

K+1=6

AGCTACAGTATGC

AGCTA GCTAC CTACA AGCTAC

TACAG ACAGT CAGTA

34 of 93

K-меры. De Bruijn граф.

K+1=6

AGCTACAGTATGC

AGCTA GCTAC CTACA

AGCTAC GCTACA

TACAG ACAGT CAGTA

AGTAT

GTATG

TATGC

33

35 of 93

K-меры. De Bruijn граф.

K+1=6

AGCTACAGTATGC

AGCTA GCTAC CTACA

AGCTAC GCTACA CTACAG

TACAG ACAGT CAGTA

TACAGT ACAGTA CAGTAT

AGTAT

GTATG

TATGC

AGAGTG

GTATGC

33

36 of 93

K-меры. De Bruijn граф.

36

AGCTA

GCTAC

37 of 93

K-меры. De Bruijn граф.

37

AGCTA

AGCTA

GCTAC

GCTAC

38 of 93

K-меры. De Bruijn граф.

38

AGCTA

GCTAC

AGCTA AGCTAC

GCTAC

39 of 93

K-меры. De Bruijn граф.

39

AGCTA

AGCTAC GCTAC

AGCTA AGCTAC

GCTAC

40 of 93

K-меры. De Bruijn граф.

AGCTACAGTATGC

TATGCTTATCTGA

AGCTA

GCTAС

CTAСA

TAСAG

GTATG

AGTAT

СAGTA

AСAGT

TATGC

ATGCT

TGCTT

GCTTA

ATCTG

TATCT

TTATC

CTTAT

TCTGA

102

K=5

41 of 93

K-меры. De Bruijn граф.

AGCTACAGTATGC

TATGCTTATCTGA

AGCTA GCTAС CTAСA TAСAG

GTATG AGTAT СAGTA AСAGT

K=5

GCTTA

CTTAT

TATGC ATGCT TGCTT

ATCTG TATCT TTATC

TCTGA

103

42 of 93

K-меры. De Bruijn граф.

AGCTACAGTATGC

TATGCTTATCTGA

AGCTA

GCTAС

CTAСA

TAСAG

GTATG

AGTAT

СAGTA

AСAGT

TATGC

ATGCT

TGCTT

GCTTA

ATCTG

TATCT

TTATC

CTTAT

TCTGA

104

K=5

43 of 93

Что будет если поменять K?

44 of 93

K-меры. De Bruijn граф.

44

K=2

AC

AG

GC

CA

GA

AT

AGCTACAGTATGC

TATGCTTATCTGA

TT

CT TA

GT

TG

TC

45 of 93

K-мер. De Bruijn граф.

45

K=10

AGCTACAGTATGC

TATGCTTATCTGA

AGCTACAGTA GCTACAGTAT CTACAGTATG

TACAGTATGC

TATGCTTATC

ATGCTTATCT

TGCTTATCTG

GCTTATCTGA

46 of 93

Более реалистичный пример графа

[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/ FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

43

47 of 93

Число возможных реконструкций генома

44

[Kingsford C. et al. Assembly complexity of prokaryotic genomes using short reads.

BMC Bioinformatics. 2010 Jan 12;11:21]

48 of 93

Что усложняет графы

48

  • Ошибки в чтениях
    • Приводят к появлению в графе ошибочных ребер и вершин.
  • Диплоидные и полиплоидные организмы
    • Приводит к появлению дополнительных путей в графе
  • Повторы

49 of 93

Что такое повтор?

49

  • Участок ДНК, который встречается более одного раза в геномной последовательности.
  • Наиболее частые
    • Транспозоны
    • Сателлитные повторы
    • Дуплицированные гены(паралоги)

50 of 93

Эффект оказываемый на сборку

Повторяющиеся элементы сливаются в один контиг.

47

51 of 93

SOAPdenovo

48

[Ruiqiang Li et al. De novo assembly of human genomes with massively parallel short read sequencing, Genome Res., 2010]

52 of 93

Контиги

  • Непрерывные, однозначные фрагменты, собираемой ДНК последовательности.
  • Концы контигов соответсвуют
    • Настоящим концам(для линейных ДНК молекул)
    • Dead ends(провалы покрытия)
    • Точкам принятия решений(узлам в графе в которые входит и/или выходит больше одного ребра)

[http://bioinformatics.org.au/ws13/wp-content/uploads/ws13/sites/3/

FullPresentations/Torsten-Seemann_2013-Winter-School-presentation.pdf]

49

53 of 93

Типы чтений

53

  • Пример фрагмента

atcgtatgatcttgagattctctcttcccttatagctgctata

  • Одноконцевое чтение
  • atcgtatgatcttgagattctctcttcccttatagctgctata
  • Последовательность с одного из концов

  • Парноконцевое чтение

atcgtatgatcttgagattctctcttcccttatagctgctata

  • Последовательность с обоих концов
  • эту информацию можно использовать!

54 of 93

От контигов к скаффолдам

54

Парные чтения

Контиги

Скаффолд

Гэпы

Гэпы

55 of 93

Если вы хотите собрать большой геном

55

[Ellegren H et al. , The genomic landscape of species divergence in Ficedula flycatchers.

Требуйте библиотеки с разными длинами вставок Геном Ficedula flycatchers - 1.1 Gb

Библиотеки:

1)~200

4)~500

7)~5100

2)~300

5)~2400

8)~18000

3)~400

6)~4100

9)~21000

Nature 2012, 491.]

56 of 93

Что такое N50?

N50 показывает качество сборки

N50 – это такая минимальная длина контига (скаффолда), что контиги (скаффолды) с длинами большими либо равными ей покрывают 50%

генома.

53

57 of 93

Сборка генома сельдерея

55

[https://doi.org/10.1038/s41438-019-0235-2]

58 of 93

Сборка генома сельдерея

56

[https://doi.org/10.1038/s41438-019-0235-2]

Library insert size

Library number

Clean data (Gb)

Sequence

coverage (×)

180 bp

18

211.47

66.50

500 bp

14

152.35

47.91

800 bp

18

136.35

42.88

2 kb

8

47.78

15.03

5 kb

8

27.78

8.74

10 kb

2

25.07

7.88

Total

68

600.80

188.93

CutAdapt+SOAPdenovo2

+GapCloser

59 of 93

Сборка генома сельдерея

57

[https://doi.org/10.1038/s41438-019-0235-2]

Feature

Value

Genome size

2.21 Gb

Genome GC%

35.35%

Gene number

34,277

Gene no. per 100 kb

1.44

Average gene length (bp)

3267

Exon region GC (%)

42.06%

Exon number

180,591

Average exon length (bp)

243.48

Exon no. per gene

5.27

Property

Contig

Scaffold

Min sequence length (bp)

500

500

Max sequence length (bp)

228,328

556,749

Total sequence number

432,762

257,842

N50 length (bp)

13,108

35,567

N90 length (bp)

1136

4841

N number

648,982

280,637, 212

N rate (%)

0.031

11.8

Total sequence length (bp)

2,017,581,028

2,372,941,895

60 of 93

Сборка генома сельдерея

57

[https://doi.org/10.1038/s41438-019-0235-2]

Feature

Value

Genome size

2.21 Gb

Genome GC%

35.35%

Gene number

34,277

Gene no. per 100 kb

1.44

Average gene length (bp)

3267

Exon region GC (%)

42.06%

Exon number

180,591

Average exon length (bp)

243.48

Exon no. per gene

5.27

Property

Contig

Scaffold

Min sequence length (bp)

500

500

Max sequence length (bp)

228,328

556,749

Total sequence number

432,762

257,842

N50 length (bp)

13,108

35,567

N90 length (bp)

1136

4841

N number

648,982

280,637, 212

N rate (%)

0.031

11.8

Total sequence length (bp)

2,017,581,028

2,372,941,895

61 of 93

Как собирали геном морковки?

58

Sequencing method

Insert Size

Read Length (nt)

Total Data (nt×109)

Sequence Depth (×)

Illumina, Paired- ends

170nt

100

29,2

61,7

285nt

100

25,1

53,2

800nt

100

15,5

32,8

2knt

49

12,9

27,2

5knt

49

7,1

14,9

10knt

49

20,5

43,3

20knt

49

22,4

47,4

40knt

49

14,4

30,5

Total

147,2

311,1

Sanger, BAC

148±70knt

566

0,04

0,08

Какие были данные

Размер генома

~470 млн. п.н.

Daucus carota

[Massimo Iorizzo et al. Nature genetics Volume 48 Number 6 June 2016]

62 of 93

Как собирали геном морковки?

59

SOAPdenovo ver 2.04

Illumina reads

Со вставкой меньше 20 тыс. п.н.

GapCloser

Linkage map(2075

маркеров)

Версия 1 генома

N50 787280 п.н.

Число посл-тей 8096

29875 BAC клонов

Генерация

псевдомолекул

Версия 2 генома

9 псевдомолекул, составляющих 362 млн. п.н. и 3379 скаффолдов. Общая длина сборки 421,5 млн. п.н.

Чтений может быть недостаточно!

63 of 93

Как решить проблему повторов?

64 of 93

SMRT (PacBio)

65 of 93

Сборка из чтений PacBio

60

66 of 93

Pacific Bioscience

67 of 93

Сборка из чтений PacBio

61

Oropetium thomaeum

Размер генома ~250 млн. п.н.

[Robert VanBuren et al., Nature 527, 508–511 (26 November 2015) ]

68 of 93

Сборка из чтений PacBio

62

[Robert VanBuren et al., Nature 527, 508–511 (26 November 2015) ]

69 of 93

Irys technology

63

70 of 93

Scaffolding by HiC

64

[The cells sequenced in (A) normal conditions, (B) during mitosis, and (C) Dovetail Chicago]

71 of 93

Сборка генома Ophiorrhiza pumila

65

[doi: 10.1038/s41467-020-20508-2]

72 of 93

Сборка генома Ophiorrhiza pumila

66

[doi: 10.1038/s41467-020-20508-2]

73 of 93

Сборка генома Ophiorrhiza pumila

67

[doi: 10.1038/s41467-020-20508-2]

74 of 93

Что нужно знать о данных из которых вы собираетесь делать de novo сборку

68

  • Технология секвенирования.
  • Длина чтения.
  • Тип библиотеки. SE, PE. Длина вставки.
  • Покрытие.
  • Имеется ли загрязнение образца?

75 of 93

Что такое покрытие?

69

Это сколько раз в среднем покрыт ридами нуклеотид генома?

76 of 93

Влияние покрытия на N50

70

[Ruiqiang Li et al. De novo assembly of human genomes with massively parallel short read sequencing, Genome Res., 2010]

77 of 93

Подготовка чтений

71

  • Удаление адаптеров и тримминг

Trimmomatic

78 of 93

Подготовка чтений

72

  • Фильтрация по содержанию к-меров

Quake, BayesHammer, …

79 of 93

Подготовка чтений

  • Парноконцевые чтения с перекрывающейся вставкой

73

80 of 93

Подготовка чтений

74

  • Mate pairs(Nextera MP reads - NxTrim, NextClip)

81 of 93

Что делать с загрязнением?

  • «Очистка» чтений.

75

Набор чтений

База данных нуклеотидных

последовательностей

Картирование(bowtie2) и отбор

последовательностей

Сборка

82 of 93

Что делать с загрязнением?

  • «Очистка» контигов.

76

Набор контигов

База данных

нуклеотидных

последовательностей

Картирование(BLAST) и отбор

последовательностей

Сборка

RNA-seq чтения

Evgeny V Leushkin et al. The miniature genome of a carnivorous plant Genlisea aureacontains a low number of genes and short non-coding sequences. BMC Genomics 2013, 14:476

83 of 93

Чем собирать?

  • Геном размером до 100-200 млн. п.н.

Spades, Ray, IDBA, Abyss….

  • Большие геномы.
    • Риды до 200 п.н.

SOAP, MaSuRCA, Meraculous, Platanus, ALLPaths- LG, IDBA, Ray, Abyss, Minia…..

    • Риды длиннее 200 п.н.

Newbler, Celera assembler, MIRA,ARACHNE, SGA, HGAP, Falcon, MHAP, SSPACE, CANU, PBcR, Sprai….

  • Геномы видов с высокой гетерозиготностью

dipSpades, Platanus, newbler

77

84 of 93

Оценка качества сборки

  • Число контигов
    • чем меньше тем лучше.
  • N50
    • чем больше тем лучше
  • Total consensus
    • должен быть близок к ожидаемой длине генома
  • Число “N”
    • чем меньше тем лучше

78

85 of 93

Валидация сборки

  • Самосогласованность
    • Картирование чтений обратно на контиги
    • Тест на наличие ошибок или несогласованных парноконцевых чтений
  • Второе мнение
    • Использование двух друг друга дополняющих

методов секвенирования

    • Проверка «подозрительных» регионов с использованием ПЦР
    • Использование полногеномных

«рестрикционных карт»

79

86 of 93

Программы для оценки качества и валидации сборки

80

  • Оценка качества. QUAST
  • Оценка числа реконструированных генов

BUSCO

  • Валидация сборки путем картирования чтений обратно на сборку.

REAPR, ALE…

87 of 93

81

ALE

[Scott C. Clark et al. ALE: a generic assembly likelihood evaluation framework for assessing

the accuracy of genome and metagenome assemblies. Bioinformatics (2013) 29 (4): 435-

443.]

88 of 93

82

ALE

[Scott C. Clark et al. ALE: a generic assembly likelihood evaluation framework for assessing

the accuracy of genome and metagenome assemblies. Bioinformatics (2013) 29 (4): 435-

443.]

89 of 93

83

ALE

90 of 93

84

91 of 93

Советы

85

  • Не надо разрабатывать свой собственный

сборщик.

  • Быстро получите первую версию генома – сразу станет понятно есть ли у проекта шансы.
  • Пробластуйте порцию чтений против NT – нет ли у вас значительных загрязнений.
  • Бластуйте собранные контиги против NT – получили ли тот вид, что ожидали?
  • Если вы занимаетесь сборкой больше двух месяцев то скорее всего вы застряли. Переходите к следующей стадии проекта.

92 of 93

Полезные ссылки

86

Monya Baker. De novo genome assembly: what every biologist should know. Nature Methods 9, 333-337 (2012).

http://bsc2010.bioinformatics.ucdavis.edu/hand son/index.html

https://github.com/nadegeguiglielmoni/genome_assembly_tools

93 of 93

ВОПРОСЫ?

87

При составлении слайдов использовались следующие материалы:

  • С. Науменко «Как собрать геном de novo из коротких чтений?»
  • М. Щелкунова «Предварительная обработка результатов секвенирования»

Автор большинства слайдов Артем Касьянов