1 of 50

Анализ модификаций гистонов на основании данных ChIP-Seq

1

2 of 50

План занятия

2

  1. Гистоновые метки и ENCODE
  2. Эксперимент ChIP-seq
  3. Дизайн эксперимента
  4. Биоинформатический анализ

3 of 50

Гистоновый год – названия меток

Что в химическом смысле означают метка H3K4me1, H3K36me, H3K36ac, H3K4me0?

Может ли на одной нуклеосоме находиться метки

H3K36me и H3K36ac

H3K36ac и H3K4me1

H3K4me1 и H3K4me3

H3K4me1 и H3K4ac

H3K4me1, H3K9ac, H3K14ac, H3K27me3, H3K36me3, H3K79me2, H4K12ac

?

4 of 50

Проект ENCODE – каталог всех функциональных элементов в геноме человека (энхансеры, промотеры и тп)

5 of 50

Проект ENCODE – каталог всех функциональных элементов в геноме человека (энхансеры, промотеры и тп)

6 of 50

Проект ENCODE – матрица со всеми экспериментами

7 of 50

Проект ENCODE – данные ChIP-seq (клеточные линии)

8 of 50

Проект ENCODE – данные ChIP-seq (первичные клетки и органы)

9 of 50

Проект ENCODE – визуализация через UCSC геномный браузер

10 of 50

Проект ENCODE – визуализация через UCSC геномный браузер

11 of 50

ChIP-seq на транскрипционные факторы (Transcription Factors, TFs)

Chromatin

Immuno

Precipitation

12 of 50

ChIP-seq for TF

Nature Reviews Genetics 13, 840-852

13 of 50

Технология ChIP-Seq

13

http://ccg.vital-it.ch/chipseq/doc/chipseq_tutorial_intro.php

14 of 50

Library Preparation

Need sufficient amount of starting material because the ChIP will enrich for a small proportion

Ideally the starting material for one ChIP uses 107 cells from culture

15 of 50

Crosslink proteins to DNA

https://www.jbc.org/article/S0021-9258(20)49515-8/pdf

16 of 50

Fragment

The DNA is sheared into small fragments - usually 200-500 bp in length

Check by running on a gel

17 of 50

Protein specific antibody

The sheared protein-bound DNA is immunoprecipitated using a specific antibody

18 of 50

Immunoprecipitate

The antibody binds primarily to the protein of interest but there may be cross reactivity with other proteins with similar epitopes

19 of 50

Reverse crosslink and purify DNA

20 of 50

Откуда антитела?

20

21 of 50

http://www.slideshare.net/nasagusto/monoclonal-antibodies-14851287

22 of 50

Давайте вернемся к шагам эксперимента и подумаем о потенциальных проблемах

23 of 50

Impact of sequencing depth

H3K4me3

Adapted from Jung et al (2014). NAR.

24 of 50

Impact of sequencing depth

H3K27me3

Adapted from Jung et al (2014). NAR.

25 of 50

Why are controls necessary?

  • Signal depends on # active binding sites, the number of starting genomes, IP efficiency
  • Open chromatin regions fragment more easily than closed regions
  • Repetitive sequences might seem to be enriched
  • Uneven distribution of sequence tags across the genome
  • Hyper-ChIPable regions
  • Allows us to compare with the same region in a matched control
  • ENCODE also provides a “Black List”

17

26 of 50

ChIP-Seq Controls

18

Crosslink proteins to DNA

Shear DNA (sonication)

Reverse crosslink

Size selection and PCR

Immunoprecipitation

Non-specific antibody (IgG “mock IP”)

Specific antibody (ChIP enrichment)

+

No IP (Input DNA)

Biological samples/Library preparation

27 of 50

Сравнение сигнала и фона ("шума")

https://bioinformatics-core-shared-training.github.io/cruk-autumn-school-2017/ChIP/Materials/Lectures/Lecture5_Peak%20Calling_SS.pdf

28 of 50

Replicates and reproducibility

  • Biological replicates are essential to understand variation and for differential binding analysis
  • More replicates is often preferable to greater depth
  • Better to sequence high- quality sample at lower depth than low-quality sample to higher depth

All binding

High confidence

2090

Sox2 Replicate 1

(4605)

Sox2 Replicate 2

(2382)

29 of 50

Bioinformatics analysis

Nature Protocols 7, 45–61 (2012)

30 of 50

Поиск пиков – peak calling

https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html

31 of 50

Программы поиска ChIP-seq пиков

https://bioinformatics-core-shared-training.github.io/cruk-autumn-school-2017/ChIP/Materials/Lectures/Lecture5_Peak%20Calling_SS.pdf

32 of 50

Peak callers

  • Variability in number of peaks called
  • Tend to agree on the strongest signals

WIlbanks & Facciotti (2010). PLoS ONE.

33 of 50

Проект ENCODE – визуализация через UCSC геномный браузер

34 of 50

Downstream analysis

  • Detecting differential enrichment across samples
    • Steinhauser et al, Brief Bioinform. (2016)

Figure 4. Proportion of true and false positives for each tool on the simulated FoxA1 data set (A, B) and H3K36me3 data (C, D)

Sharp ChIP-seq signal: FoxA1

Broad ChIP-seq signal: H3K36me3

Single replicate tools Multiple replicate tools

35 of 50

Decision tree indicating the proper choice of tool depending on the data set: shape of the signal (sharp peaks or broad enrichments), presence of replicates and presence of an external set of regions of interest [Steinhauser, et al, 2016].

36 of 50

Downstream analysis

  • Annotation of peaks - distance from TSS
    • ChIPseeker, Homer, ChiLin

37 of 50

Downstream analysis

  • Annotation of peaks - genomic context
    • ChIPseeker, Homer, ChiLin

38 of 50

Downstream analysis

  • Functional enrichment analysis
    • ChIPseeker, GREAT, Homer, ChiLin

39 of 50

Downstream analysis

  • Motif discovery
    • MEME suite, ChiLin, Homer

40 of 50

TF binding motif: PWM

41 of 50

If you need good motifs to compare...

http://hocomoco.autosome.ru/

42 of 50

De novo motif search

Nature Biotechnology 24, 959 - 961 (2006)

43 of 50

Software for de novo motif seach: MEME suite

44 of 50

ChIP-seq на гистоновые модификации

45 of 50

Белки, которые пишут и стирают гистоновый код

В БД EpiFactors имеется информация про 69 белковых комплекса

(список не обновлялся несколько лет)

46 of 50

Где находятся инструкции о том где и что писать в эпигенетике?

Инструменты -- белковые комплексы, которые способны делать или убирать определенные эпигенетические модификации

Результат работы – наблюдаемые эпигенетические изменения/состояния в разных клетка организма

Инструкции? – кто указывает, что и где писать или стирать?

47 of 50

Длинные некодирующие РНК (lncRNA)

48 of 50

нкРНК MEG3 – образование триплексов

49 of 50

нкРНК CHASERR– ко-транскрипционное РНК-РНК вз-вия

50 of 50

В технологии CRISPR также используется нкРНК (gRNA)