1 of 40

Statistical Genomics & Genetics

Johns Hopkins Biostatistics

February 21, 2020

Stephanie Hicks

Assistant Professor, Biostatistics Department�Faculty Member, Johns Hopkins Data Science Lab��stephaniehicks.com�Twitter: @stephaniehicks

2 of 40

what makes us diverse?

slide adapted from alyssa frazee

3 of 40

how does this happen?

slide adapted from rafa irizarry

4 of 40

how does a healthy cell become a cancer cell?

5 of 40

AUCAGUCGAUCACCGAU

transcription

RNA

translation

protein

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

central dogma

slide adapted from alyssa frazee

6 of 40

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

genetics

phenotype

7 of 40

Different genomes, different phenotypes

Sloth

Human

8 of 40

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

genetics

9 of 40

AUCAGUCGAUCACCGAU

transcription

RNA

translation

protein

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

central dogma

slide adapted from alyssa frazee

10 of 40

AUCAGUCGAUCACCGAU

transcription

RNA

translation

protein

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

genomics

M

slide adapted from alyssa frazee

phenotype

11 of 40

Taub, Rucinski, Chatterjee, Zhao

�Hansen, Hicks��Ji, Hansen��Hicks, Ji, Hansen, Leek��Ruczinski

DNA-seq�

DNAm�

ChIP-seq�

RNA-seq�

Protein

Genome

Function

12 of 40

Slide courtesy: Ben Langmead

13 of 40

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

data generation

14 of 40

data generation

GATCGATCGTATACGAT

Fragments

ACTGACCTAGATCAGTC

TACAAAATCATCGGCAT

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

15 of 40

data generation

GATCGATCGTATACGAT

Fragments

ACTGACCTAGATCAGTC

TACAAAATCATCGGCAT

Reads

TACAAAATCA

AGATCAGTC

GATCGATCG

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

16 of 40

@22:16362385-16362561W:ENST00000440999:2:177:-40:244:S/2

CCAGCCCACCTGAGGCTTCTTTTTCCTTCCCAAGCCACATCACCATCCTGGTGGAACTCTCCTGTGAGGACAGCCA

+

GGFF<BB=>GBGIIIIIIIIIIIIIIEGEHGHHIIIIIIIIHFHBB2/:=??EGGGEGFHHIHHEDBD?@@DDHHD

@22:16362385-16362561W:ENST00000440999:3:177:-56:294:S/2

GCGTGAGCCACAGGGCCCAGCCCACCTGAGGCTTCTTTTTCCTTCCCAAGCCACATCACCATCCTGGTGGAACTCT

+

@=ABBBBIIIIIIIIHHGGGGIIDBDIIIIIIGIIIIHIIIIHFDD@BBDBGGFIDEE8DCC/29>BGFCGHHHGF

@22:16362385-16362561W:ENST00000440999:4:177:137:254:S/1

TCACCATCCTGGTGGAACTCTCCTGTGAGGACAGCCAAGGCCTGAACTACCTGCaGTGGGGAGCACCTCAGGGTTT

+

DDGBBCGGGIGGGBDDDHIIGGDGD77=BDIIIIIIIIFHHHHIIIHEFFHGGDD8A>DEGHHIFDDHH8@BEDDI

@22:16362385-16362561W:ENST00000440999:5:177:68:251:S/2

AGGGTTTGCCCAGGCAACCAGCCAGCCCTGGTCCAAGGCATCCTGGAGCGAGTTGTGGATGGCAAAAAGACNCGCC

+

HIGHIHFHEGE4111:.;8@?@HDIIIIIIIEGGIHHHIIGA?=:FIIIDD8.02506A8=AC#############

@22:16362385-16362561W:ENST00000440999:6:177:348:453:S/1

AAGGCCTGAACTACCTGCGGTGGGGAGCACCTCAGGGTTTGCCCAGGCAACCAGCCAGCCCTGGTCCAAGGCATCC

+

B9?@8=42:E@GDEDIIIIIGGHIIIFBEEAGIIDIIDHHGGHIIEGEIIIIIHIHFHFFEEFGGGGGB88>:DGH

@22:51205934-51222090C:ENST00000464740:132:612:223:359:S/2

GGAAGTATGATGCTGATGACAACGTGAAGATCATCTGCCTGGGAGACAGCGCAGTGGGCAAATCCAAACTCATGGA

+

IIEHHHHHIIIIIIIHGGDGHHEDDG8=;?==19;<<>D@@GGGIIHIIHGGDDHGBA=ABEG@@DFCCAA<:=>8

@22:51205934-51222090C:ENST00000464740:125:612:-1:185:S/1

TGGAGTGCGCTGCGGCGCGAGCTGGGCCGGCGGGCGTGGTTCGAGAGCGCGCAGAGTCCAGACTGGCGGCAGGGCC

+

GGFF<BB=>GBGIIIIIIIIIIIIIIEGEHGHHIIIIIIIIHFHBB2/:=??EGGGEGFHHIHHEDBD?@@DDHHD

@22:16362385-16362561W:ENST00000440999:3:177:-56:294:S/2

GCGTGAGCCACAGGGCCCAGCCCACCTGAGGCTTCTTTTTCCTTCCCAAGCCACATCACCATCCTGGTGGAACTCT

+

GGFF<BB=>GBGIIIIIIIIIIIIIIEGEHGHHIIIIIIIIHFHBB2/:=??EGGGEGFHHIHHEDBD?@@DDHHD

@22:16362385-16362561W:ENST00000440999:3:177:-56:294:S/2

GCGTGAGCCACAGGGCCCAGCCCACCTGAGGCTTCTTTTTCCTTCCCAAGCCACATCACCATCCTGGTGGAACTCT

+

billions more

17 of 40

N =

SAMPLE SIZE

18 of 40

N =

($ YOU HAVE)

($ PER SAMPLE)

19 of 40

$ per (human) Genome

http://www.genome.gov/sequencingcosts/

20 of 40

21 of 40

All the data

22 of 40

ACTGACCTAGATCAGTCGATCGATCGTATACGATTACAAAATCATCGGCAT

DNA

genetics

phenotype

23 of 40

Rare and common variants → relative risk of disease

24 of 40

Ingo Ruczinski

Family study (rare variants)�Goal: Identify highly penetrant disease variants

by sequencing distant relatives

25 of 40

Genome-wide association study (common variants) �Telomere length from 75,000 individuals

Manhattan plot showing peak genetic signals

Margaret Taub

26 of 40

TACAAAATCA

AGATCAGTC

GATCGATCG

All the dataz

+

what we do

27 of 40

TACAAAATCA

AGATCAGTC

GATCGATCG

All the dataz

+

experimental design

28 of 40

TACAAAATCA

AGATCAGTC

GATCGATCG

All the dataz

+

experimental design

preprocessing

+

normalization

29 of 40

TACAAAATCA

AGATCAGTC

GATCGATCG

All the dataz

+

genomic �data science

30 of 40

Ni Zhao

Measuring the impact of the microbiome�MiRKAT: kernel methods for associating microbiome data with phenotypes of interest

31 of 40

Kasper Hansen

De-noising DNA methylation data

32 of 40

Kasper Hansen

De-noising DNA methylation data

33 of 40

Kasper Hansen

Understanding changes in DNA methylation�in colon cancer

34 of 40

“...10 billion observations (or cells) by 2020”

35 of 40

Stephanie Hicks

Modeling single-cell RNA-sequencing data

(single-cell) RNA-seq data are nonnegative integers

36 of 40

Stephanie Hicks

Generalized Principal Components �Analysis (GLM PCA)

PCA

GLM PCA

37 of 40

In a nutshell

Interesting, intellectually challenging, �scientifically important problems��Big and complex data��Unique contributions to both science and statistics

slide adapted from kasper hansen

38 of 40

Two major roles for statisticians

As safeguards against mistakes

As engines of discovery

slide adapted from hongkai ji

39 of 40

Outside department: �JHU genomics (broader hopkins community) �meets 2x month��Inside department: �Lots of working groups in biostats for �both statistical genetics and genomics

Group meetings

40 of 40

Taub

Leek

Ji

Hansen

Hicks

Zhao

Ruczinkski

Chatterjee