1 of 70

Koalescence, fylogeografie, mtDNA

2 of 70

DNA sekvence a populace

  • Malé rozdíly

  • Nefungují fylogenetické přístupy

  • Málo mutací a silný vliv driftu

  • → přístupy založené na koalescenční teorii

3 of 70

4 of 70

čas

Koalescence�„splynutí“ současných linií v MRCA�Most Recent Common Ancestor

Lineage sorting�přežije jen jedna linie�(většinou náhodou)�

Sekvence však nejsou identické díky mutacím!

5 of 70

Přetrvání ancestrálního polymorfismu(species tree ≠ gene tree)

6 of 70

6

Chr 19

7 of 70

Koalescence

  • Matematický model, který popisuje průběh genealogií.

  • Postupujeme opačně v čase než u klasických modelů populační genetiky (Wright-Fisher model)

8 of 70

8

Genealogie = rodokmen

9 of 70

9

10 of 70

Mitochondriální Eva

11 of 70

Pozor!

  • Mitochondriální Eva – MCRA jen pro mtDNA

  • Jiné části genomu mají jinou historii

  • Díky rekombinaci mohou mít i různé části jediného genu odlišnou historii

12 of 70

  • „Gene tree“ (= rodokmen sekvencí) většinou neznám

  • Fylogenetické stromy, úroveň populací → malé rozdíly, malá podpora skupin

  • Alternativní přístupy:

    • Haplotypové sítě �(zajímá nás tvar, topologie, vzniklé skupiny)

    • Koalescenční přístupy �(nezajímá nás konkrétní topologie, důležitá hloubka koaescenčních událostí)

13 of 70

Gene tree

Haplotype tree

MRCA

14 of 70

Nezakořeněné stromy,�Haplotype network, síť haplotypů (často nevíme, co bylo dřív)

Toto jsou sice stromy, �ale bežně se jim říká sítě.

Konkrétní zjištěný haplotyp�Velikost kroužku = počet jedinců s tímto haplotypem

Předpokládaný�nikoliv však pozorovaný�haplotyp

15 of 70

Tradiční představy o mtDNA

  • Malá (15-20 kb), kruhová molekula

  • 13 intronless, protein-coding genes, �involved in oxidative phosphorylation�
  • Bez intronů

  • Minimum nekódujících oblastí

  • Stejné pořadí genů

  • Dědí se jen po jednom rodiči �(matce)

  • Nerekombinuje

  • Je specifická pro daný druh

  • V buňce jen jeden typ v mnoha kopiích

  • Neutralita �(různé varianty v populaci mají stejnou fitness)

  • Konstantní mutační rychlost

mtDNA člověka�Pakendorf & Stoneking 2005

16 of 70

Prvotní přístup

  • Vytvoříme strom (síť) haplotypů

  • Zjistíme geografické rozšíření haplotypů�
  • Přečteme historii druhu

  • fylogeografie ��= geografická distribuce genealogických linií

17 of 70

Geomys pinetis (pytlonoš) Avise et al. 1979�

maximum parsimony network

18 of 70

Možné výsledky fylogeografických studií�Extrémní výsledky!�(Avise 2000)

19 of 70

  • Jasně separované alopatrické linie
  • Bariéry toku genů nebo nízká disperze
  • Rozdíly díky �„lineage sorting“ a akumulaci de novo mutací
  • Častý výsledek
  • Např. drobní pozemní či podzemní savci

The Hottentot golden mole �(Amblysomus hottentotus)

Mynhardt et al. 2015

20 of 70

  • Sympatrické ale jasně hluboce oddělené linie
  • Sekundární kontakt dříve oddělených populací

○ western □ eastern

21 of 70

  • Chaos – žádná struktura
  • Sympatrické málo oddělené linie
  • Značný tok genů
  • Nejsou geografické bariéry
  • Pravidelné migrace
  • Nebo recentní expanze

Anguilla rostrata

Náhodná disperze larev

Panmiktické agregace �během tření

22 of 70

  • Většinou kombinace

  • Různě na různých škálách

23 of 70

Expanze a bottleneck

24 of 70

Situace při expanzi

  • Surfing - rychlý náhodný nárůst frekvence alely

  • Vznik sektorů

Modely expanze:

Skutečné �bakterie

25 of 70

Surfing

  • Osud nové mutace
  • Často rychlý zánik či nízké frekvence
  • Občas však rychlý vzrůst frekvence až fixace

26 of 70

Surfing a sektory - důsledky

  • Alela je nejběžnější mimo místo svého vzniku�(tedy nikoliv třeba v refugiu).

  • Oblasti s velmi odlišnými frekvencemi alel vznikají náhodně (tedy bez izolace, bariér či selekce).

27 of 70

Streicher et al. 2016

Micrurus fulvius complex

Korálovec žlutavý

28 of 70

Refugium, Bufo calamita Beebe & Rowe 2000

  • Mikrosatelity

  • V refugiu větší diversita�(outgroup ve stromu)

  • Během šíření opakovaně bottleneck → snížení diversity

29 of 70

Sekvence – ukazatele diversity

  • S počtem haplotypů nebo počtem variabilních míst nevystačíme

GAACGGGATGAACCGTATACCCCCCACTGGCTGGCAATCTGGCCCATGCA

GAACAGGATGAACAGTATACCCCCCCTTGGCTGGCAACCTGGCCCATGCA

GGCTGGCAAT

AGCCGGAAAC

30 of 70

Sekvence – ukazatele diversity

  • Haplotype (Gene) diversity

  • Nucleotide diversity

31 of 70

Detekce demografických událostí

32 of 70

Recentní expanze (po bottlenecku)�

  • Rychlé rozšíření jednoho haplotypu

  • Ostatní se liší málo mutacemi

  • Pravděpodobnost mutace na stejném místě je malá

  • → „star pattern“

  • Carduelis chloris v Evropě ��Merila et al. 1997

  • Agelaius phoeniceus

33 of 70

Cricetus cricetusNeumann et al. 2005

  • Šíření z východních stepí více cestami

  • Panonie (včetně nás) jižní cestou

  • Série bottlenecků a expanzí

34 of 70

Mismatch distribution�párová srovnání sekvencí → histogram

Divergence (%)

Divergence (%)

Divergence (%)

Frekvence

Frekvence

Frekvence

Sekvence navzájem velmi podobné

Sekvence navzájem velmi odlišné

Směs podobných a odlišných sekvencí

35 of 70

Mismatch distribution

Veškerá možná párová srovnání �sekvencí

→ histogram

Divergence (%)

Frekvence

Chen caerulescens

Bimodální MD

Hnízdí vysoko na severu

Kolonizace z více míst

36 of 70

  • Malé divergence

  • Unimodální rozložení

  • Srovnání s teoretickými hodnotami

  • Expanze z počtu N0 na N1, počátek před časem t

  • Parametry expanze τ, θ0, θ1

  • Pro přepočet nutno znát mutační rychlost µ

  • Velmi nepřesné odhady!

  • Průkaznost �(zda se realita průkazně liší od modelu expanze)

Divergence (%)

Frekvence

Expanze a Mismatch distribution

Sekvence navzájem velmi podobné

37 of 70

Clethrionomys glareolus�Deffontaine et al. 2005

„star pattern“ v síti haplotypů

MD bell-shaped distribution

→ expanze

38 of 70

39 of 70

Demografické změny�Alternativní přístupy

  • Metody založené na různých odhadech polymorfismu

  • Tajima’s D, Fu’s FS, Ramos-Onsins and Rozas R2

  • Původně metody detekce pozitivní selekce!

  • Jak je to možné?

  • Těžko rozlišit šíření jedinců od šíření alel!

  • Platí i pro MD a jiné testy

  • → studium více genů

40 of 70

1 segregující místo�párová srovnání:�3x rozdíl, 3x shoda

1 segregující místo�párová srovnání:�4x rozdíl, 2x shoda

41 of 70

Nested clades analysis�Alan R. Templeton�

  • Test nenáhodné geografické distribuce kládů různé úrovně

  • Program, dotazník → „historie“ populací

  • → detekce expanze, refugií

  • L. schreiberi – endemit Iberského poloostrova

  • 4 refugia na Iberském poloostrově

Lacerta schreiberi �Paulo et al. 2002

42 of 70

Předpoklady !

  • Dokonalý sampling

  • Migrace + výrazný bottleneck

  • Dokonalý lineage sorting

  • Monofyletické skupiny pro nové expanze

  • Zanedbatelná migrace na velké vzdálenosti v současnosti

43 of 70

„Čtení stromů“ a Nested clades analysis�simulace → false-positives (>75 %) �

Petit 2008

Lokální (náhodné) procesy → zdánlivé expanze…

44 of 70

„Coalescent“�Koalescenční teorie

45 of 70

Assumptions

  • Infinite site model
    • No recurent mutations

  • Neutrality
    • No selection

  • No gene flow

  • Random mating

  • Constant size

  • Non-ovelapping generations

  • No recombination

  • Constant mutation rate (molecular clock)

45

46 of 70

Pravděpodobnost koalescence �v předchozí generaci 1/N

mtDNA

Čas k MCRA ~4Ne generací

47 of 70

47

Geometric distribution

Waiting time – čas ke splynutí linií (coalescent event)

Koalescence o dvě generace dřív:

A dále…

Předchozí generace

48 of 70

48

Geometric distribution

Exponential distribution

Mean time to coalescence (of a pair of alleles) – 2N (generations)

(All alleles – 4N)

Variance (2N)2 s.d. 2N

Waiting time – čas ke splynutí linií (coalescent event)

49 of 70

mutace

  • Gene copies (ač mají společného předka) se liší mutacemi

  • Ө scaled (population) mutation rate, expected number of mutations separating gene copies

  • Ө = 4Nμ μ mutační rychlost

  • Závislost na N

  • Malé populace – méně variability �(kratší čas koalescence, tedy k MRCA �→ málo času na mutace)

49

50 of 70

Mutace

  • Mutace se akumulují nezávisle v jednotlivých liniích

  • μ mutační rychlost

  • scaled (population) mutation rate Ө = 4

  • Různé délky větví stromu různé počty mutací

  • π nucleotide site diversity

  • μ << 1 → π ≈ Ө

  • Druhý odhad Ө lze učinit z počtu segregujících míst s

  • π a s umíme spočítat z dat

  • Pokud známe μ, dokážeme odhadnout N a dokonce odhadnout třeba celkovou délku větví či hloubku jednotlivých koalescenčních událostí

  • Při neutralitě budou odhady dle π a s stejné, jinak není neutralita (více např. Tajimovo D)

50

51 of 70

Lze odhadnout frekvenční spektrum mutací!

Neutrální model

52 of 70

Pravděpodobnost koalescence �v předchozí generaci 1/N

mtDNA

jaderný lokus

53 of 70

mtDNA, Chr Y

Jaderné geny

54 of 70

Y a Ne

  • Ne je čtvrtinová vzhledem k autosomům, �srovnatelná s mtDNA

  • Větší náchylnost k driftu

  • Rozdíl ve varianci reprodukčního úspěchu mužů (samců) a žen (samic)�→ nižší Ne, nedávné koalescence��

54

55 of 70

  • Problém s haplotypy (často nutno klonovat nebo složitě rekonstruovat)

  • Rekombinace

  • Další vhodné možnosti: �Chr Y�Chr X (jedna kopie u samců)

CAGTGAAGTTCCAA� A C

CAGAGAAGTTCCAACAGTGAACTTCCAA

CAGAGAACTTCCAACAGTGAAGTTCCAA

56 of 70

„Coalescent“�Koalescenční teorie

  • Interpretace času ke společnému předku alel �pomocí evolučních procesů

  • Procesy: drift, migrace, selekce, změna populační velikosti

57 of 70

Detaily větvení nás nezajímají�Důležité jsou časy k MRCA

57

58 of 70

K čemu to teda vlastně je dobré?

  • Neutrální model vhodný např. k odhadu času k MRCA

  • Pozorované odchylky (hodnoty parametrů) od neutrálního modelu �→ biologicky zajímavé děje (demografie, selekce)

  • Konkrétní štěpení stromů nás vlastně ani nezajímá�(rozdíl oproti fylogenetickým metodám)

59 of 70

Data, strom, mutační model

Data, strom, mutační model, parametry

60 of 70

Co můžeme zjistit?

  • Detekce:

    • Historie šíření druhů

    • Demografických událostí (expanze, bottlenecky)

    • Selekce

  • Problém:

    • Selekce i demografické události → podobný signál

61 of 70

Možnosti

  • Různé modely, různé genealogie
  • → věrohodnost (pravděpodobnost) získání pozorovaných dat pro různé parametry (migrace, expanze…)
  • Coalescent genealogy samplers
  • Migrate, Lamarc, IM, IMa, Beast and Beauty

  • Větší vzorek (počet jedinců) příliš nepomáhá
  • Pomůže více genů, nejlépe s různou mutační rychlostí

62 of 70

K odhadu MRCA stačí malý vzorek

Pravděpodobnost zachycení MRCA celé populace vzorkem o n jedincích:

(n – 1)/(n + 1)

n = 3 → 0,5

n = 20 → > 0,9

63 of 70

Odhady migrace �(Migrate, Lamarc, BayesAss)

64 of 70

Odhady migrace

65 of 70

Model „Isolation with Migration“

  • Rozlišení ancestrálních polymorfismů a migrací
  • Velikosti populací
  • Čas divergence
  • Migrace
  • Programy IM, IMa, IMa2

Ghost population

66 of 70

67 of 70

Severská refugia

68 of 70

Bayesian Skyline Plot

  • Změny velikostí populací
  • Možnost zahrnout i fosilní data, datování…
  • Programy BEAST, BEAUTY
  • Vhodné pro velké změny! Viry, extinkce…

Bison priscus bizon pravěký

69 of 70

70 of 70

Odhady z minima jedinců a mnoha genů např. PSMC

The PSMC method can be used to analyze unphased sequence

data from a single diploid individual.