1 of 11

日本育種学会

第148回講演会

ワークショップ

2025年9月10日

W04 データ解析の「落とし穴」

〜あなたのその解析、大丈夫ですか?〜

ゲノム解析の落とし穴

農研機構 作物研究部門

ゲノム育種支援室

鐘ヶ江 弘美

 

NARO

2 of 11

自己紹介

1992年 京都大学農学部農芸化学科卒業

1994年 京都大学大学院農学研究科農芸化学科専攻 修了

植物二次代謝産物の発現制御に関わる研究

2011年 東京大学大学院 論文博士号取得

1994年-1999年 農林水産省 農業生物資源研究所

イネゲノムプロジェクト 連鎖地図作成・QTL解析

光受容体(フィトクロム・フォトトロピン)の研究に従事

育児のため退職

AcEST データベース開発 ホウライシダのEST配列データ

2014年- 2019年 東京大学大学院農学生命科学研究科 生物測定学研究室

ゲノム育種の研究に従事 ゲノム情報の整備

2019年4月- 農研機構 農業情報研究センター

Pedigree Finderの開発およびイネゲノム解析の研究に従事

2024年7月- 農研機構 作物研究部門 ゲノム育種支援室

育種支援システムの開発に従事

データ解析との出会い

© 2016 DBCLS TogoTV, CC-BY-4.0

1

3 of 11

ゲノム解析 198種類のダイズのゲノム配列を比較

The phylogenetic relationships and Population structure of 198 soybean accessions

解析例:ダイズコアコレクション

ゲノム解析の落とし穴に気づく

2

4 of 11

ゲノム解析の落とし穴

  • ゲノム解析では目的に応じた配列データの取得が不可欠
    • ゲノム予測技術
    • 遺伝的多様性の評価
    • 有用遺伝子座のマッピング

  • リファレンスゲノムの選定は多型検出や遺伝的評価結果に影響を及ぼす
    • 短鎖リードによるSNP検出は、リファレンスとの関連性やマッピング精度に依存し、見落としや誤検出が多い

3

5 of 11

目的に応じた配列データの取得

目的

適した手法

不適な手法

全ゲノム de novo アセンブリ

Long-read(PacBio HiFi, ONT など)

RAD-Seq(ゲノムの一部しか読めない), Short-read(リピート領域で崩壊)

参照ゲノムへのリシーケンス(SNP検出)

Short-read(安価・高精度のSNP検出)

Long-read(コスト高・誤り率が課題), RAD-Seq(制限酵素部位依存で網羅性不足)

構造変異解析

(挿入・欠失・転座)

Long-read(大規模変異を跨いで検出可能)

RAD-Seq(部分配列のみで検出不可), Short-read(大きなSVに弱い)

ハプロタイプ解析

Long-read(1本のリードでハプロタイプをカバー)

Short-read(位相情報が失われやすい), RAD-Seq(部分的で全体把握困難)

集団遺伝学・多型マーカー開発

RAD-Seq(コスト効率よくSNPマーカー取得可能), Short-read(大規模サンプルのリシーケンス)

Long-read(コスト過大でスループット不足)

4

6 of 11

配列データ取得時の注意点

目的に応じた必要カバレッジ

  • 全ゲノム de novo アセンブリ:30–60倍カバレッジが推奨(ロングリードでは50倍程度が理想)。
  • リシーケンス(SNP検出):10–30倍で十分だが、集団解析ではサンプル数と深さのバランスを考慮。

DNA抽出時の注意点

  • PacBio / ONT の場合、断片化の少ない高分子 DNA が必須。
  • 抽出過程でのせん断、フェノール残留、RNA混入は品質低下の原因。
  • ポリフェノールや多糖類が共精製されやすく、酵素反応を阻害。 → CTAB 法やカラム法の工夫が必要。

実験設計に関する注意点

  • ゲノムサイズが大きい種(例:コムギ 17 Gb)では、必要なデータ量とコストが増大。
  • 同質倍数体・異質倍数体
  • ホモログ間の区別が困難 → 高精度ロングリードやハプロタイプ分離が必要。
  • 多サンプルでの比較(GWAS・集団遺伝学)では、1サンプルあたりの深さを落としてもサンプル数を確保した方が有効な場合がある。

5

7 of 11

配列データ取得時の注意点

カテゴリ

チェック項目

事前準備

目的に応じた必要カバレッジを見積もったか?

事前準備

対象ゲノムサイズとコストのバランスを検討したか?

事前準備

参照ゲノムの有無を確認したか?

DNA抽出

高分子DNAを確保できているか(ロングリード用途)?

DNA抽出

植物特有の阻害物質を除去できているか?

実験設計

同質倍数体や異質倍数体への対応を考慮したか?

実験設計

集団規模とシーケンス depthのバランスを最適化したか?

実験設計

適した手法(Short/Long/RAD)を選択したか?

解析適合性

リピートや構造変異解析に適したデータか?

解析適合性

参照ゲノムの有無に応じて手法を変えたか?

品質管理

DNAの品質チェック(NanoDrop, Qubit等)を実施したか?

品質管理

配列データQC(FastQC等)を行い、アダプター混入やGCバイアスを確認したか?

6

8 of 11

https://doi.org/10.1038/s41588-025-02293-0

Arabidopsis多型検出の例

  • シロイヌナズナの27系統の全ゲノム配列を比較し、従来のSNPデータに偏りがあることや、ゲノム多型の全体像をより正確に把握するための課題を明らかにする
  • これまでの短鎖リード(short-read)による解析や単一リファレンスゲノムへの依存が、構造多型や難解領域の多型を見落とす原因となっている

7

9 of 11

単一リファレンスではバイアスが大きい

  • ショートリード解析は、マッピング先として使用したリファレンスゲノムに強く依存し、変異の見逃し・偽陽性などの問題が生じる
  • 単一リファレンスに存在しない配列や構造変異は検出できず、多様な遺伝的背景を持つ在来種や野生種由来の有用遺伝子が見逃される

https://doi.org/10.1186/s13059-025-03645-z

  • SNP ベースの従来手法に加え、k-merベースGWASの開発
  • k-mer GWASは、SNPベースGWASよりも多型検出力の向上
  • 新規抵抗性座位の発見
  • 在来種や古い品種、野生近縁種のゲノムを参照することで、従来の単一リファレンスでは見逃されていた多型や構造変異も検出可能

8

10 of 11

リファレンスゲノムによる解析結果の違い

リファレンスゲノムによって検出される変異が異なり、解析結果が変化する

ショートリード解析は、マッピング先として使用したリファレンスゲノムに強く依存し、変異の見逃し・偽陽性などの問題が生じる

  • SNPs generated from the DArTseq data
  • SNP-Chip
  • K-mer

10種類のコムギリファレンスゲノムにどれだけマッピングできたかを円グラフで表示

全ゲノムにマッピング

一部のゲノムにのみマッピング

どのゲノムにも

マッピングできない

祖先種にマッピング

k-mer GWASが従来のSNPベースGWASよりも多型検出力・解像度ともに優れており、複数リファレンスや祖先種ゲノムを活用することで、より多様な抵抗性遺伝子座の発見が可能

9

11 of 11

リファレンス選定のためのチェックポイント

項目

チェックポイント

解析対象集団との近縁性

解析する品種・系統・個体群にできるだけ近いリファレンスを選ぶことで、マッピング効率や多型検出精度が向上

近縁性が低いと、特定領域でマッピングエラーや多型の見落としが増加

リファレンスゲノムの品質

アセンブリの連続性(contiguity)、ギャップの少なさ、アノテーションの正確さが高いものが望ましい

高品質なリファレンスは、構造多型や遺伝子領域の正確な検出に有利

(リファレンスゲノムを変更した再解析が有効な場合もある)

解析目的

GWASやQTL解析など多型検出が主目的の場合、対象集団に最適化されたリファレンスが推奨される

比較ゲノムや進化解析の場合は、複数リファレンスやパングノムを利用する場合もある

既存データやコミュニティ標準

既存の大規模データベースや他研究との比較を重視する場合、広く使われている標準リファレンス(例:Col-0など)を選ぶ場合もある

パンゲノムや複数リファレンスの活用

単一リファレンスでは検出できない多型や構造変異を補うため、パングノムや複数リファレンスを用いる解析も増加

10