日本育種学会
第148回講演会
ワークショップ
2025年9月10日
W04 データ解析の「落とし穴」
〜あなたのその解析、大丈夫ですか?〜
ゲノム解析の落とし穴
農研機構 作物研究部門
ゲノム育種支援室
鐘ヶ江 弘美
NARO
自己紹介
1992年 京都大学農学部農芸化学科卒業
1994年 京都大学大学院農学研究科農芸化学科専攻 修了
植物二次代謝産物の発現制御に関わる研究
2011年 東京大学大学院 論文博士号取得
1994年-1999年 農林水産省 農業生物資源研究所
イネゲノムプロジェクト 連鎖地図作成・QTL解析
光受容体(フィトクロム・フォトトロピン)の研究に従事
育児のため退職
AcEST データベース開発 ホウライシダのEST配列データ
2014年- 2019年 東京大学大学院農学生命科学研究科 生物測定学研究室
ゲノム育種の研究に従事 ゲノム情報の整備
2019年4月- 農研機構 農業情報研究センター
Pedigree Finderの開発およびイネゲノム解析の研究に従事
2024年7月- 農研機構 作物研究部門 ゲノム育種支援室
育種支援システムの開発に従事
データ解析との出会い
© 2016 DBCLS TogoTV, CC-BY-4.0
1
ゲノム解析 198種類のダイズのゲノム配列を比較
The phylogenetic relationships and Population structure of 198 soybean accessions
解析例:ダイズコアコレクション
ゲノム解析の落とし穴に気づく
2
ゲノム解析の落とし穴
3
目的に応じた配列データの取得
目的 | 適した手法 | 不適な手法 |
全ゲノム de novo アセンブリ | Long-read(PacBio HiFi, ONT など) | RAD-Seq(ゲノムの一部しか読めない), Short-read(リピート領域で崩壊) |
参照ゲノムへのリシーケンス(SNP検出) | Short-read(安価・高精度のSNP検出) | Long-read(コスト高・誤り率が課題), RAD-Seq(制限酵素部位依存で網羅性不足) |
構造変異解析 (挿入・欠失・転座) | Long-read(大規模変異を跨いで検出可能) | RAD-Seq(部分配列のみで検出不可), Short-read(大きなSVに弱い) |
ハプロタイプ解析 | Long-read(1本のリードでハプロタイプをカバー) | Short-read(位相情報が失われやすい), RAD-Seq(部分的で全体把握困難) |
集団遺伝学・多型マーカー開発 | RAD-Seq(コスト効率よくSNPマーカー取得可能), Short-read(大規模サンプルのリシーケンス) | Long-read(コスト過大でスループット不足) |
4
配列データ取得時の注意点
目的に応じた必要カバレッジ
DNA抽出時の注意点
実験設計に関する注意点
5
配列データ取得時の注意点
カテゴリ | チェック項目 |
事前準備 | 目的に応じた必要カバレッジを見積もったか? |
事前準備 | 対象ゲノムサイズとコストのバランスを検討したか? |
事前準備 | 参照ゲノムの有無を確認したか? |
DNA抽出 | 高分子DNAを確保できているか(ロングリード用途)? |
DNA抽出 | 植物特有の阻害物質を除去できているか? |
実験設計 | 同質倍数体や異質倍数体への対応を考慮したか? |
実験設計 | 集団規模とシーケンス depthのバランスを最適化したか? |
実験設計 | 適した手法(Short/Long/RAD)を選択したか? |
解析適合性 | リピートや構造変異解析に適したデータか? |
解析適合性 | 参照ゲノムの有無に応じて手法を変えたか? |
品質管理 | DNAの品質チェック(NanoDrop, Qubit等)を実施したか? |
品質管理 | 配列データQC(FastQC等)を行い、アダプター混入やGCバイアスを確認したか? |
6
https://doi.org/10.1038/s41588-025-02293-0
Arabidopsis多型検出の例
7
単一リファレンスではバイアスが大きい
https://doi.org/10.1186/s13059-025-03645-z
8
リファレンスゲノムによる解析結果の違い
リファレンスゲノムによって検出される変異が異なり、解析結果が変化する
ショートリード解析は、マッピング先として使用したリファレンスゲノムに強く依存し、変異の見逃し・偽陽性などの問題が生じる
10種類のコムギリファレンスゲノムにどれだけマッピングできたかを円グラフで表示
全ゲノムにマッピング
一部のゲノムにのみマッピング
どのゲノムにも
マッピングできない
祖先種にマッピング
k-mer GWASが従来のSNPベースGWASよりも多型検出力・解像度ともに優れており、複数リファレンスや祖先種ゲノムを活用することで、より多様な抵抗性遺伝子座の発見が可能
9
リファレンス選定のためのチェックポイント
項目 | チェックポイント |
解析対象集団との近縁性 | 解析する品種・系統・個体群にできるだけ近いリファレンスを選ぶことで、マッピング効率や多型検出精度が向上 近縁性が低いと、特定領域でマッピングエラーや多型の見落としが増加 |
リファレンスゲノムの品質 | アセンブリの連続性(contiguity)、ギャップの少なさ、アノテーションの正確さが高いものが望ましい 高品質なリファレンスは、構造多型や遺伝子領域の正確な検出に有利 (リファレンスゲノムを変更した再解析が有効な場合もある) |
解析目的 | GWASやQTL解析など多型検出が主目的の場合、対象集団に最適化されたリファレンスが推奨される 比較ゲノムや進化解析の場合は、複数リファレンスやパングノムを利用する場合もある |
既存データやコミュニティ標準 | 既存の大規模データベースや他研究との比較を重視する場合、広く使われている標準リファレンス(例:Col-0など)を選ぶ場合もある |
パンゲノムや複数リファレンスの活用 | 単一リファレンスでは検出できない多型や構造変異を補うため、パングノムや複数リファレンスを用いる解析も増加 |
10