2 of 15

自己紹介

Name: 石森元幸 Motoyuki Ishimori

Age: 41

Specialty: 植物育種学・園芸学

　　　　　　バイオインフォマティクス等

Target Plants:

主に野菜（ナス・トウガラシ）

花き（トルコギキョウ・ハナスベリヒユ等）

研究経歴

2004-2008 農学部（東京農工大学・植物遺伝育種学研究室・平田豊教授）

2008-2010 修士課程（東京農工大学大学院・同上）

2011-2015 博士課程（東京大学大学院・園芸学研究室）

2015-2021 特任研究員（東京大学大学院・生物測定学研究室）

2021-2025 助教（東京大学大学院・園芸学研究室）

2025- 　　准教授（東京農業大学・植物育種学研究室）

Let me start with a short self-introduction.

As I mentioned, my name is Motoyuki Ishimori. I am 41 years old, and my specialty is plant breeding. Along with this, I also work in related fields such as bioinformatics, statistical genetics, and horticultural science.

The plants I mainly study are both vegetables and ornamentals. For vegetables, I often work on chili peppers and eggplants. For ornamental plants, I use lisianthus, portulaca, and petunia in many of my experiments. These crops give us very different challenges and allow us to test new breeding and phenotyping methods.

My research career started in the Plant Breeding Laboratory at Tokyo University of Agriculture and Technology, where I studied until my Master’s degree. Later, I moved to the University of Tokyo and earned my PhD in the Horticulture Laboratory. After that, I had planned to work as a postdoctoral researcher at a national institute, but instead I continued at the University of Tokyo. I worked there for six years in the Biostatistics Laboratory as a postdoc. During that time, I also had my first opportunity to learn about artificial intelligence and its possible applications.

In 2021, I returned to the same Horticulture Laboratory where I received my PhD, this time as an Assistant Professor. For about four years I worked there and, during that period, I started to study deep learning models and applied them to my research, mostly through self-learning. Since April of this year, I have been at Tokyo University of Agriculture as an Associate Professor in the Plant Breeding Laboratory. Right now, I am preparing both the research environment and experimental materials for my next projects.

3 of 15

DEG検出のためのRNA-seqの手順

１．実験全体のデザイン（一番重要）

２．シーケンシング条件

３．クオリティチェック（QC）

４．リードマッピング（リファレンスありの場合）

DEG: Differentially Expressed Gene（発現変動遺伝子）

５．カウントデータ取得

６．データ正規化

７．DEG検出（検定）

4 of 15

RNA-seqにおけるデータ正規化とは？

＊Rパッケージ「TCC」のサンプルデータを使用

	G1_rep1	G1_rep2	G1_rep3	G2_rep1	G2_rep2	G2_rep3
gene_1	34	45	122	16	14	29
gene_2	358	388	22	36	25	68
gene_3	1144	919	990	374	480	239
gene_4	0	0	44	18	0	0
gene_5	98	48	17	1	8	5
gene_6	296	282	216	86	62	69

RNA-seqのカウントデータ（行：遺伝子、列：サンプル）

遺伝子3、および総カウント数の違い

真のDEGか総カウント数の違いによる影響かを区別できない

5 of 15

DEG検出の大前提：『適切』な正規化

二群間比較におけるのDEG検出（検定）の原理

（帰無仮説）

グループ１の平均　＝　グループ２の平均

（対立仮説）

グループ１の平均　≠　グループ２の平均

！！　DEG　！！

非DEG

qRT-PCR（相対定量）における正規化（補正）

RNA-seqにおける正規化

サンプル

増幅量（サイクル数）

調べたい遺伝子

サンプル

増幅量（サイクル数）

ハウスキーピング

遺伝子

2倍

サンプル

相対発現量

1/2倍

調べたい遺伝子

非DEG≒ハウスキーピング遺伝子を探す

	正規化係数
G1_rep1	0.880
G1_rep2	0.860
G1_rep3	0.843
G2_rep1	1.085
G2_rep2	1.144
G2_rep3	1.188

6 of 15

TMM

（Trimmed Mean of M-values）

edgeRで採用

Robinson et al., 2010

主要な正規化手法

Size Factor Normalization

（median-of-ratios）

DESeq2で採用

Anders and Huber, 2010; Love et al., 2014

最も典型的な発現パターン*の基準サンプルを選出

基準サンプルに対する

M値（対数比）とA値（平均対数）を計算

極端なM値・A値の遺伝子*を除外

残った遺伝子のM値の加重平均から

正規化係数を算出

各遺伝子について全サンプルの幾何平均を計算

各サンプルについて各遺伝子のカウント数を

上記の幾何平均で割る

各サンプルの上記の幾何平均比の中央値を

Size Factorとする

Size Factorから

正規化係数を算出

・多くの場合で極端な違いは生じない

・高発現なDEGがある場合はDESeq2正規化が頑健

・多数のDEGがある場合はTMMがやや頑健

・DEGが多数ある場合は両者を比較すると良い

*TMMではこれらのパラメータを変更できることに注意

7 of 15

TMM/DESeq2正規化の比較

サンプル	正規化係数（TMM）	正規化係数（DESeq2）
leaf_1	1.118	1.107
leaf_2	1.030	1.014
leaf_3	0.952	0.943
panicle_1	0.939	0.954
panicle_2	0.995	1.012
panicle_3	0.986	0.987

正規化手法の比較

（Li et al., PLOS ONE, 2017）

・DEGの存在自体が正しい正規化を阻む

（Kadota et al., 2012; 門田 2014）

・DEG同定　⇒　残りの非DEGのみで正規化

　を繰り返すiDEGES（TCCパッケージ）も有効

（Sun et al., 2013）

←　ソルガムRNA-seqデータ（DRA004664）

　　における正規化の例

8 of 15

edgeRとDESeq2のDEG検定

負の二項分布（negative binomial distribution）を仮定

X_ij ~ NB(μ_ij, φ_i)

X_ij : サンプルｊにおける遺伝子iのカウント, μ_ij: 期待値（正規化後の発現量）, φ_i: 遺伝子iの過分散パラメータ

RNA-seqのカウントデータ（生物学的反復）は

ポアソン分布では説明できない

過分散（over-dispersion）の性質を有する

一般化線形モデル（GLM）

線形予測子に群や処理条件などを組み込んだモデル

Dispersionの推定

DESeq2：遺伝子ごとに推定⇒全体トレンドに基づいて収縮

edgeR：共通・トレンド⇒経験ベイズで各遺伝子の分散推定

検定

DESeq2：Wald検定（発現変化がゼロか否か）、LRT

edgeR：準尤度（QL）F検定、LRT、exact test

両者の乖離が大きくなる条件

・反復数が最低限（3以下）　・Dispersion推定に差がある

・非常に高（低）発現遺伝子が多い

・デフォルトの閾値条件（edgeRはfold changeを考慮せず）

9 of 15

edgeRとDESeq2のDEG検出の比較

edgeRとDESeq2の比較１

（ソルガム公共データ、TCCパッケージ内の初期条件で実行）

edgeRとDESeq2の比較２

（正規化はTMM、検定は各初期条件で実行）

条件1でedgeRのみでDEG

条件1でDESeq2のみでDEG

一方の手法のみで検出されたDEGの信頼性は低い（カウントデータを要確認）

10 of 15

非DEG用のカウントデータのスケーリング

RPKM

（Reads Per Kilobase per Million

mapped reads）

FPKM

（Fragment Per Kilobase per Million

mapped reads）

TPM

（Transcripts Per Million）

現在の標準的なスケーリング手法

遺伝子長で補正しないCPMが一般的

RPK(CPK)

（Reads/Counts Per Kilobase）

配列長のみの補正

RPK = カウント数×1000/配列長

RPKM = カウント数×1000/配列長×1000000/総リード数

FPKM = ペアエンド数×1000/配列長×1000000/総ペアエンド数

TPM =RPKM/総RPKM

・代表的なRNA-seqカウントデータのスケーリング方法

ヒートマップやクラスタリングによるサンプル・遺伝子の発現パターンの相対的な類似性比較の視覚化に有効（ただし、logやzスコアでスケーリングするのが一般的）
可視化に基づいてPCAなどで次元削減（発現パターンの類似した遺伝子）を行う（これもlogやzスコアの使用が推奨）
1つのサンプル内の遺伝子間の相対発現量の比較（サンプル間は不可）

カウントデータのヒートマップ

（VST変換　⇒　Zスコアスケーリング）

11 of 15

RPKM/TPM等がDEG検出向きでない理由

サンプル間のバイアスは補正されない（各サンプル内におけるスケーリングにすぎない）
例えば、1つのサンプルで極端に高発現な遺伝子がある場合は、他の遺伝子の値が相対的に大きく下がる
整数値ではなくなるので、負の二項分布を想定した統計モデルは本来使用できない
DEG検出では遺伝子長を補正する必要はなく、想定外のバイアスの原因となる

TMM (edgeR)とTPMの比較

（検定はedgeRのexact test）

TPM（上）のみでDEGの例

（検定はedgeRのexact test）

12 of 15

多群（３グループ以上），もしくは多因子（時間・処理・系統などの因子が３以上）から構成される多検体サンプルにおいては，以下の要因から正規化が難しくなる．

多群や多因子間の比較における正規化

大多数の遺伝子が非DEGという前提が崩れる

発現変化が非対称となりやすく，正規化係数が極端になることがある

TMMでは基準サンプルの選定が正規化に影響しやすい

バッチ効果（ライブラリ調製・シーケンシングを複数に分けた場合）

多群間比較を必要とする実験デザイン

１．処理・時系列・系統などが複数ある多因子実験

２．一因子だが多群（例えば、時系列サンプルや処理区が３以上ある）

３．交互作用（例えば、処理×系統）を解析したい場合

*それぞれで二群間比較を行うとFDRの制御が難しくなり、誤った結論になることも

←　超多検体ではTMM正規化は不安定

（Lin et al., 2016）

きちんと正規化できているかを

確認することが重要

（基本的にはDESeq2が推奨）

13 of 15

多群や多因子比較におけるDEG検出

多群間比較におけるのDEG検出の基本原理

（帰無仮説）

全ての群で発現平均が等しい

（対立仮説）

少なくとも１つの群で発現平均が異なる

！！　DEG　！！

非DEG

二群および多群の場合の正規化

二群および多群におけるDEG検出

二群ではDEG、多群では非DEG

二群では非DEG、多群ではDEG

14 of 15

対応策：複数手法を出来るだけ比較する

DEG検出における４手法の比較

*各手法（パッケージ）のデフォルトの設定で解析した結果

・反復が多い場合はVoomかSAMseq (Soneson and Delorenzi, 2013)

・反復が少ない時はVoomかDESeq (Seyednasrollah et al., 2013)

・基本的にedgeRとDESeq2が最良(Ching et al., 2014)

・多群間比較ではedgeRかDESeq2 (Tang et al., 2015)

・NOISeqが最良で次点がedgeR (Stupnikov et al., 2021)

・EBSeqが最良だが反復が多ければDESeq2 (Li et al., 2022)

実験デザイン（反復数等）や目的（検出力重視か）によって「ベター」な手法は異なる

パッケージ	分布モデル	正規化方法	検定方法	特徴	適用例
edgeR	負の二項分布	TMM	Exact test/GLM-LRT GLM-QLF	分散の経験ベイズ推定ロバストオプション複雑なデザイン、高速	小規模〜大規模複雑デザイン
DESeq2	負の二項分布	median-of-ratios	Wald/LRT	分散収束・収縮推定 log2FC収縮、再現性・頑健性	標準的な研究全般再現性重視
limma-voom	正規線形モデル	TMM等	Empirical Bayes （moderated t/F）	平均–分散関係を精度重みに変換高速・柔軟、大規模	大規模・反復の多い実験、多群デザイン
baySeq	負の二項分布	内部推定／オフセット	経験ベイズサンプリング	群構成を柔軟に定義計算負荷高	中〜大規模複数群パターンの比較
EBSeq	負の二項分布	サイズファクター	Empirical Bayes	状態確率で評価	アイソフォーム解析状態推定を重視
SAMseq	ノンパラメトリック	ライブラリサイズ補正置換再標本化	ランク統計＋置換（SAM）	外れ値に強い小標本では検出力低、計算量大	分布仮定なし
NOISeq	ノンパラメトリック	CPM / RPKM / TMM	データ駆動型ノイズモデル	再現性指標	探索的解析・リード数不均一・バイアス

15 of 15

まとめ：RNA-seq（DEG検出）の留意点

１．実験全体のデザイン（一番重要）

２．シーケンシング条件

３．クオリティチェック（QC）

４．リードマッピング（リファレンスありの場合）

５．カウントデータ取得

６．データ正規化

７．DEG検出（検定）

４*．トランスクリプトームアセンブリ

１*．ロングリード or マイクロアレイ

２*．シングル or ペアエンド・ストランド情報など

X．エンリッチメント解析（GO解析）

Y．次元圧縮と可視化（t-SNE or UMAP)

Z．クラスタリング

A．新世界～１細胞・空間トランスクリプトーム等

・実験デザイン～サンプリング～ライブラリ調製からデータ解析まで選択肢が多い

⇒　バッチ間の差異や手順・条件の違いによるアーティファクトへの注意が重要

・RNA-seqのみで重要な結論を得られることは意外なほど少ない（信頼性は高くない）

⇒　研究の第一段階であり、qPCRやゲノム編集・組換え体によるvalidationが必要

・RNA-seqの有用性向上には非モデル植物における機能的アノテーションの充実が必要

⇒　実はこれまで以上にゲノム編集などを活用した機能解析が重要になってくる？