COVID-19のデータ分析に関する考察
July 2, 2020
丸山 宏
Twitter: @maruyama
疫学とは数学 -- 例:SIRモデル*
S(t)
I(t)
R(t)
感受性宿主
感染者
隔離者
集団の中の個人の状態遷移
常微分方程式による定式化
感染率
隔離率
- 隔離
- 死亡
- 免疫獲得
* W. O. Kermack and A. G. McKendrick (1927). “A Contribution to the Mathematical Theory of Epidemics”. Proc. Roy. Soc. of London. Series A 115 (772): 700-721.
Source: WikiPedia
最終的に大部分の人が感染済み
ダイアモンド・プリンセス号でのパラメタ推定
Slightly modified SIR Model
発症率
確定症例数
ダイアモンド・プリンセスの確定症例数*
Parameter estimate by Optuna
感染率βが固定 -- あまり現実的でない
*Source: https://www.niid.go.jp/niid/ja/diseases/ka/corona-virus/2019-ncov/2484-idsc/9410-covid-dp-01.html
もっと泥臭い
データサイエンスそのもの
データ分析とその局面
予測的データ分析
説明的データ分析
データ
モデル
目的関数
現状把握
シナリオと�予測
最適化
意思決定
現実世界
遅れ
外れ
指示的データ分析
目的
瀬名秀明:「3つの対話」
ISBN-13: 978-4166607334
1.現状把握 -- 真実へ至る対話
累計感染者数 (linear)*
累計感染者数 (log)*
新規感染者数 (linear)*
累積感染者数拡大率
K値**
総感染者数に対する新規感染者数割合(両対数)***
実効再生産数****
データは事実ではない!
データの遅れ:COVID-19の典型的なタイムライン*
感染
Day 0
5
10
潜伏期間
発症**
帰国者・接触者相談センターへ電話
感染力
陽性確定・報告・集計
(軽症の場合)8日間の入院
(重症)16日の入院(重篤の場合、内10日はICU)
* 数字は、ICL論文と厚労省ガイドラインから
** 多くの感染者は発症しない
「見えるデータ」は
12日程度の遅れ
武漢の場合
12の遅れ
観測可能なデータ(確定症例数)の遅れが大きなチャレンジ
感染動向の先行指標 -- ドコモ モバイル空間統計の利用
UNICEF の “Global Data Science Project for COVID-19” で分析 https://www.covid19analytics.org/
西浦博, 実効再生産数とその周辺,日本科学ジャーナリスト会議,https://github.com/contactmodel/COVID19-Japan-Reff/blob/master/nishiura_Rt%E4%BC%9A%E8%AD%B0_12May2020.pdf, May 12, 2020.
DoCoMoのモバイル空間統計データ
Visualization by Kunihiko Miyoshi
1日の人口変化パターンによってクラスタリング
「夜の街」
ビジネス街
クラスタ毎の移動指標
4月末には、「夜の街」クラスタの移動指標は70%以上減少
これらの日(火曜日)の移動指標を2月4日の移動指標と比べてみると…
「夜の街」クラスタ:移動指標からみると、歌舞伎町より銀座に注意
データとしては面白いが、確定的なことは結局わかりませんでした…
2.モデリングと予測 -- 合意へ至る対話
英国ICL論文* : 非薬学的介入手段 (NPIs) のモデル
内容的に「ロックダウン」に相当
ロックダウン以外ではうまくいかない
‘ロックダウンは緩和後再燃する
シミュレーション
# of ICU beds
解:2か月のロックダウンと1か月の緩和の繰り返し
... ワクチンが完成するまで継続 (2021年半ば??)
2か月ロックダウン
1か月緩和
モデリングの限界
モデルは決して現実と合わない
モデルは意思決定・コミュニケーションの道具
3.目的関数は何か -- 終わりのない対話
まとめ
プロトコル:数学、ピアレビュー、統計的推論、
プロトコル:民主主義
プロトコル:「他者を想う想像力」
Questions? Comments?
Twitter: @maruyama