1 of 21

COVID-19のデータ分析に関する考察

July 2, 2020

丸山 宏

Twitter: @maruyama

2 of 21

疫学とは数学 -- 例:SIRモデル*

S(t)

I(t)

R(t)

感受性宿主

感染者

隔離者

集団の中の個人の状態遷移

常微分方程式による定式化

感染率

隔離率

- 隔離

- 死亡

- 免疫獲得

* W. O. Kermack and A. G. McKendrick (1927). “A Contribution to the Mathematical Theory of Epidemics”. Proc. Roy. Soc. of London. Series A 115 (772): 700-721.

Source: WikiPedia

最終的に大部分の人が感染済み

3 of 21

ダイアモンド・プリンセス号でのパラメタ推定

Slightly modified SIR Model

発症率

確定症例数

ダイアモンド・プリンセスの確定症例数*

Parameter estimate by Optuna

感染率βが固定 -- あまり現実的でない

4 of 21

もっと泥臭い

データサイエンスそのもの

5 of 21

データ分析とその局面

予測的データ分析

説明的データ分析

データ

モデル

目的関数

現状把握

シナリオと�予測

最適化

意思決定

現実世界

遅れ

外れ

指示的データ分析

目的

6 of 21

瀬名秀明:「3つの対話」

ISBN-13: 978-4166607334

  • 真実へ至る対話(何が起きたか)
  • 合意へ至る対話(何をすべきか)
  • 終わりのない対話(どういう社会にしたいか)

7 of 21

1.現状把握 -- 真実へ至る対話

累計感染者数 (linear)*

累計感染者数 (log)*

新規感染者数 (linear)*

累積感染者数拡大率

K値**

総感染者数に対する新規感染者数割合(両対数)***

実効再生産数****

8 of 21

データは事実ではない!

  • ばらつき
    • PCR検査の偽陰性は70%、擬陽性は平均的には小さいが、大きなばらつきがある
  • バイアス
  • 報告の遅れ、集計ミス
  • スパースネス
    • データ点が120日しかない時系列、非定常

9 of 21

データの遅れ:COVID-19の典型的なタイムライン*

感染

Day 0

5

10

潜伏期間

発症**

帰国者・接触者相談センターへ電話

感染力

陽性確定・報告・集計

(軽症の場合)8日間の入院

(重症)16日の入院(重篤の場合、内10日はICU)

* 数字は、ICL論文と厚労省ガイドラインから

** 多くの感染者は発症しない

「見えるデータ」は

12日程度の遅れ

10 of 21

武漢の場合

12の遅れ

観測可能なデータ(確定症例数)の遅れが大きなチャレンジ

11 of 21

感染動向の先行指標 -- ドコモ モバイル空間統計の利用

UNICEF の “Global Data Science Project for COVID-19” で分析 https://www.covid19analytics.org/

西浦博, 実効再生産数とその周辺,日本科学ジャーナリスト会議,https://github.com/contactmodel/COVID19-Japan-Reff/blob/master/nishiura_Rt%E4%BC%9A%E8%AD%B0_12May2020.pdf, May 12, 2020.

12 of 21

DoCoMoのモバイル空間統計データ

  • 500m x 500m グリッドの1時間毎の人口
  • 2020年1月から東京都のリアルタイムデータ
  • UNICEFのデータ分析プロジェクトで利用

Visualization by Kunihiko Miyoshi

13 of 21

1日の人口変化パターンによってクラスタリング

「夜の街」

ビジネス街

14 of 21

クラスタ毎の移動指標

4月末には、「夜の街」クラスタの移動指標は70%以上減少

これらの日(火曜日)の移動指標を2月4日の移動指標と比べてみると…

15 of 21

「夜の街」クラスタ:移動指標からみると、歌舞伎町より銀座に注意

データとしては面白いが、確定的なことは結局わかりませんでした…

16 of 21

2.モデリングと予測 -- 合意へ至る対話

英国ICL論文* : 非薬学的介入手段 (NPIs) のモデル

内容的に「ロックダウン」に相当

ロックダウン以外ではうまくいかない

‘ロックダウンは緩和後再燃する

シミュレーション

# of ICU beds

17 of 21

解:2か月のロックダウンと1か月の緩和の繰り返し

... ワクチンが完成するまで継続 (2021年半ば??)

2か月ロックダウン

1か月緩和

18 of 21

モデリングの限界

モデルは決して現実と合わない

モデルは意思決定・コミュニケーションの道具

  • G. Box 「すべてのモデルは間違っている。だが、いくつかは役に立つ」
  • 西浦先生「2020年は日本におけるモデリング元年」

19 of 21

3.目的関数は何か -- 終わりのない対話

  • 死者数を最小化?
    • 主因がCOVID-19の患者のみを数えるのか、陽性の死者を数えるのか
    • COVID-19によって受診しなかった・できなかったことによる間接的な死亡
  • 総損失寿命を最小化?
    • 「英国などヨーロッパ諸国で死者数増大が収まりつつあるように見えるのは、ロックダウンの効果というよりも、もともと死期が近い人たちが一通り亡くなったため」*
  • 感染による(直接・間接の)死者数と、経済とのバランス?
  • 社会の包摂(誰も取り残さない -- inclusion)?

20 of 21

まとめ

  • COVID-19はデータサイエンスそのもの�
  • 科学とは、「真実に近づくための対話」(の1つ)
    • Cor. 1: 科学は真実ではない
    • Cor. 2: 科学は無条件の断定はしない�
  • 政治とは、「合意へ至る対話」(の1つ)
    • 緊急事態宣言をすべきか
    • 接触確認アプリを使うべきか�
  • 「終わりのない対話」を形作るのは?
    • 私たちの価値観、文化、歴史…

プロトコル:数学、ピアレビュー、統計的推論、

プロトコル:民主主義

プロトコル:「他者を想う想像力」

21 of 21

Questions? Comments?

Twitter: @maruyama