Apache Arrow Meetup 2019
TensorFlow + BigQuery Storage API + Apache Arrow
SENSY株式会社 漆山和樹 @KUrushi_ml
人生�初登壇
自己紹介
漆山和樹
SENSY株式会社�- Researcher (Data Scientist) 研究とかPoCとか�- 機械学習エンジニア
�
弊社のやっていること
リテイルに機械学習モデルの導入(PoC)�感性学習をするAIの研究・開発
PoCでのよく使われるもの
Storage�Analytics
BigQuery
Cloud Storage
Compute Engine
PoCでの課題
Storage�Analytics
BigQuery
Cloud Storage
Compute Engine
PoCでの課題
Storage�Analytics
BigQuery
Cloud Storage
Compute Engine
PoCでの課題
Storage�Analytics
BigQuery
Cloud Storage
Compute Engine
PoCでの課題
Storage�Analytics
BigQuery
Cloud Storage
Compute Engine
PoCでの課題
Storage�Analytics
BigQuery
Cloud Storage
Compute Engine
選ばれたのは、�Apache Arrowでした
Apache Arrowで解決したこと
PoCでの課題
これらが解決され�試行錯誤が高速化
Storage�Analytics
BigQuery
Cloud Storage
Compute Engine
ケーススタディ: Taxi Trips
データ転送について
BQ + Arrowの転送
計測はwall timeによる計測
(ノートブックのセル実行終了時間)
BQ + Arrowの転送
計測はUser Time + Sys Time
BQ Storage API転送Pandas変換時間
計測はUser Time
学習について
ループ時間計測
Walltime計測�TFRecordについては除外
tf.data.Dataset + �Keras.Model.compile�Keras.model.fit()
学習時間(GPU)
Wall Time計測�TFRecordについては除外
tf.data.Dataset + �Keras.Model.compile�Keras.model.fit
Apache Arrow
TensorFlow
BigQuery Storage API
早い・安い・すごい
ありがとうございました