どんなもの?
どうやって有効だと検証した?
技術の手法や肝は?
先行研究と比べて何がすごい?
次に読むべきは?
- Early Visual Concept Learning with Unsupervised Deep Learning
- 一つの物体認識について、VAEで行なっている
- DRAW: A Recurrent Neural Network For Image Generation
- 複数(可変数)の潜在変数の推論を行うスキームを作った。
- 教師なしで、複数のオブジェクトの認識ができることを示した。
- 既存のstate-of-the-artのVAEモデル(DRAW)よりも様々な下流タスクで用いることができる表現を獲得できた。
��
- multi-MNISTで学習させて他モデルと比較
- 再構成
- 数字が0, 1, 2個入った画像で学習し、数字が3個入った画像でのテスト(Extrapolation)と、数字が0, 1, 3個入った画像で学習し、数字が2個入った画像でのテスト(Interpolation)を行ったところ、AIRではExtrapolationがうまくいかなったが、DAIRでうまくいった。
- AIRのLSTMの部分で数字は2個までしかないと学習してしまったからではないか。
- DRAWは、再構成の際に1つ数字を落として学習してしまっていた。
- 表現力
- AIRで2つの数字を足し合わせるタスクと昇順で数字が出てきているかどうかを判断するタスクを行い、DRAWやCNN, CAEよりもいい結果を出した。
- 人間は、視覚から自然と見えているものを複数のオブジェクトに分解し、視覚的・物理的な特徴を捉え、オブジェクト同士の関係性を捉えることができる。これは、ロボットが方策を立てる際に非常に重要。
- 画像から複数のオブジェクトの認識を教師なしで行うことのできる、生成モデルとRNNを用いたモデル(AIR)を提案。
- 2Dの可変数のオブジェクト認識と3Dレンダリングに適用させ、教師なしでシーンにある複数のオブジェクトの数、場所、そして分類ができることを示した。
Attend, Infer, Repeat: Fast Scene Understanding with Generative Models
S. M. Ali Eslami, Nicolas Heess, Theophane Weber, Yuval Tassa, David Szepesvari, Koray Kavukcuoglu, Geoffrey E. Hinton (DeepMind) 2016
- AIRのモデル構造
- 複数(可変数)の潜在変数の推論(つまり、画像内に何個あるかわからない物体を全て認識すること)を反復過程と捉えて、Recurrent Neural Networkを用いて、1回の反復で1オブジェクトだけに注意を向けるようにした。
- まず、入力画像をLSTMに入力し、1つ目の物体の潜在変数を得る。この時の隠れ層と潜在変数を2つ目の物体の潜在変数を得る際に用いる隠れ層に入力し、2つめの物体の潜在変数を得る(以下この繰り返し)。ただし、潜在変数にオブジェクトが存在するかどうかを表すものがあり、この値が0の時反復を止める。
- DAIRというAIRのLSTMの部分を変更したモデルも提案