1 of 15

ACL 2021 Outstanding paper

紹介者:金輝燦(TMU M2 小町研)

2021/09/16 @第13回最先端NLP勉強会

2 of 15

Visual Question Answering (VQA) とは?

  • 画像と質問文が与えられ、それに対して解答をするタスク

  • データセット

2

3 of 15

VQA タスクにおいての Active Learning

  • VQA モデルは訓練データの増加に伴い monotonically に性能向上

→ data hungry

  • Active Learning (AL) を活用したいが、VQA タスクでは AL がうまく機能しないことが知られている。[Lin+, 2017; Jedoui+, 2019]

  • 本研究の目的→VQA タスクではなぜ AL が機能しないかを調べよう!

3

4 of 15

Dataset Maps を用いた分析

  • 各サンプルの learnability(学習のしやすさ)を数値化 [Schwartz+, 2020]

4

confidence: y*(正解ラベル)に対しての予測確率の平均

variability: y*(正解ラベル)に対しての予測確率の標準偏差

E = エポック数

5 of 15

Dataset Maps を用いた分析

  • ambiguous なサンプルを使えば、全体の 33% のデータで最高精度

  • SNLI タスクでは hard-to-learn なサンプルはラベル付けエラーが多い
    • Data-centric AI コンペではラベル付けエラーを修正したりするので有用そう

5

ラベルエラー

6 of 15

本研究のまとめ

  • VQA タスクでは、アーキテクチャ、データセットに関係なく、既存の AL 手法が機能しないことを示した。

  • AL 手法は hard-to-learn なサンプルを好んで選択し、これが AL 手法がうまく機能しない原因であることを明らかにした。
    • hard-to-learn なサンプルを除外すると AL が機能し始める。

  • また、VQA データセット内での hard-to-learn なサンプルはラベル付エラーではなく、commonsens や OCR 能力が要求されるサンプルであることを示した。
    • 既存のアーキテクチャやデータセットのみでは学習が困難なサンプル

この論文が伝えたいことを一言でまとめると、

モデルの許容範囲を超えるサンプルを除外した方が AL うまくいくよ

※ 許容範囲を超えるサンプル=hard-to-learnなサンプル

6

7 of 15

実験設定

  • アーキテクチャ
    • LogReg:ResNet-101, GloVe からの特徴ベクトルを入力とするロジスティック回帰
    • LSTM-CNN [Agrawal+, 2015]
    • BUTD [Anderson+, 2018]
    • LXMERT [Tan+, 2019]

  • データ

  • AL 手法

7

VQA-2 から sports, food カテゴリのサンプルを抽出し、出力ラベル数を抑えたサブセットを作成

8 of 15

実験1: AL とランダムサンプリングの比較

  • アーキテクチャ、AL 手法、answers(出力ラベルの数)にかかわらず、ランダムサンプリングと比較して大きな差は見られない

8

VQA-Sprorts

20 answers

VQA-2

3130 answers

9 of 15

実験1: AL とランダムサンプリングの比較

  • シードサイズを変えても AL とランダムサンプリング間で大きな差は見られない

9

10 of 15

実験1: AL とランダムサンプリングの比較

  • GQA データでも同様の結果
  • VQA タスクでは AL がうまく機能しない

10

11 of 15

実験2:Analysis via Dataset Maps

  • Dataset Maps [Schwartz+, 2020]
    • confidence
      • 正解ラベルに対する予測確率のエポック間での平均
    • variability
      • 予測確率の標準偏差
    • correctness
      • 正解ラベルを予測できたエポック数 / 総エポック数
    • 全データで学習したモデルを用いる

  • 全体の 25-30% のサンプルが左下に位置する
    • confidence, variability の閾値は謎

  • 全データを使ったとしても、学習することができないサンプルがデータセット内の大きな割合を占める

11

hard-to-learn

easy-to-learn

12 of 15

実験2:Analysis via Dataset Maps

  • confidence で学習の難易度を分割
    • easy (>=0.75), medium (>=0.50), hard (>=0.25), impossible (>=0.00)

  • VQA, GQA データセット内の hard-to-learn (hard, impossible?) なサンプルを 100 件ずつ人手で分析
    • 分析したサンプルには以下の二つの傾向が見られた

  • hard-to-learn なサンプルは既存のアーキテクチャ、データのみで解くのは難しい。(モデルの許容範囲を超えている

12

13 of 15

実験2:Analysis via Dataset Maps

  • AL だと初期のイテレーションでは impossible, hard が好まれる。
  • 難しいサンプルを多く選択してしまうと、モデルにとって有益な情報が得られないのでは?

13

14 of 15

実験3:Ablating Outliers

  • サンプルを confidence が小さい順でソートし上位 n% を削除
  • 50% 削除するとランダムサンプリングと比べて 2-3 倍程度データ効率が良い
  • hard-to-learn なサンプルを除外すると AL が機能し始める

14

15 of 15

まとめ

  • VQA において、なぜ AL が機能しないかを Dataset Maps を用いて分析

  • hard-to-learn なサンプルを除外すると AL が機能し始めた
    • AL 手法が hard-to-learn なサンプルを多く選択してしまうことが原因だった

  • VQA タスクのデータセットにおいての hard-to-learn なサンプルとは、commonsens や OCR 能力が要求されるサンプル
    • 既存のアーキテクチャやデータセットのみでは学習することは難しい

15