1 of 15

ハッカソンについて

2018

17:15~

2 of 15

ハッカソン運営委員

能地 宏�(産総研)

Chenhui Chu�(大阪大)

佐藤元紀�(PFN)

3 of 15

なぜ我々はハッカソンをするのか?

  1. 技術力を磨こう
  2. メンターに色々聞ける!
  3. 日々に忙殺されない40時間

4 of 15

今年のハッカソンのテーマ

論文ハッカソン

+自由テーマ

5 of 15

今年のハッカソンのテーマ

  • 限られた時間で試行錯誤する際の勘を磨く
    • あるタスクを解こうとした際に、�まず何を試し、どう改良していくべきか?�経験者、研究者の技を盗む
  • 英語論文に親しむ
    • 共通タスクでは国際会議の英語論文の分析
    • どういう論文が評価されているかなど、�今後書くであろう英語論文について、知見を得る

6 of 15

3種類のタスク

  • 共通タスク1: 論文の採択/非採択予測
  • フリータスク1:「通る論文」に関する知見発見
  • フリータスク2: 自由テーマ (NLP に関するツールの作成)

  • 全てチームに分かれ、最終日にプレゼンを行います

7 of 15

共通タスク1: 採択 / 非採択予測

  • 論文のテキストデータから、Accept / Rejectの予測 (2値)�
  • テストデータで最も精度の高かったチームを表彰

※テストデータは2日目の夜 or 3日目の朝に渡します.

8 of 15

データセット: PeerRead (NAACL 2018, Ai2)

  • データ (Train: 1818件, Dev: 220件, Test: 220件)
    • NLP, 機械学習に関する ArXiv 上の2007-2017年の2, 258論文
    • Accept / reject / probably reject のラベル付き 今回は (Accept/Reject)
    • ACL, EMNLP, NAACL, EACL, TACL, NIPS, ICML, ICLR and AAAI

  • 元のデータを運営側で整形したものを用います
    • 新しい訓練/開発/テストデータへの分割
    • 著者情報、論文URLの削除�
  • AWS 上で加工済みデータとベースラインが利用可能です

9 of 15

ベースライン

  • 論文の著者らが用いた離散素性に基づくSVM
  • 頑張ってこれを超えてください!
  • 考えられるアプローチ
    • ベースラインモデルの素性の改良 (追加)
    • ニューラルネットワークの構築、etc.

手法

Dev (%)

Test (%)

Majority

67.93 %

69.72 %

SVM (Baseline)

71.14 %

71.91 %

Yours

?????

?????

10 of 15

フリータスク1: 「通る論文」に対する知見発見

  • 目標: �どういう論文が通るか?どういう論文が通らないか?�何らかの知見を得る�
  • (例)
    • 通る/通らない論文に対するパープレキシティの違い
    • ベースラインのエラー分析 (ちゃんと解けているか)
    • 書かれ方の違い (特徴的な単語、論述構造など)�
  • 評価方法はプレゼン後のアンケート

11 of 15

フリータスク2: NLP に関するツールの作成

  • 論文に関するタスクをやりたくない人
  • NLP に関するツールの開発
    • (例):
      • 論文執筆時にあるとちょっと嬉しいツール
      • 日々の実験管理を便利にするツール
      • 形態素解析用辞書の整備
      • SoTAのSequence Labelingの整備 (deep-crf)
      • Word2color :“ピカチュー”→ 黄色 の変換ツール
      • アイドルの握手会コーパスの分析
      • NIPSなどの会議の著者が日本人だけのものを抽出するツール
      • なんでもOK!ネタツールでもOK.

12 of 15

ツールの OSS 化

  • 自由テーマのツールは Github 上で開発し、最終日までに利用可能な状態にしてください
  • 利用方法を README に書いてください

13 of 15

賞の選定方法

  • 3つのトラックでそれぞれ賞を選定します
    • 採択/非採択: 最終日に公開するテストデータでの精度が最も高かったチーム
    • 知見発見: 知見の面白さをプレゼンでアピール。全体の投票により決定
    • フリー2: ツールの有用さ、面白さをプレゼンでアピール。全体の投票により決定

14 of 15

開発・実験環境 (論文関連タスクのみ)

  • AWS (クラウド上のサーバ) を提供します
  • 1チーム毎に、最大2GPU (p2.xlarge x2)
  • 詳しくは https://github.com/aonotas/yans_hakathon_2018
  • 手元にデータが欲しい人は @Motoki Satoまで. �HDDあります
  • 自由テーマは手元の環境で開発を進めてください

15 of 15

チーム編成

  • 各チーム 3人 (メンター1名+ 参加者2名)
  • メンターはチーム内のコミュニケーション促進・�アドバイスなど行ってください
  • 共通タスク1, フリータスク1の各チームに wifi ルータを貸し出します (3日間で30GBの制限あり)
  • チームが決まったら下記に追加してください.
  • http://goo.gl/c5btkE