1 of 8

日本語(に強い) LLM構築計画

LLM勉強会

2023/6/19

2 of 8

計画概要

  1. 13BパラメータのLLMの構築、知見蓄積・共有
    • mdx利用
    • GPU 128枚(16ノード)
    • 2.5か月〜4か月程度
  2. 175Bパラメータ級のLLMの構築へ

2

3 of 8

13BパラメータのLLMの構築計画

  • 開発フェーズ (1か月程度)
    • 動作確認、予備実験などにGPU 16枚(2ノード)程度を利用
    • Megatron-DeepSpeed, GPT-NeoXなどの動作確認
      • まずは、1B程度のモデルで検討、動作確認
    • 予備実験1
      • 英語のLLaMA 13Bモデルに対する日本語追加学習
      • 学習コーパスの整備、動作確認
    • 予備実験2
      • 日本語に強い13Bモデルをスクラッチから構築するのに向けた準備
      • トークナイザの整備、動作確認
    • なお、予備実験1と2は並行して進める
  • 構築フェーズ (1.5か月〜3か月)
    • リハーサル: GPU 128枚(16ノード)
      • 1日おきに一回12時間 x 3回程度
    • 本番: GPU 128枚(16ノード)
      • 1.5か月〜3か月
      • 試行錯誤が必要

3

4 of 8

mdx利用ポリシー (案)

  • 各ワーキンググループ(WG)で計画した実験を行う
  • 実験実施者は、各WGで合意した実験内容・期間を「#mdx利用申請」に投稿し、実験を始める
  • 問題が発生した場合、管理者が実験を中止する場合がある

4

5 of 8

ワーキンググループ (WG)

  • コーパス構築WG
  • モデル構築WG
  • チューニングWG

  • 評価WG
  • ドメイン適応・マルチモーダルWG

5

6 of 8

コーパス構築WG (とりまとめ: 河原・坂口)

  • トークナイザ
    • SentencePiece (Unigram)
    • 正規化は最小限に
  • 学習コーパス
    • 200B〜300Bトークン規模をまず構築、混合割合を検討
      • 日本語テキスト: 100B-170Bトークン程度
        • mC4 (ja), Wikipedia
      • 英語テキスト: 30B-100Bトークン程度
        • Pile (英語、マルチドメイン、300Bトークン)から抽出
      • プログラムコード
        • Stack (300プログラミング言語以上、6TB), RedPajama-Dataから抽出
    • Common Crawlダンプからの抽出、論文データの利用を検討

6

7 of 8

モデル構築WG (とりまとめ: 鈴木)

  • 学習データの受け渡し方法
    • トークナイズ済みのデータ:コーパス構築WGと協議済
  • 利用ツールの選定: GPT3 or LLaMa の設定を踏襲
    • Megatron-LM
    • Megatron-deepspeed: MS deepspeed部隊が協力?
    • GPT-NeoX
  • モデル構築環境整備: mdx側で対応してくれる?
    • 実験log: wandb (を使いたい), Tensorboard, ???
    • 実験環境: slurm, (singularity, docker), ???
    • mdxのクラスタ構成に合わせた学習パラメタ
      • batch size や model parallel のパラメタなど
  • 実験実施者(2名)
    • 栗田さん(理研),佐々木さん(サイバーエージェント)

7

8 of 8

チューニングWG(とりまとめ:村脇)

  • チューニング手法と利用可能な言語リソースの検討・リストアップを開始
    • チューニング手法:主に英語モデルの既存手法
    • 日本語リソース:既存研究で使用されているもの(日本語NLPタスクを集めたもの、英語データを翻訳したもの)
    • 英語・多言語リソース

8