1 of 16

ACL2025, Long papers

紹介者: 根石将人(みらい翻訳)

1

SNLP2025, 2025/8/31, 9/1

2 of 16

背景・目的

  • 言語モデルの1トークン=1ベクトルは無駄が多い
    • 語彙サイズ V の時、1語彙を弁別的に表現するのに、log2V bit 必要
    • B bit, D dimsの1ベクトルの情報量はBxD bit
    • Llama3だと、V=128,256, B=16, D=2,048なので、�1トークン約17 bitで表せる所、32768 bit(約1931トークン分)も使用
    • 実際、1トークンに何トークン分の情報を圧縮出来るのか?

  • 長い文を短いベクトルに圧縮出来ると嬉しい
    • 文ベクトル、オートエンコーダ
    • LLMのプロンプトや文脈の圧縮
    • 記憶拡張型アーキテクチャ
    • 潜在空間エンコード

  • 現状のLLMの文を圧縮する能力を知りたい

2

SNLP2025, 2025/8/31, 9/1

3 of 16

調査方法

  • 特殊トークン[mem]に文(t1, t2,...,tN)を圧縮して、復元する
    • LLMのパラメタは固定で、[mem]のベクトルのみを学習する
    • [mem]をLLMの先頭に入力した時、目的文が出力されるよう[mem]を調整
    • (実験では基本的に[mem]は単一ベクトルで、ほんの一部複数ベクトル列)

3

SNLP2025, 2025/8/31, 9/1

4 of 16

付録A: [mem]の学習方法

  • 復元対象のテキスト毎に[mem]ベクトルを用意
  • 初期値はランダム初期化
  • AdamW (β1=β2=0.9)を、学習率は0.01で使用
  • 学習ステップ数は最大5,000で、復元率100%に達したらearly stop
  • A100 80GB 1台で学習
    • かかった時間は、小さいモデルだと数十秒、大きいと10~20分

4

結構長い

SNLP2025, 2025/8/31, 9/1

5 of 16

文圧縮性能を評価する3指標

  • Decoding Capacity (in Tokens)
    • [mem]から最長何トークンの文を復元出来たか
    • 実験ではthr=99%復元出来た最長トークン数

  • Token Gain
    • [mem]によって増加した正答トークン数
    • [mem]あり版となし版で、�Teacher forcing的デコード時の正答トークン数の差

  • Information Gain
    • [mem]によって減少したCross-entropyの値
    • [mem]あり版となし版で、Cross-entropyの差

5

SNLP2025, 2025/8/31, 9/1

6 of 16

実験設定 - モデル

6

同一モデル複数サイズ

サイズが1B程度

非Transformer

Pythia suite (160M, 410M, 1.4B, 2.8B)

OPT-1.3B

OLMo-1B

Sheared-LLaMA-1.3B

Llama-3.1/3.2 models (1B, 3B, 8B)

Mamba (130M, 370M, 790M, 1.4B)

SNLP2025, 2025/8/31, 9/1

7 of 16

実験設定 - データ

実験では基本的に、16種類の文長*に対して50文ずつ使用 (16*50 = 800文)� *[64, 80, 96, 128, 160, 192, 256, 384, 512, 768, 1024, 1280, 1568, 2048, 2560, 3072]

  • 以上のモデルとデータで、[mem]を学習し、テキストを復元出来るか調べる

7

作成方法

LLMが学習済み

言語知識が関係ない

PG-19

Project Gutenbergの本からサンプル

Fanfics

Webサイト(AO3=Archive of Our Own)の�二次創作小説(fanfiction)からサンプル

Random

GloVeの語彙のtop100,000件から�ランダムサンプル

SNLP2025, 2025/8/31, 9/1

8 of 16

実験結果 - Max decoding capacity

  • 8Bモデルは、たった1ベクトルから1568トークンも正確な復元に成功
  • 同モデルはV=128,256, B=16, D=4,096なので、効率は1568/3862~=41%

8

[mem]なしだと正確な�復元は500トークンくらい

SNLP2025, 2025/8/31, 9/1

9 of 16

実験結果 - 3評価指標での傾向

  • PG-19とFanfics間での差は小さく、学習済みか否かは影響が小さい
  • Random は劣るが、たった1ベクトルにある程度の情報を圧縮してる

9

SNLP2025, 2025/8/31, 9/1

10 of 16

分析 - テキストの種類が圧縮しやすさに影響する?

  • [mem]が圧縮できる限界CE値(テキストの複雑さ)がある(赤線)
  • その限界はテキストの種類ではなく、テキストの複雑さ=CEに依存する
  • 色んな文長のテキストについて�[mem]のあり/なしの�CE値をy/x軸として�プロット→

  • 色付き点:PG-19�黒点:  Random

10

どちらも同様の分布

SNLP2025, 2025/8/31, 9/1

11 of 16

分析 - [mem]を複数ベクトルにしたら?

  • [mem]を1ベクトルではなく、複数ベクトル列(~16 or 32)にしたら、�圧縮可能容量は増える?

  • 3指標全てで概ね線形に増加
  • Llama はトークンが増えると線形(点線)から若干低下しており、�なにかモデル由来の問題があるかも

11

SNLP2025, 2025/8/31, 9/1

12 of 16

分析 - 圧縮の理論値と実測値

  • [mem]の情報量について以下の2つを比較
    • 理論値: V, B, Dに基づく最大理論トークン数
    • 実測値: 実際に[mem]によって増えた� 正確復号トークン数

  • 同一モデル*内では、サイズに対して増加傾向
    • *Pythia(?), Llama, Mamba
  • Pythia-2.8Bだけ実測値が減少→学習不足?
  • 1Bサイズの比較では、新旧で差が見られる
    • 旧世代: Pythia-1.4B, OPT-1.3B
    • 新世代: OLMo-1B, Sh.Llama-1.3B, Llama-3.2-1B, Mamba-1.4B
  • モデル構造が違うMambaでも同様傾向

12

SNLP2025, 2025/8/31, 9/1

13 of 16

分析 - 圧縮効率

  • 圧縮効率=実測値/理論値を観察

  • 前ページの観察結果と同様
    • モデルサイズに比例
    • 新旧の効率の差も大きい
    • Mambaも同様傾向
  • 但し、Pythiaは減少傾向
    • 4モデル間全てで効率悪化
    • 学習不足でモデル性能を�引き出せていないのでは?
  • 圧縮効率はLLMの学習中の評価指標として使えるかも?

13

SNLP2025, 2025/8/31, 9/1

14 of 16

まとめ

  • LLMの圧縮性能を調査した

  • 1トークンに1568トークンもの情報を圧縮出来た
  • 圧縮限界を決めるのは、長さでもドメインでもなく、Cross Entropy
  • 圧縮容量を増やすには
    • [mem]トークン数を増やす
    • モデルサイズを大きくする
  • 以上の議論はTransformerだけでなくMambaにも当てはまる

  • LLMの学習の十分さと圧縮性能には関係がありそうなので、�逆に圧縮性能を学習の十分さの指標として使えるかも
  • 記憶拡張型アーキテクチャなどで今回のテキスト圧縮が使えるかも

14

CEにドメインが�影響しそうだけど

査読でつっこまれたんだろうな

テキスト毎にベクトルを学習するの手間そう

PPLでは不十分?�本手法は遅くない?

SNLP2025, 2025/8/31, 9/1

15 of 16

付録E: 圧縮したベクトルの分析

  • GovReport dataset の64トークン長のテキストを[mem]化して分析

  • 同一テキストを複数回[mem]化すると、�毎回違うベクトルになった

  • 同一テキストのベクトル間(intra-sample)と、�異なるテキストのベクトル間(inter-sample)の�コサイン類似度を図示(上)した所、�同一テキスト間でも値が小さく、バラけてることが判明

  • 同一テキストの2ベクトル間の直線上の点から�復号した復元率も図示(下)した所、�連続した谷になっておらず、互いに独立していると判明

15

谷が直線とは�限らないのでは

SNLP2025, 2025/8/31, 9/1

16 of 16

所感

  • 注意機構登場前の機械翻訳の記憶や、一時期ノイズデータ対策で[mem]の�ようなトークンを使う研究*をしてたことから、読むことにした�* 根石, 吉永. ニューラル機械翻訳のためのノイズ寛容なアンカー学習. NLP2023.
  • モデルもデータも網羅的で、圧縮性能の観点では良い研究だと思う
  • 付録のベクトルの分析の結果は、テキストを圧縮したベクトルが応用できるという話と矛盾するのでは(付録に載せてて偉いが、本文に載せるレベルかと)
  • 圧縮効率がLLM学習中の指標として使えるという提案も、せめて小さいモデルで実験して確認して欲しい
  • 例えばGeminiがコンテクスト長を広げることに注力している印象があるが、�今後、ただ力技で広げられるのか、圧縮方面も採用されるのか気になる

16

SNLP2025, 2025/8/31, 9/1