1 of 16

ACL2025, Long papers

紹介者: 根石将人（みらい翻訳）

SNLP2025, 2025/8/31, 9/1

2 of 16

背景・目的

言語モデルの1トークン=1ベクトルは無駄が多い

語彙サイズ V の時、1語彙を弁別的に表現するのに、log₂V bit 必要
B bit, D dimsの1ベクトルの情報量はBxD bit
Llama3だと、V=128,256, B=16, D=2,048なので、�1トークン約17 bitで表せる所、32768 bit（約1931トークン分）も使用
実際、1トークンに何トークン分の情報を圧縮出来るのか？

長い文を短いベクトルに圧縮出来ると嬉しい

文ベクトル、オートエンコーダ
LLMのプロンプトや文脈の圧縮
記憶拡張型アーキテクチャ
潜在空間エンコード

現状のLLMの文を圧縮する能力を知りたい

SNLP2025, 2025/8/31, 9/1

3 of 16

調査方法

特殊トークン[mem]に文(t₁, t₂,...,t_N)を圧縮して、復元する

LLMのパラメタは固定で、[mem]のベクトルのみを学習する
[mem]をLLMの先頭に入力した時、目的文が出力されるよう[mem]を調整
（実験では基本的に[mem]は単一ベクトルで、ほんの一部複数ベクトル列）

SNLP2025, 2025/8/31, 9/1

4 of 16

付録A: [mem]の学習方法

復元対象のテキスト毎に[mem]ベクトルを用意
初期値はランダム初期化
AdamW (β1=β2=0.9)を、学習率は0.01で使用
学習ステップ数は最大5,000で、復元率100%に達したらearly stop
A100 80GB 1台で学習

かかった時間は、小さいモデルだと数十秒、大きいと10~20分

結構長い

SNLP2025, 2025/8/31, 9/1

5 of 16

文圧縮性能を評価する3指標

Decoding Capacity (in Tokens)

[mem]から最長何トークンの文を復元出来たか
実験ではthr=99%復元出来た最長トークン数

Token Gain

[mem]によって増加した正答トークン数
[mem]あり版となし版で、�Teacher forcing的デコード時の正答トークン数の差

Information Gain

[mem]によって減少したCross-entropyの値
[mem]あり版となし版で、Cross-entropyの差

SNLP2025, 2025/8/31, 9/1

6 of 16

実験設定 - モデル

	同一モデル複数サイズ	サイズが1B程度	非Transformer
Pythia suite (160M, 410M, 1.4B, 2.8B)	✓	✓
OPT-1.3B		✓
OLMo-1B		✓
Sheared-LLaMA-1.3B		✓
Llama-3.1/3.2 models (1B, 3B, 8B)	✓	✓
Mamba (130M, 370M, 790M, 1.4B)	✓	✓	✓

SNLP2025, 2025/8/31, 9/1

7 of 16

実験設定 - データ

実験では基本的に、16種類の文長*に対して50文ずつ使用 (16*50 = 800文)� *[64, 80, 96, 128, 160, 192, 256, 384, 512, 768, 1024, 1280, 1568, 2048, 2560, 3072]

以上のモデルとデータで、[mem]を学習し、テキストを復元出来るか調べる

	作成方法	LLMが学習済み	言語知識が関係ない
PG-19	Project Gutenbergの本からサンプル	✓
Fanfics	Webサイト(AO3=Archive of Our Own)の�二次創作小説(fanfiction)からサンプル
Random	GloVeの語彙のtop100,000件から�ランダムサンプル		✓

SNLP2025, 2025/8/31, 9/1

8 of 16

実験結果 - Max decoding capacity

8Bモデルは、たった1ベクトルから1568トークンも正確な復元に成功
同モデルはV=128,256, B=16, D=4,096なので、効率は1568/3862~=41%

[mem]なしだと正確な�復元は500トークンくらい

SNLP2025, 2025/8/31, 9/1

9 of 16

実験結果 - 3評価指標での傾向

PG-19とFanfics間での差は小さく、学習済みか否かは影響が小さい
Random は劣るが、たった1ベクトルにある程度の情報を圧縮してる

SNLP2025, 2025/8/31, 9/1

10 of 16

分析 - テキストの種類が圧縮しやすさに影響する？

[mem]が圧縮できる限界CE値（テキストの複雑さ）がある（赤線）
その限界はテキストの種類ではなく、テキストの複雑さ=CEに依存する

色んな文長のテキストについて�[mem]のあり/なしの�CE値をy/x軸として�プロット→

色付き点：PG-19�黒点：　　Random

どちらも同様の分布

SNLP2025, 2025/8/31, 9/1

11 of 16

分析 - [mem]を複数ベクトルにしたら？

[mem]を1ベクトルではなく、複数ベクトル列(~16 or 32)にしたら、�圧縮可能容量は増える？

3指標全てで概ね線形に増加
Llama はトークンが増えると線形（点線）から若干低下しており、�なにかモデル由来の問題があるかも

SNLP2025, 2025/8/31, 9/1

12 of 16

分析 - 圧縮の理論値と実測値

[mem]の情報量について以下の2つを比較

理論値: V, B, Dに基づく最大理論トークン数
実測値: 実際に[mem]によって増えた� 正確復号トークン数

同一モデル*内では、サイズに対して増加傾向

*Pythia(?), Llama, Mamba

Pythia-2.8Bだけ実測値が減少→学習不足？
1Bサイズの比較では、新旧で差が見られる

旧世代: Pythia-1.4B, OPT-1.3B
新世代: OLMo-1B, Sh.Llama-1.3B, Llama-3.2-1B, Mamba-1.4B

モデル構造が違うMambaでも同様傾向

SNLP2025, 2025/8/31, 9/1

13 of 16

分析 - 圧縮効率

圧縮効率=実測値/理論値を観察

前ページの観察結果と同様

モデルサイズに比例
新旧の効率の差も大きい
Mambaも同様傾向

但し、Pythiaは減少傾向

4モデル間全てで効率悪化
学習不足でモデル性能を�引き出せていないのでは?

圧縮効率はLLMの学習中の評価指標として使えるかも？

SNLP2025, 2025/8/31, 9/1

14 of 16

まとめ

LLMの圧縮性能を調査した

1トークンに1568トークンもの情報を圧縮出来た
圧縮限界を決めるのは、長さでもドメインでもなく、Cross Entropy
圧縮容量を増やすには

[mem]トークン数を増やす
モデルサイズを大きくする

以上の議論はTransformerだけでなくMambaにも当てはまる

LLMの学習の十分さと圧縮性能には関係がありそうなので、�逆に圧縮性能を学習の十分さの指標として使えるかも
記憶拡張型アーキテクチャなどで今回のテキスト圧縮が使えるかも

CEにドメインが�影響しそうだけど

査読でつっこまれたんだろうな

テキスト毎にベクトルを学習するの手間そう

PPLでは不十分？�本手法は遅くない？

SNLP2025, 2025/8/31, 9/1

15 of 16

付録E: 圧縮したベクトルの分析

GovReport dataset の64トークン長のテキストを[mem]化して分析

同一テキストを複数回[mem]化すると、�毎回違うベクトルになった

同一テキストのベクトル間(intra-sample)と、�異なるテキストのベクトル間(inter-sample)の�コサイン類似度を図示（上）した所、�同一テキスト間でも値が小さく、バラけてることが判明

同一テキストの2ベクトル間の直線上の点から�復号した復元率も図示(下)した所、�連続した谷になっておらず、互いに独立していると判明

谷が直線とは�限らないのでは

SNLP2025, 2025/8/31, 9/1

16 of 16

所感

注意機構登場前の機械翻訳の記憶や、一時期ノイズデータ対策で[mem]の�ようなトークンを使う研究*をしてたことから、読むことにした�* 根石, 吉永. ニューラル機械翻訳のためのノイズ寛容なアンカー学習. NLP2023.
モデルもデータも網羅的で、圧縮性能の観点では良い研究だと思う
付録のベクトルの分析の結果は、テキストを圧縮したベクトルが応用できるという話と矛盾するのでは（付録に載せてて偉いが、本文に載せるレベルかと）
圧縮効率がLLM学習中の指標として使えるという提案も、せめて小さいモデルで実験して確認して欲しい
例えばGeminiがコンテクスト長を広げることに注力している印象があるが、�今後、ただ力技で広げられるのか、圧縮方面も採用されるのか気になる

SNLP2025, 2025/8/31, 9/1