ACL2025, Long papers
紹介者: 根石将人(みらい翻訳)
1
SNLP2025, 2025/8/31, 9/1
背景・目的
2
SNLP2025, 2025/8/31, 9/1
調査方法
3
SNLP2025, 2025/8/31, 9/1
付録A: [mem]の学習方法
4
結構長い
SNLP2025, 2025/8/31, 9/1
文圧縮性能を評価する3指標
5
SNLP2025, 2025/8/31, 9/1
実験設定 - モデル
6
| 同一モデル複数サイズ | サイズが1B程度 | 非Transformer |
Pythia suite (160M, 410M, 1.4B, 2.8B) | ✓ | ✓ | |
OPT-1.3B | | ✓ | |
OLMo-1B | | ✓ | |
Sheared-LLaMA-1.3B | | ✓ | |
Llama-3.1/3.2 models (1B, 3B, 8B) | ✓ | ✓ | |
Mamba (130M, 370M, 790M, 1.4B) | ✓ | ✓ | ✓ |
SNLP2025, 2025/8/31, 9/1
実験設定 - データ
実験では基本的に、16種類の文長*に対して50文ずつ使用 (16*50 = 800文)� *[64, 80, 96, 128, 160, 192, 256, 384, 512, 768, 1024, 1280, 1568, 2048, 2560, 3072]
7
| 作成方法 | LLMが学習済み | 言語知識が関係ない |
PG-19 | Project Gutenbergの本からサンプル | ✓ | |
Fanfics | Webサイト(AO3=Archive of Our Own)の�二次創作小説(fanfiction)からサンプル | | |
Random | GloVeの語彙のtop100,000件から�ランダムサンプル | | ✓ |
SNLP2025, 2025/8/31, 9/1
実験結果 - Max decoding capacity
8
[mem]なしだと正確な�復元は500トークンくらい
SNLP2025, 2025/8/31, 9/1
実験結果 - 3評価指標での傾向
9
SNLP2025, 2025/8/31, 9/1
分析 - テキストの種類が圧縮しやすさに影響する?
10
どちらも同様の分布
SNLP2025, 2025/8/31, 9/1
分析 - [mem]を複数ベクトルにしたら?
11
SNLP2025, 2025/8/31, 9/1
分析 - 圧縮の理論値と実測値
12
SNLP2025, 2025/8/31, 9/1
分析 - 圧縮効率
13
SNLP2025, 2025/8/31, 9/1
まとめ
14
CEにドメインが�影響しそうだけど
査読でつっこまれたんだろうな
テキスト毎にベクトルを学習するの手間そう
PPLでは不十分?�本手法は遅くない?
SNLP2025, 2025/8/31, 9/1
付録E: 圧縮したベクトルの分析
15
谷が直線とは�限らないのでは
SNLP2025, 2025/8/31, 9/1
所感
16
SNLP2025, 2025/8/31, 9/1