Improving Text Embeddings with Large Language Models
Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
ACL 2024
第16回最先端NLP勉強会
紹介者: 山田 康輔 (CA AI Lab)
概要
選定理由:
最近のテキスト埋め込み手法の共有、LLMによる合成データの知見の共有
2
背景: テキスト埋め込み (Text Embeddings) とは
机の上に置き時計がある。
机の上に時計が置かれている。
壁に絵画が飾られている。
テキスト埋め込み
モデル
[0.1, -0.5, ...]
[0.2, -0.6, ...]
[0.6, -0.2, ...]
3
背景: テキスト埋め込みベンチマーク
4
背景: テキスト埋め込み (主に文埋め込み) の変遷 (1/3)
5
背景: テキスト埋め込み (主に文埋め込み) の変遷 (2/3)
他の入力文を負例として学習
そうではない文を負例として対照学習
6
背景: テキスト埋め込み (主に文埋め込み) の変遷 (3/3)
7
背景: 既存のテキスト埋め込み手法の弱み
8
手法: 提案するテキスト埋め込み手法 E5-Mistral
9
手法: E5-Mistral構築のパイプライン
Open AI API
(GPT-3.5 Turbo, GPT-4)
プロンプト
合成データ
Mistral
E5-Mistral
対照学習
10
手法: 合成データの作成 (1/2)
11
手法: 合成データの作成 (2/2)
12
手法: 1段階目のプロンプトと出力例 (非対称, short-long)
13
手法: 2段階目のプロンプトと出力例 (非対称, short-long)
14
手法: 対照学習によるFine-tuning (実験はLoRAを利用)
15
実験: 合成データの統計
16
実験: MTEBの実験結果 (1/2)
埋め込みタスクの定義があれば自身で訓練データを生成して 埋め込みモデルへ変換できる 可能性を示唆
17
実験: MTEBの実験結果 (2/2)
18
実験: 多言語の検索タスクにおける実験結果
19
分析: 弱教師データを用いた事前学習の必要性
20
分析: 長いテキストに対する埋め込みを評価
21
分析: 手法の設定を変更した実験結果
22
まとめ
23
所感
24
引用 (1/2)
25
引用 (2/2)
26