1 of 14

Language Model Alignment in Multilingual Trolley Problems

Zhijing Jin, Max Kleiman-Weiner, Giorgio Piatti, Sydney Levine, Jiarui Liu, Fernando Gonzalez, Francesco Ortu, András Strausz, Mrinmaya Sachan, Rada Mihalcea, Yejin Choi, Bernhard Schölkopf

発表者:王昊(早稲田大学)

第17回最先端 NLP 勉強会

2 of 14

トロッコ問題

2

3 of 14

論文概要

  • LLMの道徳的判断は人間とどの程度一致するかを、多言語トロッコ問題を通じて評価する研究
  • 460のシナリオ、107言語、19のLLMで実験

3

4 of 14

The Moral Machine Experiment (Awad et al. 2018)

  • 自動運転車がトロッコ問題に直面した際、どう振る舞うべきかを世界規模で調査した研究(natureに載っている...!)
    • 乗客を救うか歩行者を救うかの設定で、本研究とは少し違う
  • 233の国と地域から、4,000万件のデータを収集

4

5 of 14

MultiTPデータセット

  • Moral Machine実験を簡易化し、LLM評価用に再設計したデータセット
  • 233の国と地域から収集したデータのうち、100 件以上の回答がある 130カ国を対象
  • 460のシナリオ、107言語、提示順を入れ替えて合計98,440のクエリを作成
    • シナリオの例:男性の老人 vs 若い男の子
    • Google Translateで英語から他の106言語へ翻訳
    • LLMのposition biasを対応するため、A-B / B-Aの2種類の提示順で評価

5

6 of 14

MultiTPデータセット:6つの比較軸

  1. 年齢:若者 vs 成人 vs 高齢者
  2. 社会的地位:高 (経営者、医者) vs 中 (一般人) vs 低 (犯罪者、ホームレス)
  3. 体格:健康的 (アスリート) vs 普通 vs 不健康 (肥満の人)
  4. 性別:男性 vs 女性
  5. 功利主義的観点:少人数 vs 複数人、妊娠中の女性 vs 妊娠してない女性
  6. 種別:人間 vs ペット (犬、猫)

6

7 of 14

評価設計

  • 19のLLM (16 x open-weight + 3 x proprietary)で実験
  • 評価指標
    • 選好ベクトル
      • E.g., 人間 > ペットという選好が常に示される場合、
    • モデルと人間の不一致度合いをベクトルpのL2距離で定義

  • MISの最大値は2.45 (√6)、最小値は0

7

8 of 14

RQ1:Do LLMs align with human preferences overall?

Short Answer: No!

  • 各言語の話者数を重みとしてMISを加重平均し、global MISを計算
  • 0.6を下回ったのはLlama 3.1 70B、Llama 3 8B/70Bの3つのみ
  • GPT-4o Miniが最も人間の選好と 不一致

8

9 of 14

RQ2:What are LLMs’ preferences on each moral dimension?

  • LLMは人間よりも、人間・健康な人・女性・若者・地位の高い人を優先的に救う 傾向がある
  • GPT-4o Miniにおける人間選好との不一致は、出力の多様性の欠如に起因する
    • 例えば、人間が考慮する人数などの他の要素を無視し、人間 > ペットという 選好を常に示すなど

9

10 of 14

RQ3:Does LLMs behavior depend on the language?

Short Answer: Yes

  • K-meansで各言語の選好ベクトルを4つのクラスタに分類
  • Cluster A (ジョージア語、フィリピン語)は他クラスタよりもペットを救う選好を示す
  • Cluster D (ハンガリー語、カザフ語)は他クラスタよりも不健康な人へのバイアスがない

10

11 of 14

RQ4:Are LLMs more misaligned in low-resource languages?

Short Answer: luckily, No 😄

  • 各言語に対し、モデルのMISと言語の話者数のPearson相関係数を算出
  • 相関係数は0に近く、事前学習のデータ量が多い/少ないことが、人間の選好との一致度が上昇や低下に直結するわけではない

11

12 of 14

RQ5:Are LLMs robust to prompt paraphrases?

Short Answer: Yes (relatively)

  • 各シナリオに対し、5つの言い換えを用いてモデルに回答させた
    • 14言語 x 2モデルの設定で実験
  • 75.9%のクエリにおいて、5回のうち4回以上で一貫した回答が得られた
  • Fleiss’ Kappaの平均値は0.56 (moderate agreement)

12

13 of 14

Jailbreaking

  • センシティブな問題設定では、モデルの回答拒否率が高い
  • 拒否から遠ざかるようモデルを操縦する(Arditi et al. 2025)ことで、モデルの拒否率が低下した
  • さらに、操縦後のモデルは6つの次元すべてにおいて人間の選好とより一致した回答を示した

13

14 of 14

まとめ

  • 多言語におけるトロッコ問題でのLLM判断と人間データとの一致度を評価するため、データセット MultiTP を構築
  • 6つの比較軸、460のシナリオ、107言語、19のLLMを対象に実験を実施
  • 全体的に、LLMは人間の選好と強い一致を示す傾向は見られなかった
  • 一方で、高資源言語と低資源言語の間に大きな格差は確認されなかった

14