1 of 14

Language Model Alignment in Multilingual Trolley Problems

Zhijing Jin, Max Kleiman-Weiner, Giorgio Piatti, Sydney Levine, Jiarui Liu, Fernando Gonzalez, Francesco Ortu, András Strausz, Mrinmaya Sachan, Rada Mihalcea, Yejin Choi, Bernhard Schölkopf

ICLR 2025 Spotlight

発表者：王昊（早稲田大学）

第17回最先端 NLP 勉強会

2 of 14

トロッコ問題

3 of 14

論文概要

LLMの道徳的判断は人間とどの程度一致するかを、多言語トロッコ問題を通じて評価する研究
460のシナリオ、107言語、19のLLMで実験

4 of 14

The Moral Machine Experiment (Awad et al. 2018)

自動運転車がトロッコ問題に直面した際、どう振る舞うべきかを世界規模で調査した研究（natureに載っている...!）

乗客を救うか歩行者を救うかの設定で、本研究とは少し違う

233の国と地域から、4,000万件のデータを収集

5 of 14

MultiTPデータセット

Moral Machine実験を簡易化し、LLM評価用に再設計したデータセット
233の国と地域から収集したデータのうち、100 件以上の回答がある 130カ国を対象
460のシナリオ、107言語、提示順を入れ替えて合計98,440のクエリを作成

シナリオの例：男性の老人 vs 若い男の子
Google Translateで英語から他の106言語へ翻訳
LLMのposition biasを対応するため、A-B / B-Aの2種類の提示順で評価

6 of 14

MultiTPデータセット：6つの比較軸

年齢：若者 vs 成人 vs 高齢者
社会的地位：高 (経営者、医者) vs 中 (一般人) vs 低 (犯罪者、ホームレス)
体格：健康的 (アスリート) vs 普通 vs 不健康 (肥満の人)
性別：男性 vs 女性
功利主義的観点：少人数 vs 複数人、妊娠中の女性 vs 妊娠してない女性
種別：人間 vs ペット (犬、猫)

7 of 14

評価設計

19のLLM (16 x open-weight + 3 x proprietary)で実験
評価指標

選好ベクトル

E.g., 人間 > ペットという選好が常に示される場合、

モデルと人間の不一致度合いをベクトルpのL2距離で定義

MISの最大値は2.45 (√6)、最小値は0

8 of 14

RQ1：Do LLMs align with human preferences overall?

Short Answer: No!

各言語の話者数を重みとしてMISを加重平均し、global MISを計算
0.6を下回ったのはLlama 3.1 70B、Llama 3 8B/70Bの3つのみ
GPT-4o Miniが最も人間の選好と　不一致

9 of 14

RQ2：What are LLMs’ preferences on each moral dimension?

LLMは人間よりも、人間・健康な人・女性・若者・地位の高い人を優先的に救う　傾向がある
GPT-4o Miniにおける人間選好との不一致は、出力の多様性の欠如に起因する

例えば、人間が考慮する人数などの他の要素を無視し、人間 > ペットという　選好を常に示すなど

10 of 14

RQ3：Does LLMs behavior depend on the language?

Short Answer: Yes

K-meansで各言語の選好ベクトルを4つのクラスタに分類
Cluster A (ジョージア語、フィリピン語)は他クラスタよりもペットを救う選好を示す
Cluster D (ハンガリー語、カザフ語)は他クラスタよりも不健康な人へのバイアスがない

11 of 14

RQ4：Are LLMs more misaligned in low-resource languages?

Short Answer: luckily, No 😄

各言語に対し、モデルのMISと言語の話者数のPearson相関係数を算出
相関係数は0に近く、事前学習のデータ量が多い/少ないことが、人間の選好との一致度が上昇や低下に直結するわけではない

12 of 14

RQ5：Are LLMs robust to prompt paraphrases?

Short Answer: Yes (relatively)

各シナリオに対し、5つの言い換えを用いてモデルに回答させた

14言語 x 2モデルの設定で実験

75.9%のクエリにおいて、5回のうち4回以上で一貫した回答が得られた
Fleiss’ Kappaの平均値は0.56 (moderate agreement)

13 of 14

Jailbreaking

センシティブな問題設定では、モデルの回答拒否率が高い
拒否から遠ざかるようモデルを操縦する(Arditi et al. 2025)ことで、モデルの拒否率が低下した
さらに、操縦後のモデルは6つの次元すべてにおいて人間の選好とより一致した回答を示した

14 of 14

まとめ

多言語におけるトロッコ問題でのLLM判断と人間データとの一致度を評価するため、データセット MultiTP を構築
6つの比較軸、460のシナリオ、107言語、19のLLMを対象に実験を実施
全体的に、LLMは人間の選好と強い一致を示す傾向は見られなかった
一方で、高資源言語と低資源言語の間に大きな格差は確認されなかった