1 of 23

Poor attention: The wealth and regional gaps in event attention and coverage on Wikipedia

(PLOS ONE 2023)

ウェブ・ソーシャルメディア論文読み会

2024/05/23

読み手: 宮崎 邦洋

2 of 23

自己紹介: 宮﨑 邦洋

  • ソーシャルメディアが好きで色々と研究してます
  • 経歴:
    • 学部/修士@東大→
    • 社会人5年@投資銀行/コンサルなど→
    • 博士取得@東大→
    • ポスドク@インディアナ大→
    • 特任助教@東大←今年6月から
  • JSAI遊びに行きます

3 of 23

Poor attention: The wealth and regional gaps in event attention and coverage on Wikipedia(概要)

  • 発行日: Nov 08 2023
  • 著者: Graz工科大とUSC
    • Thorsten RuprechterはDenis HelicのPhD学生
    • Keith BurghardtはUSCの人(最近よく見る)
  • どんな論文か
    • ウィキペディアは一般知識の重要な情報源
    • しかし、本来平等に扱われる内容でも、Wikipedia上での扱いや注目具合に不平等がある
    • この論文では、言語や地理情報を用いて、何がその不平等を生じさせているかを分析する
    • 結果として、(案の定)経済的に発展した国々で起きた出来事に多く注目が集まりやすかった
  • 分析方法はXGBoostとSHAP(←特徴的?)
  • データとコードはすべてGithubで公開済み

4 of 23

Wikipediaは非常に便利だが問題もある

  1. デマは偏見が記事内に加わること
  2. 利用者による注意の欠如や、編集者によるカバーの欠如
    1. ↑今回はこの問題を扱う

5 of 23

Motivating Example

同時期におきた2つのテロ

  • ウィーンのケース
    • 11月2日 18:30 UTC
    • 5人死亡
  • カブールのケース
    • 11月2日 6:30 UTC
    • 35人死亡

死者だけ比べた場合、カブールの方が悲惨だが、Views数、Edit数、言語数でウィーンのケースが大きく上回る

6 of 23

関連研究: 「ニュース価値(理論)」

研究は多い

  • 媒体:
    • ニュースメディア、ソーシャルメディア etc
  • 分析対象
    • 内容・感情・事件のタイプ(災害/テロ/紛争/事故 etc)

Wikipediaの研究は多くない(らしい)

Attention(関心)の不平等解決を目指す(グローバルサウスなど)

7 of 23

イベントの収集

  • Wikidataからイベントデータを収集使用
      • 共同編集型のデータベース。事件に様々なタグが付随
  • 2016年から2020年
  • 判定: "point in time"と "country"タグがあるものをイベントデータとする
    • 56,877のイベント
    • 実際のイベントの日付は、start dateタグが使用可能ならstart dateにしたとのこと
    • 1月1日をイベント日として設定したものは排除(通年のイベントを指す場合がある)
    • 複数の "country"または "point in time"の記述があるイベントは無視

8 of 23

イベント記事への注目度の測定

  • イベント記事が、発生から7日間に受けたView数とEdit数
    • ロバストネスチェックとして、7日と30日の相関を取ったが、相関0.95を超えたため、7日間で問題ないとしたとのこと

9 of 23

言語版(Language edition)

4言語取った

  • 英語、スペイン語、ドイツ語、イタリア語のウィキペディア記事への対応するURLを取得
    • 世界中で広く話されている2つの言語(英語とスペイン語)
    • 発祥国によりローカライズされた2つの言語(ドイツ語とイタリア語)(?)
    • これによって、「グローバル」(複数の大陸に広がっている)コミュニティと「ローカル」(単一の地域や国に集中している)コミュニティの両方が、外部からの出来事にどのように反応するかを分析することができる とのこと
  • さらに、著者はこれら4つの言語に精通している
    • (アジアの言語もぜひやってほしかった)

最終的に

  • 56,877ウィキデータ項目の初期リストに対して、17,490ウィキペディア記事
    • 7,921英語、3,278ドイツ語、2,737イタリア語、3,554スペイン語

10 of 23

特徴量設計

過去研究を参考にしつつ、以下を作成

  • 1. イベントカテゴリ
    • スポーツ、政治、災害、文化
  • 2. 地理(Geography
    • 地域(東アジア&太平洋、ヨーロッパ&中央アジア、ラテンアメリカ&カリブ海、中東&北アフリカ、北米、南アジア、またはサハラ以南のアフリカ)
  • 経済(世界銀行のデータから
    • 3. イベント国の一人当たり国内総生産
    • 4. イベント国の所得クラス(下位〜上位の4カテゴリ)
  • 5. イベント規模
    • 事象発生国の人口で概算
  • 6. 国の独自性
    • 過去30日間に同じ国とウィキペディアに掲載されたイベント記事(対数スケール)。
  • 7. カテゴリーの独自性
    • 過去30日間の同じイベントカテゴリーとウィキペディアのイベント記事(対数スケール)。
  • 8. 関連性(言語と国の関係性)
    • イベント前の5ヶ月間における、イベント国からの言語版への月間閲覧数の中央値
  • 9. プロミネンス
    • イベント前の5ヶ月間における、その国の主要記事の1日の閲覧数の中央値

11 of 23

イベントカテゴリのロバストネス検証

  1. 各記事の最初の50単語について多言語のSentenceTransformers埋め込み
  2. K-meansクラスタリング
  3. 9個のクラスタに分類
  4. 各クラスタの特徴語をTF-IDFで抽出。目で見てラベル付
  5. 9個のクラスタは「スポーツ、政治、災害、文化」を含んでいた。
    1. なので、もともとのラベルの「スポーツ、政治、災害、文化」を採用したとのこと

12 of 23

問題設定と説明変数 1/2

  • XGBoostによる予測とSHAPによる特徴量分析を使用
    • 線形回帰分析じゃないんですね
    • XGBoost以外も試したが(LightGBMは含めない)、XGBoostが一番性能よかったとのこと
  • 4つのサブタスク
    • 分類1: 記事が注目(>10 View or not)されるかを予測
    • 分類2: カバレッジ(>0 Edit or not)されるかを予測
    • 回帰1: View数予測(>10 View以上に限定)
    • 回帰2: Edit数予測(>0 Editに限定)

13 of 23

問題設定と説明変数 2/2

  • トレーニングセット(2016-2018、36ヶ月)
    • パラメタチューニング
  • 検証セット(2019、12ヶ月)
    • F1スコア(分類)と平均二乗誤差(回帰)を用いてモデルを評価
    • 最良パフォーマンスのモデルを選択
  • ホールドアウトテストセット(2020年、12ヶ月)
    • モデルのパフォーマンスを評価

  • ホールドアウトテストセットで最良のモデルを改めて選択
  • すべてのデータで再学習
  • SHAPで特徴量分析

14 of 23

モデルのパフォーマンス結果

  • モデルパフォーマンス
    • >10 View 分類: F1スコア 0.867
    • >0 Edit 分類: F1スコア 0.726
    • View数回帰: MAE 3.95
    • Edit数回帰: MAE 1.56

15 of 23

結果

16 of 23

View数とEdit数のStats

高所得国でのイベントはよく見られる(ドイツ以外で有意)

17 of 23

地理と記事数の可視化

基本的に記事数は、母語が多い国+アメリカ+イギリスが多い

18 of 23

国別の記事閲覧数の中央値

  • 閲覧数自体に国家間のばらつきは少ない
  • 公用語がwikiにない場合の影響なども示唆された
    • E.g. スペイン語版ウィキペディアでは、ホンジュラスの閲覧数の中央値が最も高い

19 of 23

特徴量と、そのSHAP値の関係

(>10Viewかどうかの分類)

  • GDPが大きいほど、記事は見られる(ドイツとイタリアほどその傾向は強い)
    • 一部外れ値の観察も。

20 of 23

特徴量と、そのSHAP値の関係

(View数の回帰予測)

  • 負の相関となった
    • ある程度見られる(>10view)ならば、低所得の国の記事の方がよく見られやすい

21 of 23

イベントカテゴリでの違いは顕著

  • 災害と政治系は、世界的に見られやすい傾向�文化は、北側の方が見られやすい

22 of 23

GDPが大きい国ほど、死者数の影響度は高い

23 of 23

限界

  • 4つの言語しか扱っていない
  • (イベント取得元である)ウィキデータ自体もバイアスを受けている
  • メディア報道などの要因を考えていない