1 of 29

D4SG不當黨產處理委員會

專案期末報告

2022/07/23

提案單位: 不當黨產處理委員會

黨產會團隊:林聰賢 呂思翰 王惟聖 廖健凱 廖斯泙

資料英雄團隊:陳潔寧 簡毅慧 李俊穎 蘇彥庭 江泓德

1

2 of 29

專案團隊介紹

2

3 of 29

黨產會團隊

3

林聰賢

專任委員

呂思翰

副研究員

王惟聖

助理秘書

廖健凱

副研究員

廖斯泙

副研究員

4 of 29

資料英雄團隊

4

蘇彥庭

化工業

資料科學家

陳潔寧

資料英雄計畫

資料科學家

江泓德

智庫驅動

資料科學家

簡毅慧

中央通訊社

數位編輯

李俊穎

中央研究院

社會學研究所

研究助理

5 of 29

專案問題說明

5

6 of 29

6

7 of 29

7

8 of 29

8

9 of 29

9

10 of 29

黨產會問題

  1. 史料文件未數位化:早期史料皆為手寫文字,需要有能夠自動辨識文字的軟體,轉為電腦程式可讀之文件
  2. 史料文件數量龐大,研究人員需花費大量時間搜尋資料
  3. 如何呈現工作成果,讓民眾能夠快速理解內容

10

11 of 29

專案解決目標

  • 資訊視覺化

  • 資訊體系化

11

12 of 29

對外呈現: 黨產會成果呈現方式優化

12

13 of 29

對外:閱讀體驗優化

13

報告格式、論述需正式嚴謹

歷史文獻用字艱澀

民眾較難吸收資訊、理解黨產會工作成果

14 of 29

網頁DEMO

14

15 of 29

  1. 聚焦特定切點

15

在調查報告中提取特定主題內容

(掌握資訊份量,避免主題發散)

16 of 29

2. 呈現資訊架構

16

目錄:讓讀者預知內容,掌握閱讀進度

17 of 29

3. 資料視覺化/互動圖表

17

展示數據Insight,也讓讀者可探索單筆資料

18 of 29

4. 資訊摘要、轉譯

18

擷取重要資訊與吸引人的故事,

並將法律/會計/政治術語轉為白話文

19 of 29

5. 素材加工、增加曝光

19

充分利用既有的影音、圖像素材

20 of 29

目標:呈現友善、簡潔的知識視窗

20

優化策略

目標

聚焦特定切點

掌握資訊份量,避免主題發散

呈現資訊架構

讓讀者預知內容,隨時控制閱讀進度

資料視覺化/

互動圖表

讓讀者一眼看出Insight,也可以逐一探索單筆資料

資訊摘要、轉譯

擷取重要資訊與吸引人的故事,

並將法律/會計/政治術語轉為白話文

素材加工

21 of 29

內部研究: 歷史文件搜索優化系統

21

22 of 29

建立專屬黨產會的文字探勘分析流程

以CKIP Tagger模型�進行斷詞與實體辨識

自定義字典

  • 協助研究員能夠更快速地從史料文章中,分析出人或組織之間的關係

人/組織網絡關係圖

文章推薦

研究員經驗

22

史料文章�黨產會官網-史料故事298篇文章

23 of 29

不當黨產相關史料自定義字典設計

23

自定義詞

同義詞

實體類別

中央電影

中影

org

中央電影公司

中影

org

中央電影事業公司

中影

org

中國青年反共救國團

救國團

org

中國青年反共救國團總團部

救國團

org

中國青年救國團

救國團

org

蔣主任經國

蔣經國

person

蔣委員經國

蔣經國

person

  • 結合研究員經驗與CKIP建構專屬字典
  • 透過同義詞欄位,捕捉史料文章中可能指涉相同的對象,並用於搜尋系統、推薦系統以及社會網絡繪圖

24 of 29

搜尋文章與文章推薦作法

  • 搜尋系統:研究員可以輸入任意文字,結合自定義字典中的詞庫,篩選包含特定詞語的文章。
  • 推薦系統:以自定義字典中定義的人和組織建立詞矩陣,並計算每篇文章的歐式距離。�依使用者選取的文章,取歐式距離最小的前5名文章進行推薦。

24

婦聯會

軍友社

中央委員會

doc1

0

0

0

doc2

0

1

0

doc3

1

1

0

25 of 29

社會網絡基本元素與加權方式

  • 節點(node)
    • 人物、機構
  • 連結(edge)
    • 在同一篇文章中,同時被提及
  • 節點大小
    • 在文章中出現的頻率
  • 連結線的粗細
    • 同時被提及的頻率

25

26 of 29

網絡關係圖作法

  • 輸入任意文字,結合自定義字典中的詞庫,篩選包含特定詞語的文章。
  • 以自定義字典中定義的人或組織作為節點(node),繪製在文章中的連結(edge)多寡,研究員可以調整網絡形狀與繪製的節點數量(%)

26

27 of 29

成果Demo

  • 以Python建立文本分析自動化流程
  • 以Python Dash套件建立WEB服務,提供數據視覺化結果
  • 研究員可自行加入更多文本與自定義字典進行分析

27

專案程式碼

28 of 29

建議與未來展望

  • 早期史料皆為手寫文字,並以照片方式儲存,無法直接使用文字探勘模型進行分析。本專案受限於期程,並未開發針對史料的手寫文字辨識功能。史料手寫文字辨識對於數位人文領域發展的重要關鍵,是值得發展的方向。
  • 受限於史料文章數量,本次專案我們著重在協助黨產會研究員,能夠以數位化工具來提升研究的閱讀、視覺化等便利性
  • 若未來史料文章數量足夠時,我們可以利用主題模型探索文章類別,並進行相關分析,例如:
    • 史料文章文件分類模型:預測該篇文章屬於什麼主題類別
    • 優化文章推薦系統:能夠以更多元的模型方法及特徵(如研究員點擊次數、文章瀏覽路徑、文章停留時間)來推薦文章

28

29 of 29

Thank you for your attention

29