Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation
政大圖檔所 陳勇汀 2013/12/31
PAPE: /
The shifting sands of disciplinary development:
Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation
以LDA法分析北美圖資學博士論文
Sugimoto, C. R., Li, D., Russell, T. G., Finlay, S. C., & Ding, Y. (2011). The shifting sands of disciplinary development: Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation. Journal of the American Society for Information Science & Technology, 62(1), 185–204. doi:10.1002/asi.21435
政大圖檔所 陳勇汀 2013/12/31
Cassidy R. Sugimoto Assistant Professor of Library and Information Science Bloomington campus, Indiana University
Research Interests Scientometrics and Scholarly Communication, Research Methods, LIS Education and History | 
|
重要名詞
- LDA: latenet Dirichlet allocation 隱性狄莉克雷分佈,用來描述文件的主題模型。屬無監督學習法,不需要訓練樣本。
Introduction [P.1]
- 傳統圖資學的文獻分析法,主要是在期刊論文上使用內容分析(content analysis)與共引分析(cocitation analysis),但是這些方法不僅難以交互比較,而且還有不少限制
- 限制1:期刊論文的只能呈現單一類別。
- 限制2:不論是找尋高被引作者(highly cited athors)或是從期刊文章中取樣,都必須耗費大量人力,而且樣本較小。因此高被引文獻不一定具備有代表性,反之這些少量文獻會大量影響分析結果。
- 限制3:以上分析方式只能呈現綜合結果(synchonic),而不能呈現歷史演變(diachronic)。要找尋趨勢只能重複方法進行分析,但很少人如此做。
- 本研究欲分析博士論文(dissertation)作為圖資領域的代表
- 博士論文需完成兩個目標:1. 定位圖資原有的研究領域;2. 開創新的研究疆域
- 博士是未來的教授(faculty),有可能間接影響下一世代的學生
- 本研究採用LDA法分析1930-2009年的博士論文(本文是2011年發表),研究目的為
- 辨識圖資學研究主題的歷史演變
- 檢視LDA法用於分析領域發展與轉變的作法
Method [P.3]
資料來源 MPACT Project
- 本研究是以MPACT資料庫為基礎,分析1930-2009年間ALA認可的學校,共3,121偏論文。
- 分析資料主要需要取得主題與摘要
- 缺漏資料則由ProQuest跟OCLC WorldCat補充,少部分寫信去問作者。
- 但是早期文章大多欠缺摘要
LDA法 (Latent Dirichlet Allocation)
- LDA主要作法是:大量文字資料的分類、偵測新字詞、摘要、相似度與關連判斷
- 基於貝氏演算法(Bayesian model)的進一步延伸
- 文件(document)中的每一個文字(words)被轉換成機率
- 散佈在各個文件中的多個文字,即可由人工解釋成為描述這些文件的主題詞(topic)
→因此單一文獻包含多種主題、每個文字也可以呈現多種主題
- 檢視每篇文章的主題機率分佈之外,也檢視每位作者的主題機率分佈
- 因此結果不僅能看到主題詞的轉變,也能看到與主題詞相關的作者

- LDA的author-topic model運作方式
- ϴ is the probability of a topic given an author x; α is a hyperparameter for ϴ.
- φ is the probability of a word w given a topic z; β is a hyperparameter for φ
- ad provides for the fact that multiple authors can write a single document; x is a randomly selected author from ad. (Note that there are only single authors in this selection; however, it is still necessary to identify author x.)
- Given author x, we identify the topic z most likely to be associated with the given author.
- Given topic z, we identify the words w most likely to be associated with the given topic.
- 貝氏網路(Bayesian network)的結合機率計算方式採用Gibbs sampling algorithm
- 混亂度分析 (Perplexity analysis):決定多少主題詞可以群聚成一組。經抽樣部分資料進行測試,發現每個時期都以50個主題詞為佳。
- 每個時段各找出50個主題詞,主題詞各自包含機率值,由出現機率高至低排序
- 選出最高機率的前五個主題詞,並帶出相關文字,給定一個主題詞
- 作者也依照機率值排序,選出給定主題詞底下最常出現的作者
Reslts [P.5]


Discussion [P.9]
- 圖書館史(Library history)只有出現在前兩個時期,包含於館藏與服務
- 館員專業(Profession of librarianship)中,1930-1969包含教育與徵選、1970-1979包含教育與學校圖書館、1980-1989包含評估與館員的認知(perception)、1990-1999包含管理、2000-2009主要是網際網路的影響。
- 資訊行為方面,1970-1979集中於資訊使用、1980-1989聚焦於科學使用、2000-2009著重傳播(dissemination)
- 知識組織方面,第一時期著重於分類,1970年代主要是索引,1990年代是針對媒體(media),2000年則是分割成了使用者導向與其他分類法
- 限制1:第一時期的摘要不足,僅有18.6%的文獻有摘要
- 限制2:人工判斷主題詞並不容易,Topic 5c除了information、seeking、behavior之外,其他字都難以判斷
- 與其他採用編碼表進行內容分析的文獻、以及用引用分析的研究結果比較,LDA的分析結果大致上吻合。然而文獻內容與分析方式的差異導致研究結果仍有所不同
- 此外,本研究的作者分析中,博士論文作者中過濾掉非本科系的人。不過圖資博士學位論文的作者也可能包含非本科系的人。
- 只看圖資博士的話,分析較為聚焦
- 不只看圖資博士的話,有可能可以找到其他相關領域的成員

- 包含librar*的文獻日漸減少,圖資學的博士教育可能沒跟圖書館實務有很好的連接
- 也可能是圖書館用詞轉變成其他形式,研究成果也可以間接影響實務館員
Conclusion [P.12]
- 以LDA法分析代表圖資領域的博士論文,可以找到圖資領域的主要主題,包括資訊尋求、取用、組織與檢索;以及專業館員在提供服務上的教育與訓練。
心得
- 基於機率模型的LDA不需要訓練樣本,參數設定容易,適合跨領域比較,也能夠應用在不同的分析對象上。若要做學科歷史源流的話,可以先用LDA取得整體樣貌,再進行細部分析。