1 of 16

ウェブアーカイブから見るCOVID-19 �~ saveMLAK covid19 図書館調査を例として ~

2022年9月4日

Code4Lib JAPAN Conference 2022

常川真央(saveMLAK/中央大学)

1

2 of 16

saveMLAKとは / COVID19-surveyとは

  • saveMLAK
    • 博物館・美術館(M)、図書館(L)、文書館(A)、公民館(K)(M+L+A+K=MLAK)の被災・救援情報サイト
    • 東日本大震災を機に発足
  • COIVD19-survey
    • 新型コロナウィルス(COVID-19)の感染拡大による図書館の休館・対策状況の調査プロジェクト
    • 株式会社カーリルによる独自調査を引き継ぐ形で発足

2

3 of 16

これまでの調査

  • 定期的に調査を実施
    • 2022年9月現在、合計で30回
  • 調査手法
    • 全国の図書館ウェブサイトを有志が目視で確認
    • スプレッドシートに書き込んでいる
    • 休館しているかしていないか
    • いつまで休館しているか
    • 来館時に利用者に利用記録を求めているか

3

4 of 16

saveMLAKが収集したウェブページ群

  • 調査の根拠としてウェブページを収集・保存
  • 保存先:ウェブアーカイブ

4

左図: 休館状況等の調査結果データ(2020年5月6日時点)に含まれるアーカイブのURL

https://savemlak.jp/savemlak/images/3/30/20200506_COVID-19_CC0.xlsx

右図: 2020年5月8日時点の東京都立図書館のお知らせ�https://web.archive.org/web/20200505125917/https:/www.library.metro.tokyo.jp/guide/information/5970_20200228.html

5 of 16

本発表の目的

ウェブアーカイブ活用の研究動向を取り上げ、saveMLAKが残してきた記録の活用を展望する

5

6 of 16

資料という観点からみたウェブサイトの問題点

6

  • ウェブページは常に更新される可能性がある
  • ウェブページが消失することもある

左図. 2013年9月6日時点のCode4Lib JAPANのウェブサイト

http://web.archive.org/web/20130906172451/https://www.code4lib.jp/

右図. 現在(2022年9月4日時点)のCode4Lib JAPANのウェブサイト

http://web.archive.org/web/20220903210821/https://www.code4lib.jp/

7 of 16

ウェブアーカイブとは

特定のURLに対応するある時点のウェブページを�保存するアーカイブ事業またはサービス

7

" https://example.com/ " にアクセスして得られるウェブページ

2021-04-10 11:10

2021-05-07 09:02

2021-09-04 11:00

現在の内容

ウェブアーカイブの保存対象

Memento

ある時点のあるリソースの内容を保存したリソース(Sompel 2009)

8 of 16

ウェブアーカイブの例

8

9 of 16

ウェブアーカイブの課題

  • ウェブアーカイブを活用するには、元のウェブページのURLを知っている必要がある
  • 「2022年度参院選の選挙に関する当時のウェブページを読みたい」といったユースケースの実現が難しい
  • 特定のトピックに関連するウェブページ群を�「コレクション」として組織化する必要

9

10 of 16

イベント中心コレクション(Event-Centric Collection)

  • 特定の事象に関するウェブアーカイブを組織化した�コレクション(Demidova 2021)
  • 作成手法の研究(Gossen et.al 2020):
    • Collection Specification という文書を作成
    • 自動で収集したアーカイブコレクションの中から�文書に沿ってMementoを検索
    • ヒットしたMemento の集合をイベント中心コレクションとして組織化

10

11 of 16

Dark and Stormy Archives(DSA) Framework

  • ウェブアーカイブを理解するためのストーリー生成手段を提供するフレームワーク�およびプロジェクト
  • Hypercane
    • 大規模なウェブコレクションからMementoを�抽出・分析するための�コマンドラインツール

11

図. DSA Frameworkの公式サイト

https://oduwsdl.github.io/dsa/

12 of 16

RainTale: コレクションからのストーリー自動生成ツール

  • コレクションからMementoを自動抽出してストーリーを生成(AlNoamany 2017)
  • ツール: Raintail https://oduwsdl.github.io/raintale/
    • 入力したMementoのURLリストをもとにストーリーを多様なフォーマットで出力
    • HTML、Markdown出力に対応
    • FacebookやTwitterへの投稿も可能

12

13 of 16

saveMLAKとイベント中心コレクションの親和性

  • saveMLAK covid-19調査で保存したウェブページは、�「COVID-19」という事象に関する Event-Centric Collection とみなすことができる
  • これまでユーザ中心アプローチのウェブアーカイブ�活用を手作業で行ってきたという位置づけ

13

14 of 16

まとめ

  • ウェブアーカイブ活用の研究動向を取り上げ、saveMLAKが残してきた記録の活用を展望した
  • saveMLAKが収集・保存したMementoを「イベント 中心コレクション」と位置付けることで活用を考えられるのではないか

14

15 of 16

最後に……

  • saveMLAKでは、saveMLAKの活動費用(サーバ代など)に充てるために寄付を募っています。
  • 皆様の調査&寄付のご協力をお願いします!

15

16 of 16

[文献] 表記は社会学評論スタイルガイドに基づく

AlNoamany, Yasmin, Weigle, Michele C., Nelson, Michael L, 2017, Generating Stories From Archived Collections, Proceedings of the 2017 ACM on Web Science Conference (WebSci '17):309–18, (Retrieved August 19, 2021, https://doi.org/10.1145/3091478.3091508 ).

Demidova, Elena and Thomas Risse, 2021, “Creating Event-Centric Collections from Web Archives,” Daniel Gomes, Elena Demidova, Jane Winters, and Thomas Risse eds., The Past Web: Exploring Web Archives, Cham: Springer International Publishing, 57–67, (Retrieved December 18, 2021, https://doi.org/10.1007/978-3-030-63291-5_6 ).

Gossen, Gerhard, Thomas Risse and Elena Demidova, 2020, Towards Extracting Event-Centric Collections from Web Archives, International Journal on Digital Libraries, 21 (1): 31–45. (Retrieved June 1, 2022, https://doi.org/10.1007/s00799-018-0258-6 ).

Van de Sompel, Herbert, Michael L. Nelson, Robert Sanderson, Lyudmila L. Balakireva, Scott Ainsworth and Harihar Shankar, 2009, "Memento: Time Travel for the Web", arXiv, (Retrieved June 14, 2022, https://doi.org/10.48550/ARXIV.0911.1112 ).

16