データバリュー部門プレゼンテーションシート
大塚 龍彦
メディア芸術DBとwikipediaと連携した漫画あらすじを一覧
データURL:https://docs.google.com/spreadsheets/d/1HR9sy_WsW8TBWy5RRhS1GbRy1ZvxzEp3/edit?usp=sharing&ouid=115154320818563732028&rtpof=true&sd=true
1.概要
・メディア芸術DBとWikipediaと連携したタイトルとあらすじを含めたデータセット
→タイトルとあらすじがセットになることでさらにデータ活用の幅が広がると思われる
2.データの想定活用シーン
・本のタイトルだけでは分からないあらすじを含めた一覧を作ることで、タイトルだけでは分からない漫画なども見る機会になる
・あらすじがあることで、次の活用が見込まれる
・あらすじを機会学習(単語カウント)させることで、似た様な漫画の抽出
3.データの内容と作成方法(1)
・メディア芸術DBのAPIを用いて漫画のタイトルを抽出
・漫画のタイトルを基にWikipediaのAPIからあらすじを抽出
・漫画のタイトル、作者、あらすじ、wikipediaのURLをリスト化
3.データの内容と作成方法(2)
4.アピールポイント
タイトルだけではどういったものが分からない漫画も付加情報を足すことができた。このデータからさらに付加情報を使うことで多くの可能性があると考えている。
(本当はもう少し付加情報の加工までおこないたかった)
5.発展
現在のあらすじは日本語になっているが、英語のあらすじを作成することで、海外の人に対しても日本のマンガを紹介できると考える