1 of 27

マンガ学ぶ�データサイエンス

2 of 27

概要

  • 「マンガと学ぶデータサイエンス」とは
    • 無料かつ手元で再現可能なWeb教材シリーズ
    • データサイエンス教育の課題である,実践的・魅力的な課題・実データの提供をMADB Lab(の加工済みデータ)を用いて解決

  • デモ:
    • シリーズ1作目:マンガと学ぶデータビジュアライゼーション�(https://kakeami.github.io/viz-madb/index.html

3 of 27

背景:データサイエンス教育の課題

  • 日本では,産官学連携してデータサイエンス教育を推進中

文部科学省「理数系人材育成に向けた取組について」https://www.meti.go.jp/shingikai/economy/risukei_jinzai/pdf/001_03_00.pdf

4 of 27

背景:データサイエンス教育の課題

  • 教育に活用可能な実データの整備・提供が課題の一つ

  • そこで,MADB Labのデータをデータサイエンス教育に応用するプロジェクトを提案

https://www.mdsc.hokudai.ac.jp/2021/04/02/865/

5 of 27

アイデアの想定活用シーン

  • 全てのデータサイエンティストを対象とした学習機会の提供

  • 初心者:参考書としての活用
    • 目的別に手法を網羅した構成と全文検索機能
    • Plotlyによる,インタラクティブなデータの可視化・探索

  • 中級者:演習問題を通した独自の分析・研究への発展
    • DockerおよびJupyter Labを採用し,分析環境を手軽に構築可能

  • 上級者:教材の改良・開発による知識の棚卸し
    • GitHub上に全ソースコードを公開
    • 自身の研究分野に関する新たな教材の開発

6 of 27

デモデータの内容と作成方法(1/3)

  • 概要:
    • 四大少年誌(週刊少年サンデー,ジャンプ,チャンピオン,マガジン)の1970年7月27日から2017年7月6日までの全掲載作品データ
    • v1.0( https://github.com/mediaarts-db/dataset/releases/tag/1.0)のマンガ関連データ(cm102,cm105,cm106)を利用

  • 加工手順の概要:
    1. cm105から,四大少年誌のidentifierを取得
    2. cm102から,上記のIDを含む「雑誌巻号」を抽出し.さらに上記の雑誌巻号に掲載された「マンガ作品」を抽出
    3. cm105から,上記の「マンガ作品」の「作品情報」を取得
    4. 上記の「雑誌巻号」「マンガ作品」「作品情報」をマージ

7 of 27

デモデータの内容と作成方法(2/3)

  • 行数: 17,9931,列数: 15

  • 詳細: https://kakeami.github.io/viz-madb/eda/eda.html

8 of 27

デモデータの内容と作成方法(3/3)

9 of 27

アピールポイント(1/3)�約47年分の4大少年誌のデータを採用

  • 日本は,国民の5割が年に1冊以上マンガを読む[1]マンガ大国
  • 特に人気のある4大少年誌[2]を分析対象とすることで,�学習者のモチベーションを保ちつつ学習を進めることが可能

[1] CCCマーケティング,漫画に関するアンケート調査,2021,https://prtimes.jp/main/html/rd/p/000000697.000000983.html

[2] 週刊少年サンデー,週刊少年ジャンプ,週刊少年チャンピオン,週刊少年マガジン

[3] https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

アヤメの特徴と分類[3]

こち亀だ

マンガ作品の特徴と分類

どんなアヤメ

なんだろう

10 of 27

アピールポイント(2/3)�Docker + Jupyter Labで簡単に再現可能

詳細:https://kakeami.github.io/viz-madb/appendix/setup.html

11 of 27

アピールポイント(3/3)�Plotlyによるインタラクティブな可視化

「マンガと学ぶデータビジュアライゼーション 15. 散布図・バブルチャート」より抜粋

12 of 27

余談(1/4)�マンガ家はもう少し休むべき

「マンガと学ぶデータビジュアライゼーション 2. ヒートマップ」より抜粋

  • 左図は4大少年誌において�最もよく働いた20名のマンガ家

  • 色が明るいほど年間掲載数が多い

  • 最大は1976年の水島新司先生.�なんと1年間に143話を週刊誌に�掲載(1年は約52週では…?)

13 of 27

余談(2/4)�掲載位置に作品の特徴が出る

  • 左図は4大少年誌において�最も長期間連載した10作品の�掲載順の分布

  • 0が巻頭,1が巻末

  • 各誌看板作品の巻頭掲載率が�高いことがわかる�やはりONE PIECEは凄まじい

  • 固定ファンの地盤がある�往年の作品は雑誌後半が�定位置となることも

「マンガと学ぶデータビジュアライゼーション 5. 箱ひげ図」より抜粋

14 of 27

余談(3/4)�掲載位置の推移は人気の推移?

「マンガと学ぶデータビジュアライゼーション 8. リッジラインプロット」より抜粋

  • 左図はBLEACHの100話毎の�掲載順の分布の推移

  • 200話(尸魂界救出篇の佳境)�前後を堺に,巻頭付近に掲載が�集中し始める

  • 掲載位置と掲載期間の関係は�次ページにて

15 of 27

余談(4/4)�掲載位置と掲載期間

「マンガと学ぶデータビジュアライゼーション 17. 等高線プロット」より抜粋

  • 左図は各誌のマンガ作品の�平均掲載位置と掲載週数の分布

  • 巻頭に掲載されやすい作品(図中左)�ほど,掲載期間が長い(図中上)�に位置すると想像していたが…

  • 巻末が定位置となった長期間連載�もたくさんあることが原因か

16 of 27

今後の展望

  • 学習障壁のさらなる低減
    • Google ColabやBinderと連携することにより,ローカルマシンのスペックに依存しない学習環境を構築

  • 学習者の裾野の拡大
    • 4大少年誌以外の雑誌へのデータの対応
    • 英訳&Kaggle等への投稿による英語圏へのアピール

  • データサイエンスの他領域への拡張
    • 「四大少年マンガ雑誌で学ぶ確率統計」
    • 「四大少年マンガ雑誌で学ぶ機械学習」
    • 等々

17 of 27

謝辞

  • 唐仁原駿:企画段階からアドバイスを頂きました
  • 機械学習帳:フォーマットを参考にさせて頂きました
    • https://chokkan.github.io/mlnote/index.html

  • 週刊少年サンデー
  • 週刊少年ジャンプ
  • 週刊少年マガジン
  • 週刊少年チャンピオン

18 of 27

参考文献

  • Claus O. Wilke, Fundamentals of Data Visualization
  • 小久保 奈都弥,データ分析者のためのPythonデータビジュアライゼーション入門 コードと連動してわかる可視化手法
  • 総務省統計局,なるほど統計学園
    • https://www.stat.go.jp/naruhodo/

19 of 27

参考:公式テンプレート

20 of 27

アイディアチャレンジ部門プレゼンテーションシート

(名前・グループ名)

(タイトル)

データURL:

21 of 27

1.概要

このページには次のようなことをご記入下さい。

・作成したアイディアの概要

・プレゼンテーションのサマリー  等

22 of 27

2.アイディアの想定活用シーン

このページには次のようなことをご記入下さい。

・このアイディアが活躍する場面や役立つシーン

・どんな活用が期待できるか        等

23 of 27

3.データの内容と作成方法(1)

このページには次のようなことをご記入下さい。

・アイディアのデモデータの説明

・デモデータ中でのメディア芸術データベースの活用の仕方

・データ作成に使用したメディア芸術データベース以外のデータ(出典がわかるように具体的に記載)

・データの加工の仕方

・データ作成の手順         等

24 of 27

3.データの内容と作成方法(2)

このページには次のようなことをご記入下さい。

・デモデータのデータ構成(どのような項目があるかなど)

・データシートやテーブルデータのスクリーンショットを貼り付けていただいても結構です。

25 of 27

4.アピールポイント

このページには次のようなことをご記入下さい。

・作品の特徴

・作品の強み   

・作品のユニークさ     等

26 of 27

5.今後の発展

このページには次のようなことをご記入下さい。

・より作品を良いものにするために必要なもの

・今後の成長可能性、将来性          等

27 of 27

各項目の枚数に制限はありませんので自由にページ数を増やしてかまいません。また、テンプレートにない項目を追加いただくのも自由です。