問題検討向けメモ

データセットの例

統計で見る日本 e-Stat
https://github.com/arXivTimes/arXivTimes/tree/master/datasets
データセット群

UCI Machine Learning Repository

いろんなデータセットを公開。

機械学習向けデータセットベスト50についての解説記事。

代表的な画像認識向けデータセット

比較的小規模, Caltech-101

クラス: 101種類、物体or背景
サンプル数: 31〜800枚

中規模, Caltech-256 ＊上記からダウンロード可能
かなり大規模, ImageNet

クラス数2万強
サンプル数1400万強

東ロボくんのセンター試験XMLデータ
マルチモーダル

与えられた写真＋質問から、適切な回答を返す必要があるタスク

Facebook/Twitterのエゴグラフ、webリンク、引用とか、大規模なグラフデータ多数。

Piano Fingering Dataset

運指はピアノ演奏における基礎技能であり、演奏解析・演奏支援・自動編曲・自動採譜など多くの問題と関連して、運指の研究が行われています。このような研究を推進する目的で、運指情報付きピアノ曲データを収集し、公開をいたしました。本データセットは、クラシックピアノ曲150曲に対して音符ごとに指番号を付記したデータが収められており、学術研究目的であれば、どなたでも無料で使っていただけるものです。一部の曲に対しては、複数の演奏者による運指が収められており、運指の個人性の調査などに用いることができます。

NLP

現代日本語書き言葉均衡コーパス（BCCWJ）

現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、ネット掲示板、教科書、法律などのジャンルにまたがって１億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出