Published using Google Docs
Report abuse
Learn more
問題検討向けメモ
Updated automatically every 5 minutes
データセットの例
統計で見る日本 e-Stat
https://github.com/arXivTimes/arXivTimes/tree/master/datasets
データセット群
UCI Machine Learning Repository
いろんなデータセットを公開。
Google Dataset Search
The 50 best free datasets
機械学習向けデータセットベスト50についての解説記事。
代表的な画像認識向けデータセット
比較的小規模,
Caltech-101
クラス: 101種類、物体or背景
サンプル数: 31〜800枚
中規模, Caltech-256 *上記からダウンロード可能
かなり大規模,
ImageNet
クラス数2万強
サンプル数1400万強
東ロボくんの
センター試験XMLデータ
マルチモーダル
マルチモーダル対話データ(英語)
VQA
与えられた写真+質問から、適切な回答を返す必要があるタスク
Facebook/Twitterのエゴグラフ、webリンク、引用とか、大規模なグラフデータ多数。
Stanford Large Network Dataset Collection
The Koblenz Network Collection
Piano Fingering Dataset
運指はピアノ演奏における基礎技能であり、演奏解析・演奏支援・自動編曲・自動採譜など多くの問題と関連して、運指の研究が行われています。このような研究を推進する目的で、運指情報付きピアノ曲データを収集し、公開をいたしました。 本データセットは、クラシックピアノ曲150曲に対して音符ごとに指番号を付記したデータが収められており、学術研究目的であれば、どなたでも無料で使っていただけるものです。 一部の曲に対しては、複数の演奏者による運指が収められており、運指の個人性の調査などに用いることができます。
NLP
現代日本語書き言葉均衡コーパス(BCCWJ)
現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、 ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出
livedoor newsコーパス
日本語WordNet
感情極性対応表
【25個掲載】自然言語処理に使えるデータセットまとめ
SNOW T15:やさしい日本語コーパス
『名大会話コーパス』(旧称:日本語自然会話書き起こしコーパス)
50 Free Machine Learning Datasets: Natural Language Processing