ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
データセット名urlyear多言語内か単言語かRC的QAかIR的QAか機械翻訳or人による翻訳or新規作成質問の形式解答の形式エビデンスの形式エビデンスの量ドメイン/元データ全体の分量該当するパラダイム求められる推論スキル
2
TyDiQA
https://aclanthology.org/2020.tacl-1.30/
2020多言語内
3
QAC-1
https://www.aaai.org/Papers/Symposia/Spring/2003/SS-03-07/SS03-07-022.pdf
2003多言語内IR的QA新規作成自然な質問自由形式非構造化テキスト部分的ソース
ニュース/毎日新聞の1998、1999年の記事
1,402Cranfield
4
Japanese Slot Filling Quizzes
https://aclanthology.org/2020.lrec-1.852/
2020単言語RC的QA新規作成穴埋め,ストーリー補完カテゴリカル形式非構造化テキスト単一ソースフィクション/青空文庫Manchester
5
JQAC
https://taniokah.github.io/jqac/
2018単言語(QA作成が目的)新規作成自然な質問抽出形式非構造化テキスト単一ソース百科事典/Wikipedia問題1,018 解答1,101Manchester
6
JAQKET(第1回)
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P2-24.pdf
2020単言語IR的QA新規作成自然な質問多肢選択形式(20個)非構造化テキスト想定単一ソース
クイズ/"abc/EQIDEN" and クイズ作家
訓練用13,061 開発用 995+997
Manchester
7
JAQKET(第2回)
https://sites.google.com/view/project-aio/competition2
2021単言語IR的QA新規作成自然な質問自由形式非構造化テキスト想定部分的ソース
クイズ/"abc/EQIDEN" and クイズ作家
22,335+開発用2,000Manchester
8
運転QAドメインデータセット
https://nlp.ist.i.kyoto-u.ac.jp/?Driving+domain+QA+datasets
2019単言語RC的QA新規作成自然な質問抽出形式(一部解答無し)非構造化テキスト単一ソース運転/作成者による20,007Cranfield
9
常識に基づく推論のためのデータセット(現在は「京都大学常識推論データセット(KUCI)」に名称変更)
https://aclanthology.org/2020.emnlp-main.192/
https://nlp.ist.i.kyoto-u.ac.jp/?KUCI
2020単言語RC的QA新規作成ストーリー補完多肢選択形式非構造化テキスト単一ソースコーパス104,000(37.4MB)Manchester
10
SQuAD翻訳データセット
https://github.com/AkariAsai/extractive_rc_by_runtime_mt
2018多言語内RC的QA人による翻訳自然な質問抽出形式非構造化テキスト単一ソース百科事典/Wikipedia327Manchester
11
SQuAD翻訳データセットJaSQuAD(AI Shiftによる提供)https://www.ai-shift.co.jp/techblog/1224
https://www.kaggle.com/takamichitoda/squad-japanese
2020単言語RC的QA機械翻訳(google翻訳)自然な質問抽出形式非構造化テキスト単一ソース百科事典/Wikipedia103.62MB(問題数未確認)Manchester
12
SQuAD翻訳データセット
https://qiita.com/kumakura013/items/72ca663cfd071000f4c9#%E5%AD%A6%E7%BF%92%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E7%94%A8%E6%84%8F
2020単言語RC的QA機械翻訳(google翻訳)自然な質問抽出形式非構造化テキスト単一ソース百科事典/Wikipedia20,000Manchester
13
NIILC Question Answering Dataset
https://mynlp.is.s.u-tokyo.ac.jp/niilc-qa/
2003単言語IR的QA新規作成
自然な質問(ただし、タグが含まれる),クエリ(自然な質問をクエリ化)
自由形式(ただし、百科事典で解ける想定)構造化テキストソースなし不明/作業者による開発用800 テスト用200Cranfield
14
Yahoo!知恵袋データ(第3版)(2021年度版)
https://www.nii.ac.jp/dsc/idr/yahoo/chiebkr3/Y_chiebukuro.html
2021単言語IR的QA新規作成自然な質問自由形式非構造化テキストソースなし該当なし/Yahoo!知恵袋質問263万 回答670万Cranfield
15
JSQuAD
https://www.anlp.jp/nlp2022/proceedings_2022/pdf_dir/E8-4.pdf
2022単言語RC的QA新規作成自然な質問抽出形式非構造化テキスト単一ソース百科事典/Wikipedia
訓練63,870、開発4,475、評価4,470
Manchester
16
JcommonsenseQA
https://www.anlp.jp/nlp2022/proceedings_2022/pdf_dir/E8-4.pdf
2022単言語新規作成多肢選択形式ConceptNet
訓練9,012、開発1,126、評価1,126
Manchester
17
JaQuAD
https://arxiv.org/abs/2202.01764
https://paperswithcode.com/sota/question-answering-on-jaquad
2022単言語RC的QA新規作成自然な質問抽出形式非構造化テキスト単一ソース百科事典/Wikipedia
39,696の問題解答ペア(訓練31,748、開発3,939、評価4,009)
Manchester
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100