A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | AA | AB | AC | AD | AE | AF | AG | AH | AI | AJ | AK | AL | AM | AN | AO | AP | AQ | AR | AS | AT | AU | AV | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | URL | Group1 | Group2 | Group3 | Group4 | Group5 | Group6 | |||||||||||||||||||||||||||||||||||||||||
2 | Existing dataset in ESPnet2 | |||||||||||||||||||||||||||||||||||||||||||||||
3 | aidatatang_200zh (ZH) | http://www.openslr.org/resources/62 | rishubhg, kchian, zhenyub | |||||||||||||||||||||||||||||||||||||||||||||
4 | aishell (ZH) | http://www.aishelltech.com/kysjcp | ||||||||||||||||||||||||||||||||||||||||||||||
5 | babel (~20 languages) | https://www.iarpa.gov/index.php/research-programs/babel | ||||||||||||||||||||||||||||||||||||||||||||||
6 | commonvoice (13 languages and beyond) | https://voice.mozilla.org/datasets | dberrebb, jhuynh, kayoy | emwillia, csking | ||||||||||||||||||||||||||||||||||||||||||||
7 | csj (JP) | https://pj.ninjal.ac.jp/corpus_center/csj/en/ | ||||||||||||||||||||||||||||||||||||||||||||||
8 | hkust (ZH) | https://catalog.ldc.upenn.edu/LDC2005S15 | ||||||||||||||||||||||||||||||||||||||||||||||
9 | iwslt21_low_resource (SW) | http://www.openslr.org/25/ https://catalog.ldc.upenn.edu/LDC2017S05 https://gamayun.translatorswb.org/data/ https://iwslt.org/2021/low-resource | ||||||||||||||||||||||||||||||||||||||||||||||
10 | jsut (JP) | https://sites.google.com/site/shinnosuketakamichi/publication/jsut | cdeveral, shajomar, shravyab | rishubhg, kchian, zhenyub | ||||||||||||||||||||||||||||||||||||||||||||
11 | jtubespeech (JP) | |||||||||||||||||||||||||||||||||||||||||||||||
12 | jv_openslr35 (JV) | http://www.openslr.org/35 | ||||||||||||||||||||||||||||||||||||||||||||||
13 | ksponspeech (KR) | https://aihub.or.kr/aidata/105 | ||||||||||||||||||||||||||||||||||||||||||||||
14 | laborotv (JP) | https://laboro.ai/column/eg-laboro-tv-corpus-jp | ||||||||||||||||||||||||||||||||||||||||||||||
15 | mls (8 languages) | http://www.openslr.org/94/ | ||||||||||||||||||||||||||||||||||||||||||||||
16 | open_li52 (ASR 52 languages) | |||||||||||||||||||||||||||||||||||||||||||||||
17 | polyphone_swiss_french (FR) | http://catalog.elra.info/en-us/repository/browse/ELRA-S0030_02 | ||||||||||||||||||||||||||||||||||||||||||||||
18 | primewords_chinese (ZH) | https://www.openslr.org/47/ | Yu Zhong, Phoebe Li | xding2, zhihaow2, qibinc | ||||||||||||||||||||||||||||||||||||||||||||
19 | puebla_nahuatl (HPN) | https://www.openslr.org/92/ | ||||||||||||||||||||||||||||||||||||||||||||||
20 | ru_open_stt (RU) | https://github.com/snakers4/open_stt | ||||||||||||||||||||||||||||||||||||||||||||||
21 | su_openslr36 (SU) | http://www.openslr.org/36 | ||||||||||||||||||||||||||||||||||||||||||||||
22 | totonac (Totonac) | http://www.openslr.org/107/ | ||||||||||||||||||||||||||||||||||||||||||||||
23 | vivos (VI) | https://ailab.hcmus.edu.vn/vivos/ | ||||||||||||||||||||||||||||||||||||||||||||||
24 | voxforge (7 languages) | http://www.voxforge.org/ | ||||||||||||||||||||||||||||||||||||||||||||||
25 | wenetspeech (ZH) | https://wenet-e2e.github.io/WenetSpeech/ | rishubhg, kchian, zhenyub | |||||||||||||||||||||||||||||||||||||||||||||
26 | yesno (HE) | http://www.openslr.org/107/ | ||||||||||||||||||||||||||||||||||||||||||||||
27 | yoloxochitl_mixtec (Yoloxochil-Mixtec) | http://www.openslr.org/89 | ||||||||||||||||||||||||||||||||||||||||||||||
28 | zeroth_korean (KR) | http://www.openslr.org/40 | ||||||||||||||||||||||||||||||||||||||||||||||
29 | ||||||||||||||||||||||||||||||||||||||||||||||||
30 | ||||||||||||||||||||||||||||||||||||||||||||||||
31 | Dataset | URL | Group1 | Group2 | Group3 | Group4 | ||||||||||||||||||||||||||||||||||||||||||
32 | Other datasets | |||||||||||||||||||||||||||||||||||||||||||||||
33 | NISP (indian accent ASR) | https://arxiv.org/pdf/2007.06021v1.pdf | ||||||||||||||||||||||||||||||||||||||||||||||
34 | aishell2 | https://github.com/espnet/espnet/tree/master/egs | ||||||||||||||||||||||||||||||||||||||||||||||
35 | hub4_spanish | https://github.com/espnet/espnet/tree/master/egs | ||||||||||||||||||||||||||||||||||||||||||||||
36 | openasr20 | https://sat.nist.gov/openasr20 | ||||||||||||||||||||||||||||||||||||||||||||||
37 | vystadial recipe | http://www.openslr.org/6/ | ||||||||||||||||||||||||||||||||||||||||||||||
38 | thuyg-20 | http://www.openslr.org/22/ | ||||||||||||||||||||||||||||||||||||||||||||||
39 | Iban | http://www.openslr.org/24/ | cdeveral, shajomar, shravyab | |||||||||||||||||||||||||||||||||||||||||||||
40 | ALFFA | http://www.openslr.org/25/ | ||||||||||||||||||||||||||||||||||||||||||||||
41 | free_st_mandarin | http://www.openslr.org/38/ | cxcui, yunhsua3, haiweng | xding2, zhihaow2, qibinc | ||||||||||||||||||||||||||||||||||||||||||||
42 | neroico | http://www.openslr.org/39/ | cdeveral, shajomar, shravyab | |||||||||||||||||||||||||||||||||||||||||||||
43 | zeroth_korean | http://www.openslr.org/46/ | ||||||||||||||||||||||||||||||||||||||||||||||
44 | tunisian_msa | |||||||||||||||||||||||||||||||||||||||||||||||
45 | primewords_chinese | http://www.openslr.org/47/ | szchang | |||||||||||||||||||||||||||||||||||||||||||||
46 | sinhala_openslr52 | http://www.openslr.org/52/ | ||||||||||||||||||||||||||||||||||||||||||||||
47 | bengali_openslr52 | http://www.openslr.org/53/ | sakter, rdutt, bguda | |||||||||||||||||||||||||||||||||||||||||||||
48 | nepali_openslr54 | http://www.openslr.org/54/ | ||||||||||||||||||||||||||||||||||||||||||||||
49 | acceted_french_openslr56 | http://www.openslr.org/57/ | suminpar, yerinh, mvijay | dberrebb, jhuynh, kayoy | ||||||||||||||||||||||||||||||||||||||||||||
50 | pansori_ted_x_kr | http://www.openslr.org/58/ | cdeveral, shajomar, shravyab | |||||||||||||||||||||||||||||||||||||||||||||
51 | parlament_parla | http://www.openslr.org/59/ | ||||||||||||||||||||||||||||||||||||||||||||||
52 | tedx_spanish | http://www.openslr.org/67/ | skathpal, apsharma, vayudian | |||||||||||||||||||||||||||||||||||||||||||||
53 | magicdata_mandarin_read_speech | http://www.openslr.org/68/ | njanders, taiqih | |||||||||||||||||||||||||||||||||||||||||||||
54 | russian_librispeech | http://www.openslr.org/96/ | ||||||||||||||||||||||||||||||||||||||||||||||
55 | ksc | http://www.openslr.org/102/ | ||||||||||||||||||||||||||||||||||||||||||||||
56 | nicolingua_0003_african_radio | http://www.openslr.org/105/ | ||||||||||||||||||||||||||||||||||||||||||||||
57 | nicolingua_0004_african_va | http://www.openslr.org/106/ | ||||||||||||||||||||||||||||||||||||||||||||||
58 | mediaspeech | http://www.openslr.org/108/ | asrivas4, pmjoshi, sameerj | hfu2,wangchew,yaushiaw | ||||||||||||||||||||||||||||||||||||||||||||
59 | samromur_2105 | http://www.openslr.org/112/ | ||||||||||||||||||||||||||||||||||||||||||||||
60 | seoul_corpus | http://www.openslr.org/113/ | ||||||||||||||||||||||||||||||||||||||||||||||
61 | golos | http://www.openslr.org/114/ | ||||||||||||||||||||||||||||||||||||||||||||||
62 | IISc-MILE Kannada ASR Corpus | http://openslr.org/126/ | ||||||||||||||||||||||||||||||||||||||||||||||
63 | ||||||||||||||||||||||||||||||||||||||||||||||||
64 | ||||||||||||||||||||||||||||||||||||||||||||||||
65 | Dataset | Information (URL, reference, etc.) | Group1 | Group2 | Group3 | Group4 | ||||||||||||||||||||||||||||||||||||||||||
66 | Proposed datasets | |||||||||||||||||||||||||||||||||||||||||||||||
67 | LDCIL () | https://data.ldcil.org/index.php?route=common/home | sujayk, lagupta, amahabal | sakter, rdutt, bguda | sumita, surajt, nyarrabe | kmahajan, sphal, nikhilgu | ||||||||||||||||||||||||||||||||||||||||||
68 | kannada | https://openslr.org/79/ | sujayk, lagupta, amahabal | |||||||||||||||||||||||||||||||||||||||||||||
69 | marathi | https://openslr.org/64/ | sujayk, lagupta, amahabal | kmahajan, sphal, nikhilgu | asrivas4, pmjoshi, sameerj | |||||||||||||||||||||||||||||||||||||||||||
70 | Microsoft Speech Corpus (Telugu) | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | siddhana, aostapen, cnariset | sakter, rdutt, bguda | sumita, surajt, nyarrabe | salonim, ktodi, kimihiro | ||||||||||||||||||||||||||||||||||||||||||
71 | Dsing30 | https://www.isca-speech.org/archive/pdfs/interspeech_2019/dabike19_interspeech.pdf | jiatongs, fangzhex, xinyuech | |||||||||||||||||||||||||||||||||||||||||||||
72 | MInDS-14 (Korean) | https://arxiv.org/abs/2104.08524 | youngmik, kalvinc, karthikg | |||||||||||||||||||||||||||||||||||||||||||||
73 | burmese_openslr80 | https://openslr.org/80/ | asrivas4, pmjoshi, sameerj | |||||||||||||||||||||||||||||||||||||||||||||
74 | malayalam_openslr63 | https://www.openslr.org/63/ | buk, pup, rmampill | |||||||||||||||||||||||||||||||||||||||||||||
75 | commonvoice Guaraní | https://commonvoice.mozilla.org/en/datasets | nrrobins, aogayo | |||||||||||||||||||||||||||||||||||||||||||||
76 | Puerto Rican Spanish | http://www.openslr.org/74/ | asrivas4, pmjoshi, sameerj | |||||||||||||||||||||||||||||||||||||||||||||
77 | Microsoft Speech Corpus (Tamil) | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | salonim, ktodi, kimihiro | |||||||||||||||||||||||||||||||||||||||||||||
78 | Microsoft Speech Corpus (Gujarati) | https://msropendata.com/datasets/7230b4b1-912d-400e-be58-f84e0512985e | salonim, ktodi, kimihiro | sujayk, lagupta, amahabal | ||||||||||||||||||||||||||||||||||||||||||||
79 | Gujarati | http://openslr.org/78/ | sujayk, lagupta, amahabal | |||||||||||||||||||||||||||||||||||||||||||||
80 | Sichuan Dialect Scripted Speech Corpus | https://magichub.com/datasets/sichuan-dialect-scripted-speech-corpus-daily-use-sentence/ | schen4, zhiruow | |||||||||||||||||||||||||||||||||||||||||||||
81 | ||||||||||||||||||||||||||||||||||||||||||||||||
82 | ||||||||||||||||||||||||||||||||||||||||||||||||
83 | ||||||||||||||||||||||||||||||||||||||||||||||||
84 | ||||||||||||||||||||||||||||||||||||||||||||||||
85 | ||||||||||||||||||||||||||||||||||||||||||||||||
86 | ||||||||||||||||||||||||||||||||||||||||||||||||
87 | ||||||||||||||||||||||||||||||||||||||||||||||||
88 | ||||||||||||||||||||||||||||||||||||||||||||||||
89 | ||||||||||||||||||||||||||||||||||||||||||||||||
90 | ||||||||||||||||||||||||||||||||||||||||||||||||
91 | ||||||||||||||||||||||||||||||||||||||||||||||||
92 | ||||||||||||||||||||||||||||||||||||||||||||||||
93 | ||||||||||||||||||||||||||||||||||||||||||||||||
94 | ||||||||||||||||||||||||||||||||||||||||||||||||
95 | ||||||||||||||||||||||||||||||||||||||||||||||||
96 | ||||||||||||||||||||||||||||||||||||||||||||||||
97 | ||||||||||||||||||||||||||||||||||||||||||||||||
98 | ||||||||||||||||||||||||||||||||||||||||||||||||
99 | ||||||||||||||||||||||||||||||||||||||||||||||||
100 |