A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | AA | ||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Corpus | URL | Language | Size | Text types | Discipline | Period | Encoding | Non-linguistic annotation | Linguistic annotation | Licence | On-line | Download | Repository | VLO | Publication | Publication URL | |||||||||||
2 | Czech Sociological Review | https://hdl.handle.net/11372/LRT-2703 | Czech | 3 million words | research papers, essays | sociology | 1993-2016 | TSV | ? | ? | MIT | no | yes | LINDAT | Yes | |||||||||||||
3 | UH's German E-thesis corpus | http://urn.fi/urn:nbn:fi:lb-2016102807 | German | 560,000 tokens | MA&PhD theses | ? | 1999-2016 | Korp | ? | ? | CC BY | yes | no | FIN-CLARIN | Yes | |||||||||||||
4 | UH's English E-thesis corpus | http://urn.fi/urn:nbn:fi:lb-2016102401 | English | 200 million tokens | MA&PhD theses | ? | 1999-2016 | Korp | ? | ? | CC BY | yes | no | FIN-CLARIN | Yes | |||||||||||||
5 | ACL Anthology Reference Corpus | https://app.sketchengine.eu/#dashboard?corpname=preloaded%2Faclarc_2 | English | 75 million tokens | research papers | computational linguistics | 1979-2015 | XML | author&text metadata | word, lemma, PoS | CC BY SA | yes (not sure if the same version) | yes | LDC | Yes | Bird et al. 2008 | https://acl-arc.comp.nus.edu.sg/lrec08.pdf | |||||||||||
6 | English Scientific Text Corpus | http://hdl.handle.net/11858/00-246C-0000-0023-8CF9-6 | English | 35 million tokens | journal articles | computer science, computational linguistics, ioinformatics, digital construction, microelectronics, linguistics, biology, mechanical engineering, electrical engineering | 1970/80 & 2000s | CQP | author&text metadata, doc structure | word, lemma, PoS | restricted | yes | no | CLARIN-D (Saarbrücken) | Yes | Degaetano-Ortlieb et al. 2013 | https://nbn-resolving.org/urn:nbn:de:bsz:mh39-49336 | |||||||||||
7 | Academic Corpus | https://www.wgtn.ac.nz/lals/resources/academicwordlist/information/corpus | English | 3.5 m wrd | journal articles, book chapters, course workbooks, laboratory manuals, course notes | arts, commerce, law, biology & subdisciplins | ? | ? | ? | ? | ? | no | no | Dedicated webpage | No | |||||||||||||
8 | GENIA corpus | http://www.geniaproject.org/genia-corpus | English | 437,000 words | journal paper abstracts | biomedicine | ? | various, e.g. PTB | text metadata, doc structure | PoS, Syn, Term, Event, Relation, Coref | free but unspecified | no | yes | PORTULAN | Yes | Jian et al. 2008 | http://drops.dagstuhl.de/opus/volltexte/2008/1522/ | |||||||||||
9 | Reading Academic Text corpus | http://www.reading.ac.uk/internal/appling/corpus.htm | English | ? | PhD theses | agriculture, psychology, food science, technology, meteorology, history | ? | ASCII & HTML | ? | ? | restricted | no | no | Dedicated webpage | No | |||||||||||||
10 | Academic Corpus PUCV-2006 | http://repositorio.ucv.cl/handle/10.4151/6855?show=full | Spanish | 59 million words | dictionaries, didactic guidelines, disciplinary texts, lectures, regulations, reports, research articles, tests, textbooks | psychology, social work, construction engineering, industrial chemistry | ? | ? | ? | PoS | ? | no | no | ? | No | Parodi 2010 | http://www.scielo.br/scielo.php?pid=S1518-76322010000300006&script=sci_arttext#back | |||||||||||
11 | UH's Spanish E-thesis corpus | http://urn.fi/urn:nbn:fi:lb-2016102809 | Spanish | 2.3 million tokens | MA&PhD theses | ? | 1999-2016 | Korp | ? | ? | CC BY | yes | no | FIN-CLARIN | Yes | |||||||||||||
12 | Corpus of Estonian scientific texts | http://hdl.handle.net/11297/1-00-0000-0000-0000-0002-4 | Estonian | 5 million words | PhD theses, scientific articles | ? | ? | TEI P5 | ? | ? | CLARIN_ACA-NC | no | yes (not working) | CELR | Yes | |||||||||||||
13 | UH's Finnish E-thesis corpus | http://urn.fi/urn:nbn:fi:lb-2016090601 | Finnish | 12.5 million tokens | MA&PhD theses | ? | 1999-2016 | Korp | ? | PoS, lemma | CC BY | yes | no | FIN-CARIN | Yes | |||||||||||||
14 | Chambers-Le Baron Corpus of Research Articles | http://hdl.handle.net/20.500.12024/2527 | French | 1 million words | research papers | media/culture, literature, linguistics and language learning, social anthropology, law, economics, sociology and social sciences, philosophy, history, and communication | 1998-2006 | TXT | ? | ? | OTA | no | yes | Oxford Text Archive | Yes | |||||||||||||
15 | UH's French E-thesis corpus | http://urn.fi/urn:nbn:fi:lb-2016102806 | French | 580,000 tokens | MA&PhD theses | ? | 1999-2016 | Korp | ? | ? | CC BY | yes | no | FIN-CLARIN | Yes | |||||||||||||
16 | Corpus of academic Lithuanian | http://coralit.lt/en/node/18 | Lithuanian | 9 million words | textbooks, monographs, journal articles | humanities, social sciences, physical sciences, biomedical sciences, technological sciences & subdisciplines | 1999-2009 | TEI 5 | ? | ? | ? | yes | no | Dedicated webpage | No | Usonienė and Linkevičienė (2009) | http://mokslozurnalai.lmaleidykla.lt/publ/0235-716X/2009/3-4/133-143.pdf | |||||||||||
17 | UH's Russian E-thesis corpus | http://urn.fi/urn:nbn:fi:lb-2016102808 | Russian | 1.1 million words | MA&PhD theses | ? | 1999-2016 | Korp | ? | ? | CC BY | yes | no | FIN-CLARIN | Yes | |||||||||||||
18 | UH's Swedish E-thesis corpus | http://urn.fi/urn:nbn:fi:lb-2016102810 | Swedish | 105 million tokens | MA&PhD theses | ? | 1999-2016 | Korp | ? | ? | CC BY | yes | no | FIN-CLARIN | Yes | |||||||||||||
19 | Academic texts - humanities | http://hdl.handle.net/10794/49 | Swedish | 14.5 million tokens | ? | humanities | 1997-2012 | Korp (XML,TXT) | ? | ? | CC BY | yes | yes | SWE-CLARIN | Yes | |||||||||||||
20 | Academic texts - social science | http://hdl.handle.net/10794/50 | Swedish | 10.8 million tokens | ? | social science | 1997-2012 | Korp (XML,TXT) | ? | sentence | CC BY | yes | yes | SWE-CLARIN | Yes | |||||||||||||
21 | Czech and English abstracts of ÚFAL papers | https://hdl.handle.net/11234/1-1731 | Czech, English | 2 million words | research paper abstracts | formal and applied linguistics | ? | TSV | ? | doc alignment | CC BY | no | yes | LINDAT | Yes | |||||||||||||
22 | MuchMore Springer Bilingual Corpus | http://muchmore.dfki.de/resources1.htm | English, German | 1 million tokens | journal paper abstracts | medical&subisciplines | ? | MuchMore XML | doc structure | PoS, Morph, Chunks, SemClass, SemRel | free but unspecified | no | yes | Dedicated webpage | No | |||||||||||||
23 | Spanish-English Research Article Corpus | https://books.google.si/books?id=NZbWCgAAQBAJ&pg=PA178&lpg=PA178&dq=serac+corpus&source=bl&ots=A7F-vUMJsr&sig=ACfU3U1b8W_r944Bs8OviL9xauHtUoeqVg&hl=sl&sa=X&ved=2ahUKEwiRuq_5nczmAhXT5KYKHWUtBlcQ6AEwAHoECAUQAQ#v=onepage&q=serac%20corpus&f=false | Spanish, English | 5.7 million words | journal articles | ? | 2000-2010 | ? | ? | ? | ? | no | no | / | No | |||||||||||||
24 | Scientext corpus | https://scientext.hypotheses.org/corpus | French, English | 20 million words | scientific texts, argumentative essays | humanities, experimental sciences, applied or technical sciences&subdisciplines | ? | ? | ? | ? | CC BY | yes | no | Dedicated webpage | No | |||||||||||||
25 | Corpus of Academic Slovene KAS 1.0 | http://hdl.handle.net/11356/1244 | Slovenian | 1.7 billion tokens | BA&MA&PhD theses | humanities, social sciences, natural sciences | 2000-2018 | TEI | ? | MSD, lemma, bilingual and monolingual term candidates | CLARIN.SI Licence ACA ID-BY-NC-INF-NORED 1.0 | Yes | Yes | CLARIN.SI | Yes | Erjavec et al. FORTHCOMING | ||||||||||||
26 | OROSSIMO Corpus | http://hdl.grnet.gr/11500/ATHENA-0000-0000-2410-5 | Greek | 2.5 million tokens | "academic discourse text" | social sciences, computer science, economics, linguistics, photography, law, engineering, history, astronomy, earth sciences and geology, medicine and health, biology | ? | XML (XCES) | ? | Term candidates, "mixed structural annotation" | CC-BY | No | Yes | CLARIN:EL | No | |||||||||||||
27 | Modern Greek Dialects: scientific papers | http://hdl.grnet.gr/11500/KEG-0000-0000-2502-4 | Greek | 113,000 words | scientific texts | linguistics, dialects | ? | plain | ? | ? (presumably none) | CC-BY-SA | No | Yes | CLARIN:EL | No | |||||||||||||
28 | tekmirion | http://hdl.grnet.gr/11500/IONION-0000-0000-2512-2 | English, Greek, French | 2,750 (of what?) | journal articles | library science, museology | ? | plain | ? | ? (presumably none) | CC-BY | No | No | CLARIN:EL | No | |||||||||||||
29 | The Language of Literature and the Language of Translation (collected scientific papers) | http://hdl.grnet.gr/11500/KEG-0000-0000-24F2-6 | Greek | 48,300 words | journal articles | linguistics, translation | ? | plain | ? | ? (presumably none) | CC-BY-SA | No | Yes | CLARIN:EL | No | |||||||||||||
30 | KIAP - Cultural Identity in Academic Prose | http://hdl.handle.net/11372/LRT-373 | English, French, Norwegian | ? | scientific papers | ? | ? | ? | ? | PoS | ? | No (broken link) | No | LINDAT | No | |||||||||||||
31 | ||||||||||||||||||||||||||||
32 | ||||||||||||||||||||||||||||
33 | ||||||||||||||||||||||||||||
34 | ||||||||||||||||||||||||||||
35 | ||||||||||||||||||||||||||||
36 | ||||||||||||||||||||||||||||
37 | ||||||||||||||||||||||||||||
38 | ||||||||||||||||||||||||||||
39 | ||||||||||||||||||||||||||||
40 | ||||||||||||||||||||||||||||
41 | ||||||||||||||||||||||||||||
42 | ||||||||||||||||||||||||||||
43 | ||||||||||||||||||||||||||||
44 | ||||||||||||||||||||||||||||
45 | ||||||||||||||||||||||||||||
46 | ||||||||||||||||||||||||||||
47 | ||||||||||||||||||||||||||||
48 | ||||||||||||||||||||||||||||
49 | ||||||||||||||||||||||||||||
50 | ||||||||||||||||||||||||||||
51 | ||||||||||||||||||||||||||||
52 | ||||||||||||||||||||||||||||
53 | ||||||||||||||||||||||||||||
54 | ||||||||||||||||||||||||||||
55 | ||||||||||||||||||||||||||||
56 | ||||||||||||||||||||||||||||
57 | ||||||||||||||||||||||||||||
58 | ||||||||||||||||||||||||||||
59 | ||||||||||||||||||||||||||||
60 | ||||||||||||||||||||||||||||
61 | ||||||||||||||||||||||||||||
62 | ||||||||||||||||||||||||||||
63 | ||||||||||||||||||||||||||||
64 | ||||||||||||||||||||||||||||
65 | ||||||||||||||||||||||||||||
66 | ||||||||||||||||||||||||||||
67 | ||||||||||||||||||||||||||||
68 | ||||||||||||||||||||||||||||
69 | ||||||||||||||||||||||||||||
70 | ||||||||||||||||||||||||||||
71 | ||||||||||||||||||||||||||||
72 | ||||||||||||||||||||||||||||
73 | ||||||||||||||||||||||||||||
74 | ||||||||||||||||||||||||||||
75 | ||||||||||||||||||||||||||||
76 | ||||||||||||||||||||||||||||
77 | ||||||||||||||||||||||||||||
78 | ||||||||||||||||||||||||||||
79 | ||||||||||||||||||||||||||||
80 | ||||||||||||||||||||||||||||
81 | ||||||||||||||||||||||||||||
82 | ||||||||||||||||||||||||||||
83 | ||||||||||||||||||||||||||||
84 | ||||||||||||||||||||||||||||
85 | ||||||||||||||||||||||||||||
86 | ||||||||||||||||||||||||||||
87 | ||||||||||||||||||||||||||||
88 | ||||||||||||||||||||||||||||
89 | ||||||||||||||||||||||||||||
90 | ||||||||||||||||||||||||||||
91 | ||||||||||||||||||||||||||||
92 | ||||||||||||||||||||||||||||
93 | ||||||||||||||||||||||||||||
94 | ||||||||||||||||||||||||||||
95 | ||||||||||||||||||||||||||||
96 | ||||||||||||||||||||||||||||
97 | ||||||||||||||||||||||||||||
98 | ||||||||||||||||||||||||||||
99 | ||||||||||||||||||||||||||||
100 |