A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | ||||||||||||||||||||||||||
2 | ||||||||||||||||||||||||||
3 | Name | URL | Notes | |||||||||||||||||||||||
4 | Google Books nGrams | https://aws.amazon.com/datasets/8172056142375670 | No full text, only ngrams, but topic models still work. | |||||||||||||||||||||||
5 | Reuters News Corpus | http://about.reuters.com/researchandstandards/corpus/ | NLP standard dataset, lots of international stories and lots of good stuff over time | |||||||||||||||||||||||
6 | NLTK Corpora | http://www.nltk.org/nltk_data/ | Lots of good stuff | |||||||||||||||||||||||
7 | https://www.cs.cmu.edu/~./enron/ | Great for orgs scholars but some texts are shorts, and tough to code up interactions | ||||||||||||||||||||||||
8 | http://snap.stanford.edu/class/cs224w-2012/projects/cs224w-013-final.pdf | |||||||||||||||||||||||||
9 | Political Blogs 2008 | https://aws.amazon.com/public-data-sets/common-crawl/ | Huge dataset that covers front page text of nearly every site on the internet | |||||||||||||||||||||||
10 | Freebase Simple Topic Dump | https://aws.amazon.com/datasets/Encyclopedic/8247878934976180 | ||||||||||||||||||||||||
11 | Wikipedia Wikis | https://aws.amazon.com/datasets/Encyclopedic/4182 | ||||||||||||||||||||||||
12 | https://aws.amazon.com/datasets/Encyclopedic/2506 | |||||||||||||||||||||||||
13 | Amazon Commerce Reviews Set | http://archive.ics.uci.edu/ml/datasets/Amazon+Commerce+reviews+set | ||||||||||||||||||||||||
14 | NSF Research Award Abstracts | http://archive.ics.uci.edu/ml/datasets/NSF+Research+Award+Abstracts+1990-2003 | ||||||||||||||||||||||||
15 | 20 Newsgroups | http://scikit-learn.org/stable/datasets/twenty_newsgroups.html | ||||||||||||||||||||||||
16 | New York Times Annotated Corpus | https://catalog.ldc.upenn.edu/LDC2008T19 | Available for purchase | (collective action etc) | ||||||||||||||||||||||
17 | Daily Kos Blog Posts | https://code.google.com/p/graphlabapi/downloads/detail?name=daily_kos.tar.bz2&can=2&q= | ||||||||||||||||||||||||
18 | PubMed | http://deepdive.stanford.edu/doc/opendata/ | ||||||||||||||||||||||||
19 | Google Patents | https://cloud.google.com/blog/products/gcp/google-patents-public-datasets-connecting-public-paid-and-private-patent-data | ||||||||||||||||||||||||
20 | Tweets 2011 | http://trec.nist.gov/data/tweets/ | ||||||||||||||||||||||||
21 | Irish Discussion Boards | http://www.boards.ie/ | ||||||||||||||||||||||||
22 | Movie Review Data | http://www.cs.cornell.edu/people/pabo/movie-review-data/ | ||||||||||||||||||||||||
23 | Yelp Dataset | https://www.yelp.com/academic_dataset | not available | |||||||||||||||||||||||
24 | Netflix Dataset | Netflix Prize Data Set - Academic Torrents | ||||||||||||||||||||||||
25 | Reddit Dataset | http://deepdive.stanford.edu/doc/opendata/ | ||||||||||||||||||||||||
26 | BMC BioInformatics | http://socialcomputing.asu.edu/datasets/Twitter | ||||||||||||||||||||||||
27 | D | |||||||||||||||||||||||||
28 | Higgs Twitter Dataset | https://snap.stanford.edu/data/higgs-twitter.html | ||||||||||||||||||||||||
29 | ICWSM (Various | http://icwsm.org/2013/datasets/datasets/ | ||||||||||||||||||||||||
30 | Million Song Dataset | http://labrosa.ee.columbia.edu/millionsong/musixmatch | Available as bag-of-words | |||||||||||||||||||||||
31 | Stanford Network Datasets | https://snap.stanford.edu/data/ | ||||||||||||||||||||||||
32 | Irvine Network Datasets | https://networkdata.ics.uci.edu/resources.php | ||||||||||||||||||||||||
33 | EUSpeech | https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/XPCVEI | ||||||||||||||||||||||||
34 | Chronicling America: America's Historic Newspapers | http://chroniclingamerica.loc.gov/about/api/ | ||||||||||||||||||||||||
35 | CourtListener | https://www.courtlistener.com/api/bulk-info/ | ||||||||||||||||||||||||
36 | CourtListener | https://tags.hawksey.info/get-tags/ | can regularly update personal archive of tweets, one-time authentification | |||||||||||||||||||||||
37 | Data World | https://data.world/ | a social media site but for datasets and projects for people to post up; searchable and contains lots of data, quality probably varies though | |||||||||||||||||||||||
38 | https://data.stanford.edu/congress_text | U.S. Congressional Record | ||||||||||||||||||||||||
39 | congressional-record | https://github.com/unitedstates/congressional-record | Build your own Record corpus, 1997-most recent available, includes unique IDs for speakers | |||||||||||||||||||||||
40 | Data is Plural (various datasets) | https://www.data-is-plural.com/archive/ | ||||||||||||||||||||||||
41 | Stack Overflow | https://archive.org/details/stackexchange | Licensed CC-BY and very up-to-date copy of the central Q&A website for programmers (and many scientists) | |||||||||||||||||||||||
42 | ||||||||||||||||||||||||||
43 | ||||||||||||||||||||||||||
44 | ||||||||||||||||||||||||||
45 | ||||||||||||||||||||||||||
46 | ||||||||||||||||||||||||||
47 | ||||||||||||||||||||||||||
48 | ||||||||||||||||||||||||||
49 | ||||||||||||||||||||||||||
50 | ||||||||||||||||||||||||||
51 | ||||||||||||||||||||||||||
52 | ||||||||||||||||||||||||||
53 | ||||||||||||||||||||||||||
54 | ||||||||||||||||||||||||||
55 | ||||||||||||||||||||||||||
56 | ||||||||||||||||||||||||||
57 | ||||||||||||||||||||||||||
58 | ||||||||||||||||||||||||||
59 | ||||||||||||||||||||||||||
60 | ||||||||||||||||||||||||||
61 | ||||||||||||||||||||||||||
62 | ||||||||||||||||||||||||||
63 | ||||||||||||||||||||||||||
64 | ||||||||||||||||||||||||||
65 | ||||||||||||||||||||||||||
66 | ||||||||||||||||||||||||||
67 | ||||||||||||||||||||||||||
68 | ||||||||||||||||||||||||||
69 | ||||||||||||||||||||||||||
70 | ||||||||||||||||||||||||||
71 | ||||||||||||||||||||||||||
72 | ||||||||||||||||||||||||||
73 | ||||||||||||||||||||||||||
74 | ||||||||||||||||||||||||||
75 | ||||||||||||||||||||||||||
76 | ||||||||||||||||||||||||||
77 | ||||||||||||||||||||||||||
78 | ||||||||||||||||||||||||||
79 | ||||||||||||||||||||||||||
80 | ||||||||||||||||||||||||||
81 | ||||||||||||||||||||||||||
82 | ||||||||||||||||||||||||||
83 | ||||||||||||||||||||||||||
84 | ||||||||||||||||||||||||||
85 | ||||||||||||||||||||||||||
86 | ||||||||||||||||||||||||||
87 | ||||||||||||||||||||||||||
88 | ||||||||||||||||||||||||||
89 | ||||||||||||||||||||||||||
90 | ||||||||||||||||||||||||||
91 | ||||||||||||||||||||||||||
92 | ||||||||||||||||||||||||||
93 | ||||||||||||||||||||||||||
94 | ||||||||||||||||||||||||||
95 | ||||||||||||||||||||||||||
96 | ||||||||||||||||||||||||||
97 | ||||||||||||||||||||||||||
98 | ||||||||||||||||||||||||||
99 | ||||||||||||||||||||||||||
100 |