Web archiving software comparison

	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O	P	Q	R	S	T	U	V	W	X	Y	Z	AA	AB	AC	AD	AE	AF	AG	AH	AI
1	For more information about this spreadsheet, please visit https://github.com/archivers-space/research/tree/master/web_archiving
2		General information					Users & developer features						"Out of the box" website crawling capabilities												Advanced data harvesting capabilities				Archive management features			Other notes		Date/version checked
3	Name (link to home page)	Open source?	Source repo	Operating system(s)	Primary dev. language	Target audience	CLI	GUI	WUI	Library API	Network API	Extensibility framework	Parallel crawling	Scheduled crawling	Crawl storage format(s)	Capture raw responses	Follow links	URL filtering	Advanced filtering	Extract links from JavaScript	Run JavaScript	Handle React	Extract links from Flash	Run Flash	Targeted scraping	Manual form interaction	Auto form interaction	Extract file data	Browse	Playback	Full-text search	Notable users	Notes and comments	Evaluation date	Version examined

4	Whole site archiving systems
5	Archive-It	½	n/a	web app	Java	enterprise	✖︎	✖︎	✔	✖︎	✔	✖︎	✔	✔	ARC, WARC		✔	✔		✔	✔	✖︎	✔	✖︎		✖︎	✖︎		✔	✔	✔	Run by IA. Used by 100's of institutions.	Paid service. Core software is Heritrix, with some extensions.	2017-05-21
6	Brozzler	Apache	GitHub	Lin, Win, macOS	Python	user	✔	✖︎	✔	✖︎	✔	✖︎	✔	✖︎	WARC	✔	✔	✖︎	✖︎	✔	✔	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✔	✔	✖︎	IA	Uses Chromium to fetch pages. Uses warcprox and pywb.	2017-07-14	1.b11
7	Crawler	✔	GitHub	Lin, Win, macOS	PHP	user	✖︎	✖︎	✔	✖︎	✖︎	✖︎	✖︎	✖︎	MySQL	✖︎	✔	✖︎		✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎︎	✖︎	✖︎	✖︎	Made by the FCC.	Bare bones crawler. License not stipulate. Purpose unclear.	2017-06-01	2012-06-04
8	Crawler4j	Apache	GitHub	Lin, Win, macOS	Java	user	✖︎︎	✖︎	✖︎	✔	✖︎︎	Java classes	✔	✖︎	files on disk	✖︎	✔	✖︎	✖︎	✖︎︎	✖︎	✖︎︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎			2017-05-23
9	Crawljax	Apache	GitHub	Lin, Win, macOS	Java	user	✔	✖︎	✔	✔	✖︎	Plug-ins	✔	limited	log file; plug-ins can do more	✖︎	✔	✖︎	✔	✔	✔	✔	✖︎	✖︎	✔	✔	✖︎		✔	✖︎	✖︎		Several papers written about the implementation..	2017-06-01	3.5
10	grab-site	MIT	GitHub	Lin, Win, macOS	Python	user	✔	✖︎	✔	✖︎	RPC	Python	✖︎︎	✖︎︎	WARC		✔	✔		✔	✖︎	✖︎	✖︎	✖︎		✖︎	✖︎︎	✖︎︎	✖︎	✖︎	✖︎		Uses wpull internally.	2017-05-15
11	gecco	MIT	GitHub	Lin, Win, macOS	Java	user	✖︎	✖︎	✖︎	✔	✖︎	Java classes	✔	✖︎		✖︎	✔	✖︎		✔	✔	✔	✖︎	✖︎	✔	✔	✖︎	✖︎	✖︎	✖︎	✖︎		Code comments are in Chinese.	2017-06-01
12	Heritrix	Apache+	GitHub	Lin	Java	user	✔	✖︎︎	✔	✖︎︎	JMX	Java classes	✔	✖︎	ARC, WARC	✔	✔	✔		✔	✖︎	✖︎︎	✔	✖︎	✖︎︎	✖︎︎	✖︎︎		✖︎	✖︎	✖︎	Used by IA.		2017-05-15
13	HTTrack	GPL	GitHub	Lin, Win	C	user	✔	✔	✖︎	✔	✖︎	C callbacks	✔	✖︎	files on disk	✖︎︎	✔	✔	✔	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎︎	✖︎	✖︎	✖︎	✖︎			2017-07-03
14	ItSucks	GPL	SF	Lin, Win, macOS	Java	user	✔	✔	✖︎	✔	✖︎	Java classes	✔	✖︎	files on disk	✖︎	✔	✔	✔	✖︎	✖︎	✖︎	✖︎	✖︎		✖︎	✖︎︎		✖︎	✖︎	✖︎			2017-05-15
15	NetarchiveSuite	LGPL	GitHub	Lin	Java	user, enterprise	✔	✖︎	✔	✖︎		Java classes	✔	✔	ARC, WARC	✔	✔	✔		✔	✖︎︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎;		✔		✔	Netarkivet at The Royal Library of Denmark	Uses Heritrix for crawling.	2017-07-14
16	Nutch	Apache	Apache	Lin, Win, macOS	Java	user, enterprise	✔	✖︎	✖︎	✔	✔	Plug-ins	✔	✔	several db options	✖︎	✔	✔	✔	✔	✔	✔	✖︎	✖︎	✔	✔	✖︎	✔	✖︎	✖︎	✖︎			2017-06-01
17	Octoparse	✖︎	✖︎	Win	.NET	user, enterprise	✖︎	✔	✖︎	✖︎	REST	✖︎	✔	✔	database, CSV, Excel, files on disk	✔	✔	✔	✔	✔	✔	✔	✖︎	✖︎	✔	✔		✔	✔				Seems to run in the cloud, but there's a downloadable console or something.	2017-09-03	6.4.3
18	PageFreezer	✖︎	✖︎	web app	n/a	user, enterprise	✖︎	✖︎	✔	✖︎	✔	✖︎	✔	✔	web pages	✖︎	✔						✖︎	✖︎		✖︎	✖︎	✖︎	✔	✔		EDGI web monitors use it		2017-10-04
19	simplecrawler	BSD	GitHub	Lin, Win, macOS	Node.js	user	✔	✖︎	✖︎	✔	✖︎	Node modules, ES6+	✔	✖︎	files on disk	✔	✔	✔	✔	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✔	✖︎	✖︎	✖︎	✖︎	✖︎			2017-09-03	1.1.5
20	Squidwarc	GPLv3	Github	Lin, macOS	Node.js	user, enterprise	✔	✖︎	✖︎	✔	✖︎	Node modules, ES6+	✔	✖︎	WARC	✔	✔	✖︎	✖︎	✔	✔	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎;	✖︎		A high fidelity archival crawler that uses Chrome or Chrome Headless	2017-07-21	d4ca0b8
21	StormCrawler	Apache	GitHub	Lin, Win, macOS	Java	user, enterprise	✔	✖︎	✖︎	✔	✖︎	Java classes	✔	limited	several db options	✖︎	✔	✔	✔	✔	✔	✔	✖︎	✖︎	✔	✔	✖︎	✔	✖︎	✖︎	✖︎	Several companies, apparently.	https://github.com/DigitalPebble/storm-crawler/wiki/Presentations	2017-06-01
22	WAIL (Electron)	GPLv3	GitHub	Lin, Win, macOS	Node.js (Electron)	user	✖︎	✔	✖︎	✔	✖︎	✖︎	✔	✔	WARC	✔	✔	✔	✖︎︎	✔	✔	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✔	✔	✖︎		Uses Chrome Browser and Heritrix for crawling. Pywb, Twitter Monitoring And Automatic Archival	2018-12-13	1.2.0-Beta2
23	WAIL (py)	MIT	GitHub	Win, macOS	Python	user	✖︎	✔	*	✖︎	✖︎	✖︎	✔	✖︎	WARC	✔	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✔	✔	✖︎		OpenWayback and Heritrix, cf. WAIL (Electron)	2018-12-13	v0.2016.07.09
24	WebMagic	Apache	GitHub	Lin, Win, macOS	Java	user	✖︎	✖︎	✖︎	✔	✖︎︎	Java		✖︎	files on disk		✔	✔	✔	✔	✔	✖︎	✖︎	✖︎	✔	✔	✖︎	✔	✖︎	✖︎	✖︎		Intended as a programming framework, not end-user app. Comments are in Chinese	2017-10-04	0.7.3
25	WebRecorder.io	Apache	GitHub	Lin, Win, macOS	Python	user	✔	✔	✔	✔	✖︎	✖︎︎	✖︎	✖︎	WARC	✔		✖︎︎	✖︎	✔	✔	✔	✖︎	✖︎︎	✖︎	✔	✖︎	✖︎	✔	✔			Interactive, high-fidelity web archiving tool	2017-07-03	eccea96
26	wget	GPL	Savannah	Lin, Win, macOS	C	user	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	WARC, files on disk	✔	✔	✔	limited	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎︎	✖︎	✖︎	✖︎	✖︎		Use option --save-headers to save HTTP headers	2017-05-17	1.19
27	wpull	GPL	GitHub	Lin, Win, macOS	Python	user	✔	✖︎	✖︎︎	✔	✔	plug-ins, scripts	✖︎	✖︎︎	WARC	✔	✔	✔		✔	✖︎	✖︎	✖︎︎	✖︎	✖︎︎	✖︎	✖︎︎	✖︎︎	✖︎︎	✖︎	✖︎			2017-05-20	2.01
28
29	Single page snapshot/archiving systems
30	Archive.is	✖︎	n/a	web app	n/a	user	✖︎	✖︎	✔	✖︎︎	REST	✖︎	✔	✖︎	web page	✖︎	✖︎	✖︎︎	✖︎	✖︎	✔		✖︎	✔	✖︎	limited	✖︎	✖︎	✖︎	✔	✖︎		Very good quality page captures.	2017-05-15
31	curl	MIT	GitHub	Lin, Win, macOS	C	user	✔	✖︎	✖︎	✔	✖︎	✖︎	✖︎	✖︎	files on disk	✔	✖︎︎	✔	✖︎︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎︎	limited	✖︎︎	✖︎	✖︎	✖︎	✖︎	Standard with many operating systems		2017-05-21
32	FreezePage	✖︎	n/a	web app	n/a	user	✖︎	✖︎	✔	✖︎	✖︎	✖︎	✖︎	✖︎	web page	✖︎	✖︎︎	✖︎	✖︎	✖︎	✔	✖︎︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎︎	✔	✔	✖︎		Seems to be free for use, but not open source.	2017-06-25
33	Paparazzi!	✖︎	n/a	macOS	n/a	user	✔	✔	✖︎︎	✖︎	✖︎︎	✖︎︎	✖︎︎	✖︎︎	PDF, PNG, JPG, TIFF	✖︎︎	✖︎︎	✖︎	✖︎	✖︎︎	✔	✖︎	✖︎︎	✔	✖︎	limited	✖︎	✖︎	✖︎︎	✖︎︎	✖︎︎	mhucka uses this all the time	Very good quality full-page captures.	2017-05-24
34	Perma.cc	MIT + GPL	GitHub	web app	Python	user, enterprise	✖︎︎	✖︎︎	✔	✖︎	REST	Django	✖︎	✖︎	WARC, PDF, PNG	✖︎	✖︎︎	✖︎	✖︎	✖︎	✔		✖︎	✖︎︎	✖︎	✖︎	✖︎	✖︎	✔	limited	✖︎			2017-05-24
35	WARCreate	MIT	GitHub	Chrome extension	JavaScript	user	✖︎︎	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	WARC	✖︎	✖︎︎	✖︎	✖︎	✖︎	✔	✖︎	✖︎	✖︎︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎			2017-07-14
36	webkit2png	MIT	GitHub	Lin, Win, macOS	Python	user	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	PNG	✖︎	✖︎︎	✖︎	✖︎	✖︎	✔	✖︎	✖︎	✔	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎	✖︎			2017-05-27
37
38	Data scraping systems
39	Bixo	Apache	GitHub	Lin, Win, macOS, EMR	Java	user, enterprise	✔	✖︎	✖︎	✔	✖︎	Java classes	✔	✖︎	files	✖︎	✔	✔		✖︎	✖︎	✖︎	✖︎	✖︎	✖︎		✖︎	✖︎	✖︎	✖︎	✖︎		Author seems to be creator of Krugle. Uses Apache Nutch, Hadoop, Tika, others.	2017-06-25
40	import.io	✖︎	n/a	web app	n/a	user, enterprise	✖︎	✖︎	✔	✖︎	REST	✖︎	✔	✔	JSON, CSV, Gdocs, Tableau	✖︎	✔	✔		✔	limited		✖︎	✖︎	✔	✔	✖︎		✖︎	✖︎	✖︎		Offers edu & charity discounts. Has a pretty active user forum.	2017-05-24
41	iRobotSoft.com	✖︎	✖︎	Win	n/a	user, enterprise	✔	✔	✖︎	✖︎	✖︎	✖︎	✔	✔	files on disk, user db	✖︎	✔	✔	✖︎	✔	✔		✖︎	✖︎	✔	✔	✖︎	✔	✖︎	✖︎				2017-10-04	2.8.2
42	morph.io	Affero	GitHub	Lin, Win, macOS, Docker, web app	Ruby	user, enterprise	✔	✖︎	✔	✔	✔	Plug-ins (supports many langs)	✔	limited	SQLlite	✖︎	✔	✔		✔	✔		✖︎	✖︎	✔	✔	✖︎		✖︎	✖︎	✖︎		Offers cloud-based scraping. Active user forum.	2017-05-29
43	Portia	BSD	GitHub	Lin, Win, macOS, Docker	Python	user	✖︎︎	✖︎︎	✔	✔	✔	Python		✔	files, MySQL, git	✖︎	✔	✔		✔	✔	✔	✖︎	✔	✔	✔	✖︎︎		✔	✖︎	✖︎		Has visual scraping definition editor.	2017-05-29
44	WebScraper.io (fork)	LGPLv3	GitHub	Chrome extension	JavaScript	user	✖︎	✖︎	✔	✖︎	✖︎	✖︎	✖︎	✖︎	CSV, CouchDB	✖︎	✔	✔	✖︎	✖︎			✖︎	✖︎	✔		✖︎	✔	✖︎	✖︎	✖︎	A version of this is used by WebScraper.io (commercial)	This is a fork; the original (by Martins Balodis) has not changed since 2014.	2017-10-04	0.3.1
45	Web Scraper Plus+	✖︎	n/a	Win	n/a	user	✔	✔	✖︎	✖︎	✖︎	✖︎︎	✖︎	✖︎	files, user db	✖︎	✔	✔	✔	✔	✖︎︎	✖︎︎	✖︎	✖︎︎	✔	✔	✖︎	✔	✖︎	✖︎︎	✖︎︎		Can extract data & store in database. May no longer be supported.	2017-05-23
46
47
48	– not yet categorized –
49	80legs.com
50	Abot
51	AbotX
52	Andjing
53	Anemone
54	Aperture
55	Apifier
56	Arachnid (Java)
57	Arachnid (PHP)
58	arachniweb
59	Arale
60	ArchiveBot
61	ARCOMEM
62	ASPseek
63	Bingo!
64	blekko	✖︎	–
65	CCBot
66	cl-web-crawler
67	CrawlBot	✖︎	–	web app							✔
68	crawler.js
69	crawwwler
70	DataparkSearch
71	DeepArc
72	DeepVaccum	✖︎		macOS
73	Django Dynamic Scraper
74	dryscrape
75	EIS Archiver
76	Ex-Crawler
77	F(b)arc
78	Gungho
79	Hounder
80	html-snapshots
81	html2warc
82	HyperSpider (JS)
83	icrawler
84	iwebcrawler								✔
85	jedi-crawler
86	Jspider
87	JWAT
88	Knowlesys
89	LARM
90	Lassie
91	Lentil
92	LinkGrabber
93	METIS
94	Miru
95	mnoGoSearch
96	mummif.it
97	Newspaper
98	Norconex HTTP Collector
99	NutchWAX
100	OpenWayback																												✔	✔