我有兴趣下载大量网页供以后分析。我想做两件事:
我想在Python中做到这一点。
有没有很好的库可以做到这一点?Scrapy似乎是用来抓取网站的,而不是抓取单个页面的,并且我不确定如何生成WARC文件。如果没有更多的python native,调用wget是一个可行的解决方案。Heritrix是完全的矫kill过正,而不是python解决方案。如果wpull有完善的python库,它将是理想的选择,但它似乎主要是一个应用程序。
还有其他想法吗?
只需使用wget,它是您爬网并将其保存到warc中最简单,最稳定的工具。
wget或只是开始:
--warc-file=FILENAME save request/response data to a .warc.gz file
-p, --page-requisites get all images, etc. needed to display HTML page
请注意,您无需更改任何链接,warc保留原始网页。重放软件(openwayback,pywb)的工作是使warc内容再次可浏览。
如果您需要使用python:default / archive / default是默认库
如果您想手动制作warc文件ampoffcom / htmlwarc,请看一下
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句