使用python将网页和相关资源下载到WARC

安德鲁·斯波特

我有兴趣下载大量网页供以后分析。我想做两件事:

  • 将页面和关联的资源(图像,与文章关联的多个页面等)下载到WARC文件。
  • 更改所有链接以指向现在的本地文件。

我想在Python中做到这一点。

有没有很好的库可以做到这一点?Scrapy似乎是用来抓取网站的,而不是抓取单个页面的,并且我不确定如何生成WARC文件。如果没有更多的python native,调用wget是一个可行的解决方案。Heritrix是完全的矫kill过正,而不是python解决方案。如果wpull有完善的python库,它将是理想的选择,但它似乎主要是一个应用程序。

还有其他想法吗?

拉斐尔·梅图蒂

只需使用wget,它是您爬网并将其保存到warc中最简单,最稳定的工具。

wget或只是开始:

--warc-file=FILENAME        save request/response data to a .warc.gz file
-p,  --page-requisites           get all images, etc. needed to display HTML page

请注意,您无需更改任何链接,warc保留原始网页。重放软件(openwayback,pywb)的工作是使warc内容再次可浏览。

如果您需要使用python:default / archive / default是默认库

如果您想手动制作warc文件ampoffcom / htmlwarc,请看一下

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用Akka Streams和HTTP将HTTP资源下载到文件中?

使用Selenium和python将文件下载到指定位置

使用R或Python抓取网页和相关的后续页面

使用python将文件下载到特定文件夹

使用Python将图像下载到sqlite数据库

使用 Python 将文件直接下载到存档中

将网页下载到文本文件

阻止将图片下载到chrome网页中

使用Python将基于pdf的网页下载为pdf

如何使用Python将网页下载为PDF?

使用python自动执行ssh'到服务器和将文件下载到特定文件夹的过程

如何将HTML页面及其相关资源(例如图像和CSS文件)加载到android webview中?

使用Unity和C#将文件下载到StreamingAssets文件夹

如何使用Java代码将文件上传和下载到hdfs

如何使用python和boto3将Amazon S3文件下载到文件夹中的本地机器上?

下载网页并使用python搜索文本

如何使用Python脚本下载完整的网页?

如何使用 Python 从 Amazon S3 将 JPG 文件下载到内存中?

Python脚本,使用BeautifulSoup将网站上的所有图像下载到指定的文件夹

使用请求将多个文件(字节)下载到python中的目录

使用缩放和滚动功能将网页加载到IFrame

如何使用HTML将表格加载到多个网页中?

使用javascript将产品数据从Firestore加载到网页

将网页中的所有 excel 文件下载到 R 数据框

将任意文件下载到Android和iOS缓存

使用Selenium和Python抓取Morningstar网站。Selenium没有下载完整的网页

是否有用于将Web资源下载到hdfs的命令?

将文件从资源服务器下载到浏览器(OAuth2)

将资源下载到多个Apache服务器上?[Linux操作系统]