wget不以所需格式保存链接

00

当我使用浏览器保存此页面时:http : //maine.craigslist.org/fuo/链接的保存方式是使它们链接到内容。像这样:href =“ http://maine.craigslist.org/fuo/4323535885.html”

当我尝试使用wget时,链接是

$ wget --no-parent maine.craigslist.org/fuo

另存为:href =“ / fuo / 4305913395.html”

我尝试了以下选项:

--spider
--page-requisites 
--user-agent="Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:27.0) Gecko/20100101  Firefox/27.0"

但是所有链接都没有附加网址。

我完成了脚本的其余部分,以解析我的位置,并为我所在区域的家具创建一个新的链接列表。但是我无法弄清楚如何获得与通过firefox保存页面时获得的输出相同的输出。

我认为使用wget将是最简单的。也许那是不对的。如果我可以使用其他一些软件达到相同的效果,只要我可以编写脚本使其正常工作,我就会很高兴。

剩下

--convert-links选项应满足您的需求:

wget --convert-links --no-parent maine.craigslist.org/fuo

以下是有关此选项及其作用的更多信息(从中复制man wget):

   --convert-links
       下载完成后,转换文档中的链接
       以使其适合本地查看。这不仅会影响
       可见的超链接,
       还会影响文档中链接到
       外部内容的任何部分,例如嵌入的图像,样式表的
       链接,非HTML内容的超链接等。
每个链接都会以以下两种方式之一进行更改:

       ·指向Wget下载的文件的链接将更
           改为指向它们指向的相对链接的文件。

           例如:如果下载的文件/foo/doc.html链接到
           /bar/img.gif(也已下载),则doc.html中的链接将
           修改为指向../bar/img.gif。这种
           转换可可靠地用于
           目录的任意组合

       ·到Wget尚未下载的文件的链接将更
           改为包括主机名和
           它们指向位置的绝对路径

           示例:如果下载的文件/foo/doc.html链接到
           /bar/img.gif(或../bar/img.gif),则doc.html中的链接
           将被修改为指向http://主机名/栏/img.gif。

       因此,本地浏览可靠地工作:如果
       下载了链接文件,则该链接将引用其本地名称;否则,该链接将指向其本地名称。如果它是
       未下载,该链接将引用其完整的Internet地址
       而不是显示断开的链接。前者的事实
       链接转换为相对链接可确保您可以将
       下载的层次结构移动到另一个目录。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章