wget不以所需格式保存链接

j0h 发表于 Dev

当我使用浏览器保存此页面时：http : //maine.craigslist.org/fuo/链接的保存方式是使它们链接到内容。像这样：href =“ http://maine.craigslist.org/fuo/4323535885.html”

当我尝试使用wget时，链接是

$ wget --no-parent maine.craigslist.org/fuo

另存为：href =“ / fuo / 4305913395.html”

我尝试了以下选项：

--spider
--page-requisites 
--user-agent="Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:27.0) Gecko/20100101  Firefox/27.0"

但是所有链接都没有附加网址。

我完成了脚本的其余部分，以解析我的位置，并为我所在区域的家具创建一个新的链接列表。但是我无法弄清楚如何获得与通过firefox保存页面时获得的输出相同的输出。

我认为使用wget将是最简单的。也许那是不对的。如果我可以使用其他一些软件达到相同的效果，只要我可以编写脚本使其正常工作，我就会很高兴。

剩下

该--convert-links选项应满足您的需求：

wget --convert-links --no-parent maine.craigslist.org/fuo

以下是有关此选项及其作用的更多信息（从中复制man wget）：

   --convert-links
       下载完成后，转换文档中的链接
       以使其适合本地查看。这不仅会影响
       可见的超链接，
       还会影响文档中链接到
       外部内容的任何部分，例如嵌入的图像，样式表的
       链接，非HTML内容的超链接等。
每个链接都会以以下两种方式之一进行更改：

       ·指向Wget下载的文件的链接将更
           改为指向它们指向的相对链接的文件。

           例如：如果下载的文件/foo/doc.html链接到
           /bar/img.gif（也已下载），则doc.html中的链接将
           修改为指向../bar/img.gif。这种
           转换可可靠地用于
           目录的任意组合。

       ·到Wget尚未下载的文件的链接将更
           改为包括主机名和
           它们指向的位置的绝对路径。

           示例：如果下载的文件/foo/doc.html链接到
           /bar/img.gif（或../bar/img.gif），则doc.html中的链接
           将被修改为指向http：//主机名/栏/img.gif。

       因此，本地浏览可靠地工作：如果
       下载了链接文件，则该链接将引用其本地名称；否则，该链接将指向其本地名称。如果它是
       未下载，该链接将引用其完整的Internet地址其
       而不是显示断开的链接。前者的事实
       链接转换为相对链接可确保您可以将
       下载的层次结构移动到另一个目录。