当我使用浏览器保存此页面时:http : //maine.craigslist.org/fuo/链接的保存方式是使它们链接到内容。像这样:href =“ http://maine.craigslist.org/fuo/4323535885.html”
当我尝试使用wget时,链接是
$ wget --no-parent maine.craigslist.org/fuo
另存为:href =“ / fuo / 4305913395.html”
我尝试了以下选项:
--spider
--page-requisites
--user-agent="Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:27.0) Gecko/20100101 Firefox/27.0"
但是所有链接都没有附加网址。
我完成了脚本的其余部分,以解析我的位置,并为我所在区域的家具创建一个新的链接列表。但是我无法弄清楚如何获得与通过firefox保存页面时获得的输出相同的输出。
我认为使用wget将是最简单的。也许那是不对的。如果我可以使用其他一些软件达到相同的效果,只要我可以编写脚本使其正常工作,我就会很高兴。
该--convert-links
选项应满足您的需求:
wget --convert-links --no-parent maine.craigslist.org/fuo
以下是有关此选项及其作用的更多信息(从中复制man wget
):
--convert-links 下载完成后,转换文档中的链接 以使其适合本地查看。这不仅会影响 可见的超链接, 还会影响文档中链接到 外部内容的任何部分,例如嵌入的图像,样式表的 链接,非HTML内容的超链接等。 每个链接都会以以下两种方式之一进行更改: ·指向Wget下载的文件的链接将更 改为指向它们指向的相对链接的文件。 例如:如果下载的文件/foo/doc.html链接到 /bar/img.gif(也已下载),则doc.html中的链接将 修改为指向../bar/img.gif。这种 转换可可靠地用于 目录的任意组合。 ·到Wget尚未下载的文件的链接将更 改为包括主机名和 它们指向的位置的绝对路径。 示例:如果下载的文件/foo/doc.html链接到 /bar/img.gif(或../bar/img.gif),则doc.html中的链接 将被修改为指向http://主机名/栏/img.gif。 因此,本地浏览可靠地工作:如果 下载了链接文件,则该链接将引用其本地名称;否则,该链接将指向其本地名称。如果它是 未下载,该链接将引用其完整的Internet地址其 而不是显示断开的链接。前者的事实 链接转换为相对链接可确保您可以将 下载的层次结构移动到另一个目录。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句