WGET-如何从文本文件URL列表中下载具有下载按钮的嵌入式pdf?可能吗?

布兰登EVT

新年快乐!

我想看看是否有人成功从网站的.txt文件中包含的多个URL中成功下载了嵌入式pdf文件?

例如;

我尝试了wget -i urlist.txt的几种组合(完美下载了所有html文件);但是,它也不会抓取每个html文件中嵌入的.pdf?xxxxx <----在.pdf末尾的子弹?*

此障碍的确切示例如下:

这个数据集我将链接的所有2页都放置到url.txt中:

https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/

此数据集中的1个示例URL:

https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/70147-9.html

嵌入式pdf链接如下:

https://cases.justia.com/washington/court-of-appeals-division-i/2014-70147-9.pdf?ts=1419887549

.pdf文件实际上是“ 2014-70147-9.pdf?ts = 1419887549” .pdf?ts = xxxxxxxxxx

每个人都是不同的。

URL列表包含795个链接。有没有人能成功下载urls.txt中的每个.html,同时下载.pdfxxxxxxxxxxxxxx文件和.html文件呢?

谢谢!

〜布兰登

pii_ke

尝试使用以下内容:

wget --level 1 --recursive --span-hosts --accept-regex 'https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/.*html|https://cases.justia.com/washington/court-of-appeals-division-i/.*.pdf.*' --input-file=urllist.txt

有关选项的详细信息--level--recursive--span-hosts--accept-regex,和--input-file可以wget的文档在发现https://www.gnu.org/software/wget/manual/html_node/index.html

您还需要知道正则表达式如何工作。您可以从https://www.grymoire.com/Unix/Regular.html开始

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章