WGET-如何从文本文件URL列表中下载具有下载按钮的嵌入式pdf？可能吗？

BrandonEVT 发表于 Dev

布兰登EVT

新年快乐！

我想看看是否有人成功从网站的.txt文件中包含的多个URL中成功下载了嵌入式pdf文件？

例如;

我尝试了wget -i urlist.txt的几种组合（完美下载了所有html文件）；但是，它也不会抓取每个html文件中嵌入的.pdf？xxxxx <----在.pdf末尾的子弹？*

此障碍的确切示例如下：

这个数据集我将链接的所有2页都放置到url.txt中：

https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/

此数据集中的1个示例URL：

https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/70147-9.html

嵌入式pdf链接如下：

https://cases.justia.com/washington/court-of-appeals-division-i/2014-70147-9.pdf?ts=1419887549

.pdf文件实际上是“ 2014-70147-9.pdf？ts = 1419887549” .pdf？ts = xxxxxxxxxx

每个人都是不同的。

URL列表包含795个链接。有没有人能成功下载urls.txt中的每个.html，同时下载.pdfxxxxxxxxxxxxxx文件和.html文件呢？

谢谢！

〜布兰登

pii_ke

尝试使用以下内容：

wget --level 1 --recursive --span-hosts --accept-regex 'https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/.*html|https://cases.justia.com/washington/court-of-appeals-division-i/.*.pdf.*' --input-file=urllist.txt

有关选项的详细信息--level，--recursive，--span-hosts，--accept-regex，和--input-file可以wget的文档在发现https://www.gnu.org/software/wget/manual/html_node/index.html。