新年快乐!
我想看看是否有人成功从网站的.txt文件中包含的多个URL中成功下载了嵌入式pdf文件?
例如;
我尝试了wget -i urlist.txt的几种组合(完美下载了所有html文件);但是,它也不会抓取每个html文件中嵌入的.pdf?xxxxx <----在.pdf末尾的子弹?*
此障碍的确切示例如下:
这个数据集我将链接的所有2页都放置到url.txt中:
https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/
此数据集中的1个示例URL:
https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/70147-9.html
嵌入式pdf链接如下:
https://cases.justia.com/washington/court-of-appeals-division-i/2014-70147-9.pdf?ts=1419887549
.pdf文件实际上是“ 2014-70147-9.pdf?ts = 1419887549” .pdf?ts = xxxxxxxxxx
每个人都是不同的。
URL列表包含795个链接。有没有人能成功下载urls.txt中的每个.html,同时下载.pdfxxxxxxxxxxxxxx文件和.html文件呢?
谢谢!
〜布兰登
尝试使用以下内容:
wget --level 1 --recursive --span-hosts --accept-regex 'https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/.*html|https://cases.justia.com/washington/court-of-appeals-division-i/.*.pdf.*' --input-file=urllist.txt
有关选项的详细信息--level
,--recursive
,--span-hosts
,--accept-regex
,和--input-file
可以wget的文档在发现https://www.gnu.org/software/wget/manual/html_node/index.html。
您还需要知道正则表达式如何工作。您可以从https://www.grymoire.com/Unix/Regular.html开始
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句