如何获取wget下载的文件的文件名

258

纳伦德拉乔杜里

我os.system('wget '+ link)用来从网站检索文件。下载后，我想根据源链接进一步处理这些文件。

大多数链接都是这种形式htttp://example.com/.../filename.zip。
在这种情况下，只需将文件下载为即可filename.zip。我既可以使用basenameRegExp也可以从链接中提取内容[^/]+$。

但是问题是形式的链接

http://http://www.ez-robot.com
http://www.worldscientific.com/
http://www.fairweld.com

这些链接下载为index.html，index.html.1，index.html.2ANS等。
在这里，我无法区分哪个index文件属于哪个网站。我这样做的一种方法是查看链接传递到的顺序wget。

我想要一些通用方法来获取“真实”文件名，通过该文件名可以在计算机中下载文件。当wget执行完毕，它显示终端上的Saving to:标签，其次是“真实”的文件名。我想将该文件名存储在字符串中。

是否有任何直接/简便的方法来获取文件名？我正在使用Python。

$ wget http://www.fairweld.com
--2015-04-11 18:51:48--  http://www.fairweld.com/
Connecting to 202.142.81.24:3124... connected.
Proxy request sent, awaiting response... 200 OK
Length: 39979 (39K) [text/html]
Saving to: ‘index.html.4

帕德拉克·坎宁安

使用os.path.basename并根据URL的结尾获取名称，您还可以使用请求下载html：

links = ["http://www.ez-robot.com",
"http://www.worldscientific.com/",
"http://www.fairweld.com"]


import urlparse
import requests
import os
for link in links:
    r = requests.get(link)
    if link.rsrip("/").endswith(".com"):
        name = os.path.basename(link)
    else:
        name = urlparse.urlsplit(link.path.split("/")[-1])
    with open("{}.html".format(name),"w") as f:
        f.write(r.content)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-28

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用32位计算机在PHP中打印40位数字

如何获取wget下载的文件的文件名

如何获取wget下载的文件的文件名

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID