我正在尝试open
使用以下格式的网址列表Urllib2
:
google.com
facebook.com
youtube.com
yahoo.com
baidu.com
使用此方法:
urllib2.urlopen(url)
:
并得到此错误:
File "fetcher.py", line 98, in fetch_urls_and_save
response = urllib2.urlopen(url)
File "urllib2.py", line 154, in urlopen
return opener.open(url, data, timeout)
File "urllib2.py", line 423, in open
protocol = req.get_type()
File "urllib2.py", line 285, in get_type
raise ValueError, "unknown url type: %s" % self.__original
所以,我的问题是:
是否有适当的方法来“修复”这些网址,还是我应该http://
在每个字符串前简单附加?我认为这不是最佳解决方案,因为以url开头的网址又https://
如何呢?
我建议只将http://
字符串添加到该字符串,因为使用https://
重定向方案的许多站点都会通过重定向请求自动切换到该字符串。
您可以urlopen
使用该getcode()
功能检查返回的状态。
a=urllib2.urlopen("http://google.com")
print a.getcode() # prints 200
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句