我到处都是,只找到了适用于python 2.6和更早版本的解决方案,没什么关于如何在python 3.X中做到这一点的。(我只能访问Win7框。)
我必须能够在3.1中做到这一点,并且最好不用外部库。目前,我已经安装了httplib2并可以访问命令提示符curl(这就是我获取页面源代码的方式)。不幸的是,据我所知,curl无法解码html实体,我在文档中找不到用于对其进行解码的命令。
是的,我尝试过《美丽汤》,但在3.X中很多次都没有成功。如果您可以提供有关如何使其在MS Windows环境中的python 3中运行的EXPLICIT说明,我将不胜感激。
因此,要明确地说,我需要将这样Suzy & John
的字符串转换为这样的字符串:“ Suzy&John”。
您可以使用html.unescape函数:
在Python3.4 +中(感谢JF Sebastian的更新):
import html
html.unescape('Suzy & John')
# 'Suzy & John'
html.unescape('"')
# '"'
在Python3.3或更旧版本中:
import html.parser
html.parser.HTMLParser().unescape('Suzy & John')
在Python2中:
import HTMLParser
HTMLParser.HTMLParser().unescape('Suzy & John')
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句