如何使用Beautiful Soup删除html注释

马里乌斯·约翰(Marius Johan)

我正在从已爬网的网站中清除文本,但是我不希望数据中包含任何html注释,因此我必须自己自行解析还是有现有的功能?

我尝试这样做:

from bs4 import BeautifulSoup as S
soup = S("<!-- t --> <h1>Hejsa</h1> <style>html{color: #0000ff}</style>")
soup.comment # == None
soup.style   # == <style>html{color: #0000ff}</style>
安德烈·凯斯利(Andrej Kesely)

要搜索表单HTML注释,可以使用以下命令bs4.Comment

from bs4 import BeautifulSoup, Comment

html_doc = '''
    <!-- t --> <h1>Hejsa</h1> <style>html{color: #0000ff}</style>
'''

soup = BeautifulSoup(html_doc, 'html.parser')

# print comment:
comment = soup.find(text=lambda t: isinstance(t, Comment))
print( comment )

印刷品:

t

要提取它:

comment = soup.find(text=lambda t: isinstance(t, Comment))

# extract comment:
comment.extract()
print(soup.prettify())

印刷品:

<h1>
 Hejsa
</h1>
<style>
 html{color: #0000ff}
</style>

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用Beautiful Soup从HTML获取文本

如何使用 Beautiful Soup 4 删除空的 <p> 标签

如何使用Python Beautiful Soup获取html的标记名称?

如何使用Beautiful Soup从HTML提取特定的脚本元素

如何使用scrapy或beautiful Soup提取特定html标签的内容?

如何使用Beautiful Soup查找节点

如何使用Beautiful Soup修改xml?

如何使用Beautiful Soup来<script>标签?

如何从HTML LXML删除注释

在python中使用Beautiful Soup解析html

如何使用请求和Beautiful Soup抓取使用javascript的网站?

使用 Beautiful Soup 提取特定 html 值後如何使用多個 url 進行抓取

如何使用 Beautiful Soup 提取深度嵌套的 <p> 標籤

如何使用 Beautiful Soup 从网站获取不断变化的数据值?

如何使用 Beautiful Soup 在 `p` 标签中获取文本?

如何使用Beautiful Soup按属性值选择标签

如何使用Beautiful Soup查找带有特定文本的标签?

如何使用Beautiful Soup查找带有特定文本的标签?

如何在Beautiful Soup中的标签上使用if语句?

如何在Beautiful Soup 4.7.1中使用“选择”?

使用Python和Beautiful Soup如何捕获空标签

如何单击/使用从 Python 中的 Beautiful Soup 解析的链接

如何在Beautiful Soup 4(Python)中使用搜索栏

如何使用Beautiful Soup提取div的内容(图像)

如何使用 Beautiful Soup 在 gridview 中訪問 div

如何使用python beautiful soup从HTML下面获取标签和ID信息

如何使用Python和Beautiful Soup修复html列表片段中缺少的ul标签

如何使用Beautiful Soup和regex字符串查找html元素

如何使用 requests_html、Beautiful Soup 绕过 AKAMAI bot 检测以进行数据抓取