如何使用Beautiful Soup删除html注释

137

马里乌斯·约翰（Marius Johan）

我正在从已爬网的网站中清除文本，但是我不希望数据中包含任何html注释，因此我必须自己自行解析还是有现有的功能？

我尝试这样做：

from bs4 import BeautifulSoup as S
soup = S("<!-- t --> <h1>Hejsa</h1> <style>html{color: #0000ff}</style>")
soup.comment # == None
soup.style   # == <style>html{color: #0000ff}</style>

安德烈·凯斯利（Andrej Kesely）

要搜索表单HTML注释，可以使用以下命令bs4.Comment：

from bs4 import BeautifulSoup, Comment

html_doc = '''
    <!-- t --> <h1>Hejsa</h1> <style>html{color: #0000ff}</style>
'''

soup = BeautifulSoup(html_doc, 'html.parser')

# print comment:
comment = soup.find(text=lambda t: isinstance(t, Comment))
print( comment )

印刷品：

要提取它：

comment = soup.find(text=lambda t: isinstance(t, Comment))

# extract comment:
comment.extract()
print(soup.prettify())

印刷品：

<h1>
 Hejsa
</h1>
<style>
 html{color: #0000ff}
</style>

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-25

我来说两句

0 条评论

登录后参与评论

如何使用Beautiful Soup从HTML获取文本

如何使用 Beautiful Soup 4 删除空的 <p> 标签

如何使用Python Beautiful Soup获取html的标记名称？

如何使用Beautiful Soup从HTML提取特定的脚本元素

如何使用scrapy或beautiful Soup提取特定html标签的内容？

如何使用Beautiful Soup查找节点

如何使用Beautiful Soup修改xml？

如何使用Beautiful Soup来<script>标签？

如何从HTML LXML删除注释

在python中使用Beautiful Soup解析html

如何使用请求和Beautiful Soup抓取使用javascript的网站？

使用 Beautiful Soup 提取特定 html 值後如何使用多個 url 進行抓取

如何使用 Beautiful Soup 提取深度嵌套的 <p> 標籤

如何使用 Beautiful Soup 从网站获取不断变化的数据值？

如何使用 Beautiful Soup 在 `p` 标签中获取文本？

如何使用Beautiful Soup按属性值选择标签

如何使用Beautiful Soup查找带有特定文本的标签？

如何在Beautiful Soup中的标签上使用if语句？

如何在Beautiful Soup 4.7.1中使用“选择”？

使用Python和Beautiful Soup如何捕获空标签

如何单击/使用从 Python 中的 Beautiful Soup 解析的链接

如何在Beautiful Soup 4（Python）中使用搜索栏

如何使用Beautiful Soup提取div的内容（图像）

如何使用 Beautiful Soup 在 gridview 中訪問 div

如何使用python beautiful soup从HTML下面获取标签和ID信息

如何使用Python和Beautiful Soup修复html列表片段中缺少的ul标签

如何使用Beautiful Soup和regex字符串查找html元素

如何使用 requests_html、Beautiful Soup 绕过 AKAMAI bot 检测以进行数据抓取

TOP 榜单

文章

如何使用Beautiful Soup删除html注释

如何使用Beautiful Soup删除html注释

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序