使用BeautifulSoup从xml中删除img标签

加迪尔·阿尔坎塔尔（Gadiel Alcantar）

这是我第一次使用Python和BeautifulSoup。问题是我正在将博客中的所有文章从一个网站迁移到另一个网站，并且要执行此操作，我要从xml文件中提取某些信息；我的代码的最后一部分告诉我们仅从meta标记中提取位置0到164之间的文本，这样，它就可以在Google SERP上显示为它们想要显示的形式。

这里的问题是博客中的某些文章在标签的第一行中包含img标签，我想删除它们，包括src属性，以便代码可以仅将那些img标签之后的文本抓取。

我试图以多种方式解决它，但没有成功。

这是我的代码：

from bs4 import BeautifulSoup
from urllib2 import urlopen
import csv
import sys
import re

reload(sys)
sys.setdefaultencoding('utf8')

base_url = ("http://pimacleanpro.com/blog?rss=true")
soup = BeautifulSoup(urlopen(base_url).read(),"xml")

titles = soup("title")
slugs = soup("link")
bodies = soup("description")

with open("blog-data.csv", "w") as f:
    fieldnames = ("title", "content", "slug", "seo_title", "seo_description","site_id", "page_path", "category")
    output = csv.writer(f, delimiter=",")
    output.writerow(fieldnames)

    for i in xrange(len(titles)):
        output.writerow([titles[i].encode_contents(),bodies[i].encode_contents(formatter=None),slugs[i].get_text(),titles[i].encode_contents(),bodies[i].encode_contents(formatter=None)[4:164]])

print "Done writing file"

任何帮助将不胜感激。

米海·切拉鲁（Mihai Chelaru）

这是我认为可以满足您需求的Python 2.7示例：

from bs4 import BeautifulSoup
from urllib2 import urlopen
from xml.sax.saxutils import unescape

base_url = ("http://pimacleanpro.com/blog?rss=true")

# Unescape to allow BS to parse the <img> tags
soup = BeautifulSoup(unescape(urlopen(base_url).read()))

titles = soup("title")
slugs = soup("link")
bodies = soup("description")

print bodies[2].encode_contents(formatter=None)[4:164]

# Remove all 'img' tags in all the 'description' tags in bodies
for body in bodies:
  for img in body("img"):
    img.decompose()

print bodies[2].encode_contents(formatter=None)[4:164]

# Proceed to writing to CSV, etc.

第一个打印语句输出以下内容：

<img src='"http://ekblog.s3.amazonaws.com/contentp/wp-content/uploads/2018/09/03082910/decoration-design-detail-691710-300x221.jpg"'><br>
<em>Whether you are up

删除<img>标签后的第二个如下：

<em>Whether you are upgrading just one room or giving your home a complete renovation, it’s likely that your first thought is to choose carpet for all of

当然，您可以仅在创建titles，之前删除汤对象中的所有图像标签slugs，或者bodies如果您不感兴趣它们：

for tag in soup("img"):
    tag.decompose()

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-19

我来说两句

0 条评论

登录后参与评论

上一篇：Apple Healthkit的睡眠元数据是否有任何特定的结构？

使用 BeautifulSoup 在 xml 解析中删除包含特定子标签的标签

使用BeautifulSoup从文本中删除标签

删除lxml中的img标签

使用 ElementTree 从 XML 中删除整个标签

使用 XSLT 从 XML 中删除 <TABLE> 标签中的多余标签

使用BeautifulSoup在Python中删除不需要的标签

如何使用BeautifulSoup删除嵌套标签中的内容？

使用 BeautifulSoup 时从 html 中删除打开和关闭标签

如何从使用BeautifulSoup抓取的列表中删除标签？

使用beautifulsoup从img标签获取src

如何使用XML文件结构中的IMG标签

使用 BeautifulSoup4 提取 XML 标签中的属性

BeautifulSoup创建<img />标签

如何使用python和BeautifulSoup从xml中删除完整元素

img 标签从 src 中删除斜杠

使用PHP删除重复的img标签

从 BeautifulSoup 中删除无关的 div 标签

从 Python 列表中删除 BeautifulSoup 标签

使用BeautifulSoup删除标签，但保留其内容

从xml文件中删除标签

使用XSLT从XML删除标签

如何使用XSLT从XML输出IMG标签

删除标签并使用Java更改XML中的行？

使用python中的ElementTree删除特定的xml标签

如何使用C＃从xml文件中删除空标签

如何使用XSLT删除XML中的多个根标签？

如何使用minidom删除XML中的单个开始或结束标签

BeautifulSoup使用python删除所有白名单中的HTML标记（例如“ img”和“ a”标记）

使用BeautifulSoup遍历列表并创建XML标签

TOP 榜单

文章

使用BeautifulSoup从xml中删除img标签

使用BeautifulSoup从xml中删除img标签

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成