使用BeautifulSoup提取带有嵌入式链接的文本

阿尔伯蒂333

我试图提取包含链接作为文本一部分的网络文章的文本。例如:

<p>Here is some text with <a href="https://www.example.com"> this part as a link</a>
which we will look at.</p>

我试过使用

table.findAll('p', text = True)

在数据上,但是此命令将忽略所有包含url的'p'标签(也就是说,它不会在第一个块中使用示例)。我的问题是,如何从“ p”标签中提取文本,同时还包括嵌入的链接?如何删除链接的URL,仅保留“此部分作为链接”突出显示的文本?任何帮助是极大的赞赏。

比尔·贝尔

本质是这样的:

>>> import bs4
>>> HTML = '''\
... <p>Here is some text with <a href="https://www.example.com"> this part as a link</a>
... which we will look at.</p>'''
>>> soup = bs4.BeautifulSoup(HTML, 'lxml')
>>> [p.text for p in soup.findAll('p')]
['Here is some text with  this part as a link\nwhich we will look at.']

当然,您很可能希望替换新行和多余的空格。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用Jasper Report导出为带有嵌入式图像的单个HTML

在带有Xcode 6 GM的嵌入式框架中使用Cocoapods

带有嵌入式Web服务器的PhantomJS仅使用一个CPU

使用带有React-Native的Relay时的条件片段或嵌入式根容器

使用MVC渲染带有嵌入式Razor变量的动态HTML

带有负数的嵌入式除法

如何使用htmlcomponent导出带有嵌入式图像(base64,数据uri)的HTML文本?

使用python脚本发送带有嵌入式图像的html电子邮件

通过带有嵌入式传单SVG等的RSelenium提取基础数据

嵌入式导航链接

使用画布,如何在图像中切入带有嵌入式阴影的孔?

我需要使用Python / BeautifulSoup从网页中提取嵌入式.xlsx链接的帮助

如何从带有嵌入式子集字体的pdf中提取文本

在JSOUP中提取到嵌入式资源的链接的最有效方法

提取嵌入式initramfs

我可以在带有嵌入式Linux的ToradexT30上使用python吗?

使用Ajax提交带有文件的Symfony 2嵌入式表单

使用Java从文档中提取嵌入式文件

使用JavaMail发送带有嵌入式图像的HTML电子邮件-图像加载缓慢?

如何使用嵌入式CSS更改链接文本的字体颜色?

带有嵌入式码头的招摇

带有表单域的PDF文档的嵌入式签名

带有嵌入式SVG的HTML使用飞碟Itext蜡染转换为PDF

使用html5嵌入式视频与带有youtube链接的iframe之间有什么区别?

带有链接到网页的引脚的嵌入式谷歌地图

如何将链接放入带有嵌入式模板的页面?

使用带有嵌入字体的 iText 提取文本

如何调试带有 500 错误的嵌入式 javascript

使用带有嵌入式 Qualtrics 变量的 Javascript