使用BeautifulSoup CSS选择器获取文本

slaw 发表于 Dev

色拉

HTML范例

<h2 id="name">
    ABC
    <span class="numbers">123</span>
    <span class="lower">abc</span>
</h2>

我可以用以下方式获取数字：

soup.select('#name > span.numbers')[0].text

如何ABC使用BeautifulSoup和select功能获取文本？

在这种情况下呢？

<div id="name">
    <div id="numbers">123</div> 
    ABC
</div>

在第一种情况下，获取上一个同级：

soup.select_one('#name > span.numbers').previous_sibling

在第二种情况下，获取下一个同级：

soup.select_one('#name > #numbers').next_sibling

请注意，我假设您故意在这里使用numbersas作为id值，而标记则div是span。因此，我已经调整了CSS选择器。

要涵盖这两种情况，可以转到标签的父级，并以非递归模式查找非空文本节点：

parent = soup.select_one('#name > .numbers,#numbers').parent
print(parent.find(text=lambda text: text and text.strip(), recursive=False).strip())

注意选择器中的更改-我们要求匹配numbersid或numbersclass。

但是，我觉得这种通用解决方案不太可靠，因为对于初学者来说，我不知道您的实际投入是多少。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-2

我来说两句

0 条评论

登录后参与评论

上一篇：如何在Swift String中加上双引号

如何使用CSS选择器获取href文本

关闭跨距后使用CSS选择器获取文本

如何使用 css 或 xpath 选择器获取按钮 onclick 文本

如何使用Nokogiri CSS选择器获取标签内的所有文本？

使用 rvest: css 选择器获取“更多文本”的网页抓取

使用BeautifulSoup，如何仅从特定选择器中获取文本，而不从子级中获取文本？

使用 Cypress 获取文本的最佳选择器

使用cherrio选择器获取注释元素文本

使用CSS选择器定位HTML标签文本

如何使用CSS选择器按文本查找链接

使用CSS选择器获取行元素

使用CSS选择器获取同级Web元素

使用CSS（QSS）选择器获取QWidget *

使用带有Scrapy的CSS选择器获取href

无法使用CSS选择器在python中获取数据

如何使用scrapy从CSS选择器获取数据？

尝试使用CSS选择器获取特定元素

在BeautifulSoup中扩展CSS选择器

Python BeautifulSoup中的CSS选择器

使用：not CSS选择器

Beautifulsoup如何从CSS选择器获取所有div ID值

如何使用CSS选择器选择文本节点/内容

如何使用CSS选择器在div中选择文本（不带标签）？

使用CSS与:: before选择器在文本旁边显示图标-文本未正确对齐

使用beautifulsoup获取文本。

使用硒选择CSS选择器后如何获取项目URL

使用其选择器文本查找<tr>，然后获取其标题

使用选择器获取相关项目

CSS使用选择器:: after在文本底部添加小边框

TOP 榜单

文章

使用BeautifulSoup CSS选择器获取文本

使用BeautifulSoup CSS选择器获取文本

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称