如何从<span>中刮取一些没有唯一类标识符的文本？

python_newbie

我是新手，所以请耐心等待。我有这个HTML代码，我想提取属性的类型，例如“公寓”，即“否”。床（例如2张）和位置（例如“伯明翰”）。我想将每个保存在列表中。问题在于没有唯一的类标识符。

<div class="extra">
    <span class="tablet-visible">
    <span class="item"><label><i class="ouricon classified"></i><b></b></label>
        <span>For Sale</span></span>
    </span>
    <span class="tablet-visible">
        <span class="item"><label><i class="ouricon house"></i><b></b></label>
            <span>Apartment</span></span>
        </span>
        <span class="">
            <span class="item"><label><i class="ouricon bed"></i><b></b></label>
                <span>2</span>
            </span>
        </span>
        <span class="">
            <span class="item"><label><i class="ouricon locationpin"></i><b></b></label>
                <span>Birmingham</span>
            </span>
        </span> 
</div>

我尝试了这段代码，但是当然可以打印出class = extra中的所有文本，包括不是我想要的'For Sale'。

results = requests.get(url)
soup = BeautifulSoup(results.text, "html.parser")
desc_div = soup.find_all('div', attrs={"data-itemid": True})
for property in desc_div:
    extra = property.find('div', class_='extra')
    print(extra.text.strip())

任何帮助将非常感激。

巴杜克

由于For Sale位于相同的标签和类中，因此将其过滤掉。

from bs4 import BeautifulSoup

html = """
<div class="extra">
    <span class="tablet-visible">
    <span class="item"><label><i class="ouricon classified"></i><b></b></label>
        <span>For Sale</span></span>
    </span>
    <span class="tablet-visible">
        <span class="item"><label><i class="ouricon house"></i><b></b></label>
            <span>Apartment</span></span>
        </span>
        <span class="">
            <span class="item"><label><i class="ouricon bed"></i><b></b></label>
                <span>2</span>
            </span>
        </span>
        <span class="">
            <span class="item"><label><i class="ouricon locationpin"></i><b></b></label>
                <span>Birmingham</span>
            </span>
        </span> 
</div>
"""

soup = BeautifulSoup(html, "html.parser").find_all("span", {"class": "item"})
print([i.text.strip() for i in soup if i.text.strip() != "For Sale"])

输出：

['Apartment', '2', 'Birmingham']

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-25

我来说两句

0 条评论

登录后参与评论

上一篇：Azure功能：启动操作期间发生主机错误无法加载文件

如何在硒中没有唯一标识符的元素中定位？

如何对div的span元素执行一些操作？

如何从<span>中刮取一些没有唯一类标识符的文本？

如何从<span>中刮取一些没有唯一类标识符的文本？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用