无法使用Python的Beautiful Soup从特定的span标签提取文本

DataMuncher

我目前正在抓取该网站以构建汽车数据集，并且在抓取时建立了一个方程式循环浏览网站的每个页面。但是，我无法提取完成这项工作所需的文本。

以下代码段是我要抓取的标签。我需要获取站点上的车辆数量。

<span class="d-none d-sm-inline">166 Vehicles</span>

此图显示了我要抓取的网站元素

以下是我用来刮除该元素的代码：

# Packages
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
import requests
    
print("Started web scrape...")
    
limit = 10
start = 0 #increment by limit
website = requests.get(f'https://www.sosubaru.com/new-inventory/index.htm?start={start}')
soup = BeautifulSoup(website.text, 'html.parser')
    
inventory_count = soup.select("span.d-none.d-sm-inline")[0].string
    
print(inventory_count)

此代码返回以下内容：

Started OR_GP_Roe_Motors web scrape...
Traceback (most recent call last):
  File "c:/mypath...", line 16, in <module>
    inventory_count = soup.select("span.d-none.d-sm-inline")[0].string
IndexError: list index out of range

然后我检查了一下为什么返回了soup.select给我的所有东西来得到错误代码：

inventory_count = soup.select("span.d-none.d-sm-inline")
print(inventory_count)

Started web scrape...
[]

为什么给我一个空的清单？

然后，我告诉它打印网站上的每个span标签以查看是否存在。结果打印出许多span标签，但不包括我要查找的标签。为什么我不能用漂亮的汤检测到它？是我使用的解析器吗？我尝试使用“ lxml”作为解析器，但没有任何改变。网站是否为html xmls文档，这与事实有关系吗？

我已经抓了一些网站，到目前为止还没有遇到任何类似的问题。

埃里克·特鲁特（Eric Truett）

所需的数据和标记不会出现在html源中，这意味着它们是由javascript添加的。您可以使用selenium在呈现页面后获取页面源，也可以使用request_html，requests_html具有类似于BeautifulSoup的API，并且可以选择在剪贴页面之前呈现页面的javascript。

from requests_html import HTMLSession

s = HTMLSession()
r = s.get(url)
r.html.render()
r.find . . . [whatever you want to search for]

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-02-9

我来说两句

0 条评论

登录后参与评论

上一篇：Python cryptography.fernet文件解密

TOP 榜单

文章

无法使用Python的Beautiful Soup从特定的span标签提取文本

无法使用Python的Beautiful Soup从特定的span标签提取文本

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用