为什么python输出与目标网站的html不匹配

你好1094

我正在尝试对目标网站进行网络抓取，例如价格，产品名称，产品的jpeg等详细信息，但是使用beautifulsoup通过python提取的内容似乎与目标网站中的html不匹配（使用F12）。

我试过在beautifulsoup函数中使用html.parser和lxml，但两者似乎没有什么区别。我已经尝试过搜索类似的问题，但没有发现任何问题。我正在使用Atom运行python代码，并正在使用Ubuntu 18.04.2。我在使用python方面还很陌生，但是之前已经进行了编码。

url = 'https://www.target.com/s?searchTerm=dove'
# Gets html from the given url
response = get(url)
html_soup = BeautifulSoup(response.text, 'html.parser')
items = html_soup.find_all('li', class_ = 'bkaxin')
print(len(items))

假设输出28，但我始终得到0

伊斯梅尔·帕迪利亚（Ismael Padilla）

您似乎要查找的元素似乎不存在，因为它们是在网站加载后动态创建的。您可以通过在网站首次加载时查看源代码来自己查看。您也可以尝试打印，html_soup.prettify()然后会发现您要查找的元素不存在。

受这个问题的启发，我提出了一种基于硒的解决方案：

from bs4 import BeautifulSoup
from selenium import webdriver

url = "https://www.target.com/s?searchTerm=dove"
driver = webdriver.Firefox()

driver.get(url)
html = driver.page_source
html_soup = BeautifulSoup(html, 'html.parser')
items = html_soup.find_all('li', class_ = 'bkaXIn')
driver.close()

print(len(items))

28当我运行它时，前面的代码输出。

请注意，您需要安装selenium（此处安装指南）和适当的驱动程序才能工作（在我的解决方案中，我使用了Firefox驱动程序，可以在此处下载）。

另请注意，我在中使用class_ = 'bkaXIn'（区分大小写！）html_soup.find_all。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-15

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

为什么python输出与目标网站的html不匹配

为什么python输出与目标网站的html不匹配

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用