不使用beautifulsoup抓取网站数据

101

杜阿尔特战士

这是我第三次或第四次使用 BeautifulSoup。我将它与请求库一起使用以从体育网站上抓取数据。我正在尝试抓取运动员的信息，例如姓名、年龄、身高等。但是，在尝试获取信息时（print(player_name)) 我得到的是这个而不是网站页面中显示的信息：

姓名：{{details.player.person.lastName}}，{{details.player.person.firstName}}

有没有办法访问真实数据？

我的代码：

import requests
from bs4 import BeautifulSoup

def scrape_player(player_url):

    response_player = requests.get(player_url)
    player_soup = BeautifulSoup(response_player.text, 'html.parser')
    div = player_soup.find('div', {'class' : 'player-info-row'})
    player_name = div.text
    print(player_name)
    


if __name__ == '__main__':
     scrape_player('https://ehfcl.eurohandball.com/men/20212/player/LFpFsiLDFvxs_tXnKlFAQw/luis-frade/')

巴维亚·帕里克

网站从脚本标签加载数据，因此其动态加载并且bs4无法通过标签或类捕获，但尽管它存在于script标签中

import requests
from bs4 import BeautifulSoup
url = "https://ehfcl.eurohandball.com/men/2021-22/player/Z8PG_QqFxhA-6PTQ4gcCSA/stas-skube/"
r = requests.get(url)
soup = BeautifulSoup(r.content, "html.parser")

在这里，我们可以找到script标记并将数据加载为 json 格式，该格式将数据作为键值对返回，您可以提取您想要的数据！

data=soup.find("script",attrs={"type":"application/ld+json"})

import json
main_data=json.loads(data.string)

print(main_data['name'])
print(main_data['birthDate'])

输出：

Skube Stas
1989-11-15

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-11

我来说两句

0 条评论

登录后参与评论

上一篇：如何在 Vaadin 流 (Vaadin 14) Grid 中创建可以在 ValueChangeEvent 中写回的 TextField ？（不使用网格编辑器）

不使用beautifulsoup抓取网站数据

不使用beautifulsoup抓取网站数据

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath