不使用beautifulsoup抓取网站数据

杜阿尔特战士

这是我第三次或第四次使用 BeautifulSoup。我将它与请求库一起使用以从体育网站上抓取数据我正在尝试抓取运动员的信息,例如姓名、年龄、身高等。但是,在尝试获取信息时(print(player_name)) 我得到的是这个而不是网站页面中显示的信息:

姓名:{{details.player.person.lastName}},{{details.player.person.firstName}}

有没有办法访问真实数据?

我的代码:

import requests
from bs4 import BeautifulSoup

def scrape_player(player_url):

    response_player = requests.get(player_url)
    player_soup = BeautifulSoup(response_player.text, 'html.parser')
    div = player_soup.find('div', {'class' : 'player-info-row'})
    player_name = div.text
    print(player_name)
    


if __name__ == '__main__':
     scrape_player('https://ehfcl.eurohandball.com/men/20212/player/LFpFsiLDFvxs_tXnKlFAQw/luis-frade/')
巴维亚·帕里克

网站从脚本标签加载数据,因此其动态加载并且bs4无法通过标签或类捕获,但尽管它存在于script标签中

import requests
from bs4 import BeautifulSoup
url = "https://ehfcl.eurohandball.com/men/2021-22/player/Z8PG_QqFxhA-6PTQ4gcCSA/stas-skube/"
r = requests.get(url)
soup = BeautifulSoup(r.content, "html.parser")

在这里,我们可以找到script标记并将数据加载为 json 格式,该格式将数据作为键值对返回,您可以提取您想要的数据!

data=soup.find("script",attrs={"type":"application/ld+json"})

import json
main_data=json.loads(data.string)

print(main_data['name'])
print(main_data['birthDate'])

输出:

Skube Stas
1989-11-15

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章