使用bs4 python进行网页抓取：如何显示足球比赛

阿卜杜尔

我是Python的初学者，正在尝试创建一个程序，该程序将从skysports.com抓取足球/足球赛程表，并将其通过短信通过Twilio发送到我的手机中。我已经排除了SMS代码，因为我已经弄清楚了，所以这是到目前为止我一直使用的Web抓取代码：

import requests
from bs4 import BeautifulSoup

URL = "https://www.skysports.com/football-fixtures"
page = requests.get(URL)

results = BeautifulSoup(page.content, "html.parser")

d = defaultdict(list)

comp = results.find('h5', {"class": "fixres__header3"})
team1 = results.find('span', {"class": "matches__item-col matches__participant matches__participant--side1"})
date = results.find('span', {"class": "matches__date"})
team2 = results.find('span', {"class": "matches__item-col matches__participant matches__participant--side2"})

for ind in range(len(d)):
    d['comp'].append(comp[ind].text)
    d['team1'].append(team1[ind].text)
    d['date'].append(date[ind].text)
    d['team2'].append(team2[ind].text)

小岛

下面的内容应该可以帮助您解决问题：

   from bs4 import BeautifulSoup
   import requests
    
    a = requests.get('https://www.skysports.com/football-fixtures')
    soup = BeautifulSoup(a.text,features="html.parser")
    
    teams = []
    for date in soup.find_all(class_="fixres__header2"): # searching in that date
        for i in soup.find_all(class_="swap-text--bp30")[1:]: #skips the first one because that's a heading
            teams.append(i.text)
    
    date = soup.find(class_="fixres__header2").text
    print(date)
    teams = [i.strip('\n') for i in teams]
    for x in range(0,len(teams),2):
        print (teams[x]+" vs "+ teams[x+1])

让我进一步解释一下我所做的事情：所有足球都有这个类名-swap-text--bp30

因此，我们可以使用find_all提取具有该名称的所有类。

获得结果后，我们可以将它们放入数组“ teams = []”，然后将其追加到for循环“ team.append（i.text）”中。“ .text”去除html

然后，我们可以通过剥离并删除数组中的每个字符串以两个两个的方式来摆脱数组中的“ \ n”。这应该是您的最终输出：

编辑：要刮擦联赛的头衔，我们将做几乎相同的事情：

league = []
for date in soup.find_all(class_="fixres__header2"): # searching in that date
    for i in soup.find_all(class_="fixres__header3"): #skips the first one because that's a heading
        league.append(i.text)

剥离阵列并创建另一个阵列：

league = [i.strip('\n') for i in league]
final = []

然后添加最后的代码，这基本上只是打印联赛，然后是两队一遍又一遍：

for x in range(0,len(teams),5):
    final.append(teams[x]+" vs "+ teams[x+1])

for i in league:
    print(i)
    for i in final:
        print(i)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-02-6

我来说两句

0 条评论

登录后参与评论

使用 bs4 进行网页抓取

使用 python 和 bs4 进行网页抓取

使用 BS4 进行网页抓取：无法获取表格

使用 bs4 进行网页抓取不返回数值

使用 BS4 抓取网页数据 - Python

使用python进行bs4过滤

使用 BS4 抓取信息

使用bs4进行报废

使用 bs4 解析 Python

Python-如何使用bs4抓取JavaScript代码？

使用 BS4 进行网页抓取，如何设置查看位置的范围

BS4：使用 Python 进行网页抓取时的属性错误

使用Selenium和bs4进行Web抓取

使用请求和 BS4 进行抓取

如何使爬虫使用bs4抓取网站

如何使用 Bs4 抓取包含 HTML 实体的内容

如何使用 BS4 抓取数据值？

亚马逊使用bs4阻止了Python 3抓取

使用python BS4将抓取的数据写入CSV

Python - 使用 bs4 抓取 Javascript 并打印出值

使用bs4和Python从网页中提取

如何使用python使用bs4进行网络抓取和访问<script>

使用python和bs4进行数据收集

有关使用py bs4进行网页抓取的问题

尝试使用bs4抓取表的内容

使用BS4抓取数据给我意外的结果

无法使用BS4从eastbay.com抓取数据？

使用bs4的Web抓取输出空结果

使用BS4抓取电影详细信息

TOP 榜单

文章

使用bs4 python进行网页抓取：如何显示足球比赛

使用bs4 python进行网页抓取：如何显示足球比赛

IE 11中的FormData未定义

如何一次从多个文本框中获取值？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

OpenCv：改变 putText() 的位置

Redux动作正常，但减速器无效

如何从JavaScript中的MP3文件读取元数据属性？

如何使用Redux-Toolkit重置Redux Store

将加号/减号添加到jQuery菜单

OpenGL纹理格式的颜色错误

获取并汇总所有关联的数据

超过时间限制错误C ++

ActiveModelSerializer仅显示关联的ID

在交互式Python Shell中获得最后结果

如何开始为Ubuntu开发

去噪自动编码器和常规自动编码器有什么区别？

Excel 2016图表将增长与4个参数进行比较

算术中的c ++常量类型转换

使用因子时如何在y轴上的ggplot中插入count或％

TreeMap中的自定义排序

如何在R中转置数据

在 React Native Expo 中使用 react-redux 更改另一个键的值