我正在尝试抓取此网站https://www.tahko.com/fi/tapahtumat/。我已经能够在主表上抓取事件,但是现在我需要抓取与每个表相对应的月份。
月份(例如Lokakuu 2020或Marraskuu 2020)在h2标签内,样式为“ font-size:32px;”。并且位于类(这是整个td区域)“ col-lg-8 col-md-8 col-sm-12 col-xs-12”之内。
这是HTML代码。将其放置在具有上述类的div内。
<h2 style="font-size:32px;">LOKAKUU 2020</h2>
这几个月我该怎么抓?
到目前为止,我尝试过的是:
fetch("https://www.tahko.com/fi/tapahtumat/")
full = response.xpath('//*[@class="col-lg-8 col-md-8 col-sm-12 col-xs-12"]')
months = full.xpath('/*[@style="font-size:32px;"]')
额外的问题:将这几个月与下面的事件表进行匹配最简单的方法是什么?
我不想建立一个完整的项目,但是我希望这可以帮助您入门。
import requests
from lxml import html
header_month_xpath = '//*[@style="font-size:32px;"]/text()'
month_widget_xpath = '//*[@class="widget"]/a/text()'
page = requests.get("https://www.tahko.com/fi/tapahtumat/").text
print(html.fromstring(page).xpath(header_month_xpath))
print(html.fromstring(page).xpath(month_widget_xpath))
输出:
['LOKAKUU 2020', 'MARRASKUU 2020', 'JOULUKUU 2020']
['Kaikki menovinkit', 'Tammikuu 2021', 'Helmikuu 2021', 'Maaliskuu 2021', 'Huhtikuu 2021', 'Toukokuu 2021', 'Kesäkuu 2021', 'Heinäkuu 2021', 'Elokuu 2021', 'Syyskuu 2021', 'Lokakuu 2020', 'Marraskuu 2020', 'Joulukuu 2020']
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句