我需要从这个网站上抓取记者的名字和期刊:
https://www.politicasufacebook.it/giornalisti/
我正在寻找的是获取特定<a href
信息(记者姓名)和< span
(报纸名称)。
例如,安德里亚·斯坎兹:
<a href="https://www.facebook.com/andreascanzi74/" style="color:#003060" target="_blank">Andrea Scanzi</a>
和Il Fatto Quotidiano
<span style="font-size:13px;line-height:25px"> Il Fatto Quotidiano</span>
我写了以下内容
with requests.Session() as s: # use session object for efficiency of tcp re-use
s.headers = {'User-Agent': 'Mozilla/5.0'}
r = s.get('https://www.politicasufacebook.it/giornalisti/')
soup = bs(r.content, 'lxml')
但我不知道如何继续以提取此类信息。
您可以使用soup.find_all
所需的标记和属性。
import requests
from bs4 import BeautifulSoup
r = requests.get('https://www.politicasufacebook.it/giornalisti/')
soup = BeautifulSoup(r.content, 'lxml')
journalists = soup.find_all('a', {'style': 'color:#003060', 'target': '_blank'})
newspapers = soup.find_all('span', {'style': 'font-size:13px;line-height:25px'})
for i, v in enumerate(journalists):
print(v.text.strip() + ' - ' + newspapers[i].text.strip())
输出:
Roberto Saviano - La Repubblica
Marco Travaglio - Il Fatto Quotidiano
Enrico Mentana - La7
Andrea Scanzi - Il Fatto Quotidiano
Massimo Gramellini - Corriere Della Sera
Nicola Porro - Rete 4
Salvo Sottile - Rai1
Carmelo Abbate - Storie Nere
Gad Lerner - autonomo
Michele Serra - La Repubblica
...
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句