抓取 <a href 和 <span 中的信息

用户12809368

我需要从这个网站上抓取记者的名字和期刊:

https://www.politicasufacebook.it/giornalisti/

我正在寻找的是获取特定<a href信息(记者姓名)和< span(报纸名称)。

例如,安德里亚·斯坎兹

<a href="https://www.facebook.com/andreascanzi74/" style="color:#003060" target="_blank">Andrea Scanzi</a>

Il Fatto Quotidiano

<span style="font-size:13px;line-height:25px">&nbsp;&nbsp;&nbsp;Il Fatto Quotidiano</span>

我写了以下内容

with requests.Session() as s: # use session object for efficiency of tcp re-use
    s.headers = {'User-Agent': 'Mozilla/5.0'}
    r = s.get('https://www.politicasufacebook.it/giornalisti/')
    soup = bs(r.content, 'lxml')

但我不知道如何继续以提取此类信息。

亚力克

您可以使用soup.find_all所需的标记和属性。

import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.politicasufacebook.it/giornalisti/')
soup = BeautifulSoup(r.content, 'lxml')

journalists = soup.find_all('a', {'style': 'color:#003060', 'target': '_blank'})
newspapers = soup.find_all('span', {'style': 'font-size:13px;line-height:25px'})

for i, v in enumerate(journalists):
    print(v.text.strip() + ' - ' + newspapers[i].text.strip())

输出:

Roberto Saviano - La Repubblica
Marco Travaglio - Il Fatto Quotidiano
Enrico Mentana - La7
Andrea Scanzi - Il Fatto Quotidiano
Massimo Gramellini - Corriere Della Sera
Nicola Porro - Rete 4
Salvo Sottile - Rai1
Carmelo Abbate - Storie Nere
Gad Lerner - autonomo
Michele Serra - La Repubblica
...

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章