抓取 <a href 和 <span 中的信息

用户12809368

我需要从这个网站上抓取记者的名字和期刊：

https://www.politicasufacebook.it/giornalisti/

我正在寻找的是获取特定<a href信息（记者姓名）和< span（报纸名称）。

例如，安德里亚·斯坎兹：

<a href="https://www.facebook.com/andreascanzi74/" style="color:#003060" target="_blank">Andrea Scanzi</a>

和Il Fatto Quotidiano

<span style="font-size:13px;line-height:25px">&nbsp;&nbsp;&nbsp;Il Fatto Quotidiano</span>

我写了以下内容

with requests.Session() as s: # use session object for efficiency of tcp re-use
    s.headers = {'User-Agent': 'Mozilla/5.0'}
    r = s.get('https://www.politicasufacebook.it/giornalisti/')
    soup = bs(r.content, 'lxml')

但我不知道如何继续以提取此类信息。

亚力克

您可以使用soup.find_all所需的标记和属性。

import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.politicasufacebook.it/giornalisti/')
soup = BeautifulSoup(r.content, 'lxml')

journalists = soup.find_all('a', {'style': 'color:#003060', 'target': '_blank'})
newspapers = soup.find_all('span', {'style': 'font-size:13px;line-height:25px'})

for i, v in enumerate(journalists):
    print(v.text.strip() + ' - ' + newspapers[i].text.strip())

输出：

Roberto Saviano - La Repubblica
Marco Travaglio - Il Fatto Quotidiano
Enrico Mentana - La7
Andrea Scanzi - Il Fatto Quotidiano
Massimo Gramellini - Corriere Della Sera
Nicola Porro - Rete 4
Salvo Sottile - Rai1
Carmelo Abbate - Storie Nere
Gad Lerner - autonomo
Michele Serra - La Repubblica
...

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-6

我来说两句

0 条评论

登录后参与评论

上一篇：使用python中的关键字列表进行Google搜索网络抓取

抓取 <a href 和 <span 中的信息

抓取 <a href 和 <span 中的信息

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用