如何在报废后删除跨度标签和类名,而我只想使用 python 抓取文本

阿尔斯兰穆萨
for link in soup.findAll('li'):
    if "c-listing__authors-list" in str(link):
    # theAuthor = link.string
        theAuthor = str(link).replace("</p>","")
        theAuthor = theAuthor.split("</span>")[1]
        listAuthor.append(theAuthor)[Output][1]

在此处输入图像描述

刺猬

尝试使用get_text(strip=True)来实现您的目标:

for e in soup.select('li span.c-listing__authors-list'):
    theAuthor = e.get_text(strip=True)

或在一行中获取列表:

theAuthor = [e.get_text(strip=True) for e in soup.select('li span.c-listing__authors-list')]
例子
from bs4 import BeautifulSoup
html=''' 
<ul>
<li><span class="c-listing__authors-list">a</span></li>
<li><span class="c-listing__authors-list">b</span></li>
<li><span>no list</span></li>
</ul>  
'''
soup = BeautifulSoup(html)

theAuthor = []
for e in soup.select('li span.c-listing__authors-list'):
    theAuthor.append(e.get_text(strip=True))
输出
['a', 'b']

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用Selenium和python进行Web抓取-包含文本的xpath

如何从Selenium(Java)抓取文本?

使用Python Beautifulsoup在Web上同时抓取html文本和图像链接

使用Python清理抓取的文本字符串

如何使用python从http://shinytoylabs.com/jargon/抓取文本

使用Python和Beautiful Soup分割抓取的文本

使用Python和BeautifulSoup抓取具有基于文本字符串的可变顺序和标签的列表

尝试使用python和bs4从特定'td'内抓取所有'a'文本

Python3网页抓取工具无法从站点中的每个<a>标签提取文本

Selenium Python3从Chrome的标签外部抓取文本

如何在Python Web抓取中找到每个文本的字体和颜色?

如何使用Selenium通过Python从类中的文本节点中抓取文本

如何使用Beautiful Soup在Python中的span标签内抓取文本

python不会抓取文本,但是给了我一个空白

如何在Python中使用Beautifulsoup抓取地址(逗号分隔的文本)

使用.text()抓取父文本

尝试在python的Beatutifulsoap中尝试仅通过网络抓取获取文本时打印标签和元素

使用python 2.7从网页上抓取文本

使用python和selenium进行抓取,以使元素偿还文本元素

网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本?

在 python 中使用 selenium 抓取 HTML 代码部分(不是文本)

使用 Python,如何从 Google 搜索中抓取链接的描述性文本?

从 Google 抓取跨度文本

如何使用 Python、Selenium 和 BeautifulSoup 从 HTML <span id> 中抓取此文本?

如何在 Python 中使用 find 或 select 抓取特定段落文本?

Python 3 BeautifulSoup 在“阅读更多”文本后抓取内容

使用 Python 抓取时如何将文本添加到每个图像名称的末尾

使用 python 抓取网站后,如何搜索特定文本?

如何使用 selenium 和 python 抓取 div 标签内的标签标签中的文本值?