抓取中的python HTML自定义标签

达米安

我试图仅从data-ldpemail标记中删除信息,而不是整个标记。

关于如何使用python和漂亮的汤来做到这一点的任何想法。我一直在获取整个标签,而不仅仅是“ data-ldpemail”。以下是示例标签:

<a class="lf_font-weight--light agent-email mailto" data-ldpphone="111-111-111" data-ldpemail="[email protected]" data-personid="10480733">Me</a>

import requests 
from bs4 import BeautifulSoup 

soup = BeautifulSoup(open('test.html'), 'html.parser') 
people = soup.find('div', id='search-results') 
items = people.find_all('figure') 
#print(items) 
print(items[0].find('h1').get_text())
print(items[0].find('h3').get_text()) 
email = soup.find('a', attrs={"data-ldpemail" : "x"}) 
email = email.attrs['data-ldpemail'] 
print(email)
R·阿克托

由于您尚未提供任何代码来演示如何到达自己所在的位置,因此我假设您知道如何隔离所需的“ a”标签。

重要的是要注意,在示例中,“ data-ldpemail”不是标签,而是“ a”(锚)标签的标签属性。假设您有一个隔离的标签,该标签具有该属性,然后提取该属性的值:

a_tag.attrs['data-ldpemail']

bs4.element.Tag.attrs将返回一个包含标签的所有属性作为键的字典,每个标签的值作为字典值。然后,我们只需访问属性字典的键即可。

一行可以从汤中获取全部:

email_list = [tag.attrs.get('data-ldpemail') for tag in soup.find_all('a') if tag.attrs.get('data-ldpemail') is not None]

上面的一个衬纸所做的是找到整个汤对象中的所有锚标签,遍历该对象集,email_list如果该锚标签具有“ data-ldpemail”属性则将“ data-ldpemail”标签属性的值添加

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

RGraph - 标签中的自定义 HTML

如何在ckeditor中定义自定义html标签

React JSX中的自定义HTML元素标签

GTM - 在自定义 html 标签中获取 href 值

在自定义字段中包含HTML标签

带有变量的 Google 标签管理器中的自定义 HTML 标签

是否有任何纯HTML方式将“标记”标签“组合”到自定义标签中?

Swagger自定义标签删除Python

在PyYAML中创建自定义标签

脚本标签中的自定义属性

自定义元素中的脚本标签

自定义标签中的递增变量

使 to_html() 移动友好或“是否可以在 to_html(...) 中添加自定义 <td> 标签属性?”

在 Python 中抓取 <a href> 标签

抓取时摆脱python中的html标签

如何在Visual Studio Code中自定义HTML标签的颜色?

在React中为所有html标签创建自定义组件

在VS Code中为html标签指定自定义格式

Azure AD B2C从自定义UI模板中删除html标签

如何在Fulma / Fable中插入自定义HTML标签?

在html中为现有标签创建和使用自定义属性的方法是什么

我可以在自定义角度元素的html标签中传递args吗?

使用 PHP 在 html 字符串中删除 AMP 页面的自定义标签

Vuepress - 如何仅在特定页面上的 head 标签中添加自定义 html?

在自定义Javadoc标签中扩展内联标签

在python中抓取html表格

解决方案标签在“自定义”下的“设置”标签中不可用,无法上传示例html文件

如何通过 Google 标签管理器在 AMP Container 中添加自定义 HTML 和 Javascript 标签?

HTML中的自定义属性绑定