如何使用beautifulsoup4从网页中仅提取特定类型的链接

Moofin资源管理器

我正在尝试在包含链接的页面上提取特定链接。我需要的链接中包含“公寓”一词。

但是,无论我尝试什么,我都可以获得比仅需要的链接更多的数据提取方式。

<a href="https://www.website.com/en/ad/apartment/abcd123" title target="IWEB_MAIN">

如果有人可以帮助我,将不胜感激!另外,如果您有足够的资源可以更好地告知我有关信息,则将不胜感激!

昆杜克

Yon可以使用正则表达式re。

import re
soup=BeautifulSoup(Pagesource,'html.parser')
alltags=soup.find_all("a",attrs={"href" : re.compile("apartment")})
for item in alltags:
    print(item['href']) #grab href value

或者您可以使用CSS选择器

soup=BeautifulSoup(Pagesource,'html.parser')
alltags=soup.select("a[href*='apartment']")
for item in alltags:
    print(item['href'])

您可以在官方文件Beautifulsoup中找到详细信息

编辑

您需要先考虑父div,然后找到锚标记。

import requests
from bs4 import BeautifulSoup
res=requests.get("https://www.immoweb.be/en/search/apartment/for-sale/leuven/3000")
soup = BeautifulSoup(res.text, 'html.parser')
for item in soup.select("div[data-type='resultgallery-resultitem'] >a[href*='apartment']"):
       print(item['href'])

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用beautifulsoup从网页上的特定分区中提取链接

使用BeautifulSoup从网页中抓取特定链接

使用BeautifulSoup4解析网页

使用 BeautifulSoup4 提取 XML 标签中的属性

尝试使用BeautifulSoup4从类中获取某些链接

如何使用beautifulsoup提取网页某个部分的所有链接?

如何使用 BeautifulSoup 提取作为网页内容的 url/链接

如何使用 Beautifulsoup4

使用 Python 抓取 HTML 中的特定元素:BeautifulSoup4

如何使用Beautifulsoup-python从div中特定标题的段落元素中的网页元素中提取网页文本

Python请求和beautifulsoup4,仅收集“ href”链接

BeautifulSoup4 提取所有类型的条件注释

使用BeautifulSoup4进行网页爬取

如何使用PHP提取网页中的单个链接?

如何仅使用Python解析网页中的链接?

如何安装和使用beautifulsoup4

在Python BeautifulSoup4中,如何像这样提取特殊文本

如何在beautifulsoup4中根据图像内部的内容分离图像的链接

从<script>标签BeautifulSoup4中提取令牌,请求

使用beautifulsoup4提取标题标签元素

使用beautifulsoup4从网站提取数据并解析成csv

使用beautifulsoup4,Python在html标签内查找链接

如何使用 BeautifulSoup 从表中的 a 中提取 href 链接

如何从 BeautifulSoup4 中的 html 标签中找到特定的数据值?

如何使用beautifulsoup4在python中的pre标签中获取文本?

如何使用BeautifulSoup4使用Python修复Web抓取中的错误

如何使用BeautifulSoup提取这些链接?

如何使用 BeautifulSoup 从 HTML 中提取链接?

使用BeautifulSoup仅考虑网页内容的特定部分