使用BeautifulSoup搜寻网页中的URL

ss_0708

以下是抓取此网页的代码在页面上的所有URL中,我只需要那些具有有关职位发布的更多信息的URL,例如,公司名称的URL,例如-“ Abbot”,“ Abbvie”,“ Affymetrix”,等等。

import requests
import pandas as pd
import re
from lxml import html
from bs4 import BeautifulSoup
from selenium import webdriver
list = ['#medical-device','#engineering','#recruitment','#job','#linkedin']
page = "https://dpseng.com.sg/definitive-singapore-pharma-job-website-directory/"
list_of_pages = [page + x for x in list]
for info in list_of_pages:
    pages= requests.get(info)
    soup = BeautifulSoup(pages.content, 'html.parser')
    tags = [div.p for div in soup.find_all('div', attrs ={'class':'fusion-text'})]
    for m in tags:
        try:
            links = [link['href'] for link in tags]
        except KeyError:
            pass
        print(links)

我得到的输出是一个空白列表,如下所示:

[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]

我应该在上面的代码中添加/编辑哪些内容,以抓取这些URL以及这些URL中的更多信息。

谢谢 !!

约瑟夫·伍尔夫

我注意到的是,带有锚点的网页并没有真正隔离您真正想要的HTML。因此,您要获取的所有实例<div class='fusion-text'>

下面的代码示例将检索所需的所有URL:

import requests
from bs4 import BeautifulSoup

# Get webpage 
page = "https://dpseng.com.sg/definitive-singapore-pharma-job-website-directory/"
soup= BeautifulSoup(requests.get(page).content, 'html.parser')
# Grab all URLs under each section
for section in ['medical-device','engineering','recruitment','job','linkedin']:
    subsection = soup.find('div', attrs ={'id': section})
    links = [a['href'] for a in subsection.find_all('a')]
    print("{}: {}".format(section, links))

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用BeautifulSoup搜寻网页以获取链接标题和URL

搜寻使用Ajax的网页

使用BeautifulSoup访问网页中的网页?

使用 BeautifulSoup 遍历 URL 以进行网页抓取

使用BeautifulSoup搜寻OSHA网站

使用BeautifulSoup从网页中抓取特定链接

使用Selenium和BeautifulSoup搜寻网站

使用beautifulsoup搜寻动态网站

如何使用 BeautifulSoup 提取作为网页内容的 url/链接

使用BeautifulSoup抓取网页

使用 BeautifulSoup 抓取网页

使用BeautifulSoup搜寻Craiglist,并在每个帖子中获取第一张图片

如何使用python中的beautifulsoup从网页中获取数据

网页抓取 - 从使用 BeautifulSoup 和 Python 的类中获取文本?

使用 BeautifulSoup 从网页中抓取代理 IP

无法使用python和beautifulsoup抓取网页中的某些href

使用 BeautifulSoup 抓取网页时列表中的重复项

使用 Python 3.7 中的 Beautifulsoup 从 WSJ 抓取网页文章?

如何使用BeautifulSoup从网页中抓取结构化表格?

使用嵌套 for 循环抓取网页,python3 中的 BeautifulSoup

无法使用 re 和 beautifulsoup 从网页中获取数字

使用 BeautifulSoup 进行网页抓取,在 html 中找不到表格

网页搜寻新手

使用 BeautifulSoup 和 Selenium 的网页抓取网站不会检测网页中的表格元素

从Python中的URL搜寻特定信息

使用BeautifulSoup保存网页内容

使用BeautifulSoup Python抓取网页

使用BeautifulSoup从网页下载链接

使用 Beautifulsoup 抓取 UEFA 网页