使用 BeautifulSoup 进行分页

Lizou 发表于 Dev

丽莎

我正在尝试从以下网站获取一些数据。https://www.drugbank.ca/drugs

对于表格中的每种药物，我需要深入了解名称和其他一些特定功能，例如类别、结构化指示（请单击药物名称以查看我将使用的功能）。

我编写了以下代码，但问题是我无法让我的代码处理分页（如您所见，有 2000 多页！）。

import requests
from bs4 import BeautifulSoup


def drug_data():
url = 'https://www.drugbank.ca/drugs/'
r = requests.get(url)
soup = BeautifulSoup(r.text ,"lxml")
for link in soup.select('name-head a'):
    href = 'https://www.drugbank.ca/drugs/' + link.get('href')
    pages_data(href)


def pages_data(item_url):
r = requests.get(item_url)
soup = BeautifulSoup(r.text, "lxml")
g_data = soup.select('div.content-container')

for item in g_data:
    print item.contents[1].text
    print item.contents[3].findAll('td')[1].text
    try:
        print item.contents[5].findAll('td',{'class':'col-md-2 col-sm-4'})
    [0].text
    except:
        pass
    print item_url
    drug_data()

如何抓取所有数据并正确处理分页？

简单的

此页面对所有页面使用几乎相同的 url，因此您可以使用for循环来生成它们

def drug_data(page_number):
    url = 'https://www.drugbank.ca/drugs/?page=' + str(page_number)
    ... rest ...

# --- later ---

for x in range(1, 2001):
    drug_data(x)

或使用while和try/except获得超过 2000 页

# --- later ---
page = 0

while True:
    try:
        page += 1
        drug_data(page)
    except Exception as ex:
        print(ex)
        print("probably last page:", page)
        break # exit `while` loop

您还可以在 HTML 中找到下一页的 url

<a rel="next" class="page-link" href="/drugs?approved=1&amp;c=name&amp;d=up&amp;page=2">›</a>

所以你可以BeautifulSoup用来获取这个链接并使用它。

它显示当前 url，找到下一页的链接（使用class="page-link" rel="next"）并加载它

import requests
from bs4 import BeautifulSoup

def drug_data():
    url = 'https://www.drugbank.ca/drugs/'

    while url:
        print(url)
        r = requests.get(url)
        soup = BeautifulSoup(r.text ,"lxml")

        #data = soup.select('name-head a')
        #for link in data:
        #    href = 'https://www.drugbank.ca/drugs/' + link.get('href')
        #    pages_data(href)

        # next page url
        url = soup.findAll('a', {'class': 'page-link', 'rel': 'next'})
        print(url)
        if url:
            url = 'https://www.drugbank.ca' + url[0].get('href')
        else:
            break

drug_data()

顺便说一句：永远不要使用，except:pass因为您可能会遇到意想不到的错误，并且您不会知道为什么它不起作用。更好的显示错误

 except Exception as ex:
      print('Error:',  ex)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-20

我来说两句

0 条评论

登录后参与评论

上一篇：如何获取多维数组的indexOf？

在 python 网页抓取中使用 Selenium 对 BeautifulSoup 进行分页

在使用BeautifulSoup进行分页的情况下捕获产品url数据吗？

使用ncurses进行分页

使用CreateDerivedCollection进行分页

使用Linq进行分页

使用Java进行分页

使用 BeautifulSoup 通过分页抓取网页

使用jQuery分页插件进行分页

使用BeautifulSoup进行Python解析

使用dapper进行分页的TotalCount

使用HQL进行休眠分页

使用 QSqlQueryModel 进行 QT 分页

使用Laravel进行AJAX分页

使用MySqlToGoogleCloudStorageOperator对报单进行分页

使用JdbcTemplate进行分页查询

如何使用itext进行分页

Socrata - 使用 $select 进行分页

使用CouchDB进行烧瓶分页

使用ReactHooks进行FlatList分页

使用VueJS进行表分页

Firestore：使用游标进行分页

使用DbSet <>。Local进行分页

使用 vue + laravel 进行分页

Angular：使用 Bootstrap 进行分页

使用 php/postgresql 进行分页

如何使用python BeautifulSoup通过分页抓取页面

使用python pandas和beautifulSoup刮分页网页表

BeautifulSoup-使用Python通过分页表抓取数据

使用python和BeautifulSoup进行网络抓取

TOP 榜单

文章

使用 BeautifulSoup 进行分页

使用 BeautifulSoup 进行分页

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID