我正在尝试从以下网站获取一些数据。https://www.drugbank.ca/drugs
对于表格中的每种药物,我需要深入了解名称和其他一些特定功能,例如类别、结构化指示(请单击药物名称以查看我将使用的功能)。
我编写了以下代码,但问题是我无法让我的代码处理分页(如您所见,有 2000 多页!)。
import requests
from bs4 import BeautifulSoup
def drug_data():
url = 'https://www.drugbank.ca/drugs/'
r = requests.get(url)
soup = BeautifulSoup(r.text ,"lxml")
for link in soup.select('name-head a'):
href = 'https://www.drugbank.ca/drugs/' + link.get('href')
pages_data(href)
def pages_data(item_url):
r = requests.get(item_url)
soup = BeautifulSoup(r.text, "lxml")
g_data = soup.select('div.content-container')
for item in g_data:
print item.contents[1].text
print item.contents[3].findAll('td')[1].text
try:
print item.contents[5].findAll('td',{'class':'col-md-2 col-sm-4'})
[0].text
except:
pass
print item_url
drug_data()
如何抓取所有数据并正确处理分页?
此页面对所有页面使用几乎相同的 url,因此您可以使用for
循环来生成它们
def drug_data(page_number):
url = 'https://www.drugbank.ca/drugs/?page=' + str(page_number)
... rest ...
# --- later ---
for x in range(1, 2001):
drug_data(x)
或使用while
和try/except
获得超过 2000 页
# --- later ---
page = 0
while True:
try:
page += 1
drug_data(page)
except Exception as ex:
print(ex)
print("probably last page:", page)
break # exit `while` loop
您还可以在 HTML 中找到下一页的 url
<a rel="next" class="page-link" href="/drugs?approved=1&c=name&d=up&page=2">›</a>
所以你可以BeautifulSoup
用来获取这个链接并使用它。
它显示当前 url,找到下一页的链接(使用class="page-link" rel="next"
)并加载它
import requests
from bs4 import BeautifulSoup
def drug_data():
url = 'https://www.drugbank.ca/drugs/'
while url:
print(url)
r = requests.get(url)
soup = BeautifulSoup(r.text ,"lxml")
#data = soup.select('name-head a')
#for link in data:
# href = 'https://www.drugbank.ca/drugs/' + link.get('href')
# pages_data(href)
# next page url
url = soup.findAll('a', {'class': 'page-link', 'rel': 'next'})
print(url)
if url:
url = 'https://www.drugbank.ca' + url[0].get('href')
else:
break
drug_data()
顺便说一句:永远不要使用,except:pass
因为您可能会遇到意想不到的错误,并且您不会知道为什么它不起作用。更好的显示错误
except Exception as ex:
print('Error:', ex)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句