我正在尝试从该网站上抓取数据:https ://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi
我有一个科学物种名称列表,我想在搜索栏中一一输入,然后使用 HTML 解析器从页面中提取相关信息。我似乎无法弄清楚如何在搜索栏中输入字符串。这可以使用请求模块还是我应该为此使用另一个模块?搜索栏的 HTML 行如下所示:
<input id="searchtxt" type="text" name="name" value="" size"">
如果我手动搜索网页,则该行如下所示:
<input id="searchtxt" type="text" name="name" value="Hyperia galba" size"">
奇怪的是,搜索后 URL 并没有改变。
使用此网址:https ://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?name=
您无需将内容放在搜索栏中即可搜索内容
例子:
import requests
q = "Phage E"
url = f'https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?name={q}'
info = requests.get(url)
print(info.text)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句