Python 网络驱动程序

托马斯·麦克唐纳

我试图从一家网上商店抓取产品，类似于Dropified从阿里快递中抓取商品的方式，

当前解决方案（它的设置方式只会尝试访问第一项）：

 from bs4 import BeautifulSoup
import requests
import time
import re

# Get search inputs from user
search_term = raw_input('Search Term:')

# Build URL to imdb.com
aliURL = 'https://www.aliexpress.com/wholesale?SearchText=%(q)s'
payload = {'q': search_term, }

# Get resulting webpage
r = requests.get(aliURL % payload)

# Build 'soup' from webpage and filter down to the results of search
soup = BeautifulSoup(r.text, "html5lib")
titles = soup.findAll('a', attrs = {'class': 'product'})


itemURL = titles[0]["href"]
seperatemarker = '?'
seperatedURL = itemURL.split(seperatemarker, 1)[0]

seperatedURL = "http:" + seperatedURL

print seperatedURL

IR = requests.get(seperatedURL)
Isoup = BeautifulSoup(IR.text, "html5lib")

productname = Isoup.findAll('h1')

print productname

此解决方案假设页面上的项目不需要 javascript，如果该项目需要，它只会在文档准备好之前检索初始页面。

我意识到我可以使用 python 网络驱动程序，但我想知道是否有任何其他解决方案可以解决这个问题，可以轻松实现网络抓取工具的自动化。

米凯尔·奥尔法尼安

结帐selenium用phantomjs。selenium并phantomjs处理大部分与页面上 JS 生成内容相关的问题。你甚至不需要再考虑这些事情了。
如果您正在抓取许多页面并希望加快速度，您可能希望异步执行操作。对于中小型设置，您可以使用RQ. 对于较大的项目，您可以使用celery. 这些工具允许您同时抓取多个页面（尽管不是同时）。
请注意，到目前为止我提到的工具与asyncio其他async框架无关。
我尝试抓取一些电子商务页面，并注意到该程序花费了 80% 的时间等待 HTTP 调用返回某些内容。使用上述工具，您可以将 80% 减少到 10% 或更少。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-11

我来说两句

0 条评论

登录后参与评论

上一篇：mysql where 子句基于另一个查询

TOP 榜单

文章

Python 网络驱动程序

Python 网络驱动程序

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用