我想制作 python 爬虫,它可以在本地运行。但我想定期运行爬虫,所以我把我的爬虫放在 aws lambda 中。
我下载了 chromedriver 并将其放在我的目录中的某个位置,我可以在本地服务器中使用它。但是在 lambda 中,我不知道如何设置路径和上传 chromedriver 文件。
我试过绝对路径,但没有用。我应该为 lambda 函数上传 chromedriver 吗?如果是这样,我该怎么办?
我在本地主机中的代码
chrome_driver_path = "../chromedriver_win32/chromedriver.exe"
driver = webdriver.Chrome(
executable_path = chrome_driver_path,
chrome_options=options
)
URL = "https://*****.co.kr"
driver.get(URL)
所以你不能在 lambda 上运行 .exe 因为它是 Linux 但你可以像上面一样运行 puppeteer 并使用它来解析 HTML。
如上所述安装 puppeteer(npm i puppeteer --save)。捆绑所有内容。(您将所有代码和 node_modules 压缩到一个 zip 文件中)部署到 AWS。瞧。
我强烈推荐无服务器框架,因为它消除了部署的痛苦,你可以在这里得到它
请记住,如果您的抓取作业将花费超过 15 分钟,您需要通过 cron 将其安排在诸如 t2.micro 而不是 Lambda 之类的东西上,因为它会超时。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句