如果我们拥有使用python scrapy的凭据，如何抓取已登录的网页？

Agus Mathew 发表于 Dev

32

和马修

只想知道如何将请求以及登录凭证发送到登录页面以获取数据。

和马修

网站通常通过元素提供预填充的表单字段，例如会话相关数据或身份验证令牌（用于登录页面）。抓取时，您会希望自动填充这些字段，并且仅覆盖其中的几个字段，例如用户名和密码。您可以将FormRequest.from_response（）方法用于此作业。这是一个使用它的蜘蛛示例：import scrapy

def authentication_failed(response):
    # TODO: Check the contents of the response and return True if it failed
    # or False if it succeeded.
    pass

class LoginSpider(scrapy.Spider):
    name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']

    def parse(self, response):
        return scrapy.FormRequest.from_response(
            response,
            formdata={'username': 'john', 'password': 'secret'},
            callback=self.after_login
        )

    def after_login(self, response):
        if authentication_failed(response):
            self.logger.error("Login failed")
            return

        # continue scraping with authenticated session...

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-7

我来说两句

0 条评论

登录后参与评论

上一篇：python使用include模式复制文件

相关文章

如果我们更改SSH端口，如何拥有一个幂等的Ansible剧本？

如果我们有更多记录而又没有使用angular8中断，如何更改下拉值

如果我们有，如何使用 like 命令？_ % 在我们的 sql 中

如何使用scrapy登录网页

如何使用scrapy框架抓取网页？

流星：如果我有使用userId的方法，是否需要检查他们是否已登录？

Python 网页抓取登录

如果用户已登录，如何告诉网页？

如何使用Firebase身份验证服务并在我们自己的数据库中拥有用户？

如果我们同时拥有分区键和辅助键（GSI），则如何在AWS dynamoDb的表中对数据进行分区

Scrapy Python 网页抓取 JSON

如何使用JavaScript网页抓取复杂的登录页面？

使用 Scrapy 抓取特定网页

Python + scrapy + 网页抓取：页面未被抓取

我们如何才能拥有真正的指向 const 的 void 指针？

我们如何在JVM上拥有一种动态类型的语言？

如何根据我们拥有的文本设置UILabel的高度

如何通过Web API检查用户在Steam中拥有我们的游戏？

如何抓取需要使用scrapy登录的网站？

如果没有使用 localstorage 登录，我如何将人们重定向到登录？

如果我们只有一个团队，我们如何同时进行多个冲刺？

如果我们在单个Jinja模板中有多个宏。如何在python中渲染特定宏

当我们永远不能同时拥有可变引用时，我们如何将可变引用强制转换为不可变引用？

使用Python登录网站和网页抓取

我们如何在 Playstore 中拥有多个具有相同 apk 文件的应用程序？

Python + 网页抓取 + scrapy：如何从 IMDb 页面获取所有电影的链接？

如何使用python使用scrapy将多个网页抓取的数据输出到csv文件中

没有 SSL CERT 的网页抓取登录

我们如何使用python生成键盘中断

TOP 榜单

文章

热门标签

归档