如何抓取一个需要使用python和beautifulsoup登录的网站？

user781486 发表于 Python

79

用户781486：

如果我想抓取一个首先需要使用密码登录的网站，我该如何使用beautifulsoup4库开始使用python抓取它？以下是我对不需要登录的网站的处理方式。

from bs4 import BeautifulSoup    
import urllib2 
url = urllib2.urlopen("http://www.python.org")    
content = url.read()    
soup = BeautifulSoup(content)

应如何更改代码以适应登录？假设我要抓取的网站是一个需要登录的论坛。一个例子是http://forum.arduino.cc/index.php

4d4c：

您可以使用机械化：

import mechanize
from bs4 import BeautifulSoup
import urllib2 
import cookielib

cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_cookiejar(cj)
br.open("https://id.arduino.cc/auth/login/")

br.select_form(nr=0)
br.form['username'] = 'username'
br.form['password'] = 'password.'
br.submit()

print br.response().read()

或urllib- 使用urllib2登录网站

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-08-8

我来说两句

0 条评论

登录后参与评论

相关文章

如何抓取需要先使用Python登录的网站

需要使用xpath和beautifulsoup从网站抓取数据

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

如何使用BeautifulSoup和Python抓取页面？

如何在一个Web上从多个页面抓取数据，我正在使用Python和BeautifulSoup

使用BeautifulSoup的Python Web抓取，如何将两个<p>文本合并到列表的一个元素中

如何使用Python 3登录网站并进行抓取

使用Python登录网站和网页抓取

如何抓取需要使用scrapy登录的网站？

如何使用python和Beautifulsoup抓取网页的第二个<p>

您是否需要一个App才能在网站上使用Apple登录？

抓取“ __hpKey”的网站，然后在python中使用请求和beautifulsoup登录

如何抓取使用BankID进行Python登录的网站（BeautifulSoap，请求）？

错误要使用CSRF，需要一个密钥。Python /烧瓶

使用登录信息通过python抓取网站

如何建立一个允许使用有效的电子邮件ID和密码登录的网站

使用python和beautifulsoup抓取多页网站

如何创建一个提示用户输入其登录ID和密码的网站

解析需要使用Python登录的网址

登录到需要使用C＃的Cookies的网站

使用python 2.7和beautifulsoup 4进行网站抓取

在python和beautifulsoup中查找同一个<div>内的多个抓取数据

从需要使用 Python 登录 twitter 的网站中提取

使用 BeautifulSoup 和 Selenium 抓取一个网站的多个网页的内容

使用 BeautifulSoup 和 Python 2.7 通过 Google 登录网站

如何让python打开一个cmd并设置：cd然后我需要使用的命令

如何抓取需要登录并填写验证码的网站的数据

使用 python 抓取网站 - BeautifulSoup

使用 requests-html 进行网页抓取 - 如何从网站收集一个简单的数字？

TOP 榜单

文章

热门标签

归档