如果我想抓取一个首先需要使用密码登录的网站,我该如何使用beautifulsoup4库开始使用python抓取它?以下是我对不需要登录的网站的处理方式。
from bs4 import BeautifulSoup
import urllib2
url = urllib2.urlopen("http://www.python.org")
content = url.read()
soup = BeautifulSoup(content)
应如何更改代码以适应登录?假设我要抓取的网站是一个需要登录的论坛。一个例子是http://forum.arduino.cc/index.php
您可以使用机械化:
import mechanize
from bs4 import BeautifulSoup
import urllib2
import cookielib
cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_cookiejar(cj)
br.open("https://id.arduino.cc/auth/login/")
br.select_form(nr=0)
br.form['username'] = 'username'
br.form['password'] = 'password.'
br.submit()
print br.response().read()
或urllib- 使用urllib2登录网站
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句