如何抓取一个需要使用python和beautifulsoup登录的网站?

用户781486:

如果我想抓取一个首先需要使用密码登录的网站,我该如何使用beautifulsoup4库开始使用python抓取它?以下是我对不需要登录的网站的处理方式。

from bs4 import BeautifulSoup    
import urllib2 
url = urllib2.urlopen("http://www.python.org")    
content = url.read()    
soup = BeautifulSoup(content)

应如何更改代码以适应登录?假设我要抓取的网站是一个需要登录的论坛。一个例子是http://forum.arduino.cc/index.php

4d4c:

您可以使用机械化:

import mechanize
from bs4 import BeautifulSoup
import urllib2 
import cookielib

cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_cookiejar(cj)
br.open("https://id.arduino.cc/auth/login/")

br.select_form(nr=0)
br.form['username'] = 'username'
br.form['password'] = 'password.'
br.submit()

print br.response().read()

或urllib- 使用urllib2登录网站

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何抓取需要先使用Python登录的网站

需要使用xpath和beautifulsoup从网站抓取数据

如何使用python和beautifulsoup4循环抓取网站中多个页面的数据

如何使用BeautifulSoup和Python抓取页面?

如何在一个Web上从多个页面抓取数据,我正在使用Python和BeautifulSoup

使用BeautifulSoup的Python Web抓取,如何将两个<p>文本合并到列表的一个元素中

如何使用Python 3登录网站并进行抓取

使用Python登录网站和网页抓取

如何抓取需要使用scrapy登录的网站?

如何使用python和Beautifulsoup抓取网页的第二个<p>

您是否需要一个App才能在网站上使用Apple登录?

抓取“ __hpKey”的网站,然后在python中使用请求和beautifulsoup登录

如何抓取使用BankID进行Python登录的网站(BeautifulSoap,请求)?

错误要使用CSRF,需要一个密钥。Python /烧瓶

使用登录信息通过python抓取网站

如何建立一个允许使用有效的电子邮件ID和密码登录的网站

使用python和beautifulsoup抓取多页网站

如何创建一个提示用户输入其登录ID和密码的网站

解析需要使用Python登录的网址

登录到需要使用C#的Cookies的网站

使用python 2.7和beautifulsoup 4进行网站抓取

在python和beautifulsoup中查找同一个<div>内的多个抓取数据

从需要使用 Python 登录 twitter 的网站中提取

使用 BeautifulSoup 和 Selenium 抓取一个网站的多个网页的内容

使用 BeautifulSoup 和 Python 2.7 通过 Google 登录网站

如何让python打开一个cmd并设置:cd然后我需要使用的命令

如何抓取需要登录并填写验证码的网站的数据

使用 python 抓取网站 - BeautifulSoup

使用 requests-html 进行网页抓取 - 如何从网站收集一个简单的数字?