使用Selenium和BeautifulSoup搜寻网站

乔希

因此,我正在尝试抓取一个使用JS动态加载内容的网站。我的目标是建立一个快速的python脚本来加载网站,查看是否有某个单词,然后通过电子邮件将其发送给我。

我是编码的新手,所以如果有更好的方法,我很高兴听到。

我目前正在使用Selenium加载页面,然后使用BeautifulSoup刮擦生成的页面,这就是我遇到的问题。如何获取beautifulsoup来刮除我刚在硒中打开的网站?

from __future__ import print_function
from bs4 import BeautifulSoup
from selenium import webdriver
import requests
import urllib, urllib2
import time


url = 'http://www.somesite.com/'

path_to_chromedriver = '/Users/admin/Downloads/chromedriver'
browser = webdriver.Chrome(executable_path = path_to_chromedriver)

site = browser.get(url)

html = urllib.urlopen(site).read()
soup = BeautifulSoup(html, "lxml")
print(soup.prettify())

我有一个错误,说

Traceback (most recent call last):
  File "probation color.py", line 16, in <module>
    html = urllib.urlopen(site).read()
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 87, in urlopen
    return opener.open(url)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 185, in open
    fullurl = unwrap(toBytes(fullurl))
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 1075, in unwrap
    url = url.strip()
AttributeError: 'NoneType' object has no attribute 'strip'

我不是很了解,也不了解为什么会这样。urllib在内部吗?我如何解决它?我认为解决该问题将解决我的问题。

仍然

可以使用浏览器上的“ page_source”属性找到HTML。这应该工作:

browser = webdriver.Chrome(executable_path = path_to_chromedriver)
browser.get(url)

html = browser.page_source
soup = BeautifulSoup(html, "lxml")
print(soup.prettify())

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何在python中使用Selenium和Beautifulsoup解析网站?

如何在python中使用Selenium和Beautifulsoup解析网站?

搜寻将AJAX与jsoup结合使用的网站

使用Selenium和Python提取网站文本

使用Python / BeautifulSoup搜寻网站-为什么此表不返回None?

使用Selenium和BeautifulSoup的慢代码

使用R搜寻带有表单和JS的网站

使用Excel VBA和XML搜寻网站

在Wiki上使用BeautifulSoup和python使用“ tr”和“ td”进行搜寻

使用Selenium和BeautifulSoup提取iFrame内容

如何使用Selenium和BeautifulSoup进行循环

使用beautifulsoup搜寻动态网站

使用Selenium和BeautifulSoup输入内容来抓取网站?

使用BeautifulSoup搜寻OSHA网站

使用BeautifulSoup搜寻网页中的URL

使用scrapy递归搜寻网站

搜寻网站和动态网址

使用BeautifulSoup和Selenium解析HTML内容

使用BeautifulSoup搜寻网页以获取链接标题和URL

使用 VBA 和 Selenium 驱动网站

使用 BeautifulSoup 和 Selenium 抓取一个网站的多个网页的内容

使用来自 AJAX 网站的 selenium 和 beautifulsoup 在 python 中抓取图像

如何使用 BeautifulSoup 和 Selenium 实现 if 语句

使用 Selenium 和 Beautifulsoup 解析 JavaScript 输出

使用 BeautifulSoup 和 Selenium 的网页抓取网站不会检测网页中的表格元素

使用 beautifulsoup 和 selenium 抓取多页网站返回空字符串列表

使用 BeautifulSoup 或 Selenium 抓取网站时找不到数据

无法使用 Selenium 和 BeautifulSoup 抓取文本

使用 selenium 和 python 抓取的实时网站