使用Selenium和BeautifulSoup搜寻网站

Josh 发表于 Dev

乔希

因此，我正在尝试抓取一个使用JS动态加载内容的网站。我的目标是建立一个快速的python脚本来加载网站，查看是否有某个单词，然后通过电子邮件将其发送给我。

我是编码的新手，所以如果有更好的方法，我很高兴听到。

我目前正在使用Selenium加载页面，然后使用BeautifulSoup刮擦生成的页面，这就是我遇到的问题。如何获取beautifulsoup来刮除我刚在硒中打开的网站？

from __future__ import print_function
from bs4 import BeautifulSoup
from selenium import webdriver
import requests
import urllib, urllib2
import time


url = 'http://www.somesite.com/'

path_to_chromedriver = '/Users/admin/Downloads/chromedriver'
browser = webdriver.Chrome(executable_path = path_to_chromedriver)

site = browser.get(url)

html = urllib.urlopen(site).read()
soup = BeautifulSoup(html, "lxml")
print(soup.prettify())

我有一个错误，说

Traceback (most recent call last):
  File "probation color.py", line 16, in <module>
    html = urllib.urlopen(site).read()
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 87, in urlopen
    return opener.open(url)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 185, in open
    fullurl = unwrap(toBytes(fullurl))
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib.py", line 1075, in unwrap
    url = url.strip()
AttributeError: 'NoneType' object has no attribute 'strip'

我不是很了解，也不了解为什么会这样。urllib在内部吗？我如何解决它？我认为解决该问题将解决我的问题。

仍然

可以使用浏览器上的“ page_source”属性找到HTML。这应该工作：

browser = webdriver.Chrome(executable_path = path_to_chromedriver)
browser.get(url)

html = browser.page_source
soup = BeautifulSoup(html, "lxml")
print(soup.prettify())

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-8

我来说两句

0 条评论

登录后参与评论

上一篇：如何在rails上使用has_many和belongs_to ruby关联两个模型

如何在python中使用Selenium和Beautifulsoup解析网站？

搜寻将AJAX与jsoup结合使用的网站

使用Selenium和BeautifulSoup搜寻网站

使用Selenium和BeautifulSoup搜寻网站

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序