在python中使用urllib解析Google搜索结果时出错

Praveen：

因此，我开始使用urllib和bs4在python中学习网络抓取，

我正在寻找要分析的代码，发现了这个：-https : //stackoverflow.com/a/38620894/14252018这是代码：-

from urllib.parse import urlencode, urlparse, parse_qs

from lxml.html import fromstring
from requests import get

raw = get("https://www.google.com/search?q=StackOverflow").text
page = fromstring(raw)

for result in page.cssselect(".r a"):
    url = result.get("href")
    if url.startswith("/url?"):
        url = parse_qs(urlparse(url).query)['q']
    print(url[0])

当我尝试运行它时，它不会打印任何内容

所以然后我尝试使用bs4，这次我选择了https://www.duckduckgo.com

并将代码更改为此：

import bs4 as bs
import urllib.request

sauce = urllib.request.urlopen('https://duckduckgo.com/?q=dinosaur&t=h_&ia=web').read()
soup = bs.BeautifulSoup(sauce, 'lxml')

print(soup.get_text())

我收到一个错误：

为什么第一段代码没有运行？
为什么第二段代码给我一个错误？这个错误是什么意思？

贾斯汀·埃泽奎尔（Justin Ezequiel）：

在未启用javascript的情况下，将您的duckduckgo URL更改为网站尝试将您重定向的位置。

import bs4 as bs
import urllib.request

# url = 'https://duckduckgo.com/?q=dinosaur&t=h_&ia=web' # uses javascript
url = 'https://html.duckduckgo.com/html?q=dinosaur' # no javascript

sauce = urllib.request.urlopen(url).read()
soup = bs.BeautifulSoup(sauce, 'lxml')

print(soup.get_text())

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-09-15

我来说两句

0 条评论

登录后参与评论

上一篇：Spring Boot连接池的理解

Python使用urllib读取谷歌搜索结果

如何使用BeautifulSoup在Python中解析Google搜索结果

在搜索栏中使用send_keys（Python）后，如何解析网站的搜索结果？

在python中使用urllib解析Google搜索结果时出错

在python中使用urllib解析Google搜索结果时出错

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序