如何抓取使用JavaScript渲染数据的网站

Sherluck08

我正在抓取此网站https://robertsspaceindustries.com/pledge/ship-upgrades?to-ship=173我想在“选择您的船”文本的右侧获得“箭头”文本

我尝试使用请求和BeautifulSoup选择包含文本的标签，当我检查页面时，我可以看到文本在标签之间的位置，我尝试用soup.select（“。name”）选择它，但是我仍然空着字符串，可能是用Javascript渲染的数据，所以我尝试了selenium并尝试等待元素加载后再选择它，这仍然是我的代码

try:
    element = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CLASS_NAME, "name"))
    )

    select_tags = driver.find_elements_by_css_selector(".name")
    for tag in select_tags:
        print(tag.text)
finally:
    driver.quit()

箭头

克里斯·亨特

Selenium可能对于不需要与页面进行交互的此类任务显得过于刻板。这只是几行requests_html：

from requests_html import HTMLSession

url = 'https://robertsspaceindustries.com/pledge/ship-upgrades?to-ship=173'

session = HTMLSession()
r = session.get(url)
r.html.render()
print(r.html.find('.info > .name', first=True).text)

产生Arrow预期的效果。

对于此特定站点，您还可以在内容的其他位置进行检查以获取所需的信息，而无需JavaScript支持，例如：

import json

import requests

url = 'https://robertsspaceindustries.com/pledge/ship-upgrades?to-ship=173'

r = requests.get(url)
text = r.text

json_start_text = 'fromShips: '
json_start = text.index(json_start_text) + len(json_start_text)
json_end = text.index(']', json_start)
json_text = text[json_start:json_end + 1]
data = json.loads(json_text)
for ship in data:
    name = ship['name']
    msrp = ship['msrp']
    print(f'{name} {msrp}')

导致

Aurora ES $20.00
P52 Merlin $20.00
Aurora MR $25.00
P72 Archimedes $30.00
Mustang Alpha $30.00
Aurora LX $30.00
...
Arrow $75.00
...

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-25

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用自动布局从情节提要中动态获得视图的y位置

如何使用节点从网站抓取数据

如何在Python中抓取JavaScript网站？

使用VBA从网站中抓取数据

烦恼如何从该网站上抓取数据（使用R）

如何正确抓取基于JavaScript的网站？

如何使用Node.js抓取JavaScript（VueJS，ReactJS）网站

如何使用VBA从Bloomberg网站上抓取数据

如何抓取这种动态生成的网站数据？

使用名称从网站抓取数据表

如何抓取使用node.js异步加载数据的网站？

如何使用StormCrawler从网站抓取特定数据

使用Python从.ASPX网站URL抓取数据

如何使用请求和Beautiful Soup抓取使用javascript的网站？

如何从网站抓取的数据创建数据框？

如何防止某人抓取我的网站数据？

如何从网站上抓取数据？

如何使用JavaScript检索的表格内容抓取网站？

如何克服从网站抓取数据的限制

如何抓取javascript动态网站

Python，从 javascript 网站抓取数据

使用 BeautifulSoup 从网站抓取数据的问题

如何从 JavaScript 网站抓取数据？

如何使用 JavaScript 检测抓取网站

如何使用 Selenium 从动态网站中抓取数据

如何使用节点从网站上抓取数据

使用 vba 从网站抓取数据 - 问题

如何使用异常表格从选举网站上抓取数据

不使用beautifulsoup抓取网站数据

无法使用 Python 从网站抓取数据

TOP 榜单

文章

如何抓取使用JavaScript渲染数据的网站

如何抓取使用JavaScript渲染数据的网站

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）