使用谷歌翻译用硒进行网页抓取

Huzefa Usama 发表于 Dev

21

胡泽法·乌萨马

我正在尝试抓取世界各地的多个网页。所以，我想使用谷歌翻译扩展程序翻译网站，然后使用硒抓取页面。

我做了一些研究并想出了如何在运行 selenium 时添加扩展。

1）下载谷歌翻译扩展

2)创建 .crx 文件

3)为 selenium 添加扩展名

但我不知道如何自动执行扩展（默认情况下，它什么都不做）

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

option = webdriver.ChromeOptions()
option.add_extension('./translate.crx')
driver = webdriver.Chrome(executable_path = "./chromedriver", chrome_options = option)
driver.get("naver.com")
WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.TAG_NAME, "body")))

''' @@@@ Here I want something like@@@@
driver.execute_extension("translate this page")
'''

print driver.find_element_by_tag_name("body").text
driver.quit()

此外，我发现该扩展程序不会翻译原始 HTML，因此我可能必须使用不同的方法进行爬网。（也许通过 ctrl-a、ctrl-c、ctrl-v 代替 by_tag_name("body")）

你能给我任何指示吗？

提前致谢

伊戈尔·萨文金

driver.execute_extension

在我看来，如果您可以通过 Selenium 打开扩展程序（请参阅C# 中的示例）。然后你可以通过 Selenium 点击TRANSLATE THIS PAGE链接：

捷径

使用谷歌翻译 API。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-8

我来说两句

0 条评论

登录后参与评论

上一篇：重命名猫鼬响应中的键

相关文章

硒与BeautifulSoup进行网页抓取

使用硒进行网页抓取 - 返回 0 条记录

用硒进行网页抓取以单击按钮并抓取所有内容

用beautifulsoup进行网页抓取

用rvest进行网页抓取

用硒，漂亮的汤，Python进行网页抓取-找不到特定的文本

从不使用硒的网页抓取内容

使用硒和使用 By.SELECTOR 使用双循环进行网页抓取

使用谷歌翻译代码自动翻译网页 onLoad

使用Python进行网页抓取

使用PhantomJS进行网页抓取

使用 Xpath 进行网页抓取

使用VBA进行网页抓取

使用ExcelVBA进行网页抓取

使用R进行网页抓取

使用Python进行网页抓取

使用Rcurl进行网页抓取

Python/硒网页抓取

Python - 用 Beautiful Soup 进行网页抓取

用Goutte和Guzzle进行网页抓取

使用 BeautifulSoup 进行网页抓取 / Zomato 网页抓取

用R进行网页抓取。从网页中提取评分标记

使用硒进行网页搜集数据

如何使用硒抓取网页-find_element_by_link_text

如何使用硒抓取源自一页的多个网页？

在 Python 中使用 Selenium 进行网页抓取

使用Google Apps脚本进行网页抓取

使用python在Android上进行网页抓取

使用 BeautifulSoup FindAll 进行网页抓取

TOP 榜单

文章

热门标签

归档