如何在Selenium Web Automation（Python）中遍历Web元素以从HTML标签提取文本？

KazutoKiritoKigrigaya

我正在制作一个reddit机器人，该机器人将在注释中查找某些属性，使用硒访问信息网站，并用于driver.find_elements_by...获取这些标签内的值。

现在，它driver.find_elements_by...是不可迭代的，并且<span class="name">Lorem Ipsum</span>我想要获得其中包含多个带有文本的标签。我将其存储为变量，并通过PRAW回复评论。

假设HTML是这样的：

<span class="name">Lorem</span>
<span class="name">Ipsum</span>
<span class="name">Dolor</span>
<span class="name">Sit</span>
<span class="name">Amet</span>

因此，我如何从所有<span class="name">标记中获取文本，当我将其存储为变量并答复时，它将只是将所有文本放在一起而没有空格，还是将其格式化为每个文本之间有一个空格，假设我写：

tags = driver.find_element_by...
comment.reply("Tags: {}".format(tags))

如果仅将所有文本放在一起，该如何格式化它以便有空格？

DebanjanB

要从所有正在使用的Selenium和python中提取文本，例如Lorem，Ipsum，Dolor，Sit，Amet等，您必须引入WebDriverWait，并且可以使用以下定位策略之一：<span>visibility_of_all_elements_located()

使用CSS_SELECTOR和get_attribute("innerHTML")：

print([my_elem.get_attribute("innerHTML") for my_elem in WebDriverWait(driver, 20).until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, "span.name")))])

使用XPATH和文字属性：

print([my_elem.text for my_elem in WebDriverWait(driver, 20).until(EC.visibility_of_all_elements_located((By.XPATH, "//span[@class='name']")))])

控制台输出：

['Lorem', 'Ipsum', 'Dolor', 'Sit', 'Amet']

注意：这是字符串类型的列表，您可以根据需要进行操作。

注意：您必须添加以下导入：

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

其他

链接到有用的文档：

get_attribute() 方法 Gets the given attribute or property of the element.
text 属性返回 The text of the element.
使用Selenium的文本和innerHTML之间的区别

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-25

我来说两句

0 条评论

登录后参与评论

上一篇：将朱利安日期格式化为常规日期后出错

如何在Selenium Web Automation（Python）中遍历Web元素以从HTML标签提取文本？

如何在Selenium Web Automation（Python）中遍历Web元素以从HTML标签提取文本？

其他

验证REST API参数

带有错误“ where”条件的查询如何返回结果？

使用SciPy的最小值来找到图中的最短路径

OpenGL纹理格式的颜色错误

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何清除已撤销的GPG密钥？

OpenCv：改变 putText() 的位置

Python PIL putdata颜色必须为int或tuple

如何通过 iOS SDK 通过蓝牙将字体发送到 Zebra 打印机 (Zebra imz320)

如何从JavaScript中的MP3文件读取元数据属性？

如何根据Azure中的部署名称删除所有部署的资源

IE 11中的FormData未定义

混乱的EFI分区，启动时没有启动选项

如何在R中转置数据

Redux动作正常，但减速器无效

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

超过时间限制错误C ++

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

如何对treeView的子节点进行排序

去噪自动编码器和常规自动编码器有什么区别？

在where子句中使用AVG函数和DATEADD进行嵌套查询