使用 selenium 的网页抓取表仅获取 html 元素但没有内容

微小的

我正在尝试使用来自这 3 个网站的 selenium 和 beautifulsoup 来废弃表格:

https://www.erstebank.hr/hr/tecajna-lista

https://www.otpbanka.hr/tecajna-lista

https://www.sberbank.hr/tecajna-lista/

对于所有 3 个网站,结果是表格的 HTML 代码,但没有文本。

我的代码如下:

    import requests
from bs4 import BeautifulSoup
import pyodbc
import datetime

from selenium import webdriver

PATH = r'C:\Users\xxxxxx\AppData\Local\chromedriver.exe'

driver = webdriver.Chrome(PATH)

driver.get('https://www.erstebank.hr/hr/tecajna-lista')

driver.implicitly_wait(10)

soup = BeautifulSoup(driver.page_source, 'lxml')

table = soup.find_all('table')

print(table)

driver.close()

请帮助我错过了什么?

谢谢

帕马杜

该网站需要时间来加载table.

要么申请 time.sleep

import time

driver.get('https://www.erstebank.hr/hr/tecajna-lista')
time.sleep(10)...

或应用Explicit wait这样的rows加载在tabel.

import requests
from bs4 import BeautifulSoup

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Chrome(executable_path="path to chromedriver.exe")
driver.maximize_window()

driver.get('https://www.erstebank.hr/hr/tecajna-lista')

wait = WebDriverWait(driver,30)
wait.until(EC.presence_of_all_elements_located((By.XPATH,"//table/tbody/tr[@class='ng-scope']")))

# driver.find_element_by_id("popin_tc_privacy_button_2").click() # Cookie setting pop-up. Works fine even without dealing with this pop-up. 
soup = BeautifulSoup(driver.page_source, 'html5lib')

table = soup.find_all('table')

print(table)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用Selenium抓取网页时缺少HTML内容

使用Selenium和read_html进行Web抓取-获取表内容的更好方法?如何使用列表DataFrame的输出?

使用Python / Selenium抓取网页的内容

使用Selenium获取HTML注释标签的内容

Python-Selenium-无法从HTML网页抓取特定文本内容

使用 Selenium 抓取嵌套的 html

使用Selenium和Python抓取Morningstar网站。Selenium没有下载完整的网页

有没有一种方法可以使用Selenium / Web驱动程序在<div>中获取所有HTML元素ID?

使用 R 进行网页抓取 - 没有 HTML 可见

通过使用 Selenium 抓取从网页中获取地理位置

使用jQuery获取没有注释行的HTML内容

当html元素没有明确的ID时,使用selenium和pandas读写文本值

使用Selenium从框架下的嵌套HTML代码中识别元素(已确认没有iframe)

尝试使用Selenium获取html元素时出错

在 Python 中使用 Selenium 仅从父元素获取文本(没有来自子元素的文本)?

如何使用JavaScript获取没有HTML元素的纯文本?

如何使用 Selenium 获取具有特定内容的 td 的表?

使用 python selenium 抓取 HTML 表格

使用查询selenium python获取所有没有div的body元素

如何使用Selenium从表中获取所有<tr>元素

使用Selenium获取python中的所有表元素

有没有办法在不使用 HTML/CSS 元素的情况下跟踪 Selenium 中的上传进度?

使用带有Python的Selenium Webdriver获取HTML表中特定单元格的数据

从 html 网页获取节点以使用 R 抓取 URL

使用 BeautifulSoup 和 Selenium 的网页抓取网站不会检测网页中的表格元素

使用BeautifulSoup和Selenium解析HTML内容

如何使用Selenium和Java获取没有标识符或CSS类的元素的tagName

如何使用Selenium WebDriver获取没有类名和ID的元素

Python 使用 selenium 定位 html 中的元素