从具有<div标签的网站上抓取/识别表格

淳三

我正在寻找使用BeautifulSoup从网站（https://datagolf.org/performance-table）提取动态表的方法。但是，当我使用soup.find()命令查找表的源代码时，输出中没有任何内容。这是我正在使用的代码：

url = 'https://datagolf.org/performance-table'
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.content, 'html.parser')
box = soup.find('div', {'class': 'table-div'})
box

上面代码的输出显示：

<div class="table-div">
</div>

当我将类更改为时，class_='table'输出将显示为空白。对这里发生的事情有什么想法吗？可能是我要求输入错误的源代码吗？

奥萨迪·维罗查纳（Osadhi Virochana）

我用美丽的汤尝试了一下，但是没有用，但是可以和硒一起用。我为此编写了一个代码：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Firefox(executable_path='geckodriver.exe')
driver.get("https://datagolf.org/performance-table")
l = []
l1 = []

#a = driver.find_element_by_class_name('table')
#print(a.text) # this will print all of the table content

b = driver.find_elements_by_class_name('datahead')
for d in b:
    l1.append(d.text)

l1.pop(5)    
l.append(l1)


c = driver.find_elements_by_class_name('datarow')
l1 = []
for d in c:
    e = d.text
    e = e.split('\n')
    l.append(e)

print(l) # this will print table as a list
driver.close()

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-24

我来说两句

0 条评论

登录后参与评论

上一篇：使用numpy数组操作从图像生成像素密度图（热图）

无法从具有不同标签和日期的网站上抓取数据

从具有<div标签的网站上抓取/识别表格

从具有<div标签的网站上抓取/识别表格

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接