从具有<div标签的网站上抓取/识别表格

淳三

我正在寻找使用BeautifulSoup从网站(https://datagolf.org/performance-table提取动态表的方法。但是,当我使用soup.find()命令查找表的源代码时,输​​出中没有任何内容。这是我正在使用的代码:

url = 'https://datagolf.org/performance-table'
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.content, 'html.parser')
box = soup.find('div', {'class': 'table-div'})
box

上面代码的输出显示:

<div class="table-div">
</div>

当我将类更改为时,class_='table'输出将显示为空白。对这里发生的事情有什么想法吗?可能是我要求输入错误的源代码吗?

奥萨迪·维罗查纳(Osadhi Virochana)

我用美丽的汤尝试了一下,但是没有用,但是可以和硒一起用。我为此编写了一个代码:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Firefox(executable_path='geckodriver.exe')
driver.get("https://datagolf.org/performance-table")
l = []
l1 = []

#a = driver.find_element_by_class_name('table')
#print(a.text) # this will print all of the table content

b = driver.find_elements_by_class_name('datahead')
for d in b:
    l1.append(d.text)

l1.pop(5)    
l.append(l1)


c = driver.find_elements_by_class_name('datarow')
l1 = []
for d in c:
    e = d.text
    e = e.split('\n')
    l.append(e)

print(l) # this will print table as a list
driver.close()

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

无法从具有不同标签和日期的网站上抓取数据

抓取的表格爬行,网站具有异常的html代码。

使用python从网站上抓取表格并尝试获取带有文本的内容的超链接

在没有周围标签的情况下从网站上的元数据中抓取文本

如何从网站上抓取所有图像?

如何使用python中的BeautifulSoup库从具有“查看更多”选项的网站上抓取数据

从网站上的表格中抓取数据,而无需搜索标签

无法从网站上抓取一些“ div”标签

抓取具有多个表且没有类的网站

没有[href]的多层网站上的Python网络抓取

如何从网站上抓取所有数据?

我的代码有问题,它不会从网站上抓取数据

从多页网站上抓取所有图像?

puppeteer 没有从网站上抓取完整的信息

无法使用 BeautifulSoup 从网站上抓取所有数据

Selenium Python 没有从这个网站上抓取

具有LayeredBarRenderer的标签

具有多个来源的网站上的Internet Explorer和区域

从网站上的表格获取信息,每个网站上的XPATH有所不同,Python

从具有多个页面的网站抓取数据

具有困难节点的网页抓取分页网站

从具有多个页面结果的网站进行网页抓取

如何抓取具有加载程序的网站?

要抓取的网站具有不同的类别名称

如何使用scrapy抓取具有多个页面的网站

如何从具有多个“选择”字段的网站中抓取?

查找具有特定内容的DIV标签

有线表格无法在网站上正确呈现

从具有特定类的html抓取表格字段