如何使用 R 从 PHP 网站抓取表格？

abb 发表于 Dev

35

图

希望从此页面上的表中将数据导入 R：

https://legacy.baseballprospectus.com/standings/index.php?odate=2019-09-10

我尝试了多种使用 XML 和 httr 的方法，但都没有成功。已经看过过去的帖子，包括：

使用 R 从 php 网站读取数据

和

使用 XML 包将 html 表抓取到 R 数据框

想知道我是否没有使用源中正确的表 ID，或者考虑到我当前使用的工具，该表的格式是否不正确？

非常感谢任何和所有帮助！提前致谢！

蒙哥马利克利夫特

这不会给你你想要的东西，但它可能会帮助你开始：

library(XML)
fname <- "standings20190910.html"
download.file("https://legacy.baseballprospectus.com/standings/index.php?odate=2019-09-10", destfile=fname)
doc0 <- htmlParse(file=fname, encoding="UTF-8")
doc1 <- xmlRoot(doc0)
doc2 <- getNodeSet(doc1, "//table[@id='content']")
standings <- readHTMLTable(doc2[[1]], header=TRUE, skip.rows=1, stringsAsFactors=FALSE)

您可以查看要抓取的表格的 HTML 源代码，然后尝试找出如何创建有用的 R 对象。仔细查看XML 包 ( https://cran.r-project.org/web/packages/XML/XML.pdf )的手册getNodeSet和文档。readHTMLTable

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-31

我来说两句

0 条评论

登录后参与评论

上一篇：编码中的切换案例 Java 错误

相关文章

使用 R 从非 HTML 网站抓取表格，但显示的示例适用于 HTML

使用 R 进行网络抓取（我想从网站中提取一些类似数据的表格）

如何使用R从网站抓取Web表

使用 rvest 从网站上抓取表格

使用BeautifulSoup 4.8.2从网站抓取表格

如何使用R从网站提取表格数据

如何在 VBA 中正确引用网站表格抓取的表格？

如何使用JavaScript检索的表格内容抓取网站？

如何使用异常表格从选举网站上抓取数据

使用 php curl 抓取动态加载的网站

您如何使用PHP网页抓取嵌套表格？

烦恼如何从该网站上抓取数据（使用R）

如何使用 rvest 在 R 中抓取这个网站？

使用 R 对简单表格进行 HTML 抓取

如何在Excel / Google表格中通过Web抓取网站？

无法使用 rvest 在动态多标签网站中抓取表格

使用熊猫从网站上抓取表格并保存到 csv 文件

使用beautifulsoup从网站抓取表格，最后出现错误

使用 BeatifulSoup 无法在网站中抓取表格

如何抓取/抓取（使用 R）非表格 EPA CompTox 儀表板？

PHP - 抓取 javascript 网站

抓取使用php session的网站时遇到cookie错误

使用BeautifulSoup网站抓取构建不一致的表格[gurufocus网站]

您如何从托管 HTML 之外的表格数据的网站中抓取表格？

如何在生成表格的网站上使用Python进行网络抓取？

如何在 python 中使用显示时间的数据字符串（从网站的表格中抓取）？

如何使用BeautifulSoup从python网站中未加载的选项卡中抓取表格数据

使用R进行网页抓取-未加载完整的网站数据

无法在Fitch Ratings网站上使用R进行抓取

TOP 榜单

文章

热门标签

归档