如何使用 R 从 PHP 网站抓取表格?

希望从此页面上的表中将数据导入 R:

https://legacy.baseballprospectus.com/standings/index.php?odate=2019-09-10

我尝试了多种使用 XML 和 httr 的方法,但都没有成功。已经看过过去的帖子,包括:

使用 R 从 php 网站读取数据

使用 XML 包将 html 表抓取到 R 数据框

想知道我是否没有使用源中正确的表 ID,或者考虑到我当前使用的工具,该表的格式是否不正确?

非常感谢任何和所有帮助!提前致谢!

蒙哥马利克利夫特

这不会给你你想要的东西,但它可能会帮助你开始:

library(XML)
fname <- "standings20190910.html"
download.file("https://legacy.baseballprospectus.com/standings/index.php?odate=2019-09-10", destfile=fname)
doc0 <- htmlParse(file=fname, encoding="UTF-8")
doc1 <- xmlRoot(doc0)
doc2 <- getNodeSet(doc1, "//table[@id='content']")
standings <- readHTMLTable(doc2[[1]], header=TRUE, skip.rows=1, stringsAsFactors=FALSE)

您可以查看要抓取的表格的 HTML 源代码,然后尝试找出如何创建有用的 R 对象。仔细查看XML 包 ( https://cran.r-project.org/web/packages/XML/XML.pdf )的手册getNodeSet文档readHTMLTable

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用 R 从非 HTML 网站抓取表格,但显示的示例适用于 HTML

使用 R 进行网络抓取(我想从网站中提取一些类似数据的表格)

如何使用R从网站抓取Web表

使用 rvest 从网站上抓取表格

使用BeautifulSoup 4.8.2从网站抓取表格

如何使用R从网站提取表格数据

如何在 VBA 中正确引用网站表格抓取的表格?

如何使用JavaScript检索的表格内容抓取网站?

如何使用异常表格从选举网站上抓取数据

使用 php curl 抓取动态加载的网站

您如何使用PHP网页抓取嵌套表格?

烦恼如何从该网站上抓取数据(使用R)

如何使用 rvest 在 R 中抓取这个网站?

使用 R 对简单表格进行 HTML 抓取

如何在Excel / Google表格中通过Web抓取网站?

无法使用 rvest 在动态多标签网站中抓取表格

使用熊猫从网站上抓取表格并保存到 csv 文件

使用beautifulsoup从网站抓取表格,最后出现错误

使用 BeatifulSoup 无法在网站中抓取表格

如何抓取/抓取(使用 R)非表格 EPA CompTox 儀表板?

PHP - 抓取 javascript 网站

抓取使用php session的网站时遇到cookie错误

使用BeautifulSoup网站抓取构建不一致的表格[gurufocus网站]

您如何从托管 HTML 之外的表格数据的网站中抓取表格?

如何在生成表格的网站上使用Python进行网络抓取?

如何在 python 中使用显示时间的数据字符串(从网站的表格中抓取)?

如何使用BeautifulSoup从python网站中未加载的选项卡中抓取表格数据

使用R进行网页抓取-未加载完整的网站数据

无法在Fitch Ratings网站上使用R进行抓取