我已经用R解析了一个如下所示的HTML文档:
<table>
<b>title1</b>
<tr>row1</tr>
</table>
<table>
<b>title2</b>
<tr>row2</tr>
<tr>row3</tr>
</table>
我想用R解析我的HTML文档,以便有这样一个表:
title | value
title1 | row1
title2 | row2
title2 | row3
我已经尝试了以下代码:
doc<-htmlParse(html_document)
titles<-sapply(getNodeSet(doc,"//table//b"), function(x) xmlValue(x))
values<-sapply(getNodeSet(doc,"//table//tr"), function(x) xmlValue(x))
但这是行不通的,因为title由2个不同的值(title1和title2)和3个不同的值(row1,row2和row3)组成,我无法将row1与title1和row2和row3与title2关联。
我确定有解决方案,但是我找不到。你可以帮帮我吗?谢谢。
也许会对您有帮助
//table//*[name()='b' or name()='tr']
退货
Element='<b>title1</b>'
Element='<tr>row1</tr>'
Element='<b>title2</b>'
Element='<tr>row2</tr>'
Element='<tr>row3</tr>'
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句