如何在XPath中使用XML值识别节点？

Xiaoshi

我使用R来抓取网站，并且在解析HTML代码时，我的代码如下：

    <div class="line">
        <h2 class="clearfix">
            <span class="property">Number<div>number extra</div></span>
            <span class="value">3</span>
        </h2>
    </div>
    <div class="line">
        <h2 class="clearfix">
            <span class="property">Surface</span>
            <span class="value">72</span>
        </h2>
    </div>

现在，我想在此代码中获取一些值。

如何用xml值“ Number”标识范围。并获取节点，以提取“额外数量”？我知道如何使用xpathApply来标识节点，以获取xmlValue或某些属性（例如href与xmlGetAttr）。但是我不知道如何通过知道其xmlvalue来识别节点。
```
xpathApply(page, '//span[@class="property"]',xmlValue)
```
如果我想获取属性类“ Surface”的“值” 72，最有效的方法是什么？

这是我开始做的事情：首先，我提取所有“属性”：

xpathApply(page, '//span[@class="property"]',xmlValue)

然后我提取所有“值”：

xpathApply(page, '//span[@class="value"]',xmlValue)

然后，我建立一个列表或矩阵，以便可以标识“ Surface”的值，即72。但是问题是，有时，带有的跨度class="property"不能具有紧随其后的class =“ value”的跨度一个h2。因此，我无法建立适当的列表。

这可能是最有效的方法吗？：标识范围with class="property"，然后标识h2包含此范围的对象span，然后标识spanwith class="value"？

克休斯

要通过添加单个根元素使HTML格式正确，

<?xml version="1.0" encoding="UTF-8"?>
<r> 
  <div class="line"> 
    <h2 class="clearfix"> 
      <span class="property">Number
        <div>number extra</div>
      </span>  
      <span class="value">3</span> 
    </h2> 
  </div>  
  <div class="line"> 
    <h2 class="clearfix"> 
      <span class="property">Surface</span>  
      <span class="value">72</span> 
    </h2> 
  </div> 
</r>

（A）这个XPath表达式，

//span[@class='property' and starts-with(., 'Number')]/div/text()

将返回

number extra

按照要求。

（B）这个XPath表达式，

//h2[span[@class='property' and . = 'Surface']]/span[@class='value']/text()

将返回

按照要求。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-18

我来说两句

0 条评论

登录后参与评论

上一篇：为什么recyclerView的findviewbyposition（）有时仅返回null

如何在XPath中使用XML值识别节点？

如何在XPath中使用XML值识别节点？

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接