使用Java在html中选择文本的一部分

梦想家

在问这个问题之前，我已经浏览了多种形式。基本上，我需要在HTML文件中选择部分文本。的HTML是这样构造的

<div class = "pane big">
<code>
<pre>
SomeText
<a id="par1" href="#par1">¶</a>
MoreText
.
.
.
<a id="par2" href="#par2">¶</a>
MoreText
</pre>
</code>
</div>

因此，我需要做的是自己提取href标记par1下的文本，然后分别获取par2 href标记下的文本。我尝试使用Jsoup，但我能做的就是选择整个div文本。也尝试过XPath，但是我正在评估的表达式不被接受。不知道可能是因为它不是XML开头的文件。

我使用的XPath表达式示例是。

/html/body/div/div[2]/code[2]/pre/text()[3]

和CSS

body > div > div.pane.big > code:nth-child(7) > pre

克罗威尔

使用纯CSS选择器不可能做到这一点，需要Java代码中的其他提取和附加逻辑：

选择前置元素
通过将其拆分的文本部分序列一个元素分离器。
跳过第一个元素，然后加入两个（或多个）下一个部分。

这里是简单的代码示例（带有流API的JDK 1.8样式和旧的JDK 1.5-1.7样式）：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

import static java.util.Arrays.stream;
import static java.util.stream.Collectors.joining;

public class SimpleParser {
    public static void main(String[] args) throws IOException {
        final Document document = Jsoup.parse(new File("div.html"), "UTF-8");
        final Elements elements = document.select("div.pane.big pre");

        System.out.println("JDK 1.8 style");
        System.out.println(
                stream(elements.html().split("\\s+<a.+</a>\\s+"))
                        .skip(1)
                        .collect(joining("\n")
                        ));

        System.out.println("\nJDK 1.7 style");
        String[] textParts = elements.html().split("\\s+<a.+</a>\\s+");
        StringBuilder resultText = new StringBuilder();
        for (int i = 1; i < textParts.length; i++) {
            resultText.append(textParts[i] + "\n");
        }
        System.out.println(resultText.toString());
    }
}

PS请注意，HTML代码示例中的最后一个标签div应该为封闭标签。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-4

我来说两句

0 条评论

登录后参与评论

使用Java在html中选择文本的一部分

使用Java在html中选择文本的一部分

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID