正则表达式在Java中无法正确匹配

b_pcakes

我编写了一个程序来查找HTML页面中的所有链接：

public static void main(String[] args) throws IOException {
    String base = "http://www.oracle.com/";
    URL url = new URL(base);
    BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));

    StringBuffer stringBuffer = new StringBuffer();
    String inputLine = null;
    while ((inputLine = in.readLine()) != null) {
        stringBuffer = stringBuffer.append(inputLine).append("\n");
    }

    Matcher matcher = Pattern.compile("<a .*href=\"([^\"]+)\".*</a>", Pattern.DOTALL).matcher(stringBuffer.toString());

    ArrayList<String> urlList = new ArrayList<>();
    while (matcher.find()){
        String relUrl = matcher.group(1);
        String fullUrl = relUrl.startsWith("/")?base+relUrl.substring(1):relUrl;
        urlList.add(fullUrl);
        System.out.println(fullUrl);
    }

    in.close();
}

由于某种原因，当我运行此代码时，它仅匹配一个链接。但是，当我不带DOTALL标志运行它时，它匹配108个链接。我加入该DOTALL标记的原因是为了匹配a标记可能会超过一行的链接，例如：

    <li><a data-lbl="solutions" href="https://www.oracle.com/solutions/index.html#menu-solutions" data-trackas="hnav" class="u01nav">
<h3>Solutions</h3>
</a></li>

根据这里，正则表达式<a .*href=\"([^\"]+)\".*<\/a>与上面的HTML匹配。（这与我在代码中使用的代码略有不同，因为Eclipse不允许我转义该/字符）

阿维纳什·拉吉（Avinash Raj）

由于您的正则表达式是贪婪的.*，因此您的正则表达式匹配所有字符。因此，使其不贪心.*?..

"<a .*?href=\"([^\"]+)\".*?</a>"

或者

"<a [^<>]*\\bhref=\"([^\"]+)\".*?</a>"

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-7

我来说两句

0 条评论

登录后参与评论

上一篇：如何将旧的SCSI Tandberg QIC磁带机与当前系统连接？

Python中的正则表达式无法正确匹配

无法在Java中匹配正则表达式

Ruby正则表达式无法正确匹配

正则表达式在Java中无法正确匹配

正则表达式在Java中无法正确匹配

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用