php lazy regex不表现懒惰

粉丝出品

我需要删除几个页面中的网址。它以几种不同的方式实现，例如脚本源，在脚本中用作变量或在noscript标记中使用img src。

我编写了以下正则表达式来解决此问题：

/<[no]*script[\s\S]+?www.badurl.com[\s\S]+?<\/[no]*script>/i

问题是，它不会一直表现得很懒。

在下面的示例中，它应该仅选择最后一个脚本块，但同时选择两者：

<script type="text/javascript">
var stuff = {"foo":"bar"}foo.c(stuff,1);
</script>

<script type="text/javascript">
<!--
var foo="http://www.badurl.com/cgi-bin/;[comment]";
document.write("<img src=\""+bar+"?r="+escape(document.referrer)+"&d="+(Math.random()*100000)+"\" width=\"1\" height=\"1\" alt=\"foobar\" />");
//-->
</script>

我的错误在哪里？

安德里斯·莱杜斯克拉斯特（Andris Leduskrasts）

惰性量词不会向后工作，因为文本是从左到右读取的。这种工作方式是，第一个<script是正则表达式开始匹配您的内容的地方，它可以匹配，因为在出现任意数量的字符badurl链接之后，其余的都按您认为的那样工作。

您在这里处理的是HTML / php的部分解析，因此并不是真的不是小菜一碟，而且通常不建议这样做。重命名正则表达式：<(no)?script([\s\S](?!<\/(no)?script))+www.badurl.com[\s\S]*?<\/(no)?script>，如https://regex101.com/r/uE9lZ8/3所示。不过，这应该可行，只要您在每个字符之后都没有</script>标签，就可以匹配每个字符。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-1

我来说两句

0 条评论

登录后参与评论

上一篇：我有一个数据表，其中有一个带有十进制值的列

TOP 榜单

文章

php lazy regex不表现懒惰

php lazy regex不表现懒惰

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用