如何使用正则表达式从 HTML 标记属性（src、data、href 或其他）中提取链接

elano7 发表于 Dev

埃拉诺7

我有一个 HTML 文档作为字符串，并想用一个正则表达式命令/模式提取它的所有链接（以获得更好的性能），而不是单独搜索每个标签（这是我知道解决它的唯一方法）。

HTML 示例：

<a href="..."></a>
<img src="..." data-full-resolution="..." />
<object data="..."/>

还请考虑图像标签有两个应该被提取的属性（src和data-full-resolution）。

编程语言被故意遗漏，因为我需要一个“原始”解决方案，没有 HTML 库。

阿尔乔姆·万青

(?:data-full-resolution|src|href|data)=\"(.*?)\"

正则表达式解释

(?:非捕获组
- data-full-resolution|src|href|datadata-full-resolution, src,href或中的一个data
)关闭非捕获组
=\"="在属性名称之后匹配
(捕获组
- .*?非贪婪捕获直到下一个报价
)关闭组
\"匹配关闭报价

见正则表达式演示

Python 示例

import re

html = """<a href="<link-href>"></a>
<img src="<link-src>" data-full-resolution="<link-data-full-resolution>" />
<object data="<link-data>"/>"""

print(re.findall(r"(?:data-full-resolution|src|href|data)=\"(.*?)\"", html))  # ['<link-href>', '<link-src>', '<link-data-full-resolution>', '<link-data>']

Wherere.findall返回捕获组的列表。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2022-08-16

我来说两句

0 条评论

登录后参与评论

上一篇：如何计算字符串编写较少代码中的大写和小写字母？

如何使用正则表达式从 HTML 标记属性（src、data、href 或其他）中提取链接

如何使用正则表达式从 HTML 标记属性（src、data、href 或其他）中提取链接

正则表达式解释

Python 示例

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

用日期数据透视表和日期顺序查询

flask-admin 如何自定义删除按钮

在浏览器中请求URL时会发生什么？

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

为什么PlusShare.Builder setRecipients方法不起作用？

OS X-为什么我需要打开WiFi才能确定最近的位置

在Windows 7中无法删除文件（2）

android 背部按下

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

PyQt4.QtCore模块无法向sip模块注册

用白色图像隐藏Android Studio中的所有textView

为什么随机森林中的平均降低基尼系数取决于人口规模？

应用发明者仅从列表中选择一个随机项一次

正则表达式，用于查找所有以任何字母开头和数字开头的文件

ArgumentError：错误＃2109：在场景默认设置中未找到默认的帧标签

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

无法加载文件或程序集System.Runtime.CompilerServices.Unsafe

Jqgrid：多级别组摘要