在左右边界内搜索短语

Steak 发表于 Dev

牛扒

明白我的意思会更好。

以下是我正在解析的数据集中的一些选择：

1. [Hiroyuki]多用途洋葱，葱和记忆。同时吞噬了格里门根的金发。2020/12/18 V23

2. [Hiroyuki]新鲜度很重要。2019/02/11吞下节日

3. [Hiroyuki]让我们回答问什么。柴郡巧克力波特喝。

4. [Hiroyuki]您没有早起，这对您有害。.. 吞咽Lagunitas IPA时2019/04/14 D23

我试图抢劫那个名字。1是“格林伯格金发女郎”，2是“獭祭”，3是“柴郡巧克力波特”，4是“ Lagunitas IPA”

我尝试使用以下模式：

pattern = re.compile('(?<=[\？。！]).*(?=を[飲呑])')

我发现饮料总是紧跟着/を或。我还看到，喝酒总是在或之后。呑飲。？

如何才能做到这一点？

齐奥诺

[EDIT]
请尝试以下方法：

#!/usr/bin/python
# -*- coding: utf-8 -*-

import re
import sys, codecs

sys.stdout = codecs.getwriter('utf_8')(sys.stdout)

str = u"""
1.【ひろゆき】万能ねぎとわけぎと記憶力。Grimbergen blondeを呑みながら。2020/12/18 V23

2.【ひろゆき】日本酒は鮮度が大事ですよ。 獺祭を呑みながら 2019/02/11

3.【ひろゆき】聞かれたことに答えてみようの回。Cheshire Chocolate Porter飲みつつ。

4.【ひろゆき】早起きは得しないし、体に悪いよね。。Lagunitas IPAを呑みながら 2019/04/14 D23
5.【ひろゆき】冬将軍強くね？温暖化どこいったの？ PARISIS NOËLを呑みつつ 2019/01/26
6.【ひろゆき】運のいい人っているよね。科学的根拠ないけど。。LA VIRGEN MADRID LAGERを呑みながら  2020/01/16 J08
"""

m = re.finditer(ur'.*[。？]+\s?(.*?)を?[呑飲]', str)
for i in m:
    print(i.group(1))

结果：

Grimbergen blonde
獺祭
Cheshire Chocolate Porter
Lagunitas IPA
PARISIS NOËL
LA VIRGEN MADRID LAGER

正则表达式的说明'.*[。？]+\s?(.*?)を?[呑飲]'：

第一个.*匹配尽可能长，然后回溯以尝试以下正则表达式匹配。
[。？]+ 匹配一个或多个日文句号或问号的序列。
\s?匹配空白字符（如果有）。它删除饮料名称前的前导空白。
的?在(.*?)使最短（非贪婪）匹配，并且捕获组被分配给匹配的子。
を? 如果考虑到情况，则在Japasene中有时会省略后置词“を”，从而匹配字符“を”。
[呑飲] 匹配作为汉字变体的任何字符，即“喝酒”。

在上.*一篇文章中，领先者丢失了，并允许进行过多比赛。现在，正则表达式会尽可能地增加指针的数量，然后从右向左回溯。这就是为什么现在删除了不必要的子字符串的原因。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-27

我来说两句

0 条评论

登录后参与评论

上一篇：如何构造请求异常处理并检查200个响应？

如何沿左右边界完美对齐线边界

批量使用左右边界提取字符串

如何使用花括号作为Div的左右边界

如何在WPF中精确设置左右边界渐变

没有左右边界的值的Jmeter相关性

从df.query（）字符串获取左右边界

Bootstrap 3-如何放置图像的左右边界？

检查边界内的价值

Python-提取子字符串的最优雅方法，使用左右边界

Div模块左右边界在响应式设计中不起作用

UITableViewCell左右边距

动态左右边距？

在边界内旋转图像

组边界内的滚动总和

R图删除右边界

检查点是否在边界内

使用Python的RegEx：在边界内查找全部

将可平移的 UIView 保持在边界内

如何访问聚合边界内的实体

检查位置的坐标是否在边界内

在纬度/经度边界内绘制地图

无法使图像适合UITextField的边界内

将子视图限制在父边界内

使光标停留在边界内

父边界内的可拖动视图

使用gd在图像边界内换行

指向旋转的uiview的边界内吗

Python乌龟在边界内随机游走

C ++查找边界内的平行线

TOP 榜单

文章

在左右边界内搜索短语

在左右边界内搜索短语

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序