从字符串中删除

cathy 发表于 Dev

凯茜

我想从此字符串中删除多余的r和n。我试过正则表达式。不知道正则表达式或其他方法是否会对您有所帮助。

这是我试图使用import re的代码

text = "r n r n r nFamily Medical History new r n  r n r r r  Roger nRobert n nDawson n49 nyears old , right shoulder"

regex_pattern = re.compile(r'\s[rn]\s')
matches = regex_pattern.findall(text)
for match in matches:
    text = text.replace(match," ")
print(text)

电流输出：

r nFamily Medical History new   Roger nRobert nDawson n49 nyears old , right shoulder

我们仍然看到很多r n。还想知道如何从n49，nyears中删除'n'并从道森中删除第一个'n'而又不删除最后一个'n'

预期产量：

Family Medical History new Roger Robert Dawson 49 years old , right shoulder

维克多·史翠比维

我在这里建议使用一种NLP方法，因为我看不到正则表达式如何nyears从new（正确的拼写）中分辨出（错误的拼写）。

首先，删除所有独立的r/n以及粘在大写单词和数字上的那些，然后拆分字符串并检查以拼写检查器开头n或r以拼写检查器开头的每个单词。n如果word[1:]正确，word则可以删除第一个。如果两者都不正确，我认为可以退回到word。

例如，要运行拼写检查，您可以使用TextBlob。

这是一个Python代码演示：

from textblob import TextBlob
from textblob import Word
import re

s = "r n r n r nFamily Medical History new r n  r n r r r  Roger nRobert n nDawson n49 nyears old , right shoulder"
s = re.sub(r'\b[rn](?=[A-Z0-9\s]|$)', '', s)
result = []
for w in s.split():
  if not w.startswith(('n','r')): # The w word does not start with n or r...
    result.append(w)              # Add it to the result
  else:
    if Word(w).correct() == w:    # If w is a correct word
      result.append(w)            # Add it to the result
    else:
      if Word(w[1:]).correct() == w[1:]: # If w[1:] is correct 
        result.append(w[1:])             # Add w[1:] to the result
      else:
        result.append(w)                 # Fallback: add w to the result
print(" ".join(result))
# => Family Medical History new Roger Robert Dawson 49 years old , right shoulder

如果立即紧随大写字母，数字或字符串结尾，则re.sub(r'\b[rn](?=[A-Z0-9\s]|$)', '', s)删除该部分r并n在单词开头。

然后，for w in s.split():迭代句子中的单词，仅在以n或开头且r拼写错误为的情况下替换单词w[1:]。

免责声明：TextBlob仅作为示例。您可以自由使用任何其他拼写检查库。TextBlob拼写检查“基于模式库中实现的Peter Norvig的“如何编写拼写校正器” 1。准确度约为70％ ”

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-27

我来说两句

0 条评论

登录后参与评论

上一篇：PHP中的RESTful API，$。ajax方法无法获取GET返回的数据

TOP 榜单

文章

从字符串中删除

从字符串中删除

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接