如何对熊猫使用RE OR操作数RE .str.extract（）

Python_Learner_DK

我是新手，请确保这在我的代码中有些愚蠢。在我的辩护中，我曾尝试在此处遍历Python RE文档，然后再进行查询和搜索，但到目前为止没有看到重复的问题（这使我感到惊讶。）

在DataFrame之外，我在这里有一个正在工作的示例：

x = 'my best friend's birthday is 24 Jan 2001.'
print(re.findall('\d{1,2}\s(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d{2,4}', x))
<Anaconda console returns:> 24 Jan 2001

但是在我的数据框（df1）中，我有以下内容：

index     text
0         My birthday is 2/21/19
1         Your birthday is 4/1/20
2         my best friend's birthday is 24 Jan 2001.

当我运行以下代码时：

df1['dates'] = df1['text'].str.extract('.*?(\d+[/-]\d+[/-]?\d*).*?|\d{1,2}\s(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d+')
print('df1['dates'])

我得到以下结果：

     dates
0    2/21/19
1    4/1/20
2    NaN

我尝试使用括号，重新阅读了文档，以及其他一些导致无休止错误的调整。我敢肯定这是一个明显的错误，但我看不到。有人可以帮忙吗？谢谢。

詹姆士

.extract()在大熊猫中使用时，您必须有一个捕获组。OR之前的捕获组|正在查找带斜线的日期。但是在“或”之后，您只有一个非捕获组。

在这里，我对整个搜索模式进行了捕获，并且“或”的每一侧也都有一个非捕获组。

import pandas as pd

df = pd.DataFrame({'text': ['My birthday is 2/21/19', 
    'Your birthday is 4/1/20', 
    'my best friend\'s birthday is 24 Jan 2001.']})

df.text.str.extract(
    r'((:?\d+[/-]\d+[/-]?\d*)|' + 
    r'(:?\d{1,2}\s(:?Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)[a-z]*\s\d+))', 
    expand=False)[0]

# returns:
0        2/21/19
1         4/1/20
2    24 Jan 2001

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-25

我来说两句

0 条评论

登录后参与评论

上一篇：VScode扩展，用于在nodejs应用程序中查找未使用的公共功能

如何对熊猫使用RE OR操作数RE .str.extract（）

如何对熊猫使用RE OR操作数RE .str.extract（）

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID