使用 Python 从文本（在 CSV 文件中）中提取数据

绒毛猫

我正在帮助一个狗救援小组分析他们收到的收养申请。所有的申请都通过一个在线系统提交，每个申请都有一个自动生成的表格 ID。然后将申请分配给不同的志愿者进行处理。

大多数信息都很简单，我可以使用 Pandas 轻松处理。部分分析是关于每个申请的处理时间。这意味着从申请创建之日起（表格状态为“已提交”）到狗被采用（表格状态为“已采用”）。当我导出表单数据时，状态更改和一般评论混合在一个名为“评论（内联）”的标题下。

以下是一个应用程序的状态更改/评论的缩略示例。

文本遵循一些基本模式。

一般评论：CURRENT_PERSON（名字）写于 DATE：文本

志愿者的变化：CURRENT_PERSON（名字）写于 DATE：分配表格给 NEW_PERSON（first last）

表单状态更改：CURRENT_PERSON（名字）写于 DATE：已将状态从 CURRENT_STATUS 更改为 NEW_STATUS

我是 python 的新手（~3mos）。想到的第一件事是使用python和正则表达式来解析文本，提取数据，并将它们分成两组（一组用于一般评论，一组用于状态更改）。这将需要一些时间，因为我仍在学习，但这似乎是可行的。最终结果将是这样的。

可以多次分配相同的状态，因此我需要给它们一个编号。然后我可以将处理时间计算为 Adapted-01 和 Submitted-01 之间的天数。

但是，从我到目前为止所了解的情况来看，使用这种类型的迭代（for 循环）似乎很慢，不推荐使用。到目前为止，我有大约 1500 份表格，而且数量只会增加。

我应该继续使用python和re吗？或者有没有更好的方法来获得我所描述的？我坚信有一种更好的方法，我只是还不够了解。

非常感谢您的建议。

更新

此处为 CSV 文件中的示例数据，此处为 XML 文件中的示例数据

你会在里面找到四个名字：Jenny White、Rose Burk、Kerry James、Henry Woods。

我意识到文本 CSV 文件并不像我想象的那么干净。评论或状态更改之间没有空格。即使有模式，也并不总是一致的（只有名字与全名）。我更新了模式。导出为 CSV 后，您将看到以下内容

Henry 于 2020 年 9 月 22 日写道：将表格分配给 Rose Burk Rose 于 2020 年 9 月 22 日写道：发送介绍电子邮件。

变成了

Henry 于 2020 年 9 月 22 日写道：将表格分配给 Rose BurkRose 于 2020 年 9 月 22 日写道：发送介绍电子邮件。

现在我还需要更多地考虑清理数据。谢谢参观。

绒毛猫

所以我想出了如何使用正则表达式来处理基于模式的评论。

下面这个可以获取所有不同的日期和所有状态，因为它们都有“更改状态自”部分，我可以将单个组与旧状态还是新状态进行匹配。

regex = r"(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)\sto\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)"

如果我只关注已采用，这个可以抓住我需要的日期。

regex = r"(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s([A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?)\sto\sAdopted(?!\sElsewhere)

另外，我不需要使用 for 循环。在关注采用日期的特定情况下，我可以使用以下内容将采用日期添加到 Jupyter 笔记本中的数据框中。

df['Adopted']=df['Comments (inline)'].str.extract(r'(\d{1,2}\/\d{1,2}\/\d{4})\:\sChanged\sStatus\sfrom\s[A-Z][a-z]+(\s[a-z]+)?(\s[A-Z][a-z]+)?\sto\sAdopted(?!\sElsewhere)')

这也意味着我可以只使用原始 CSV 文件。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-15

我来说两句

0 条评论

登录后参与评论

上一篇：如果您可以在没有模板的情况下做同样的事情，那么 C++ 中的模板专业化有什么意义？

TOP 榜单

文章

使用 Python 从文本（在 CSV 文件中）中提取数据

使用 Python 从文本（在 CSV 文件中）中提取数据

更新

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面