从熊猫数据框中的多列构造瀑布算法

BKay 发表于 Dev

凯

假设我有一个多列数据帧，并且希望实现一个瀑布样式算法，该算法采用第一列（如果存在），然后查看第二列（如果不存在），如果第二列不存在，则采用第三列的值列，依此类推，如果最后一列中缺少该列，则使用默认值（例如零）。我有一种方法，涉及累加一系列矢量操作（请参见下文），但似乎无法很好地扩展到更多列。当然，我可以通过行中的嵌套循环来做到这一点（非常不pythonic-对吗？）

frame = pd.DataFrame(np.arange(15).reshape((5,3)),index=['a','b','c','d','e'],columns=['X','Y', 'Z'])
#Make some missing values
frame['X'].ix[0:2] = None
frame['Y'].ix[1:4] = None
frame['Z'].ix[3:5] = None
#This is my kludgy waterfall for the three column case.
frame['Waterfall'] = frame['X'].fillna(0) + frame['Y'].fillna(0) * frame['X'].isnull() + frame['Z'].fillna(0) * (frame['X'].isnull() & frame['Y'].isnull())

我希望找到一个解决方案，该解决方案可以很好地扩展到任意长度的瀑布。如果可以使用Pythonic，那就太好了。理想情况下，它将是一个将列的有序列表标记为数据框作为参数并返回所需值的函数。

谢谢您的帮助。

汤姆·奥格斯·普格

首先，不要将其None用作丢失的数据值。这会强制将所有列都设为objectdtype，这会很慢。请nan改用（这会使一切变得doubles如此，因此请小心使用浮点数。

我将使用该bfill方法fillna()：

In [26]: frame.fillna(method='bfill', axis=1)['X'].fillna(0)
Out[26]: 
a     1
b     5
c     6
d     9
e    12
Name: X, dtype: float64

表现：

In [27]: %timeit frame['X'].fillna(0) + frame['Y'].fillna(0) * frame['X'].isnull() + frame['Z'].fillna(0) * (frame['X'].isnull() & fra
me['Y'].isnull())

1000 loops, best of 3: 776 µs per loop

In [28]: %timeit frame.fillna(method='bfill', axis=1)['X']
10000 loops, best of 3: 138 µs per loop

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-18

我来说两句

0 条评论

登录后参与评论

上一篇：如何在python中获取POST / GET数据

TOP 榜单

文章

从熊猫数据框中的多列构造瀑布算法

从熊猫数据框中的多列构造瀑布算法

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID