熊猫：将Lambda应用于多个数据框

特罗布里奇

我试图弄清楚如何将lambda函数同时应用于多个数据帧，而无需先将数据帧合并在一起。我正在处理大型数据集（> 60MM记录），并且在内存管理方面需要格外小心。

我希望有一种方法可以将lambda仅应用于基础数据帧，这样我就可以避免先将它们缝合在一起的成本，然后再将中间数据帧从内存中删除，然后再继续进行下一步。

我有使用基于HDF5的数据帧来解决内存不足问题的经验，但我宁愿先尝试探索不同的东西。

我提供了一个玩具问题，以帮助证明我在说什么。

import numpy as np
import pandas as pd

# Here's an arbitrary function to use with lambda
def someFunction(input1, input2, input3, input4):
    theSum = input1 + input2
    theAverage = (input1 + input2 + input3 + input4) / 4
    theProduct = input2 * input3 * input4
    return pd.Series({'Sum' : theSum, 'Average' : theAverage, 'Product' : theProduct})

# Cook up some dummy dataframes
df1 = pd.DataFrame(np.random.randn(6,2),columns=list('AB'))
df2 = pd.DataFrame(np.random.randn(6,1),columns=list('C'))
df3 = pd.DataFrame(np.random.randn(6,1),columns=list('D'))

# Currently, I merge the dataframes together and then apply the lambda function
dfConsolodated = pd.concat([df1, df2, df3], axis=1)

# This works just fine, but merging the dataframes seems like an extra step
dfResults = dfConsolodated.apply(lambda x: someFunction(x['A'], x['B'], x['C'], x['D']), axis = 1)

# I want to avoid the concat completely in order to be more efficient with memory. I am hoping for something like this:
# I am COMPLETELY making this syntax up for conceptual purposes, my apologies.
dfResultsWithoutConcat = [df1, df2, df3].apply(lambda x: someFunction(df1['A'], df1['B'], df2['C'], df3['D']), axis = 1)

亚力山大

一种选择是显式创建所需的聚合：

theSum = df1.A + df1.B
theAverage = (df1.A + df1.B + df2.C + df3.D) / 4.
theProduct = df1.B * df2.C * df3.D
theResult = pd.concat([theSum, theAverage, theProduct])
theResult.columns = ['Sum', 'Average', 'Product']

另一种可能性是使用query，但这实际上取决于您的用例以及您打算如何汇总数据。这是每个文档适用的示例。

map(lambda frame: frame.query(expr), [df, df2])

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-29

我来说两句

0 条评论

登录后参与评论

上一篇：保存Typescript文件时，Visual Studio 2015 RC不会创建源地图

熊猫将功能应用于列表中的多个数据框

将功能应用于多个数据框

将方法应用于熊猫中的多个数据集

使用if条件将lambda应用于整个数据框

如何将Lambda函数正确应用于熊猫数据框列

将lambda函数应用于熊猫数据框-返回索引但不返回值？

将函数应用于 R 中的多个数据框列

按列将多个函数应用于两个数据框

如何将t.test应用于多个数据框？

熊猫-将函数应用于具有来自不同列的多个参数的数据框

将多个条件groupby + sort + sum应用于熊猫数据框行

熊猫如何将多个功能应用于数据框

将功能应用于熊猫数据框的列

将str.contains（）应用于熊猫数据框

熊猫将multicolumnindex应用于数据框

将功能应用于熊猫数据框

将功能应用于熊猫数据框的单列

将类似功能应用于多级熊猫数据框

将数字上限/阈值应用于熊猫数据框

将函数应用于数据框列熊猫

将re函数应用于混合的熊猫数据框

将功能按行应用于熊猫数据框

熊猫数据框将功能应用于整个列

将公式应用于熊猫数据框

将距离矩阵应用于多个数据帧

将功能应用于多个数据表

将lm应用于多个数据集

将MASS :: fitdistr应用于多个数据

将 lambda 函数应用于 Pandas 数据框

TOP 榜单

文章

熊猫：将Lambda应用于多个数据框

熊猫：将Lambda应用于多个数据框

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接