快速查看Python Pandas相关矩阵条目的常见观察计数的方法

ely 发表于 Dev

伊利

假设我有一个pandas.DataFrame叫df。的列df代表不同的个体，索引轴代表时间，因此（i，j）项是个体j对时间段i的观察，并且我们可以假定所有数据都是float可能带有NaN值的类型。

就我而言，我有大约14,000列和几百行。

pandas.corr 会把14,000 x 14,000的相关矩阵还给我，并且时间性能对我的应用程序来说很好。

但是我还想知道，对于每对个体（j_1，j_2），有多少非空观测值进入了相关性计算，因此我可以隔离遭受数据覆盖率差的相关单元。

我能想到的最好的方法如下：

not_null_locations = pandas.notnull(df).values.astype(int)
common_obs = pandas.DataFrame(not_null_locations.T.dot(not_null_locations),
                              columns=df.columns, index=df.columns)

内存占用量和速度开始出现问题。

有没有更快的方法来获得常见的观察结果pandas？

杰夫

您可以执行此操作，但需要进行Cythonize（否则速度会慢得多）；但是，内存占用应该更好（这给出了nan观测值的数量，您给出了有效观测值的数量，但是很容易转换）

l = len(df.columns)
results = np.zeros((l,l))
mask = pd.isnull(df)
for i, ac in enumerate(df):
    for j, bc in enumerate(df):
           results[j,i] = (mask[i] & mask[j]).sum()
results = DataFrame(results,index=df.columns,columns=df.columns)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-6

我来说两句

0 条评论

登录后参与评论

上一篇：Android可以发出对我们的本机C代码的调用吗？

快速查看Python Pandas相关矩阵条目的常见观察计数的方法

快速查看Python Pandas相关矩阵条目的常见观察计数的方法

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成