熊猫：按值将单元格值分组到单独的列中

埃斯特·布莱克

我有一个带有多个偏移量列的pandas DataFrame：

        0       1       2       3        4         5          6
0  532201  577834  577837  839786  1003273       NaN        NaN
1  577834  577837  649835  839786  1003273       NaN        NaN
2  577834  577837  649835  839786  1003273       NaN        NaN
3  577834  577837  649839  649845   839785  839786.0  1003273.0
4  577834  577837  649839  839786  1003273       NaN        NaN
5  577834  577837  649839  839786  1003273       NaN        NaN
6  577834  577837  649839  839786  1003273       NaN        NaN

在缺失的位置插入NaN，-1或其他值时，是否可以通过单元格的值对列进行有效的分组/排序？

输出：

        0       1       2       3       4       5       6       7        8
0  532201  577834  577837     NaN     NaN     NaN     NaN  839786  1003273
1     NaN  577834  577837  649835     NaN     NaN     NaN  839786  1003273
2     NaN  577834  577837  649835     NaN     NaN     NaN  839786  1003273
3     NaN  577834  577837     NaN  649839  649845  839785  839786  1003273
4     NaN  577834  577837     NaN  649839     NaN     NaN  839786  1003273
5     NaN  577834  577837     NaN  649839     NaN     NaN  839786  1003273
6     NaN  577834  577837     NaN  649839     NaN     NaN  839786  1003273

列不需要以任何特定的方式进行排序，我只是想为上述每个值创建时间线图。

例如

.
.
.
649839       ======== 
577837  ================================
577834  ================================
532201  ===
         0    1    2    3    4    5    6

洛兹

您可以使用假人。stack，创建虚拟变量，并用于max在行中任何位置创建存在指标。

df1 = pd.get_dummies(df.stack().astype('int64')).max(level=0)

   532201   577834   577837   649835   649839   649845   839785   839786   1003273
0        1        1        1        0        0        0        0        1        1
1        0        1        1        1        0        0        0        1        1
2        0        1        1        1        0        0        0        1        1
3        0        1        1        0        1        1        1        1        1
4        0        1        1        0        1        0        0        1        1
5        0        1        1        0        1        0        0        1        1
6        0        1        1        0        1        0        0        1        1

如果要创建类似该图的内容，可以为每个列将虚拟变量乘以不同的常量（因此，它们在绘制时会偏移），将0替换为NaN，然后针对DataFrame的RangeIndex进行绘制。您可以使用图例来标记线条，也可以使用yticks和标签，因此列标签在y轴上。

import matplotlib.pyplot as plt
import numpy as np

fig, ax = plt.subplots(figsize=(4, 4))

(df1.mul(np.arange(1, df1.shape[1]+1)).replace(0, np.NaN)
    .plot(ax=ax, marker='o', legend=False))

plt.yticks(np.arange(1, df1.shape[1]+1, 1))
ax.set_yticklabels(df1.columns)
plt.show()

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-02-13

我来说两句

0 条评论

登录后参与评论

上一篇：Python，range（），双循环，

将索引值复制到大熊猫中单元格值非零的列

根据另一列的值将矩阵的一列元素分组到单元格数组中

熊猫：按值将单元格值分组到单独的列中

熊猫：按值将单元格值分组到单独的列中

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException