如何使用熊猫按小于 4 的差值对项目进行分组

Guido 发表于 Dev

圭多

我想知道如何创建按其差异 <=4 分组的项目类，因此 1,2,3,4,5 将被分组为 1, 9-13 到 9 ... 然后选择最小/最大值属性 y，以一种高效/简单的方式：

items= [('x', [ 1,2,3,3,3,5,9,10,11,13]), ('y', [1,1,1,1,1,4,4,1,1,1])]

In[3]: pd.DataFrame.from_items(items) Out[3]: x y 0 1 1 1 2 1 2 3 1 3 3 1 4 3 1 5 5 4 6 9 5 7 10 1 8 11 1 9 13 1

所以我期望的结果是：

xclass ymax ymin 1 4 1 9 5 1 我在没有大熊猫的情况下进行了迭代，但我想用大熊猫测试性能。

大卫戴尔

此类操作通常分两步完成：

创建一个键来分组。
使用 groupby 计算汇总统计信息。

我假设您已将数据框df定义为

df = pd.DataFrame.from_items([('x', [ 1,2,3,3,3,5,9,10,11,13]), 
    ('y', [1,1,1,1,1,4,4,1,1,1])])

在您的问题中，第一步没有很好地定义。如果数据密集，如何在组之间绘制边界？例如，如果您有，您想对组做df['x'] = [ 1,2,3,3,5,7,9,10,11,13]什么？

最简单的想法是四舍五入x到您想要的精度。这确保组中任何整数之间的距离不超过 4。但是组将被放置而没有间隙：1-5 到 5、6-10 到 10、11-15 到 15 等。

def custom_round(x, precision, offset):
    return ((x-offset) // precision) * precision + offset
df['xclass'] = custom_round(df['x'], 5, 1)

另一个想法是拥有足够密集的组：如果两个组之间的最小距离小于阈值，则可以合并两个组。这种算法可以产生由大于阈值的间隙划分的大组。它可以用 DBSCAN 聚类算法来实现。要拥有您想要的组，您可以将阈值距离设置为 3（因为 5 和 9 之间的距离已经是 4）：

from sklearn.cluster import DBSCAN
def cluster(x, threshold):
    labels = DBSCAN(eps=3, min_samples=1).fit(np.array(x)[:, np.newaxis]).labels_ 
    return x.groupby(labels).transform(min)
df['xclass'] = cluster(df['x'], 3)

第二步很简单：拥有df包含列xclass和的数据框y，调用：

df.groupby('xclass')['y'].aggregate([min, max]).reset_index()

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-16

我来说两句

0 条评论

登录后参与评论

如何使用熊猫按小于 4 的差值对项目进行分组

如何使用熊猫按小于 4 的差值对项目进行分组

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID