使用條件對數據框進行分區

塞巴茲44

我有一個看起來像這樣的數據框

       vid   sid   pid  ts
1      101    123  ...
2      102    125
3      102    125
4      102    125

本質上vid是一個訪問者id並且sid是一個會話 ID

我正在嘗試將長度約為 170 萬行的 df 分區為長度約為 100k 的較小數據幀。

for i in range(0, len(df), s):
    sdf = df.iloc[i:i+s]

不過，我不希望切片數據框在一個會話（所以其中一個切片部分最後一行是不是最後的中間。

例如，下面將是一個問題，因為它對會話 idsid仍在發生的數據幀進行切片

         vid   sid   pid  ts
99999    101    144  ...
99999    102    145
100000   102    145
--------------------------
100001   102    145

我正在尋找某種方法來做到這一點，如果切斷發生在sids切斷的地方，只需推動切斷直到 sid 不再相同，例如

for i in range(0, len(df), s):
    if i['sid'][-1] != (i+1)['sid']:
        sdf = df.iloc[i:i+s]
    else:
      # check until sessions are no longer equal

毛

您可以使用DASK為

import dask.dataframe as dd
ddf = dd.from_pandas(df.set_index('sid'), npartitions=17).reset_index()

請注意，分區數並未強制為始終為17。dask 可能會決定以不同方式進行分區以將索引保留在一個分區中 - 這正是您想要的。或者，您也可以指定我認為的行數或行數。

然後你可以用類似的東西來獲取分區

ddf.get_partition(3).compute()

或者直接使用 dask 進行分佈式計算，因為這就是它的目的。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-10-30

我来说两句

0 条评论

登录后参与评论

上一篇：gdb中的Waitpid未知返回類型

使用條件對數據框進行分區

使用條件對數據框進行分區

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID