如何在 dask 数据框中使用级别值进行索引？

艾斯布伦纳

从对数据集初始值的过滤步骤开始，我有一个更大数据集的索引子集，格式为

indices = pandas_DataFrame_of_initial_values[my_subset].index.get_level_values(0)

这些索引的形式是

Int64Index([...], dtype='int64', name='id', length=N)

有了这个，我喜欢使用索引来减少使用 Dask 的大数据集，给定数据集

from dask import dataframe as dd
ddf = dd.read_csv(path_to_data).set_index("id")

我试过了

ddf.loc[indices]
# ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

和

ddf[ddf.index.isin(indices)]
# NotImplementedError: dask.array<isin, shape=(nan,), dtype=bool, chunksize=(nan,), chunktype=numpy.ndarray>

和

ddf[ddf.index.isin(indices.compute())]
# ValueError: Item wrong length 236644 instead of 0.

如何在更大的数据集上实际使用索引的子集？

艾斯布伦纳

我刚刚发现该Int64index类型有一个to_list方法，并且具有该loc属性的选择有效：

ddf.loc[indices.to_list()].compute()

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-18

我来说两句

0 条评论

登录后参与评论

上一篇：由于数组（Vue + Vuetify <v-data-table>），搜索不起作用

如何在dask数据框中使用等级函数？

如何在Dask中使用InfiniBand网络？

如何重命名Dask数据框的索引

如何复制Dask数据框？

如何在rpy2中使用Dask Delayed？

如何在Numpy Busday_count中使用Dask DataFrame？

如何在自定义类中使用Dask

如何在数据透视表之后对Dask中的索引进行排序

如何在Dask DataFrame中创建唯一索引？

从CSV读取时，如何在Dask中添加索引列？

如何在Dask中进行行处理和项目分配

如何在Dask中进行分组过滤

如何在Dask Dataframe上估算列值？

Dask数据框的值

如何在列上使用dask groupby分隔文件

如何使用dask映射列

如何使用Dask对模具进行编程

如何使用dask快速访问数据子集？

如何在Dask中重置串联数据帧上的索引

如何在dask数据框中添加列以反映日期值（来自列）是否为假期成员

如何在dask数据框中删除带有nan单元格的行？

如何在 Dask 数据框中选择一组列？

如何将Dask数据框作为输入传递给dask-ml模型？

如何在熊猫数据框中使用已知索引在特定行中进行迭代？

如何在dask_cudf和cudf中使用tqdm进度条

如何更改dask数据框中的列的数据类型？

Dask数据框如何处理大于内存的数据集？

如何使用 dask 拆分大型 .csv 文件？

如何正确使用 dask.delayed

TOP 榜单

文章

如何在 dask 数据框中使用级别值进行索引？

如何在 dask 数据框中使用级别值进行索引？

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成