有没有一种快速的方法来查询带有pytables的巨大hdf5表中的不同列值?

dts

我有一个巨大的hdf5文件,它由一个表,26列,大约30亿行组成(无法容纳在内存中)。我做了很多Google搜索,却找不到一种快速的方法来查询一列或一组列的不同值。有没有比遍历所有行和构建列表更快的方法?

kcw78

这显示了如何从Pytables表中提取一列数据到Numpy数组,然后使用Numpynp.unique()方法仅获取一个新的唯一值数组。还可以选择获取唯一值数组以及每个值的计数。

mytable = h5_file.root.YOUR_DATASET

Col1_array = mytable.col('Col1')
# above statement is equivalent to:
Col1_array = mytable.read(field='Col1')

# get array of unique values:
uarray = np.unique(Col1_array)

# if you also want an array of counts for each unique value:
uarray, carray = np.unique(Col1_array, return_counts=True)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

有没有一种快速的方法来替换 R 中的列值?

有没有一种更快的方法来搜索表中的值?

有没有一种方法可以将指定的表快速提取到另一个HDF5文件中?

有没有一种快速的方法来绘制Scilab中的多个图

有没有一种快速的方法来清除工作表中的大量数据?

有没有一种快速的方法来获取数组中的整个布尔值?

有没有一种快速的方法来计算多列乘法的结果,但根据NA值的比例不同?

有没有一种方法来检查jOOQ查询绑定值?

有没有一种快速的方法来从VBA中的Range获取列字母?

有没有一种快速的方法来添加带有子链接的工作项?

有没有一种快速的方法来获取列表中的所有邻居元素?

有没有一种快速的方法来在Python中生成字母的字典?

有没有一种快速而肮脏的方法来截断水线集合?

有没有一种快速的方法来更新嵌套字典中具有特定值的一组键?

有没有一种快速的方法来识别String或TextView中的HTML ASCII代码?

有没有一种快速的方法来获取spaCy中每个句子的标记?

有没有一种快速的方法来遍历和删除Pandas数据框中的特定行?

有没有一种快速的方法来对TFS中即将发生的更改进行锁定检查?

有没有一种快速的方法来删除glibc中的malloc / free / memalign / realloc挂钩?

有没有一种快速的方法来随机播放段中的numpy图像?

有没有一种简单的方法来取消交叉表查询?(规范化)

有没有一种简单的方法来增加 Map 对象值的值?

有没有一种有效的方法来从字典中检索值

有没有一种通用的方法来替换具有不同程度嵌套级别的嵌套字典中的值?

有没有一种通用的方法来更新Laravel中的两个联接表?

有没有一种更快的方法来对多列中的值进行计数,而排除同一行中的重复值呢?

有没有一种自动的方法来记忆Haskell中的全局多态值?

有没有一种标准的方法来获取C ++中的第n个“ nextafter”浮点值

有没有一种简单的方法来获取Java中的多个随机值?