“如何读取大型 CSV 的一部分或通过任何步骤读取它”

沙沙瓦尔丹

我有一个非常大的数据集,有 125497040 行和 6 列。当我尝试在 Pandas 中读取整个 CSV 文件时,我的系统崩溃了,因此我分块读取文件。

我想知道有没有办法通过分块读取来可视化整个数据?

马克斯·维诺格拉多夫

我认为一次可视化所有数据并不是一个好主意,因为我们无法在一张小图表中看到所有图表点。您可以使用任何平滑或/和近似算法,或者只用某个步骤取一个点。您可以在图表缩放中详细说明这一点。

看看Plotly https://plot.ly/javascript/zoom-events/

如果这对您来说是一种令人满意的方法,那么值得将问题重新表述为例如“如何读取大型 CSV 的一部分或通过任何步骤读取它”。看来,这个问题可以用这个来解决:

http://pandas-docs.github.io/pandas-docs-travis/io.html#iterating-through-files-chunk-by-chunk

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章