我有一个非常大的数据集,有 125497040 行和 6 列。当我尝试在 Pandas 中读取整个 CSV 文件时,我的系统崩溃了,因此我分块读取文件。
我想知道有没有办法通过分块读取来可视化整个数据?
我认为一次可视化所有数据并不是一个好主意,因为我们无法在一张小图表中看到所有图表点。您可以使用任何平滑或/和近似算法,或者只用某个步骤取一个点。您可以在图表缩放中详细说明这一点。
看看Plotly https://plot.ly/javascript/zoom-events/。
如果这对您来说是一种令人满意的方法,那么值得将问题重新表述为例如“如何读取大型 CSV 的一部分或通过任何步骤读取它”。看来,这个问题可以用这个来解决:
http://pandas-docs.github.io/pandas-docs-travis/io.html#iterating-through-files-chunk-by-chunk
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句