使用Spark从大型hdfs目录中读取几行的最快方法是什么?

艾·乔斯

我的目标是从大hdfs目录中读取几行,我正在使用spark2.2。
该目录是由先前的spark作业生成的,每个任务在目录中生成了一个小文件,因此整个目录大小约为1GB,并包含数千个小文件。
当我使用collect()或head()或limit()时,spark会加载所有文件,并创建数千个任务(在sparkUI中进行监视),这会花费很多时间,甚至我只想显示前几行该目录中的文件。
那么,读取该目录的最快方法是什么?我希望最好的解决方案是仅加载几行数据,这样可以节省时间。
以下是我的代码:
sparkSession.sqlContext.read.format("csv").option("header","true").option("inferschema","true").load(file).limit(20).toJSON.toString()

sparkSession.sql(s"select * from $file").head(100).toString sparkSession.sql(s"select * from $file").limit(100).toString

斯拉沙达

如果您直接想要使用spark,则它将继续加载文件,然后进行记录。因此,即使在使用Spark逻辑之前,也必须首先使用ur技术(例如java或scala或python)从目录中获取一个文件名,然后将该文件名传递给不会加载所有文件的Text File方法。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在Java中扫描大型文件的最快方法是什么?

用Java从System.in中读取的最快方法是什么?

读取.net中的串行端口最快的方法是什么?

从网址读取图像的最快方法是什么?

什么是删除包含数千个文件的大型目录的最佳和最快方法(在ubuntu中)

在python 2.7中保存/加载大型列表的最快方法是什么?

在笔记本中上传大型csv文件以使用python pandas的最快方法是什么?

在目录中(Linux),对目录中的大量文件进行计数的最快/最简单的方法是什么?

用Python解析大型XML文档的最快方法是什么?

Pandas:搜索大型数据帧的最快方法是什么

处理大型 .asc 文件的最快方法是什么?

hadoop hdfs中的/ tmp目录是什么?

在Python中检查目录是否为空的最快方法是什么

在TensorFlow中读取jpeg图像列表并将其转换为TFRecords的最快方法是什么?

在 julia 中读取和写入 Float64 矩阵的最快方法是什么

Cython:从类型化的memoryview数组中读取值的最快方法是什么?

使用C ++从文件读取时,切换字节序的最快方法是什么?

在 postgresql 中使用 st_contains 在几何上连接两个大型 postgresql 表的最快方法是什么?

.gitignore 目录的最快方法是什么:带或不带斜杠和 **?

从头到尾读取文件的最快方法是什么?

从Redis读取多个哈希的最快方法是什么?

读取/过滤文本文件的最快方法是什么

使用NodeJS在大文件中合并几行或几句话的最佳方法是什么?

在python或spark中获取大数据的缺失值的最快方法是什么?

使用 Apache Spark 获得大量时间范围的最快方法是什么?

如何使用熊猫读取大型CSV文件中的几行内容?

使用Java读取大型excel文件的最佳API是什么?

从大型点数据集中计算附近点的最快方法是什么

计算具有复数的超大型矩阵的欧几里得距离的最快方法是什么?