如何从sequenceFile创建Spark DataFrame

Nish 发表于 Dev

nish

我正在使用Spark 1.5。我想dataframe从HDFS中的文件创建一个。HDFS文件包含json具有序列输入文件格式的大量字段的数据。

有没有办法在Java中优雅地做到这一点？我事先不知道json的结构/字段。

我可以将序列文件中的输入作为RDD如下所示：

JavaPairRDD<LongWritable,BytesWritable> inputRDD = jsc.sequenceFile("s3n://key_id:secret_key@file/path", LongWritable.class, BytesWritable.class);
JavaRDD<String> events = inputRDD.map(
    new Function<Tuple2<LongWritable,BytesWritable>, String>() {
        public String call(Tuple2<LongWritable,BytesWritable> tuple) {
            return Text.decode(tuple._2.getBytes());
        }
    }
);

如何从该RDD创建数据框？

nish

我对序列文件中的json数据执行了以下操作：

    JavaRDD<String> events = inputRDD.map(
    new Function<Tuple2<LongWritable,BytesWritable>, String>() {
        public String call(Tuple2<LongWritable,BytesWritable> tuple) throws JSONException, UnsupportedEncodingException {
            String valueAsString = new String(tuple._2.getBytes(), "UTF-8");
            JSONObject data = new JSONObject(valueAsString);
            JSONObject payload = new JSONObject(data.getString("payload"));
            String atlas_ts = "";
            return payload.toString();
        }
    }
    );

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。