我正在Databrick的云中运行Spark 1.4。我将文件加载到S3实例中并进行了安装。安装成功。但是我在创建RDD时遇到了麻烦:
dbutils.fs.mount("s3n://%s:%s@%s" % (ACCESS_KEY, SECRET_KEY, AWS_BUCKET_NAME), "/mnt/%s" % MOUNT_NAME)
有任何想法吗?
sc.parallelize([1,2,3])
rdd = sc.textFiles("/mnt/GDELT_2014_EVENTS/GDELT_2014.csv")
将数据装入dbfs方面的工作非常出色,这看起来很棒,而且看起来像是打字错误。我怀疑您想使用sc.textFile
而不是sc.textFiles
。祝您在Spark旅途中一切顺利。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句