Spark / Hadoop在AWS EMR上找不到文件

Nmd神秘

我正在尝试使用python spark库读取Amazon EMR上的文本文件。该文件位于主目录(/ home / hadoop / wet0)中,但是spark似乎找不到它。

有问题的行:

lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])

错误:

pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'

该文件必须在特定目录中吗?我在AWS网站上的任何地方都找不到有关此信息。

如果它在本地文件系统中,则URL应为file:// user / hadoop / wet0。如果在HDFS中,则该URL应为有效路径。使用hadoop fs命令看一下

例如:hadoop fs -ls / home / hadoop

有人认为,您说它位于“ / home / hadoop”中,但错误路径为“ / user / hadoop”。请确保您使用的不是〜在命令行,如bash将做扩张火花看到它之前。最好使用完整路径/ home / hadoop

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章