Spark / Hadoop在AWS EMR上找不到文件

Nmd神秘

我正在尝试使用python spark库读取Amazon EMR上的文本文件。该文件位于主目录（/ home / hadoop / wet0）中，但是spark似乎找不到它。

有问题的行：

lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])

错误：

pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'

该文件必须在特定目录中吗？我在AWS网站上的任何地方都找不到有关此信息。

炖

如果它在本地文件系统中，则URL应为file：// user / hadoop / wet0。如果在HDFS中，则该URL应为有效路径。使用hadoop fs命令看一下

例如：hadoop fs -ls / home / hadoop

有人认为，您说它位于“ / home / hadoop”中，但错误路径为“ / user / hadoop”。请确保您使用的不是〜在命令行，如bash将做扩张火花看到它之前。最好使用完整路径/ home / hadoop

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-4

我来说两句

0 条评论

登录后参与评论

上一篇：UI / GUI测试，功能测试和E2E测试之间有什么区别？

Spark/Hadoop can't find file on AWS EMR

AWS EMR上的Spark UI

AWS EMR Spark集群-使用Scala fat JAR的步骤，找不到MainClass

找不到AWS EMR s3a文件系统

AWS EMR上的Spark独立模式

Spark / Hadoop在AWS S3上不支持SSE-KMS加密

未找到 AWS EMR Spark --properties-file 类 com.amazon.ws.emr.hadoop.fs.EmrFileSystem

如何从 spark2.3 访问 us-east-2 区域上的镶木地板文件（使用 hadoop aws 2.7）

AWS EMR和Spark 1.0.0

AWS EMR上的Spark 2.2.0写入Parquet会丢弃行

关于AWS EMR Spark上Jupyterhub的Livy会话

jdbc数据源负载上的AWS EMR Spark异常

AWS上的Spark集群emr无法找到spark-env.sh

在spark上找不到reduceByKey方法

SparkBWA 找不到文件 spark-submit

Hadoop配置单元无法在AWS EMR上扩展

AWS Lambda NodeJS启动EMR Spark问题

AWS EMR Spark胶水PySpark-

AWS EMR Spark Python日志记录

AWS Spark EMR Numpy 导入错误

AWS EMR中的Spark物理内存问题

AWS EMR Spark提交选项-失败

Spark / Hadoop对大型LZO文件引发异常

Spark / Hadoop无法读取根文件

Spark：找不到CoarseGrainedScheduler

在AWS EMR集群上启动spark命令行时拒绝权限

在AWS EMR集群上使用SparkLauncher时缺少SPARK_HOME

在AWS EMR上设置Spark Thrift Server以建立JBDC / ODBC连接

AWS EMR 上的 spark-submit 运行但在访问 S3 时失败

TOP 榜单

文章

Spark / Hadoop在AWS EMR上找不到文件

Spark / Hadoop在AWS EMR上找不到文件

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成