从pyspark读取hdfs中的文件

用户名

我正在尝试读取我的hdfs中的文件。这是我的hadoop文件结构的展示。

hduser@GVM:/usr/local/spark/bin$ hadoop fs -ls -R /
drwxr-xr-x   - hduser supergroup          0 2016-03-06 17:28 /inputFiles
drwxr-xr-x   - hduser supergroup          0 2016-03-06 17:31 /inputFiles/CountOfMonteCristo
-rw-r--r--   1 hduser supergroup    2685300 2016-03-06 17:31 /inputFiles/CountOfMonteCristo/BookText.txt

这是我的pyspark代码：

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("myFirstApp").setMaster("local")
sc = SparkContext(conf=conf)

textFile = sc.textFile("hdfs://inputFiles/CountOfMonteCristo/BookText.txt")
textFile.first()

我得到的错误是：

Py4JJavaError: An error occurred while calling o64.partitions.
: java.lang.IllegalArgumentException: java.net.UnknownHostException: inputFiles

这是因为我未正确设置sparkContext吗？我正在通过虚拟机在ubuntu 14.04虚拟机中运行它。

我不确定我在做什么错...

Shawn Guo

如果未提供配置，则可以通过完整路径访问HDFS文件。（如果hdfs位于本地环境中，则namenodehost是您的本地主机）。

hdfs://namenodehost/inputFiles/CountOfMonteCristo/BookText.txt

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-1

我来说两句

0 条评论

登录后参与评论

上一篇：何时在2D动画中通过SwingTimer使用Thread.sleep

在pyspark中读取TSV文件

在pyspark中读取json文件

在 PySpark 中读取 XML 文件

读取pySpark中的文件范围

Pyspark中的HDFS文件存在检查

从hdfs目录遍历pyspark中的文件

HDFS中的Pyspark重命名文件

Pyspark：使用configParser读取HDFS上的属性文件

读取HDFS文件分割

无法从HDFS读取文件

直接从HDFS读取文件

在 pySpark (2.3) 中读取本地 csv 文件

在pyspark中读取Excel（.xlsx）文件

在pyspark中读取嵌套的JSON文件

如何使用Spark快速从map（）中的HDFS中读取文件

Pyspark：hdfs 中没有这样的文件或目录

如何打开存储在HDFS中pySpark采用开放文件

如何在Spark中读取HDFS序列文件

在Spark中从HDFS或S3读取边缘DB文件

在Kerberized集群的Spark应用程序中读取HDFS文件

在 Scala/Spark 中从 HDFS 读取文本文件

Python HDFS：无法读取文件

PySpark HDFS数据流读取/写入

从文件中读取查询列表并在 pyspark 中执行它们

Spark仅在HDFS中读取

如何在Pyspark中读取多行CSV文件

在 Pyspark 中动态读取 Hive 表分区文件

在pyspark2中读取文本文件

PySpark在文本文件中读取为密集向量

TOP 榜单

文章

从pyspark读取hdfs中的文件

从pyspark读取hdfs中的文件

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath