我正在尝试读取我的hdfs中的文件。这是我的hadoop文件结构的展示。
hduser@GVM:/usr/local/spark/bin$ hadoop fs -ls -R /
drwxr-xr-x - hduser supergroup 0 2016-03-06 17:28 /inputFiles
drwxr-xr-x - hduser supergroup 0 2016-03-06 17:31 /inputFiles/CountOfMonteCristo
-rw-r--r-- 1 hduser supergroup 2685300 2016-03-06 17:31 /inputFiles/CountOfMonteCristo/BookText.txt
这是我的pyspark代码:
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("myFirstApp").setMaster("local")
sc = SparkContext(conf=conf)
textFile = sc.textFile("hdfs://inputFiles/CountOfMonteCristo/BookText.txt")
textFile.first()
我得到的错误是:
Py4JJavaError: An error occurred while calling o64.partitions.
: java.lang.IllegalArgumentException: java.net.UnknownHostException: inputFiles
这是因为我未正确设置sparkContext吗?我正在通过虚拟机在ubuntu 14.04虚拟机中运行它。
我不确定我在做什么错...
如果未提供配置,则可以通过完整路径访问HDFS文件。(如果hdfs位于本地环境中,则namenodehost是您的本地主机)。
hdfs://namenodehost/inputFiles/CountOfMonteCristo/BookText.txt
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句