我想定义 5 个词,并想根据这 17 个词过滤我的数据集,并计算出现次数。认为,
words = ['dog', 'cat','tiger','lion','cheetah']
我有一个文本文件,其中包含超过 2000 行的句子。我想搜索我的文本文件,并返回出现次数。
我在互联网上搜索并找到了一些代码,例如,
val filePath = sc.text_file("/user/cloudera/input/Hin*/datafile.txt")
val crimecounts =
filePath.
flatMap(line=>line.split(" ")).
filter(w => (w =="dog") || (w == "lion")).
map(word=>(word, 1)).
reduceByKey(_ + _)
此代码为“lion”返回错误的计数。令人惊讶的是,只返回了“狮子”的计数。我已经分别使用 Python 代码检查了计数值的正确性。如何更正代码以返回所有 5 个单词的正确计数。数据子集如下,
那是一个炎热的夏日。一头狮子和一头野猪来到一个小水体喝水。狮子和野猪开始争论谁应该先喝酒。过了一会儿,当他们注意到上面有秃鹰时,他们累了,停下来喘口气。很快,他们意识到秃鹫正在等待它们中的一个或两个倒下,以享用它们。狮子和野猪于是决定,与其打架成为秃鹰的食物,还不如和好成为朋友。狮子和野猪一起喝水,然后各奔东西。
我是 Spark 的新手。任何人都可以在这方面帮助我吗?
你的代码有很多错误。该阵列创建部分似乎是在pyspark但代码的其他人看起来是在斯卡拉。并且sparkContext实例没有text_file api。
pyspark 的解决方案:
words = ['dog', 'cat','tiger','lion','cheetah']
filePath = sc.textFile("/user/cloudera/input/Hin*/datafile.txt")
from operator import add
crimecounts = filePath.flatMap(lambda line: line.split(" ")).filter(lambda w: w.lower() in words).map(lambda word: (word, 1)).reduceByKey(add)
Scala 的解决方案:
val words = Array("dog","cat","tiger","lion","cheetah")
val filePath = sc.textFile("/user/cloudera/input/Hin*/datafile.txt")
val crimecounts = filePath.flatMap(line => line.split(" ")).filter(w => words.contains(w.toLowerCase)).map(word => (word, 1)).reduceByKey(_ + _)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句