合并来自Spark，Java中元组的两个值的数据

随机蜂

我有一个包含以下数据的文件：

1231212 name1 name2

1431344名称1名称3

2342343 name3 name4

2344255 name2 name1

并且我希望我的Java程序在Spark中执行一些操作，以便输出如下：

[（name1、3），（name2、2），（name3、2），（name4、1）]

但是我仍然不确定如何使用平面和减少操作。我刚刚开始学习Spark。

我现在所拥有的是：

    List<Tuple2<String,Long>> result1 = 
            accessLogs.map(log -> new Tuple2<Long, String>(log.getTimestamp(), log.getHostname1()))
            .filter(tuple -> tuple._1() > init_time - 5)
            .filter(tuple -> tuple._1() < fin_time + 5)
            .map(e -> (new Tuple2<String, Long>(e._2, 1L)))
            .take(100);
    List<Tuple2<String, Long>> result2 = 
            accessLogs.map(log -> new Tuple2<Long, String>(log.getTimestamp(), log.getHostname2()))
            .filter(tuple -> tuple._1() > init_time - 5)
            .filter(tuple -> tuple._1() < fin_time + 5)
            .map(e -> (new Tuple2<String, Long>(e._2, 1L))) 
            .take(100);

所以我的结果是两个不同的列表，其中包含以下数据：

[（name1,1），（name1,1），（name3,1），（name2,1）]

[（name2,1），（name3,1），（name4,1），（name1,1）]

仅使用一个列表，我可以用来获得所需的结果吗？

我的想法是这样开始的：

 List<String> finalResult =
            accessLogs.map(log -> new Tuple3<Long, String, String>(log.getTimestamp(), log.getHostname1(), log.getHostname2()))
            .filter(tuple -> tuple._1() > init_time - 5)
            .filter(tuple -> tuple._1() < fin_time + 5)...

然后继续执行操作。

编辑：

现在，我有以下代码：

JavaPairRDD<String, Integer> pairs1 = accessLogs.mapToPair(new PairFunction<LogObject, String, Integer>() {
          public Tuple2<String, Integer> call(LogObject s) { return new Tuple2<String, Integer>(s.getHostname1(), 1); }
        }).reduceByKey(new Function2<Integer, Integer, Integer>() {
              public Integer call(Integer a, Integer b) { return a + b; }
        });

哪个返回

[（name1,2），（name3,1），（name2,1）]

但我仍然缺少有关如何执行此操作的部分（建议的答案）

.flatMap {case（_，key1，key2）=>列表（（key1，1），（key2，1））}

Java中，以便我可以从第二列和第三列中检索数据。

格兰妮·海尔斯·辛德霍尔特

有很多方法可以做到这一点，但是一种方法是使用，flatMap然后使用reduceByKey。我的Java技能有点生锈，所以我将其列出在Scala中-希望您能理解这一点，然后自己将其转换为Java :)

val result = accessLogs.flatMap{case(_, key1, key2) => List((key1, 1), (key2, 1))}.reduceByKey(_+_)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-13

我来说两句

0 条评论

登录后参与评论

上一篇：编写Haskell函数以计算函数的n次幂？

合并来自Spark，Java中元组的两个值的数据

合并来自Spark，Java中元组的两个值的数据

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID