解析大文件的替代解决方案

RAGA 发表于 Dev

拉加

我有两个文件input1.csv和input2.csv，它们的大小很大。

input1.csv具有三列A，B和C（B在此文件中是唯一的）。

input2.csv具有2列B和C。

我想检查在input2.csv文件中每次出现B的次数。

我已经实现了通过将input1.csv文件中的值B存储在arraylist中并使用哈希图将key作为B的值并将value作为B在input2.csv文件中的出现的方法。这种逻辑工作正常，但是当文件大小增加时执行时间也会增加。此外，还已经完成了main方法本身中的代码。还有其他逻辑可以解决这个问题吗？？？既然我是java的新手，那么有人可以为我提供一种很好的设计模式来解决这个问题吗？

程序：

    import java.io.*;
    import java.util.*;
    public class Demo {
    public static void main(String[] args) throws IOException{
        BufferedReader reader = null;
        String encoding = "UTF-8";
        String comma = ",";
        Map<String,Integer> hashMap = new HashMap<>();
        ArrayList<String>  arrayList = new ArrayList<String>();

        reader = new BufferedReader(new InputStreamReader(new FileInputStream("input1.csv"), encoding));
        for (String line; (line = reader.readLine()) != null;) {
            String val = line.split(comma)[1];
            arrayList.add(val); //Value to be later used
            hashMap.put(val,0);
        }
            reader.close();
        reader = new BufferedReader(new InputStreamReader(new FileInputStream("input2.csv"), encoding));
        for (String line; (line = reader.readLine()) != null;) {
            String val = line.substring(0,line.indexOf(","));
            if(hashMap.get(val) !=null) {
                hashMap.put(val, hashMap.get(val) + 1);
            }
        }
        reader.close();
        printMap(hashMap);    
    }
    public static void printMap(Map mp) {
        Iterator it = mp.entrySet().iterator();
        while (it.hasNext()) {
            Map.Entry pair = (Map.Entry)it.next();
            System.out.println(pair.getKey() + " = " + pair.getValue());
            it.remove(); // avoids a ConcurrentModificationException
        }
    }
}

Lexicore

您的代码或多或少都可以。我不认为您可以做得更好。

一些评论：

您实际上从未使用过arrayList。如果您确实需要检查第二个文件中的值是否存在于第一个文件中，则应创建一个has set并检查contains--但仅当遇到新值时才进行检查。
您多次访问地图（hashMap.get(val)，然后hashMap.put(val, hashMap.get(val) + 1)）。仅保存hashMap.get(val)在变量中将删除其中一个访问。
使用可变AtomicInteger值。你可能避免hashMap.put只由incrementAndGet该值。
有了AtomicInteger你就可以了hashMap.putIfAbsent(value, new AtomicInteger(0)).incrementAndGet()。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-05-27

我来说两句

0 条评论

登录后参与评论

上一篇：在Windows的anaconda 4.3中，使用python 3.6（64位）的Argparse安装失败

Java“ scheduleAtFixedRate”替代解决方案？

返回结果并引发异常替代解决方案

解析大文件的替代解决方案

解析大文件的替代解决方案

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID