快速解析大型CSV文件

重新路由

在过去的一周中，我一直在牢牢掌握python的知识，最后终于有了一些工作，但是可以使用一些帮助来加快它的运行速度

该功能从车辆CAN总线上注销.CSV，并将其简化为与一组消息ID和遇到的消息ID匹配的记录列表。

文件是500,000行到50,000,000行。目前，我的笔记本电脑每行大约需要3.2uS。

CSV文件行如下所示：

Time [s],Packet,Type,Identifier,Control,Data,CRC,ACK
0.210436250000000,0,DATA,0x0CFAE621,0x8,0x02 0x50 0x00 0x00 0x04 0x01 0x00 0x29,0x19A8,NAK
...
...
52.936353750000002,15810,DATA,0x18FC07F4,0x8,0xF0 0x09 0x00 0x00 0xCE 0x03 0x92 0x20,0x0C47,ACK

因此，第4个条目“ 0x0CFAE621”是消息ID，第6个条目“ 0xF0 0x09 0x00 0x00 0xCE 0x03 0x92 0x20”是数据

这用0x00FFFF00掩盖，如果匹配保存为[0xFAE600，'F0'，'09'，'00'，'00'，'CE'，'03'，'92'，'20']，尽管理想情况下我会想要在此时将所有数据转换为int，用int（）包裹每个数据似乎很慢（当时我想我可以通过dict进行十六进制-Int转换来改善它，但是我不确定如何要做到这一点）

len（）和if树是因为消息数据可以为8条记录为空，所以我再次觉得可能有更好的方法来完成此操作。

from tkinter import filedialog
from tkinter import Tk
import timeit

Tk().withdraw()
filename = filedialog.askopenfile(title="Select .csv log file", filetypes=(("CSV files", "*.csv"), ("all files", "*.*")))

if not filename:
    print("No File Selected")
else:
    CanIdentifiers = set()
    CanRecordData = []
    IdentifierList = {0x00F00100,0x00F00400,0x00FC0800,0x00FE4000,0x00FE4E00,0x00FE5A00,0x00FE6E00,0x00FEC100,0x00FEC300,0x00FECA00,0x00FEF100}
    mask = 0x00FFFF00
    loopcount = 0
    error = 0
    csvtype = 0

    start_time = timeit.default_timer()

    for line in filename.readlines():
        message = line.split(',')

        if csvtype == 1:
            if message[2] == "DATA":
                messageidentifier = int(message[3], 16) & mask
                if messageidentifier not in CanIdentifiers:
                    CanIdentifiers.add(messageidentifier)
                if messageidentifier in IdentifierList:
                    messagedata = message[5].split("0x")
                    size1 = len(messagedata)
                    if size1 == 2:
                        CanRecordData.append((messageidentifier, messagedata[1]))
                    if size1 == 3:
                        CanRecordData.append((messageidentifier, messagedata[1], messagedata[2]))
                    if size1 == 4:
                        CanRecordData.append((messageidentifier, messagedata[1], messagedata[2], messagedata[3]))
                    if size1 == 5:
                        CanRecordData.append((messageidentifier, messagedata[1], messagedata[2], messagedata[3], messagedata[4]))
                    if size1 == 6:
                        CanRecordData.append((messageidentifier, messagedata[1], messagedata[2], messagedata[3], messagedata[4], messagedata[5]))
                    if size1 == 7:
                        CanRecordData.append((messageidentifier, messagedata[1], messagedata[2], messagedata[3], messagedata[4], messagedata[5], messagedata[6]))
                    if size1 == 8:
                        CanRecordData.append((messageidentifier, messagedata[1], messagedata[2], messagedata[3], messagedata[4], messagedata[5], messagedata[6], messagedata[7]))
                    if size1 == 9:
                        CanRecordData.append((messageidentifier, messagedata[1], messagedata[2], messagedata[3], messagedata[4], messagedata[5], messagedata[6], messagedata[7], messagedata[8]))

        if csvtype == 0:
            if message[0] == "Time [s]":
                csvtype = 1
            error += 1
            if error == 50:
                break
        loopcount += 1

    readtime = (timeit.default_timer() - start_time) * 1000000
    print(loopcount, "Records Processed at", readtime/loopcount, "uS per Record")

约翰·兹温克

熊猫read_csv()会给你一个DataFrame：

    Time [s]  Packet  Type  Identifier Control                                     Data     CRC  ACK
0   0.210436       0  DATA  0x0CFAE621     0x8  0x02 0x50 0x00 0x00 0x04 0x01 0x00 0x29  0x19A8  NAK
1  52.936354   15810  DATA  0x18FC07F4     0x8  0xF0 0x09 0x00 0x00 0xCE 0x03 0x92 0x20  0x0C47  ACK

然后，根据需要拆分数据字节：

import pandas as pd
df = pd.read_csv('t.csv')
df.Data.str.split(expand=True)

这给你：

      0     1     2     3     4     5     6     7
0  0x02  0x50  0x00  0x00  0x04  0x01  0x00  0x29
1  0xF0  0x09  0x00  0x00  0xCE  0x03  0x92  0x20

这将比Python循环快得多，而且存储也将更加紧凑-特别是如果您将十六进制数字解析为实际整数：将pandas dataframe列从十六进制字符串转换为int

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-24

我来说两句

0 条评论

登录后参与评论

上一篇：如何避免将结果添加到列表的多个if语句

快速解析CSV文件

快速合并多个大型 csv 文件

如何快速处理大型csv文件？

解析大型csv文件时，jQuery崩溃

解析多个大型XML文件并写入CSV

快速从大型CSV文件中提取大块行

将大型csv文件解析为tinydb需要永远

Python-减少大型CSV文件的导入和解析时间

在 ruby 中解析大型 CSV 文件的最佳方法

解析大型xml文件

导入大型CSV文件

快速CSV解析

从API快速解析CSV文件不与定界符分开

将大型 csv 快速转换为 geojson

解析大型JSON文件（Python）

如何快速加载大型Pdf文件？

导入大型CSV文件春天

使用go和app引擎的数据存储导入和解析大型CSV文件

如何以对未封闭的双引号字符健壮的方式解析大型CSV文件？

如何快速解析JSON文件？

处理大型CSV文件的文件夹

如何解析大型XML文件

大型文件的Java XML解析器

Python中的大型XML文件解析

加速pyspark解析大型嵌套json文件

在.NET中解析大型JSON文件

解析大型文件的有效方法

如何快速将大型txt文件加载到BigInteger？

快速在大型文本文件中找到图案？

TOP 榜单

文章

快速解析大型CSV文件

快速解析大型CSV文件

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序