python中二进制文件的非连续数据读取

Seong 发表于 Dev

成

我有一个二进制文件，其中包含来自传感器的时间序列。数据格式如下：

#1(t0) #2(t0) #3(t0) ... #n(t0) #1(t1) #2(t1) #3(t1) ... #n(t1) ...

一次，来自 n 个传感器的测量数据以二进制格式存储在文件中。我想重建传感器的时间序列，使得

#1(t0) #1(t1) #1(t2) ...

从#1(t0) 到#1(t1) 的距离，步幅是固定且已知的，传感器的数量也是已知的。以下代码是我的实现。我的实现试图一次获取一个数据，而不是那么快。有什么方法可以像 MPI 中的集体 io 一样提高读取非连续数据的速度？

def collect_signal(fp, channel_no, stride, dtype):
    byteSize = np.dtype(dtype).itemsize
    fp.seek(0,2) # go to the file end
    eof = fp.tell() # get the eof address
    fp.seek(0,0) # rewind

    fp.seek(0 + channel_no,0) # starting point per each channel
    signal = []
    while True:
        start = fp.tell()
        sample = np.frombuffer(fp.read(byteSize), dtype=dtype)
        signal.append(sample[0])
        if fp.tell() == eof or fp.tell() + stride > eof:
            break;
        else:
            fp.seek(start + stride, 0)

    return signal

切普纳

这个更简单的代码可能会更快。您可能还想考虑使用mmap将文件映射到进程的地址空间，这样可以绕过内核 I/O 调用层。

def collect_signal(fp, channel_no, stride, dtype):
    byte_size = np.dtype(dtype).itemsize
    fp.seek(channel_no, 0)

    # Assuming that your read will always return an entire sample
    # or an empty string.
    for sample in iter(lambda: fp.read(byte_size), ''):
        sample = np.frombuffer(sample, dtype=dtype)
        signal.append(sample[0])
        fp.seek(stride, 1)

frombuffer如果您知道有多少个频道，另一种选择可能是让您为您处理步幅。这涉及在每一步将稍微多一点的数据读入内存，但如果输入被缓冲，则您可能已经将比fp.read实际返回的数据更多的数据读入缓冲区。

    def collect_signal(fp, channel_no, stride, type):
        byte_size = np.dtype(dtype).itemsize)
        offset = channel_no * byte_size
        while True:
            sample = fp.read(byte_size * numChannels)
            if not sample:
                break
            sample = np.frombuffer(sample, dtype=dtype, count=1, offset=offset)
            signal.append(sample[0])

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-2

我来说两句

0 条评论

登录后参与评论

上一篇：Tensorflow FailedPreconditionError：尝试使用未初始化的值 beta1_power

TOP 榜单

文章

python中二进制文件的非连续数据读取

python中二进制文件的非连续数据读取

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException