我有一个大文件,我正在使用 mmap 读取它。我想在每一行上做一些操作,所以我在它上面调用了 split() ,它为每一行提供了一个迭代器:
let file = File::open("myfile").unwrap();
let mmap = unsafe { MmapOptions::new().map(&file).unwrap() };
//splitting by newline
let iter = mmap.split(|elem| elem == &b'\n');
这工作正常并且没有给我任何问题 - 运行速度非常快。
但是,当我通过迭代器时,它会跳转并且通过 for 循环所需的时间大约是读取和拆分时间的 4 倍。
此外,这不处理该行或在 for 循环内执行任何操作:
for elem in iter {
//process the line
}
由于性能是一个问题 - 我发现它设法非常快速地读取和拆分文件很奇怪,但是,当我通过迭代器时它变得非常慢。我错过了什么吗?我对 Rust 的了解也很有限,所以不确定我是否在做坏事。有什么东西可以帮助我优化它并加快访问速度?
此外,并行迭代器在我的情况下没有那么有用 - 它们添加的开销不值得。
整个文件:
use memmap::MmapOptions;
use std::fs::File;
use std::time::{Duration, Instant};
fn main() {
let now = Instant::now();
let file = File::open("myfile").unwrap();
let mmap = unsafe { MmapOptions::new().map(&file).unwrap() };
let iter = mmap.split(|elem| elem == &b'\n');
/*
for elem in iter {
//do nothing
}
*/
println!("{:?}", now.elapsed());
}
如果我取消对 for 循环的注释,它会变慢 4 倍。我正在使用 --release 标签进行构建,因此这不是问题。
当取消对 for 循环的注释时,代码看起来很慢,因为它不会做任何其他事情。迭代器是惰性的,只在消耗时执行一些活动。
在 Rust 中,迭代器是惰性的,这意味着它们在您调用消耗迭代器的方法以使用它之前不会产生任何影响。[...] 调用
next
迭代器上的方法会改变迭代器用来跟踪它在序列中的位置的内部状态。换句话说,此代码消耗或用完迭代器
for 循环是使用迭代器的构造示例。调用.split()
内存映射数据只会为该迭代器创建一个适配器(请注意,这并不意味着它会创建多个迭代器)。适配器是使用迭代器的一种常见方式,这在本书中也有描述。
Iterator
特性上定义的其他方法,称为迭代器适配器,允许您将迭代器更改为不同类型的迭代器。您可以将多个调用链接到迭代器适配器,以可读的方式执行复杂的操作。但是因为所有的迭代器都是惰性的,所以你必须调用其中一种使用适配器的方法来从对迭代器适配器的调用中获取结果。
因此,该示例不会急切地在内存中创建这些拆分,并且程序仅在存在 for 循环或以其他方式消耗迭代器时才做一些有价值的事情。
也可以看看:
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句