为什么Spark从S3读取和写入如此之快

丹尼尔

我了解spark在并行和内存中处理大规模数据方面的优势。

但是,当从S3读取数据/向S3写入数据时,如何在S3读取/写入方面没有遇到瓶颈。S3存储服务是否以某种有效的形式处理了该问题?S3是分布式存储吗?请提供一些说明,并在可能的情况下提供有关如何了解更多信息的链接。

约翰·罗滕斯坦

AWS内唯一的瓶颈是:

  • 网络带宽限制在Amazon EC2实例,基于实例类型(基本上,较大的情况下,有更多的网络带宽)
  • Amazon EBS存储卷的速度(预置的IOPS支持多达20,000 IOPS)

区域内(例如,Amazon EC2和Amazon S3之间)的吞吐量非常高,并且不太可能限制您传输数据的能力(除了上述EC2网络带宽限制之外)。

Amazon S3分布在区域内多个可用区中的许多服务器上。以很高的速度,Amazon S3确实具有一些建议的“请求速率和性能注意事项”,但这仅在特定存储桶每秒发出300个以上PUT / LIST / DELETE请求或每秒800个以上GET请求时。

Apache Spark通常跨多个节点部署每个节点都有基于其实例类型的可用网络带宽。Spark并行性质意味着它可以比单个实例更快地往返于Amazon S3传输数据。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

为什么从内存映射文件读取如此之快?

为什么C ++模板计算如此之快?

为什么MATLAB在矩阵乘法中如此之快?

为什么这个C ++程序如此之快?

为什么列表乘法如此之快?

为什么在Python 3中“范围(10000000000000001)”如此之快?

为什么在Python 3中复数求幂如此之快?

Python Pandas MySQL - 为什么在将数据帧写入数据库时 SQLite 速度如此之快

为什么只有1个预配置读取容量单位的DynamoDB扫描速度如此之快?

为什么Dask的执行速度如此之慢,而多处理的执行速度却如此之快?

从S3读取CSV文件到Spark数据框中是否期望如此之慢?

为什么三元运算符如此之快?

为什么 Pandas 的速度如此之快?如何定义这样的函数?

当今计算机如此之快,为什么查看PDF文件仍然很慢?

为什么随后用youtube-dl下载的速度如此之快?

为什么USB串行在Linux中如此之快?

为什么此代码在进行优化编译时运行得如此之快?

是什么使Python的列表附加方法如此之快?

是什么使Java编译器如此之快?

为什么在摩托罗拉68k中dbra对于这么大的循环计数如此之快?

为什么查询在Entity Framework中花费这么长时间,而在SQL中却如此之快呢?

为什么默认的最大堆大小如此之小

为什么Apache Cassandra的写入速度与MongoDB,Redis和MySql相比如此之慢

为什么我无法从Delphi VCL应用程序读取和写入Amazon S3?

是什么让gcc std :: list排序实现如此之快?

通过ID和Xpath进行点击的Javascript代码执行得如此之快

与较新的libstdc ++。so链接时,为什么C ++可执行文件的运行速度如此之快?

为什么使用JavaScript对32位数字进行排序比对33位数字进行排序如此之快?

当测试值与预测值之间的差异如此之近时,为什么我的MSE如此之高?