为什么Spark从S3读取和写入如此之快

Dnaiel 发表于 Dev

39

丹尼尔

我了解spark在并行和内存中处理大规模数据方面的优势。

但是，当从S3读取数据/向S3写入数据时，如何在S3读取/写入方面没有遇到瓶颈。S3存储服务是否以某种有效的形式处理了该问题？S3是分布式存储吗？请提供一些说明，并在可能的情况下提供有关如何了解更多信息的链接。

约翰·罗滕斯坦

AWS内唯一的瓶颈是：

甲网络带宽限制在Amazon EC2实例，基于实例类型（基本上，较大的情况下，有更多的网络带宽）
Amazon EBS存储卷的速度（预置的IOPS支持多达20,000 IOPS）

区域内（例如，Amazon EC2和Amazon S3之间）的吞吐量非常高，并且不太可能限制您传输数据的能力（除了上述EC2网络带宽限制之外）。

Amazon S3分布在区域内多个可用区中的许多服务器上。以很高的速度，Amazon S3确实具有一些建议的“请求速率和性能注意事项”，但这仅在特定存储桶每秒发出300个以上PUT / LIST / DELETE请求或每秒800个以上GET请求时。

Apache Spark通常跨多个节点部署。每个节点都有基于其实例类型的可用网络带宽。Spark的并行性质意味着它可以比单个实例更快地往返于Amazon S3传输数据。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-05-15

我来说两句

0 条评论

登录后参与评论

上一篇：Azure DocumentDB受限制的请求

相关文章

为什么从内存映射文件读取如此之快？

为什么C ++模板计算如此之快？

为什么MATLAB在矩阵乘法中如此之快？

为什么这个C ++程序如此之快？

为什么列表乘法如此之快？

为什么在Python 3中“范围（10000000000000001）”如此之快？

为什么在Python 3中复数求幂如此之快？

Python Pandas MySQL - 为什么在将数据帧写入数据库时 SQLite 速度如此之快

为什么只有1个预配置读取容量单位的DynamoDB扫描速度如此之快？

为什么Dask的执行速度如此之慢，而多处理的执行速度却如此之快？

从S3读取CSV文件到Spark数据框中是否期望如此之慢？

为什么三元运算符如此之快？

为什么 Pandas 的速度如此之快？如何定义这样的函数？

当今计算机如此之快，为什么查看PDF文件仍然很慢？

为什么随后用youtube-dl下载的速度如此之快？

为什么USB串行在Linux中如此之快？

为什么此代码在进行优化编译时运行得如此之快？

是什么使Python的列表附加方法如此之快？

是什么使Java编译器如此之快？

为什么在摩托罗拉68k中dbra对于这么大的循环计数如此之快？

为什么查询在Entity Framework中花费这么长时间，而在SQL中却如此之快呢？

为什么默认的最大堆大小如此之小

为什么Apache Cassandra的写入速度与MongoDB，Redis和MySql相比如此之慢

为什么我无法从Delphi VCL应用程序读取和写入Amazon S3？

是什么让gcc std :: list排序实现如此之快？

通过ID和Xpath进行点击的Javascript代码执行得如此之快

与较新的libstdc ++。so链接时，为什么C ++可执行文件的运行速度如此之快？

为什么使用JavaScript对32位数字进行排序比对33位数字进行排序如此之快？

当测试值与预测值之间的差异如此之近时，为什么我的MSE如此之高？

TOP 榜单

文章

热门标签

归档