我了解spark在并行和内存中处理大规模数据方面的优势。
但是,当从S3读取数据/向S3写入数据时,如何在S3读取/写入方面没有遇到瓶颈。S3存储服务是否以某种有效的形式处理了该问题?S3是分布式存储吗?请提供一些说明,并在可能的情况下提供有关如何了解更多信息的链接。
AWS内唯一的瓶颈是:
区域内(例如,Amazon EC2和Amazon S3之间)的吞吐量非常高,并且不太可能限制您传输数据的能力(除了上述EC2网络带宽限制之外)。
Amazon S3分布在区域内多个可用区中的许多服务器上。以很高的速度,Amazon S3确实具有一些建议的“请求速率和性能注意事项”,但这仅在特定存储桶每秒发出300个以上PUT / LIST / DELETE请求或每秒800个以上GET请求时。
Apache Spark通常跨多个节点部署。每个节点都有基于其实例类型的可用网络带宽。Spark的并行性质意味着它可以比单个实例更快地往返于Amazon S3传输数据。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句