我看到AWS Elastic MapReduce和AWS Redshift都使用集群结构,并且可以用于数据分析。他们有哪些不同的用例?
Amazon Redshift支持使用多种类型的应用程序的客户端连接,包括商业智能(BI),报告,数据和分析工具。
Amazon Elastic MapReduce(Amazon EMR)是一个托管集群平台,可简化在AWS上运行的大数据框架(如Apache Hadoop和Apache Spark)以处理和分析大量数据。
您是正确的,Amazon EMR和Amazon Redshift都是可以扩展以提供更多计算能力的集群系统。但是,两种服务之间有一些非常明显的区别。
Amazon EMR提供Apache Hadoop和在Hadoop上运行的应用程序。这是一个非常灵活的系统,可以读取和处理非结构化数据,通常用于处理大数据。但是,学习Hadoop和相关技术可能非常困难。(“拥有权利的同时也被赋予了重大的责任!”)
Amazon Redshift是可通过SQL访问的PB级数据仓库。在查询之前,必须将数据加载到Redshift中,这通常需要进行一些转换(“ ETL”)。
那么选择哪一个呢?
如果Amazon Redshift可以满足您的需求,请使用它而不是Hadoop。Redshift使用起来更简单,因为它将自己呈现为一个标准的SQL数据库,您可以在几分钟内使用它。所有集群的东西都是幕后花絮,您不必了解太多就可以使用它。
如果您需要更灵活的功能,并且不介意获得低级技术知识,那么Amazon EMR上的Hadoop将为您提供更多功能。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句