我将在相当大的数据集上运行ml模型。它约为15 gb,具有200列和430万行。我想知道AWS Sagemaker中此类数据集的最佳Notebook实例类型是什么。
选择SageMaker托管笔记本类型:
您是否打算在笔记本计算机上对内存中的数据进行所有预处理,或者打算通过外部服务来协调ETL?
如果您打算将数据集加载到笔记本实例的内存中以进行探索/预处理,则主要瓶颈在于确保实例具有足够的内存来存储您的数据集。这至少需要16gb类型(.xlarge)(此处提供ML实例类型的完整列表)。此外,根据预处理的计算强度以及所需的预处理完成时间,您可以选择计算优化的实例(c4,c5)来加快处理速度。
对于培训工作,特别是:
使用Amazon SageMaker SDK,您的培训数据将被加载并分发到培训集群,从而使您的培训工作与托管笔记本计算机所运行的实例完全分开。
确定理想的训练实例类型将取决于您选择/训练作业的算法是内存,CPU还是IO绑定。由于您的数据集很可能会从S3加载到训练群集中,因此您为托管笔记本选择的实例将不会影响训练工作的速度。
广泛地说:关于SageMaker笔记本,最佳实践是将笔记本用作“伪造者”或协调器,调出外部服务(用于预处理的AWS Glue或Amazon EMR,用于培训的SageMaker,用于存储的S3等) 。最好将它们视为短暂的计算/存储形式,以构建和启动实验管道。
这将使您能够更紧密地将计算,存储和托管资源/服务与对工作负载的需求进行配对,从而最终无需为潜在或未使用的资源付费,从而最大程度地节省了成本。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句