Sagemaker笔记本实例类型建议

awrd2019

我将在相当大的数据集上运行ml模型。它约为15 gb,具有200列和430万行。我想知道AWS Sagemaker中此类数据集的最佳Notebook实例类型是什么。

尼克·沃尔什

选择SageMaker托管笔记本类型:

您是否打算在笔记本计算机上对内存中的数据进行所有预处理,或者打算通过外部服务来协调ETL?

如果您打算将数据集加载到笔记本实例的内存中以进行探索/预处理,则主要瓶颈在于确保实例具有足够的内存来存储您的数据集。这至少需要16gb类型(.xlarge)(此处提供ML实例类型的完整列表)。此外,根据预处理的计算强度以及所需的预处理完成时间,您可以选择计算优化的实例(c4,c5)来加快处理速度。


对于培训工作,特别是:

使用Amazon SageMaker SDK,您的培训数据将被加载并分发到培训集群,从而使您的培训工作与托管笔记本计算机所运行的实例完全分开。

确定理想的训练实例类型将取决于您选择/训练作业的算法是内存,CPU还是IO绑定。由于您的数据集很可能会从S3加载到训练群集中,因此您为托管笔记本选择的实例将不会影响训练工作的速度。


广泛地说:关于SageMaker笔记本,最佳实践是将笔记本用作“伪造者”或协调器,调出外部服务(用于预处理的AWS Glue或Amazon EMR,用于培训的SageMaker,用于存储的S3等) 。最好将它们视为短暂的计算/存储形式,以构建和启动实验管道。

这将使您能够更紧密地将计算,存储和托管资源/服务与对工作负载的需求进行配对,从而最终无需为潜在或未使用的资源付费,从而最大程度地节省了成本。


本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

通过 Terraform 创建 sagemaker 笔记本实例

不活动后自动“停止” Sagemaker笔记本实例?

如何在不同的Sagemaker实例之间复制笔记本?

在 AWS sagemaker 笔记本实例中使用 pytorch cuda

使用 sagemaker 笔记本实例连接到 redshift

在 SageMaker 笔记本实例中打开 jupyter 是否需要 sagemaker:CreatePresignedDomainUrl?

如何获得亚马逊Sagemaker笔记本实例的公共IP?可能吗?

sagemaker笔记本实例Elastic Inference tensorflow模型本地部署

创建Sagemaker笔记本实例时关联CodeCommit存储库

我可以将Google Colab笔记本复制或上传到AWS Sagemaker实例吗?

如何清除 AWS SageMaker 上笔记本实例的持久存储?

无法为 AWS Sagemaker 实例(生命周期配置)安装 toc2 笔记本扩展

确认端点已在SageMaker笔记本中删除

如何将Sagemaker笔记本放入GitHub?

在 AWS Sagemaker 上恢复已删除的笔记本

Terraform 错误:等待 sagemaker 笔记本实例创建时出错:意外状态“失败”,需要目标“InService”。最后一个错误:%!s(<nil>)

如何判断笔记本中的触摸板类型

如何忽略笔记本上的 Pylance 类型检查?

AWS sagemaker上的多用户公共jupyter笔记本

如何打开Sagemaker笔记本中S3存储桶中存储的模型tarfile?

如何在SageMaker笔记本终端中更新熊猫版本?

如何在 SageMaker 上运行和部署 AWS 的 XGBoost MNIST 示例笔记本?

将生命周期配置添加到 SageMaker 中的现有笔记本?

如何在我的 python 笔记本中打印出 Sagemaker 批量转换作业状态?

在Sagemaker jupyter笔记本电脑上找不到Gluonnlp安装

我可以在Sagemaker笔记本上运行TensorFlow 2.0吗?

使用Python从S3读取json文件到sagemaker笔记本中

在Amazon Sagemaker Jupyter笔记本中导入自定义模块

使用boto3和PySpark的AWS SageMaker笔记本列表表