如何快速调试SageMaker培训脚本?

德德国王

在Amazon SageMaker中运行ML培训作业时,将“部署”培训脚本并指定一个ML培训实例,这大约需要10分钟来启动并获取所需的数据。

我只能从培训工作中获得一条错误消息,然后它死掉了,实例也被杀死了。

在对培训脚本进行更改以对其进行修复后,我需要部署和运行它,这需要另外10分钟左右的时间。

我怎样才能更快地完成此任务,或者保持训练实例运行?

Fan LI

看来您正在使用SageMaker框架之一进行培训。鉴于此,您可以使用SageMaker的“本地模式”功能,该功能将在您的笔记本实例中本地运行您的培训作业(特别是容器)。这样,您就可以迭代脚本,直到脚本起作用为止。然后,如果需要,您可以转到远程训练集群以针对整个数据集训练模型。要使用本地模式,只需将实例类型设置为“本地”。有关本地模式的更多详细信息,参见https://github.com/aws/sagemaker-python-sdk#sagemaker-python-sdk-overview和博客文章:https : //aws.amazon.com/blogs/machine学习/使用Amazon Sagemaker本地模式来训练您的笔记本实例/

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章