Kubernetes和Dask与Scheduler

r0f1 发表于 Dev

r0f1

我的代码看起来像这样

def myfunc(param):
    # expensive stuff that takes 2-3h

mylist = [...]
client = Client(...)
mgr = DeploymentMgr()
# ... setup stateful set ...
futures = client.map(myfunc, mylist, ..., resources={mgr.hash.upper(): 1})
client.gather(futures)

我在Kubernetes集群上运行了dask。在程序开始时，我创建一个有状态集合。这是通过完成的kubernetes.client.AppsV1Api()。然后，我最多等待30分钟，直到我请求的所有工人都可用。对于此示例，假设我请求10个工作人员，但30分钟后，只有7个工作人员可用。最后，我调用client.map()并将函数和列表传递给它。此列表包含10个元素。但是，dask将仅使用7个工人来处理此列表！即使几分钟后剩下的3个工作线程可用，即使第一个元素的处理都没有完成，dask也不会为其分配任何列表元素。

我该如何改变行为方式？有没有一种方法可以告诉dask（或dask的调度程序）定期检查新到的工人并更“正确地”分配工作？还是可以手动影响这些列表元素的分布？

谢谢。

麦考林

一旦更好地了解任务将花费多长时间，Dask将平衡负载。您可以使用配置值来估算任务长度

distributed:
  scheduler:
    default-task-durations:
      myfunc: 1hr

或者，一旦Dask完成了其中一项任务，它将知道将来如何围绕该任务做出决策。

我相信这在GitHub问题追踪器上也曾出现过几次。您可能希望通过https://github.com/dask/distributed/issues搜索以获取更多信息。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-24

我来说两句

0 条评论

登录后参与评论

上一篇：数据库vs DataMart vs数据仓库vs Data Lake

TOP 榜单

文章

Kubernetes和Dask与Scheduler

Kubernetes和Dask与Scheduler

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用