Apache Spark的不确定性来源

萨瓦

我试图找出Spark中所有不确定因素。我知道不确定性可能来自用户提供的功能,例如在map(f)中,f涉及随机。相反,我正在寻找可以导致不确定性的操作,这些操作可以在较低级别的转换/动作(例如混洗)上进行。

零323

从我的头顶上:

  • 需要改组(或通常为网络流量)的操作可能会以不确定的顺序输出值。它包括明显的情况,例如groupBy*join一个不太明显的例子是排序后的联系顺序

  • 取决于变化的数据源或可变的全局状态的操作

  • 在转换内部执行的副作用,包括accumulator更新

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章