我试图找出Spark中所有不确定因素。我知道不确定性可能来自用户提供的功能,例如在map(f)中,f涉及随机。相反,我正在寻找可以导致不确定性的操作,这些操作可以在较低级别的转换/动作(例如混洗)上进行。
从我的头顶上:
需要改组(或通常为网络流量)的操作可能会以不确定的顺序输出值。它包括明显的情况,例如groupBy*
或join
。一个不太明显的例子是排序后的联系顺序
取决于变化的数据源或可变的全局状态的操作
在转换内部执行的副作用,包括accumulator
更新
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句