如何在MLlib中编写自定义的Transformer?

乔治·海勒

我想写一个自定义Transformer的火花2.0阶管道。到目前为止,这是不是真的清楚我的什么copytransformSchema方法应返回。他们返回a是否正确nullhttps://github.com/SupunS/play-ground/blob/master/test.spark.client_2/src/main/java/CustomTransformer.java复制吗?

由于Transformer延长PipelineStage我的结论,一个fit调用的transformSchema方法。我是否正确理解transformSchema类似于sk-learns fit?

由于我Transformer应该将数据集与(非常小的)第二个数据集结合在一起,因此我也想将其存储在序列化管道中。我应如何将其存储在转换器中以正确使用管道序列化机制?

一个简单的转换器看起来如何,该转换器可以计算单个列的平均值并填充nan值+保持该值?

@SerialVersionUID(serialVersionUID) // TODO store ibanList in copy + persist
    class Preprocessor2(someValue: Dataset[SomeOtherValues]) extends Transformer {

      def transform(df: Dataset[MyClass]): DataFrame = {

      }

      override def copy(extra: ParamMap): Transformer = {
      }

      override def transformSchema(schema: StructType): StructType = {
        schema
      }
    }
用户名

transformSchema应该返回该应用后预计的模式Transformer例:

  • 如果transfomer添加的列IntegerType,则输出列名称为foo

    import org.apache.spark.sql.types._
    
    override def transformSchema(schema: StructType): StructType = {
       schema.add(StructField("foo", IntegerType))
    }
    

因此,如果未更改数据集的架构,因为仅填充了用于均值插补的名称值,我应该返回原始案例类作为架构?

在Spark SQL(以及MLlib)中,这是不可能的,因为创建后aDataset不可变的只能添加或“替换”(这就是增加之后drop的操作)列。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何在MLlib中编写自定义的Transformer?

如何在Atom中编写自定义命令?

如何在Laravel中编写自定义登录功能

如何在张量流中编写自定义的LSTM?

如何在Python中编写自定义`.assertFoo()`方法?

如何在Django中编写自定义装饰器?

如何在Java中编写自定义比较器?

如何在Tensorflow中编写自定义损失函数?

如何在自定义EVE路线中编写模型

如何在webdriverio中编写自定义命令

如何在Haskell中编写自定义的show函数

如何在模型 Laravel 中编写自定义查询?

如何在 Sequelize 连接中编写自定义 on 子句

如何在原始PHP中定义和编写自定义单元测试?

如何在 Google Sheet 自定义函数中编写“重新运行自定义函数”按钮?

如何在赛普拉斯中编写自定义命令?

如何在自动制作中编写自定义的静音规则?

如何在Xtext中编写自定义自动完成功能?

如何在zsh中为特定目录编写自定义文件名完成器?

如何在Active Directory Exlorer中编写自定义查询?

如何在Alfresco 4.2.2中为Share编写自定义评估程序?

如何在 Windows 中编写和部署自定义身份验证包?

如何在Android TV中编写自定义的Leanbacks VerticalGridView?

如何在Blazor中编写自定义值更改事件处理程序?

如何在antlr的go目标中编写自定义错误报告程序

如何在React 16.9中编写自定义属性(指令)?

如何在Angular中编写自定义特殊属性绑定?

如何在sklearn中编写自定义估算器并在其上使用交叉验证?

如何在Swift中为UIView子类编写自定义init?