Scikit 学习自定义 Transformer 维度不匹配

费尔南多

我来自 R，所以 scikit API 对我来说仍然很困惑。我正在关注本教程http://michelleful.github.io/code-blog/2015/06/20/pipelines/以了解管道。所以让我们创建一个假数据集仅供参考：

x1,x2,y
foo,zoo,1
bar,moo,2
goo,too,3
roo,zoo,4
too,moo,5

我的目标非常简单：使用来自 x1 和 x2 的单独 tfidf 矩阵，以及来自 x1 和 x2 的一些自定义特征（即，字长等）对 y 进行线性回归训练。

让我们从仅使用 x1 中的 tfidf 的简单任务开始。这是完整的代码：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_log_error
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.metrics import fbeta_score, make_scorer
from sklearn.base import BaseEstimator, TransformerMixin

import pandas as pd
import numpy as np
import time
import re
import math

def clip_RMSLE(y, y_pred, **kwargs):
    y_pred[y_pred < 0] = 0.0
    to_sum = [(math.log(y_pred[i] + 1) - math.log(y[i] + 1)) ** 2.0 for i,pred in enumerate(y_pred)]
    return (sum(to_sum) * (1.0/len(y))) ** 0.5

class ColumnNgram(BaseEstimator, TransformerMixin):
    def __init__(self, colname, tokenizer, ngram_rg):
        self.colname = colname
        self.tokenizer = tokenizer
        self.ngram_rg = ngram_rg
        self.tfidf = None

    def transform(self, df, y=None):
         tfidf = TfidfVectorizer(tokenizer=self.tokenizer, ngram_range=self.ngram_rg)
         return tfidf.fit_transform(df[self.colname].values)

    def fit(self, df, y=None):
        return self


start = time.time()
seed = 1991
ngram_rg = (1,2)
RMSLE = make_scorer(clip_RMSLE, greater_is_better=False)

def tokenizer(text):
    if text:
        result = re.findall('[a-z]{2,}', text.lower())
    else:
        result = []
    return result

df = pd.read_csv('fake.csv', sep=',')
y = df['y'].values

pipeline = Pipeline([('tfidf', ColumnNgram('x1', tokenizer, ngram_rg)),
('linear_reg', LinearRegression(n_jobs=1))
])

kfold = KFold(n_splits=2, random_state=seed)
results = cross_val_score(pipeline, df, y, cv=kfold, scoring=RMSLE)
print(results)
print(results.mean())

end = time.time()
print('Timeto finish this thing: %0.2fs' % (end - start))

我收到错误ValueError: dimension mismatch，可能是因为某些术语不会出现在两个训练/验证折叠中。这样做的正确方法是什么？谢谢！

维维克·库马尔

将您的 ColumnNgram 更改为：

class ColumnNgram(BaseEstimator, TransformerMixin):
    def __init__(self, colname, tokenizer, ngram_rg):
        self.colname = colname
        self.tokenizer = tokenizer
        self.ngram_rg = ngram_rg
        self.tfidf = None

    def transform(self, df, y=None):
        return self.tfidf.transform(df[self.colname].values)

    def fit(self, df, y=None):
        self.tfidf = TfidfVectorizer(tokenizer=self.tokenizer, ngram_range=self.ngram_rg)
        self.tfidf.fit(df[self.colname].values)
        return self

您应该在fit(). 目前，您正在重新拟合每次调用中的数据transform()，这显然会按照您的建议返回训练和验证集中的不同特征。

正确的方法是TfidfVectorizer在 fit() 期间保持一个学习数据，然后只转换新数据transform()而不是重新拟合新数据。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-18

我来说两句

0 条评论

登录后参与评论

上一篇：从图像的右中心使用 jquery 的图像幻灯片

Scikit 学习自定义 Transformer 维度不匹配

Scikit 学习自定义 Transformer 维度不匹配

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局