管道在sklearn python中给出了不同的答案

Manish 发表于 Dev

Manish

我写了两个程序，应该遵循相同的逻辑。但是他们两个都给出了不同的答案。

第一的-

train_data = train_features[:1710][:]
train_label = label_features[:1710][:].ravel()
test_data = train_features[1710:][:]
test_label = label_features[1710:][:].ravel()

def getAccuracy(ans):
    d = 0
    for i in range(np.size(ans,0)):
        if(ans[i] == test_label[i]):
            d+=1
    return (d*100)/float(np.size(ans,0))

estimators = [('pps', pps.RobustScaler()), ('clf', LogisticRegression())]
pipe = Pipeline(estimators)
pipe = pipe.fit(train_data,train_label)

ans = pipe.predict(test_data)
getAccuracy(ans)

第二-

train_data = train_features[:1710][:]
train_label = label_features[:1710][:].ravel()
test_data = train_features[1710:][:]
test_label = label_features[1710:][:].ravel()

def getAccuracy(ans):
    d = 0
    for i in range(np.size(ans,0)):
        if(ans[i] == test_label[i]):
            d+=1
    return (d*100)/float(np.size(ans,0))

def preprocess(features):
    return pps.RobustScaler().fit_transform(features)

train_data = preprocess(train_data)
clf = LogisticRegression().fit(train_data,train_label)

test_data = preprocess(test_data)
ans = clf.predict(test_data)
getAccuracy(ans)

第一个给出80.81，第二个给出84.92。为什么两者都不同？

Lejlot

您的第二个代码无效，因为您的“预处理”使定标器适合测试集，这种情况不会发生。另一方面，管道仅使RobustScaler适合您的火车数据，然后在测试管道上调用“转换”。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。