NaiveBayes和LogistcRegression之间令人困惑的结果

摩根·艾伦

我浏览了有关使用Scikit学习的快速教程，并对NaiveBayes与Logistc回归有疑问

这是笔录的链接-

您应该能够复制/粘贴下面的代码并运行它。如果您得到不同的答案，请告诉我！

import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn import metrics

from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression

vect = CountVectorizer()

url = 'https://raw.githubusercontent.com/justmarkham/pydata-dc-2016-tutorial/master/sms.tsv'
sms = pd.read_table(url, header=None, names=['label', 'message'])
sms['label_num'] = sms.label.map({'ham': 0, 'spam': 1})
X = sms.message
y = sms.label_num

X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=1)

vect.fit(X_train)
X_train_dtm = vect.transform(X_train)

## NaiveBayes
nb = MultinomialNB()
nb.fit(X_train_dtm, y_train)

# LogisticRegression
logreg = LogisticRegression()
logreg.fit(X_train_dtm, y_train)

# testing data
simple_text = ["this is a spam message spam spam spam"]
simple_test_dtm = vect.transform(simple_text)

# ***NaiveBayes***     
nb.predict(simple_test_dtm)
# array([1]) says this is spam

nb.predict_proba(simple_test_dtm)[:, 1]
# array([0.98743019]) 

# ****Logistic Regression***    
logreg.predict(simple_test_dtm)
# array([0]) says this is NOT spam

logreg.predict_proba(simple_test_dtm)[:, 1]
# array([0.05628297])

nb_pred_class = nb.predict(X_test_dtm)
metrics.accuracy_score(y_test, nb_pred_class)
# 0.9885139985642498

lg_pred_class = logreg.predict(X_test_dtm)
metrics.accuracy_score(y_test, lg_pred_class)
# 0.9877961234745154

两个问题：

1.）为什么Spam当LogisticRegression声明是NaiveBayes时返回它是Ham？

两个分类器均返回较高的准确度得分，但给出不同的答案？那使我感到困惑。难道我做错了什么？

2.）.predict_probab分数是什么意思？我以为我理解这是分类器响应的准确性。即NB表示它相信其答案（1）的准确度为98％，但这意味着LogReg表示其答案（0）的准确度为6％。

这没有意义。

任何帮助将不胜感激。

哈什鲁

spam是您在中的第二类（即在索引处1）sms.label.map({'ham': 0, 'spam': 1})。因此，您打印的概率是消息为的概率，而spam不是模型的预测类别的概率。logreg给出0.05628297消息存在的概率，spam这意味着它给了0.9437概率ham。您的两个模型都非常准确，但这并不意味着他们将在每个测试示例上都达成一致。朴素的贝叶斯（Bayes）正确地做到了这一点，但逻辑回归却错了，应该有其他相反的例子。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-27

我来说两句

0 条评论

登录后参与评论

上一篇：Active Directory组列出了一个成员用户，用户的输入未提及该组

TOP 榜单

文章

NaiveBayes和LogistcRegression之间令人困惑的结果

NaiveBayes和LogistcRegression之间令人困惑的结果

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException