使用scikit学习OneHotEncoder时如何处理分类数据中的缺失值（NaN）？

sums22 发表于 Dev

总和22

我最近开始学习python，以使用机器学习方法为研究项目开发预测模型。我有一个包含数字和分类数据的大型数据集。数据集有很多缺失值。我目前正在尝试使用OneHotEncoder对分类功能进行编码。当我读到有关OneHotEncoder的信息时，我的理解是对于缺少值（NaN），OneHotEncoder会将0分配给所有功能类别，例如：

0     Male 
1     Female
2     NaN

应用OneHotEncoder后：

0     10 
1     01
2     00

但是，在运行以下代码时：

    # Encoding categorical data
    from sklearn.compose import ColumnTransformer
    from sklearn.preprocessing import OneHotEncoder


    ct = ColumnTransformer([('encoder', OneHotEncoder(handle_unknown='ignore'), [1])],
                           remainder='passthrough')
    obj_df = np.array(ct.fit_transform(obj_df))
    print(obj_df)

我收到错误ValueError：输入包含NaN

因此，我想我以前对OneHotEncoder如何处理缺失值的理解是错误的。有没有办法让我获得上述功能？我知道在编码之前对缺失值进行插值会解决此问题，但是由于我正在处理医学数据，因此我不愿意这样做，并且担心插值会降低模型的预测准确性。

我发现这个问题很相似，但是答案没有提供有关如何处理NaN值的足够详细的解决方案。

让我知道你的想法，谢谢。

亚图

您需要先估算缺失的值。您可以在OneHot编码之前，Pipeline通过SimpleImputer设置most_frequent策略来使用估算步骤定义a ：

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('encoder', OneHotEncoder(handle_unknown='ignore'))])

preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, [0])
    ])

df = pd.DataFrame(['Male', 'Female', np.nan])
preprocessor.fit_transform(df)
array([[0., 1.],
       [1., 0.],
       [1., 0.]])

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-24

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用另一个集合中的信息过滤MongoDB集合？

TOP 榜单

文章

使用scikit学习OneHotEncoder时如何处理分类数据中的缺失值（NaN）？

使用scikit学习OneHotEncoder时如何处理分类数据中的缺失值（NaN）？

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID