如何检测数据集中某列中的可疑错误?

萨马尔·普拉塔普·辛格(Samar Pratap Singh)

我正在尝试对github存储库中train.csv提供的命名数据集中的数据进行编码我使用下面的代码来做到这一点。

import pandas as pd 
from sklearn import preprocessing
df = pd.read_csv(r'train.csv',index_col='Id')
df.head()
df['MSSubClass'].fillna(df['MSSubClass'].mean()//1)
df['MSZoning'].fillna(df['MSZoning'].mode())
label_encoder = preprocessing.LabelEncoder() 
for col in df.columns:
    if df[col].dtype == 'O':
        print(df[col])
        df[col] = label_encoder.fit_transform(df[col])
print(df) 

在编码时,将提示以下输出。

MSSubClass
MSZoning
LotFrontage
LotArea
Street
Alley
TypeError: '<' not supported between instances of 'str' and 'float'

但是当我查看数据集时,'<'Alley列中没有任何内容并且先前的列已被编码,但是该Alley列导致错误。请帮我!

这是代码的colab笔记本

耶斯列尔

有一个问题,您缺少的值不会在所有列中被替换,需要分配回来,如果两个或更多值也要添加.iloc[0]mode第一个选择中:

from sklearn import preprocessing
df = pd.read_csv(r'train.csv',index_col='Id')
print (df)

colsNum = df.select_dtypes(np.number).columns
colsObj = df.columns.difference(colsNum)

df[colsNum] = df[colsNum].fillna(df[colsNum].mean()//1)
df[colsObj] = df[colsObj].fillna(df[colsObj].mode().iloc[0])

label_encoder = preprocessing.LabelEncoder() 
for col in colsObj:
    print(df[col])
    df[col] = label_encoder.fit_transform(df[col])

print (df)
      MSSubClass  MSZoning  LotFrontage  LotArea  Street  Alley  LotShape  \
Id                                                                          
1             60         3         65.0     8450       1      0         3   
2             20         3         80.0     9600       1      0         3   
3             60         3         68.0    11250       1      0         0   
4             70         3         60.0     9550       1      0         0   
5             60         3         84.0    14260       1      0         0   
         ...       ...          ...      ...     ...    ...       ...   
1456          60         3         62.0     7917       1      0         3   
1457          20         3         85.0    13175       1      0         3   
1458          70         3         66.0     9042       1      0         3   
1459          20         3         68.0     9717       1      0         3   
1460          20         3         75.0     9937       1      0         3   

      LandContour  Utilities  LotConfig  ...  PoolArea  PoolQC  Fence  \
Id                                       ...                            
1               3          0          4  ...         0       2      2   
2               3          0          2  ...         0       2      2   
3               3          0          4  ...         0       2      2   
4               3          0          0  ...         0       2      2   
5               3          0          2  ...         0       2      2   
          ...        ...        ...  ...       ...     ...    ...   
1456            3          0          4  ...         0       2      2   
1457            3          0          4  ...         0       2      2   
1458            3          0          4  ...         0       2      0   
1459            3          0          4  ...         0       2      2   
1460            3          0          4  ...         0       2      2   

      MiscFeature  MiscVal  MoSold  YrSold  SaleType  SaleCondition  SalePrice  
Id                                                                              
1               2        0       2    2008         8              4     208500  
2               2        0       5    2007         8              4     181500  
3               2        0       9    2008         8              4     223500  
4               2        0       2    2006         8              0     140000  
5               2        0      12    2008         8              4     250000  
          ...      ...     ...     ...       ...            ...        ...  
1456            2        0       8    2007         8              4     175000  
1457            2        0       2    2010         8              4     210000  
1458            2     2500       5    2010         8              4     266500  
1459            2        0       4    2010         8              4     142125  
1460            2        0       6    2008         8              4     147500  

[1460 rows x 80 columns]

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用熊猫从给定列中具有不同数据类型的数据集中过滤数据?

如何在Spark数据集中的字符串数组列中添加字符串

如何从R中的数据集中删除问号(?)

如何获取数据集中表的特定列?

检测数据集中的外部行

替换数据框中某列中的随机值

如何在R中基于两个相同数据集中的多个列进行顺序合并

如何在R中的同一数据集中合并2列

如何检查是否要在if语句中使用的数据框中的某列中有某些字符?

数据框中某列上的.map出现NaN错误

如何从数据集中选择随机列

如何使用Python在数据集中的列中查找动态函数的根

如何从数据集中的复杂列中制作字典?

我如何以简洁的方式在R中的数据集中选择一组列

在Python数据集中检测区域

如何获取Vue JS中某列的总和

如何在R中的foreach()中更改数据帧某列的长度

如何通过Shell脚本检测终端是否集中在GUI中?

如何检测受CRC保护的数据中的错误?

检测数据集中的某个特征

如何计算从数据子集中的列的均值

如何基于数据集中的列中的非空值在SSRS中显示文本框

如何在SSRS中同时使用一个数据集中的变量和列?

如何替换MYSQL中某列的某个值?

如何在我的 wordpress 帖子中检测 Javascript 注入的可疑文件?

如何根据数据集中一列中数组中存在的多个值在数据集中创建新行

如何从数据集中找到重要的列?

如何编辑数据集中的日期时间列?

如何在 power bi 中获取数据集中列的最后一个值?