python中分类的相关性

asmgx

我有Python数据框df

它有多列

Salary  Dept      Approve
1500    IT        Yes
1200    Finance   No
1200    IT        No
1300    HR        Yes
1800    Finance   No
1100    Finance   No
1600    Finance   No
1500    IT        Yes
1200    HR        Yes
1500    HR        Yes

我想找到薪水/批准和部门/批准之间的关系

相关不起作用,因为有些分类不是数字

我还有什么其他选择?如何找到薪资/批准与部门/批准之间的相关性

格史密斯

做到这一点的一种方法是将分类变量转换为虚拟变量,然后针对每个变量计算相关性:

dummies = pd.get_dummies(x)

从那里很容易计算出您喜欢的任何组合之间的相关性:

>>> dummies.corr()
                Salary  Dept_Finance   Dept_HR   Dept_IT  Approve_No  Approve_Yes
Salary        1.000000      0.134865 -0.175072  0.030895   -0.047193     0.047193
Dept_Finance  0.134865      1.000000 -0.534522 -0.534522    0.816497    -0.816497
Dept_HR      -0.175072     -0.534522  1.000000 -0.428571   -0.654654     0.654654
Dept_IT       0.030895     -0.534522 -0.428571  1.000000   -0.218218     0.218218
Approve_No   -0.047193      0.816497 -0.654654 -0.218218    1.000000    -1.000000
Approve_Yes   0.047193     -0.816497  0.654654  0.218218   -1.000000     1.000000

或子集:

>>> dummies[['Salary', 'Dept_HR']].corr()
           Salary   Dept_HR
Salary   1.000000 -0.175072
Dept_HR -0.175072  1.000000

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章