我有Python数据框df
它有多列
Salary Dept Approve
1500 IT Yes
1200 Finance No
1200 IT No
1300 HR Yes
1800 Finance No
1100 Finance No
1600 Finance No
1500 IT Yes
1200 HR Yes
1500 HR Yes
我想找到薪水/批准和部门/批准之间的关系
相关不起作用,因为有些分类不是数字
我还有什么其他选择?如何找到薪资/批准与部门/批准之间的相关性
做到这一点的一种方法是将分类变量转换为虚拟变量,然后针对每个变量计算相关性:
dummies = pd.get_dummies(x)
从那里很容易计算出您喜欢的任何组合之间的相关性:
>>> dummies.corr()
Salary Dept_Finance Dept_HR Dept_IT Approve_No Approve_Yes
Salary 1.000000 0.134865 -0.175072 0.030895 -0.047193 0.047193
Dept_Finance 0.134865 1.000000 -0.534522 -0.534522 0.816497 -0.816497
Dept_HR -0.175072 -0.534522 1.000000 -0.428571 -0.654654 0.654654
Dept_IT 0.030895 -0.534522 -0.428571 1.000000 -0.218218 0.218218
Approve_No -0.047193 0.816497 -0.654654 -0.218218 1.000000 -1.000000
Approve_Yes 0.047193 -0.816497 0.654654 0.218218 -1.000000 1.000000
或子集:
>>> dummies[['Salary', 'Dept_HR']].corr()
Salary Dept_HR
Salary 1.000000 -0.175072
Dept_HR -0.175072 1.000000
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句