numpy根据列删除唯一的行

安德鲁·霍洛维茨（Andrew Horowitz）

我试图得到一个数组，它将根据第一列删除所有唯一行。我的数组看起来像这样，

[['Aaple' 'Red']
 ['Aaple' '0.0']
 ['Banana' 'Yellow']
 ['Banana' '0.0']
 ['Orange' 'Orange']
 ['Pear' 'Yellow']
 ['Pear' '0.0']
 ['Strawberry' 'Red']]

我希望它看起来像这样，

[['Aaple' 'Red']
 ['Aaple' '0.0']
 ['Banana' 'Yellow']
 ['Banana' '0.0']
 ['Pear' 'Yellow']
 ['Pear' '0.0']]

从第一列中删除唯一值的位置。我当前的代码是这样的，

arr = np.array(["Aaple", "Pear", "Banana"])

arr2 = np.array([["Strawberry", "Red"], ["Aaple", "Red"], ["Orange", "Orange"], ["Pear", "Yellow"], ["Banana", "Yellow"]])


arr = arr.reshape(-1,1)
zero_arr = np.zeros((len(arr), 1))
arr = np.column_stack((arr, zero_arr))
combine = np.vstack((arr2, arr))
sort = combine[combine[:,0].argsort()]
#Where the first array printed is sort

['Aaple' 'Banana' 'Pear']通过添加x = sort[:-1][sort[1:] == sort[:-1]]，我可以获得要保留的行，下一步将是什么？

斯蒂夫

使用pandas可能会更容易：

df = pd.DataFrame(sort, columns=list('ab'))
df[df.groupby('a').a.transform('count')>1].values

结果：

array([['Aaple', 'Red'],
       ['Aaple', '0.0'],
       ['Banana', 'Yellow'],
       ['Banana', '0.0'],
       ['Pear', 'Yellow'],
       ['Pear', '0.0']], dtype=object)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。