我有一个表示一些餐馆及其名称的数据框。
is_chain
我的初始Dataframedf
中添加一列,以表示餐厅是否是食物链。这个新列取0或1。值1表示该餐厅是一条链的一部分(例如,麦当劳)。如果数据库中还有另一家同名餐厅,则该餐厅被视为一条链的一部分。data = {
'restaurant_id': ['1', '2','3','4','5','6','7','8','9','10','11','12'],
'restaurant_name': ['Dennys', 'Dennys','Pho U','Pho U','Dennys','Japanese Cafe','Japanese Cafe','Midori','Midori','xxx','yyy','zzz'],
}
df = pd.DataFrame (data, columns = ['restaurant_id','restaurant_name'])
df.head(15)
因此,例如xxx
,yyy
和zzz
都不是链的一部分。
我不确定使用pandas实现类似这样的正确语法。如果需要任何澄清,请询问。
谢谢。
这听起来像duplicated
:
df['is_chain'] = df['restaurant_name'].duplicated(keep=False).astype(int)
输出:
restaurant_id restaurant_name is_chain
0 1 Dennys 1
1 2 Dennys 1
2 3 Pho U 1
3 4 Pho U 1
4 5 Dennys 1
5 6 Japanese Cafe 1
6 7 Japanese Cafe 1
7 8 Midori 1
8 9 Midori 1
9 10 xxx 0
10 11 yyy 0
11 12 zzz 0
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句