我有这样的DataFrame:
df = pd.DataFrame(data={
'col0': [11, 22,1, 5]
'col1': ['aa:a:aaa', 'a:a', 'a', 'a:aa:a:aaa'],
'col2': ["foo", "foo", "foobar", "bar"],
'col3': [True, False, True, False],
'col4': ['elo', 'foo', 'bar', 'dupa']})
我想在col1中的“:”上分割后得到列表的长度,然后如果length> 2则覆盖值,或者如果length <= 2则不覆盖值。
理想情况下,尽可能快地排成一行。
目前,我尝试但它返回ValueError。
df[['col1', 'col2', 'col3']] = df.loc[df['col1'].str.split(":").apply(len) > 2], ("", "", False), df[['col1', 'col2', 'col3']])
编辑:col1条件。EDIT2:感谢您提供的所有出色的快速答复。惊人!EDIT3:在10 ^ 6行上计时:
@ansev 3.2657s
@jezrael 0.8922s
@ anky_91 1.9511s
使用Series.str.count
,添加1
,比较依据Series.gt
并将列表分配给列表中的过滤列:
df.loc[df['col1'].str.count(":").add(1).gt(2), ['col1','col2','col3']] = ["", "", False]
print (df)
col0 col1 col2 col3 col4
0 11 False elo
1 22 a:a foo False foo
2 1 a foobar True bar
3 5 False dupa
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句