我正在使用一个看起来像这样的数据库:
Review_ID Rating Year_Month Reviewer_Location
670772142 4 2019-4 Australia
670682799 4 2020-5 Philippines
670623270 4 missing United Arab Emirates
670607911 4 missing Australia
670607296 4 2014-11 United Kingdom
670591897 3 2016-12 Singapore
670585330 5 2019-4 India
这是我第一次使用python做任何事情,但我对简单语法不完全清楚。
我的目标是通过获取字符串中符号“-”之后的所有字符来将月份与“年-月”列分开,并将它们存储在不同的列中(除非字符串的值是“ missing”。在这种情况下,它将根本不考虑。)我已经尝试了多种方法,其中之一是:
yf=df['Year_Month']
while yf!='missing'
if '-' in yf:
store[0]=i
i+=1
store[1]=(i)
df['Month'] = store
else:
i+=1
store
那根本不起作用。这就是我现在所遇到的问题,但是我确实接近一个有效的代码,但是我无法弄清楚如何摆脱“丢失”的数据。
我最终要解决的问题是“一年中的哪个时段是游客参观每个主题公园的高峰时间”,因此请考虑一下我必须最后得出结果。
您可以尝试str.replace
在这里使用:
df['Year'] = df['Year_Month'].str.replace('-.*$', '');
df['Month'] = df['Year_Month'].str.replace('^\d+-', '');
请注意,由于字符串值missing
与任一正则表达式模式都不匹配,因此在这种情况下,缺少的Year_Month
值将分配missing
给年和月列。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句