我有一个数据框df
:
df=pd.DataFrame([[47,55,47,50,200], [33,37,30,25,100],[61,65,54,57,300],[25,26,21,22,400], [25,29,23,28,410],[28,34,32,30,430],[32,31,30,28,1000]], columns=['open','high','low','close','volume'])
print(df)
open high low close volume
0 47 55 47 50 200
1 33 37 30 25 100
2 61 65 54 57 300
3 25 26 21 22 400
4 25 29 23 28 410
5 28 34 32 30 430
6 32 31 30 28 1000
我想75th percentile
使用公式从体积列替换离群值:
if df['volume'] > (3IQR + vol_q3):
3IQR是音量列的IQR * 3
vol_q3是体积中最后N个值的75个百分位数(在本例中为最后4个值)。
我写的代码如下:
from collections import deque
import pandas as pd
import numpy as np
vol_q=deque()
q1 = df['volume'].quantile(0.25)
q3 = df['volume'].quantile(0.75)
iqr_3 = 3*(q3 - q1)
for idx, rows in df.iterrows():
if idx < 5:
vol_q.append(rows['volume'])
else :
vol_q.popleft()
vol_q.append(rows['volume'])
vol_q3 = np.percentile(list(vol_q), 75)
if rows['volume'] > (iqr_3 + vol_q3):
rows['volume'] = q3
输出:
open high low close volume
0 47 55 47 50 200
1 33 37 30 25 100
2 61 65 54 57 300
3 25 26 21 22 400
4 25 29 23 28 410
5 28 34 32 30 430
6 32 31 30 28 420
它正在工作,但是对于我拥有的数据量来说太慢了。还有其他方法可以更快地实现它吗?如何使用Apply使用以前的N个值?
欢迎任何建议。谢谢
v = df.volume # other columns not relevant to question
q = v.rolling(4).quantile(0.75) # 75th percentile of last 4
r = v.where(v <= iqr_3 + q, q3)
q
是向量化滚动分位数,可以快速计算而没有循环。r
是结果,因此很难从您的问题中进行验证,因为示例数据似乎没有包含足以触发条件的极端值,但我认为您已经明白了。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句