应用特定于组的函数以返回单个序列

bigO6377

我正在尝试为以下情况找出有效的拆分/应用/合并方案。考虑demoAll下面定义的熊猫数据框：

import datetime
import pandas as pd


demoA = pd.DataFrame({'date':[datetime.date(2010,1,1), datetime.date(2010,1,2), datetime.date(2010,1,3)],
                     'ticker':['A', 'A', 'A'],
                     'x1':[10,20,30],
                     'close':[120, 133, 129]}).set_index('date', drop=True)
demoB = pd.DataFrame({'date':[datetime.date(2010,1,1), datetime.date(2010,1,2), datetime.date(2010,1,3)],
                     'ticker':['B', 'B', 'B'],
                     'x1':[18,11,45],
                     'close':[50, 49, 51]}).set_index('date', drop=True)
demoAll = pd.concat([demoA, demoB])
print(demoAll)

结果是：

           ticker  x1  close
date                        
2010-01-01      A  10    120
2010-01-02      A  20    133
2010-01-03      A  30    129
2010-01-01      B  18     50
2010-01-02      B  11     49
2010-01-03      B  45     51

我也有一个股票代码到模型对象的字典映射

ticker2model = {'A':model_A, 'B':model_B,...}

其中每个模型都有一个self.predict(df)方法，该方法可以接收整个数据帧并返回一系列相同长度的数据。

我现在想创建一个新列，demoAll['predictions']对应于这些预测。最干净/最有效的方法是什么？注意事项：

demoAll是特定股票行情的数据框的串联，每个数据框仅按日期编制索引。因此，的索引demoAll不是唯一的。（但是，日期/股票代码的组合是唯一的。）
我的想法一直是做类似以下示例的操作，但是遇到索引，数据类型强制和运行时间慢的问题。实际数据集非常大（行和列）。
```
demoAll['predictions'] = demoAll.groupby('ticker').apply(
                           lambda x: ticker2model[x.name].predict(x)
                         )
```

公元前

我可能会误解了您通过模型传递的信息以进行预测，但是如果我正确理解，我将执行以下操作：

预分配predictions的列demoAll
遍历代码和过滤器的唯一值 demoAll
过滤股票行
使用过滤的df预测结果
将结果保存在正确的位置 demoAll['predictions']

使用您的代码的示例：

# get non 'ticker' columns
non_ticker_cols = [col for col in demoAll.columns if col is not 'ticker']
# get unique set of tickers 
tickers = demoAll.ticker.unique()
# create and prepopulate the predictions column
demoAll['predictions'] = 0

for ticker in tickers:
    # get boolean Series to filter the Dataframes by.
    filter_by_ticker = demoAll.ticker == ticker
    # filter, predict and allocate 
    demoAll.loc[filter_by_ticker, 'predictions'] = ticker2model[
        ticker].predict(
        demoAll.loc[filter_by_ticker,
                    non_ticker_cols]
    )

输出如下所示：

         ticker x1  close   predictions
date                
2010-01-01  A   10  120 10.0
2010-01-02  A   20  133 10.0
2010-01-03  A   30  129 10.0
2010-01-01  B   18  50  100.0
2010-01-02  B   11  49  100.0
2010-01-03  B   45  51  100.0

使用比较

我们可以每行使用Apply，但是正如您提到的那样，它会变慢。我将两者进行比较，以给出加速的概念。

设定

我将使用DummyRegressorfromsklearn来允许我调用predict方法并创建您在问题中提到的字典。

model_a = DummyRegressor(strategy='mean')
model_b = DummyRegressor(strategy='median')

model_a.fit([[10,14]], y=np.array([10]))
model_b.fit([[200,200]], [100])
ticker2model = {'A':model_a, 'B':model_b}

将两者都定义为函数

def predict_by_ticker_filter(df, model_dict):
    # get non 'ticker' columns
    non_ticker_cols = [col for col in df.columns if col is not 'ticker']
    # get unique set of tickers 
    tickers = df.ticker.unique()
    # create and prepopulate the predictions column
    df['predictions'] = 0

    for ticker in tickers:
        # get boolean Series to filter the Dataframes by.
        filter_by_ticker = df.ticker==ticker
        # filter, predict and allocate 
        df.loc[filter_by_ticker,'predictions'] = model_dict[ticker].predict(
            df.loc[filter_by_ticker,
                   non_ticker_cols]
        )
    return df

def model_apply_by_row(df_row, model_dict):
    # includes some conversions to list to allow the predict method to run
    return model_dict[df_row['ticker']].predict([df_row[['x1','close']].tolist()])[0]

我timeit在函数调用中使用的性能可得出以下结果

在您的示例中demoAll：

model_apply_by_row

%timeit demoAll.apply(model_apply_by_row,model_dict=ticker2model, axis=1)

3.78 ms ± 227 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Forecast_by_ticker_filter

%timeit predict_by_ticker_filter(demoAll, ticker2model)

6.24 ms ± 1.11 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

将的大小demoAll增加到(606, 3)：

model_apply_by_row

%timeit demoAll.apply(model_apply_by_row,model_dict=ticker2model, axis=1)

320 ms ± 28 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Forecast_by_ticker_filter

%timeit predict_by_ticker_filter(demoAll, ticker2model)

6.1 ms ± 512 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

将的大小demoAll增加到(6006, 3)：

model_apply_by_row

%timeit demoAll.apply(model_apply_by_row,model_dict=ticker2model, axis=1)

3.15 s ± 371 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Forecast_by_ticker_filter

%timeit predict_by_ticker_filter(demoAll, ticker2model)

9.1 ms ± 767 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

上一篇：Android风味特定的依赖关系树

lodash 函数不返回单个对象

cython 函数在 groupby 应用后返回单个单元格中的所有值

如何通过在 Pandas 数据帧上应用函数来获取/返回单个字典

Pandas：应用具有 2 个数组的函数作为输入并返回单个值

如何从熊猫数据框中返回单个组

将特定于组的函数应用于 Julia 数据帧

Python函数`yield`用于列表，返回单个元素

如何从函数中的Vec返回单个元素？

如何从构造函数返回单个数组项

如何使映射函数返回单个值而不是数组？

Postgres 函数：循环记录并返回单个值

尝试返回特定于DOM输入的函数

Dapper返回单个值

光滑返回单个结果

返回单个数组

无法重置分区组（特定于Window函数和PostgreSQL）

用于从序列中返回单个未打包值或多个打包值的 Python 语法

如何反复应用函数以获得无限序列？

考虑特定序列，将一组函数应用于多个数据帧

函数从表返回单行

LAG函数是否可以返回单个不为NULL的DATE值

如何从Power Bi中的python函数返回单个数据帧

Python：从返回单个项目或另一个列表的函数创建列表

多次返回单个变量（不是列表）以从第二个函数中运行？

Codeigniter SQL 查询返回单个值

返回单个类型或类型列表？

从 forEach kotlin 返回单个值

JOIN仅返回单个结果

Laravel mapWithKeys() 返回单个值

TOP 榜单

文章

应用特定于组的函数以返回单个序列

应用特定于组的函数以返回单个序列

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局