聚合Dask数据框并生成聚合的数据框

班纳特

我有一个Dask数据框，看起来像这样：

url     referrer    session_id ts                  customer
url1    ref1        xxx        2017-09-15 00:00:00 a.com
url2    ref2        yyy        2017-09-15 00:00:00 a.com
url2    ref3        yyy        2017-09-15 00:00:00 a.com
url1    ref1        xxx        2017-09-15 01:00:00 a.com
url2    ref2        yyy        2017-09-15 01:00:00 a.com

我想对url和timestamp上的数据进行分组，汇总列值并产生一个看起来像这样的数据框：

customer url    ts                  page_views visitors referrers
a.com    url1   2017-09-15 00:00:00 1          1        [ref1]
a.com    url2   2017-09-15 00:00:00 2          2        [ref2, ref3]

在Spark SQL中，我可以执行以下操作：

select 
    customer,
    url,
    ts,
    count(*) as page_views,
    count(distinct(session_id)) as visitors,
    collect_list(referrer) as referrers
from df
group by customer, url, ts

使用Dask数据框有什么办法吗？我尝试过，但是我只能分别计算聚合列，如下所示：

# group on timestamp (rounded) and url
grouped = df.groupby(['ts', 'url'])

# calculate page views (count rows in each group)
page_views = grouped.size()

# collect a list of referrer strings per group
referrers = grouped['referrer'].apply(list, meta=('referrers', 'f8'))

# count unique visitors (session ids)
visitors = grouped['session_id'].count()

但是我似乎找不到找到产生所需的组合数据框的好方法。

勤工俭学

以下确实确实有效：

gb = df.groupby(['customer', 'url', 'ts'])
gb.apply(lambda d: pd.DataFrame({'views': len(d), 
     'visitiors': d.session_id.count(), 
     'referrers': [d.referer.tolist()]})).reset_index()

（假设访问者按照上述sql唯一），您可能希望定义meta输出的。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。