在熊猫数据框中高效地转换时区

Timleathart

我有一个大熊猫数据框（数千万行），其中包含一列UTC时间和时区。我想基于其他两个列创建一个包含行的本地时间的列。

我最初的尝试是使用df.apply，它在我正在测试的小样本上工作，但是非常慢，并且不足以处理整个数据：

df['LoginTimeLocal'] = \ 
    df.apply(lambda row: row.LoginTimeUtc.tz_localize('UTC').tz_convert(row.TimeZoneCode))

这将导致添加新列，其中包含本地时间中的日期时间以及时区信息。

我遇到了这个答案，它提供了一种有效的矢量化方法来执行类似的操作。我将此代码重新用于执行我想要的操作，但它似乎仅在新列仅包含具有相同时区（或没有时区信息）的日期时才起作用。这是我的代码：

# localize all utc dates
df['LoginTimeUtc'] = df['LoginTimeUtc'].dt.tz_localize('UTC')

# initialize LoginTimeLocal column (probably not necessary)
df['LoginTimeLocal'] = df['LoginTimeUtc']

# for every time zone in the data
for tz in df.TimeZoneCode.unique():
    mask = (df.TimeZoneCode == tz)

    # make entries in a new column with converted timezone
    df.loc[mask, 'LoginTimeLocal'] = \ 
        df.loc[mask,'LoginTimeLocal'].dt.tz_convert(tz)

如果我对仅包含一个时区（即len(df.TimeZoneCode.unique()) = 1）中日期的数据样本执行此操作，则可以正常工作。一旦数据框中有两个或多个时区，我就会得到一个ValueError: incompatible or non tz-aware value。

谁能看到这里出了什么问题？

最大容量

演示：

来源DF：

In [11]: df
Out[11]:
             datetime         time_zone
0 2016-09-19 01:29:13    America/Bogota
1 2016-09-19 02:16:04  America/New_York
2 2016-09-19 01:57:54      Africa/Cairo
3 2016-09-19 11:00:00    America/Bogota
4 2016-09-19 12:00:00  America/New_York
5 2016-09-19 13:00:00      Africa/Cairo

解：

In [12]: df['new'] =  df.groupby('time_zone')['datetime'] \
                        .transform(lambda x: x.dt.tz_localize(x.name))

In [13]: df
Out[13]:
             datetime         time_zone                 new
0 2016-09-19 01:29:13    America/Bogota 2016-09-19 06:29:13
1 2016-09-19 02:16:04  America/New_York 2016-09-19 06:16:04
2 2016-09-19 01:57:54      Africa/Cairo 2016-09-18 23:57:54
3 2016-09-19 11:00:00    America/Bogota 2016-09-19 16:00:00
4 2016-09-19 12:00:00  America/New_York 2016-09-19 16:00:00
5 2016-09-19 13:00:00      Africa/Cairo 2016-09-19 11:00:00

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。