熊猫按单个列中的多个值分组

dstar 发表于 Dev

星辰

我已经从205MB的CSV（约110万行乘15列）创建了pandas数据框。它包含一个称为starttimedtype的列object（更确切地说是一个字符串）。格式如下：7/1/2015 00:00:03。

我想从此pandas数据框创建两个新的数据框。一个应包含与周末日期对应的所有行，另一个应包含与工作日日期对应的所有行。

周末日期是：

weekends = ['7/4/2015', '7/5/2015', '7/11/2015', '7/12/2015', 
            '7/18/2015', '7/19/2015', '7/25/2015', '7,26/2015']

我试图将字符串转换为datetime（pd.to_datetime），以期使值更易于解析，但是当我将其挂起的时间太长时，我最终重新启动了几次内核。

然后，我决定用来df["date"], df["time"] = zip(*df['starttime'].str.split(' ').tolist())在原始数据帧中创建两个新列（一个用于日期，一个用于时间）。接下来，我想我将使用布尔测试将dateasTrue和其他所有周末记录（根据新字段）“标记” ，False并创建另一个包含这些值的列，然后就可以将Trueand分组False。

例如，test1 = bikes['date'] == '7/1/2015'返回True所有2015年7月1日值的返回值，但是我无法弄清楚如何遍历其中的所有项，weekends以便获得True所有周末的日期。我试过了，打破了Python（再次挂了）：

for i in weekends:
    for k in df['date']:
        test2 = df['date'] == i

我将不胜感激（使用我的逻辑和我的代码）。

亚历山大大帝

首先，创建一个带有1.1m行的字符串时间戳记的DataFrame：

df = pd.DataFrame({'date': ['7/1/2015 00:00:03', '7/1/2015 00:00:04'] * 550000})

接下来，您可以将它们简单地转换为Pandas时间戳，如下所示：

df['ts'] = pd.to_datetime(df.date)

此操作仅用了不到两分钟的时间。但是，如果指定格式，则花费了不到7秒的时间：

df['ts'] = pd.to_datetime(df.date, format='%m/%d/%Y %H:%M:%S')

现在，可以很容易地按如下步骤设置周末标记（大约花费了3秒钟）：

df['weekend'] = [d.weekday() >= 5 for d in df.ts]

最后，很容易将您的DataFrame子集化，这几乎不需要时间：

df_weekdays = df.loc[~df.weekend, :]
df_weekends = df.loc[df.weekend, :]

周末标志是用来帮助解释发生了什么。您可以简化如下：

df_weekdays = df.loc[df.ts.apply(lambda ts: ts.weekday() < 5), :]
df_weekends = df.loc[df.ts.apply(lambda ts: ts.weekday() >= 5), :]

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-4

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

熊猫按单个列中的多个值分组

熊猫按单个列中的多个值分组

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）