如何使用分隔符将数据帧单元格拆分为不同的数据帧。有条件

查克·彼得

关于同一主题还有其他问题，它们有所帮助，但我有一个额外的转折。

我有一个在每个（但不是全部）单元格中有多个值的数据框。

df = pd.DataFrame({'a':["10-30-410","20-40-500","25-50"], 'b':["5-8-9","4", "99"]})

指数	一种	乙
0	10-30-410	5-8-9
1	20-40-500	4
2	25-50	99

如何通过破折号“-”拆分每个单元格并创建三个新数据框？请注意，并非所有单元格都有多个值，在这种情况下，第二个和第三个数据帧将变为 NA 或空白（将它们视为字符串）。

所以我需要 df1 成为这些值中的第一个：

指数	一种	乙
0	10	5
1	20	4
2	25	99

而 df2 将是：

指数	一种	乙
0	30	8
1	40
2	50

对于 df3 也是如此：

指数	一种	乙
0	410	9
1	500
2

我用这个得到了 df1

df1 = df.replace(r'(\d+).*(\d+).*(\d+)+', r'\1', regex=True)

但是 df2 不太好用。我得到了第二个值，还有 4 和 99，它们应该是空白的。

df2 = df.replace(r'(\d+)-(\d+).*', r'\2', regex=True)

指数	一种	乙
0	30	8
1	40	4 - 应该是空白
2	50	99 - 应该是空白

这是正确的方法吗？我很擅长正则表达式，但对组很模糊。谢谢你。

亨利·埃克

使用str.split+ concat+stack获取数据更可用的格式：

new_df = pd.concat(
    (df['a'].str.split('-', expand=True),
     df['b'].str.split('-', expand=True)),
    keys=('a', 'b'),
    axis=1
).stack(dropna=False).droplevel(0)

new_df：

      a     b
0    10     5
1    30     8
2   410     9
0    20     4
1    40  None
2   500  None
0    25    99
1    50  None
2  None  None

ncols 的可扩展选项：

cols = ['a', 'b']
new_df = pd.concat(
    (df[c].str.split('-', expand=True) for c in cols),
    keys=cols,
    axis=1
).stack(dropna=False).droplevel(0)

然后groupby级别 0 +reset_index创建数据框列表：

dfs = [g.reset_index(drop=True) for _, g in new_df.groupby(level=0)]

dfs：

[    a   b
0  10   5
1  20   4
2  25  99,
     a     b
0  30     8
1  40  None
2  50  None,
       a     b
0   410     9
1   500  None
2  None  None]

完整的工作示例：

import pandas as pd

df = pd.DataFrame({
    'a': ["10-30-410", "20-40-500", "25-50"],
    'b': ["5-8-9", "4", "99"]
})

cols = ['a', 'b']
new_df = pd.concat(
    (df[c].str.split('-', expand=True) for c in cols),
    keys=cols,
    axis=1
).stack(dropna=False).droplevel(0)

dfs = [g.reset_index(drop=True) for _, g in new_df.groupby(level=0)]

print(dfs)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-11

我来说两句

0 条评论

登录后参与评论

上一篇：如何在 Vaadin 流 (Vaadin 14) Grid 中创建可以在 ValueChangeEvent 中写回的 TextField ？（不使用网格编辑器）

如何使用分隔符将数据帧单元格拆分为不同的数据帧。有条件

如何使用分隔符将数据帧单元格拆分为不同的数据帧。有条件

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局