一种更有效的方式来清洁字符串列并添加新列

用户名

我有一个df具有列的数据框['metric_type', 'metric_value']。对于每一行，我想确保我有一列名称等于，'metric_type'并且该列的值等于'metric_value'。

我的问题之一是'metric_type'我想摆脱虚假的空间。

考虑数据框df：

df = pd.DataFrame([
        ['a ', 1],
        [' b', 2],
        [' c ', 3]
    ], columns=['metric_type', 'metric_value'])

print(df)

  metric_type  metric_value
0          a              1
1           b             2
2          c              3

请注意，每个的值'metric_type'在不同的位置都有空格。

我创建了一个要使用的函数，apply但是要花很长时间。

def assign_metric_vals(row):
    row[row['metric_type'].replace(" ", "")] = row['metric_value']
    return row

使用它时，我得到以下信息：

       a    b    c metric_type  metric_value
0 1.0000  nan  nan          a              1
1    nan 2.00  nan           b             2
2    nan  nan 3.00          c              3

有没有更好的方法（读为“更快”）来完成同一任务？

海盗

将索引设置为metric_type并进行堆叠会更好。

df.set_index(df.metric_type.str.replace(' ', ''), append=True).metric_value.unstack()

示范

df = pd.DataFrame([
        ['a ', 1],
        [' b', 2],
        [' c ', 3]
    ], columns=['metric_type', 'metric_value'])

print(df)

  metric_type  metric_value
0          a              1
1           b             2
2          c              3

print(df.apply(assign_metric_vals, 1))

       a    b    c metric_type  metric_value
0 1.0000  nan  nan          a              1
1    nan 2.00  nan           b             2
2    nan  nan 3.00          c              3

或我的方式

idx = df.metric_type.str.replace(' ', '')
d1 = df.set_index(idx, append=True).metric_value.unstack()
print(pd.concat([d1, df], axis=1))

       a    b    c metric_type  metric_value
0 1.0000  nan  nan          a              1
1    nan 2.00  nan           b             2
2    nan  nan 3.00          c              3

定时

使用更大的 df
df1 = pd.concat([df] * 30000, ignore_index=True)

%%timeit
idx = df1.metric_type.str.replace(' ', '')
d1 = df1.set_index(idx, append=True).metric_value.unstack()
pd.concat([d1, df1], axis=1)

10个循环，最佳3：每个循环77.3毫秒

%%timeit
df1.apply(assign_metric_vals, 1)

1次循环，每循环3：57.4 s最佳

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-4

我来说两句

0 条评论

登录后参与评论

上一篇：等待Android模拟器运行，然后执行下一个Shell命令？

寻找一种更短，更有效的方式来添加（可能）重复到字符串末尾的内容

寻找一种更有效的方法来根据数据框列中的字典创建新列

需要一种更有效的方式来合并文本文件

寻找一种更有效的方式来初始化字典

将新字符添加到回文。一种有效或动态的方式来检查新字符串是否仍然是回文式？

Neo4j是否有一种更有效的方式来编写多个where-contains？

一种有效的方法来计算多个列中的字符串值以创建新的总计列

需要一种有效的方法来从JSON字符串获取JObject

寻找一种更有效的方法来创建 4 向链表

一种更有效的方法来对netstat命令的结果进行排序

寻找一种更有效的方式编写我的MATLAB代码

一种更简化，更有效的拆分列表方式

寻找一种更有效的方式编写此jquery菜单

如何在python中打印形状？寻找一种不同的、更有效的方式

有没有更有效的方式来扩展字符串？

有没有一种有效的方法来连接golang模板中的字符串

有没有一种有效的方法来连接字符串

有没有一种有效的方法来分割这个字符串

是否有一种更有效的方式以某种方式将项目列表映射到成对列表？

寻找一种有效的方法来返回字符串的一部分

有没有一种更有效的方法来在Access中存储对象容器？

一种更有效的方法来检查是否没有相关项目具有特定值

有没有一种方法可以更有效地格式化此字符串？

更有效的字符串创建方式

是否有一种更有效的方法来将图像居中在浮动div中

一种有效的Scala惯用方式来挑选排序值的前85％？

需要一种有效的方式来存储日期差异

需要一种更有效的方式将JDBC结果集转换为JSON数组

寻找一种更有效的方法来使用 STL 函数检查字符串是否为回文

TOP 榜单

文章

一种更有效的方式来清洁字符串列并添加新列

一种更有效的方式来清洁字符串列并添加新列

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用