在python中优化循环

sshr 发表于 Dev

sshr

我有一个具有行进距离的数据框（df），并且已根据某些条件分配了标签。

distance=[0,0.0001,0.20,1.23,4.0]
df = pd.DataFrame(distance,columns=["distance"])
df['label']=0
for i in range(0, len(df['distance'])):   
      if (df['distance'].values[i])<=0.10:
          df['label'][i]=1
      elif (df['distance'].values[i])<=0.50:
          df['label'][i]=2
      elif (df['distance'].values[i])>0.50:
          df['label'][i]=3

一切正常。但是，我有超过100万条具有距离的记录，并且此for循环花费的时间比预期的长。我们可以优化此代码以减少执行时间吗？

根

通常，除非绝对必要，否则不应循环遍历DataFrames。通常，使用已经优化的内置Pandas函数或使用矢量化方法，可以获得更好的性能。

在这种情况下，可以使用loc和布尔索引进行分配：

# Initialize as 1 (eliminate need to check the first condition).
df['label'] = 1

# Case 1: Between 0.1 and 0.5
df.loc[(df['distance'] > 0.1) & (df['distance'] <= 0.5), 'label'] = 2

# Case 2: Greater than 0.5
df.loc[df['distance'] > 0.5, 'label'] = 3

另一种选择是使用pd.cut。这是一种对问题中的示例问题更加专业的方法。布尔索引是一种更通用的方法。

# Get the low and high bins.
low, high = df['distance'].min()-1, df['distance'].max()+1

# Perform the cut.  Add one since the labels start at zero by default.
df['label'] = pd.cut(df['distance'], bins=[low, 0.1, 0.5, high], labels=False) + 1

您也可以labels=[1,2,3]在上面的代码中使用，而不要在结果中加1。但这将给出df['labels']分类dtype而不是整数dtype。根据您的用例，这可能重要也可能不重要。

两种方法的结果输出：

   distance  label
0    0.0000      1
1    0.0001      1
2    0.2000      2
3    1.2300      3
4    4.0000      3

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-3

我来说两句

0 条评论

登录后参与评论

如何在Python中优化嵌套的for循环

Python循环优化

用于循环优化的Python

优化python循环

R 中的 FOR 循环优化

在 Matlab 中优化 for 循环

在 C 中优化 for() 循环

如何优化此代码（python中的双循环）？

长期的难题，如何在python中优化多级循环？

使用Python中的多个列引用优化Iterrows循环

为循环优化嵌套Python？

优化python DFS（for循环无效）

优化R中for循环的性能

优化R中的嵌套循环

在Swift中优化嵌套循环

在Ruby中优化嵌套循环

对于c中的循环优化

在C中优化while循环？

优化熊猫中的嵌套循环

Python中的搜索优化

Python中的随机优化

优化Python中的树

在python中优化DFS

Python中过滤的优化

Python优化嵌套for循环中的重塑操作

使用大型数据集优化循环Python

通过消除循环来优化Python代码

Python字典更新和优化循环

TOP 榜单

文章

在python中优化循环

在python中优化循环

IE 11中的FormData未定义

如何一次从多个文本框中获取值？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

OpenCv：改变 putText() 的位置

Redux动作正常，但减速器无效

如何从JavaScript中的MP3文件读取元数据属性？

如何使用Redux-Toolkit重置Redux Store

将加号/减号添加到jQuery菜单

OpenGL纹理格式的颜色错误

获取并汇总所有关联的数据

超过时间限制错误C ++

ActiveModelSerializer仅显示关联的ID

在交互式Python Shell中获得最后结果

如何开始为Ubuntu开发

去噪自动编码器和常规自动编码器有什么区别？

Excel 2016图表将增长与4个参数进行比较

算术中的c ++常量类型转换

使用因子时如何在y轴上的ggplot中插入count或％

TreeMap中的自定义排序

如何在R中转置数据

在 React Native Expo 中使用 react-redux 更改另一个键的值