如何在dask中映射函数

卡洛斯·罗哈斯（Carlos Rojas）

我正在使用Dask处理数据帧（来自CSV文件），并且正在寻找一种方法来使用map，或apply函数来改进此代码，因为在大型文件中花费的时间太长（我知道嵌套for和使用iterrows()是最糟糕的认为我可以做到）

NAN_VALUES = [-999, "INVALID", -9999]
_all_rows=list()
for index, row in df.iterrows():
    _row = list()
    for key, value in row.iteritems():
        if value in NAN_VALUES or pd.isnull(value):
            _row.append(None)
        else:
            _row.append(apply_transform(key, value))
    _all_rows.append(_row)
    rows_count += 1

如何使用map_partitions或映射此代码pandas.map？

额外：更多上下文：为了能够应用某些功能，我将NaN值替换为默认值。最后，我需要为每行创建一个列表，将默认值替换为“无”。

1.-原始DF

 "name"    "age"    "money"
---------------------------
"David"     NaN      12.345 
"Jhon"      22        NaN    
"Charles"   30       123.45 
  NaN       NaN       NaN

2.-将NaN传递给默认值

 "name"       "age"    "money"
------------------------------
"David"       -999     12.345 
"Jhon"         22      -9999  
"Charles"      30      123.45 
"INVALID"     -999     -9999

3.-解析到每一行的列表

"name"  , "age", "money"
------------------------
["David", None, 12.345]
["Jhon", 22, None]
["Charles", 30, 123.45]
[None, None, None]

拉帕奈

我的建议是尝试与熊猫合作，然后尝试将其翻译为dask

`pandas`

import pandas as pd
import numpy as np

nan = np.nan

df = {'name': {0: 'David', 1: 'John', 2: 'Charles', 3: nan},
 'age': {0: nan, 1: 22.0, 2: 30.0, 3: nan},
 'money': {0: 12.345, 1: nan, 2: 123.45, 3: nan}}

df = pd.DataFrame(df)

# These are your default values
diz = {"age": -999, "name": "INVALID", "money": -9999}

将NaN传递给默认值

for k,v in diz.items():
    df[k] = df[k].fillna(v)

获取每一行的列表

df.apply(list, axis=1)

0       [David, nan, 12.345]
1          [John, 22.0, nan]
2    [Charles, 30.0, 123.45]
3            [nan, nan, nan]
dtype: object

`dask`

import pandas as pd
import dask.dataframe as dd
import numpy as np

nan = np.nan

df = {'name': {0: 'David', 1: 'John', 2: 'Charles', 3: nan},
 'age': {0: nan, 1: 22.0, 2: 30.0, 3: nan},
 'money': {0: 12.345, 1: nan, 2: 123.45, 3: nan}}

df = pd.DataFrame(df)

# These are your default values
diz = {"age": -999, "name": "INVALID", "money": -9999}

# transform to dask dataframe
df = dd.from_pandas(df, npartitions=2)

将NaN传递给默认值

这和以前完全一样。请注意，dask如果您想查看效果，则应懒惰运行df.compute()

for k,v in diz.items():
    df[k] = df[k].fillna(v)

获取每一行的列表

要求您明确声明输出的dtype时，这里的情况有所变化

df.apply(list, axis=1, meta=(None, 'object'))

最终您可以使用map_partitions以下命令

df.map_partitions(lambda x: x.apply(list, axis=1))

备注请考虑，如果你做内存数据拟合并不需要dask和pandas可能会更快。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-24

我来说两句

0 条评论

登录后参与评论

上一篇：是否可以从方程式中删除API网关以通过公共互联网为Lambda服务？

如何在dask中映射函数

如何在dask中映射函数

pandas

将NaN传递给默认值

获取每一行的列表

dask

将NaN传递给默认值

获取每一行的列表

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用

`pandas`

`dask`