如何根据其他列的内容选择数据框中的特定数据？

JSDRayne

我是 Pandas 的新手，我目前正尝试在平板电脑上使用 qPython 的数据集上使用它（临时情况，笔记本电脑正在修复）。我有一个 csv 文件，其中包含一组按国家、地区、市场和项目标签组织的数据，还有额外的列价格、年份和月份。这些规定如下：

Country | Region |   Market   | Item Label | ... | Price | Year | Month |
Canada  | Quebec | Market No. | Item Name  | ... |  $$$  | 2002 |   1   |
Canada  | Quebec | Market No. | Item Name  | ... |  $$$  | 2002 |   2   |
Canada  | Quebec | Market No. | Item Name  | ... |  $$$  | 2002 |   3   |
Canada  | Quebec | Market No. | Item Name  | ... |  $$$  | 2002 |   4   |

等等。我正在寻找一种根据时间绘制这些价格的方法（我已将月份/12 添加到年份以有效合并最后一列）。

最初我有一个代码来获取 csv 数据并将其放入字典中，如下所示：

{Country_Name: {Region_Name: {Market_Name: {Item_Name: {"Price": price_list, "Time": time_list}}}}}

并用于对键进行循环以访问每个价格和时间列表。

但是，我很难使用熊猫来获得类似的结果：我尝试了一些不同的方法，例如 iloc、data[data.Country == "Canada"][data.Region == "Quebec"] [...等过滤每个国家，地区，市场和项目的数据，但所有这些都特别慢。数据集相当大（大约 12000 x 12），所以我不希望立即得到结果，但是有什么明显的我遗漏了吗？还是我应该等到我的笔记本电脑回来？

编辑：为了尝试提供更多背景信息，我正在尝试获取数年和数月的价格，以绘制价格如何波动。我想根据国家、地区、市场和商品标签将它们分开，因此绘制的每条线将是一个国家某个地区市场中的不同商品。到目前为止，我有以下代码：

def abs_join_paths(*args):
    return os.path.abspath(os.path.join(*args))

def get_csv_data_frame(*path, memory = True):
    return pandas.read_csv(abs_join_paths(*path[:-1], path[-1] + ".csv"), low_memory = memory)

def get_food_data(*path):
    food_price_data = get_csv_data_frame(*path, memory = False)
    return food_price_data[food_price_data.cm_name != "Fuel (diesel) - Retail"]

food_data = get_food_data(data_path, food_price_file_name)

def plot_food_price_time_data(data, title, ylabel, xlabel, plot_style = 'k-'):
    plt.clf()
    plt.hold(True)
    data["mp_year"] += data["mp_month"]/12
    for country in data["adm0_name"].unique():
        for region in data[data.adm0_name == country]["adm1_name"].unique():
            for market in data[data.adm0_name == country][data.adm1_name == region]["mkt_name"]:
                for item_label in data[data.adm0_name == country][data.adm1_name == region][data.mkt_name == market]["cm_name"]:
                    current_data = data[data.adm0_name == country][data.adm1_name == region][data.mkt_name == market][data.cm_name == item_label]
                    #year = list(current_data["mp_year"])
                    #month = list(current_data["mp_month"])
                    #time = [float(y) + float(m)/12 for y, m in zip(year, month)]
                    plt.plot(list(current_data["mp_year"]), list(current_data["mp_price"]), plot_style)
                    print(list(current_data["mp_price"]))
    plt.savefig(abs_join_paths(imagepath, title + ".png"))

Edit2/tl;dr：我有一堆价格和时间，在一个长长的清单中一个接一个。如何使用 Pandas 根据其他列的内容将它们拆分？

干杯!

边缘

我不敢猜测，但似乎您可能正在遍历行（您说您正在使用iloc）。这是 Pandas 中最慢的操作。Pandas 数据帧针对系列访问进行了优化。

如果您绘图，您可以直接将 matplotlib 与 Pandas 数据框一起使用，并使用该groupby方法组合数据，而无需遍历数据框的行。

没有更多信息，很难具体回答您的问题。请看一下对您的问题的评论。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-30

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

如何根据其他列的内容选择数据框中的特定数据？

如何根据其他列的内容选择数据框中的特定数据？

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID