带有json列的pyspark dataframe将json元素聚合到新列中并删除重复的

用户名

我正在尝试在databricks上读取带有json列的pyspark数据框。

数据框：

  year month json_col
  2010 09    [{"p_id":"vfdvtbe"}, {"p_id":"cdscs"}, {"p_id":"usdvwq"}]
  2010 09    [{"p_id":"ujhbe"}, {"p_id":"cdscs"}, {"p_id":"yjev"}]
  2007 10    [{"p_id":"ukerge"}, {"p_id":"ikrtw"}, {"p_id":"ikwca"}]
  2007 10    [{"p_id":"unvwq"}, {"p_id":"cqwcq"}, {"p_id":"ikwca"}]

我需要一个带有所有重复的“ p_id”的新数据框，并按年和月进行汇总

  year month p_id (string)
  2010 09    ["vfdvtbe", "cdscs", "usdvwq", "ujhbe", "yjev"]
  2007 10    ["ukerge", "ikrtw", "ikwca", "unvwq", "cqwcq"]

新列“ p_id”是一个数组字符串。我想计算一下什么是不同的“ p_id”，以及每年和每月有多少个。并且，还要删除出现在同一年和月份中的重复元素。

我的代码：

from pyspark.sql.types import *
from pyspark.sql.functions import *

schema = ArrayType(StructType(
[
   StructField('p_id', StringType(), True)
]
))

schema = ArrayType(MapType(StringType(),StringType()))

t = ff.withColumn("data",F.explode(F.from_json(F.col("json_col"),schema))).withColumn("data",F.when(F.col("data")["product_id"].cast("string").isNotNull(),F.col("data")["product_id"])).filter(F.col("data").isNotNull()).drop("json_col")


display(t)

我不确定这可以删除重复项吗？

谢谢

Shu

在这种情况下，flatten, array_distinct与groupBy, collect_list功能配合使用。

Example:

df.show(10,False)
#+----+-----+---------------------------------------------------------+
#|year|month|json_col                                                 |
#+----+-----+---------------------------------------------------------+
#|2010|09   |[{"p_id":"vfdvtbe"}, {"p_id":"cdscs"}, {"p_id":"usdvwq"}]|
#|2010|09   |[{"p_id":"ujhbe"}, {"p_id":"cdscs"}, {"p_id":"yjev"}]    |
#|2007|10   |[{"p_id":"ukerge"}, {"p_id":"ikrtw"}, {"p_id":"ikwca"}]  |
#|2007|10   |[{"p_id":"unvwq"}, {"p_id":"cqwcq"}, {"p_id":"ikwca"}]   |
#+----+-----+---------------------------------------------------------+

from pyspark.sql.types import *
from pyspark.sql.functions import *

schema = ArrayType(StructType(
[
   StructField('p_id', StringType(), True)
]
))


df1=df.withColumn("ff",from_json(col("json_col"),schema)).\
select("year","month",expr('transform(ff , f -> f.p_id)').alias("tmp"))

df1.groupBy("year","month").\
agg(to_json(array_distinct(flatten(collect_list(col("tmp"))))).alias("p_id")).\
show(10,False)
#+----+-----+-------------------------------------------+
#|year|month|p_id                                       |
#+----+-----+-------------------------------------------+
#|2010|09   |["vfdvtbe","cdscs","usdvwq","ujhbe","yjev"]|
#|2007|10   |["ukerge","ikrtw","ikwca","unvwq","cqwcq"] |
#+----+-----+-------------------------------------------+

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。