我正在使用 Pyspark 编写这段代码:
df.na.fill("").show()
# Refering columns by names
rdd2=df.rdd.map(lambda x:
(x.firstName+""+x.lastName,x.street+","+x.town,x.city,x.code) #error line
)
df2=rdd2.toDF(["name","address","city","code"])
df2.display()
我在第 4 行收到错误,其中说:
PythonException: 'TypeError: unsupported operand type(s) for +: 'NoneType' and 'str''
这是我正在处理的 csv 文件的输出
我正在使用函数 df.na 将空值转换为字符串,但它仍然显示 string 和 none 类型的错误。PS:我是 Pyspark 的新手,所以请帮助我如何避免这个错误
你需要做:
df = df.na.fill("")
否则它不会坚持将 none 转换为字符串。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句