使用SQL或Pyspark,我想在 2 个月的时间范围内计算时间戳中的唯一次数。我想查看行记录到表中的频率分布。这是因为我知道有很大比例的时间戳与 00:00:00 的时间相比,但我想知道与其他时间相比有多大和比例。
此查询对最常见的日期时间进行分组和计数,但我需要排除日期并且只有时间。显然,这不是很常见的事情。
select timestamp,
count(*) as count
from table_name
where timestamp between '2021-01-01' and '2021-02-28'
group by 1
order by 2 desc
SQL/Pyspark 在 Zeppelin Notebook 中的 Spark DB 上运行。
时间戳如下所示: 2021-01-01 02:07:55
也许是这样的?
select
date_format(timestamp, "H m s") as dataTime,
count(*) as count
from table_name
where timestamp between '2021-01-01' and '2021-02-28'
group by date_format(timestamp, "H m s")
order by 2 desc
使用保留字 ( timestamp
)命名字段不是一个好主意。
来自火花文档。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句