Hive命令行选择查询时间,如果查询时间不正确,则该查询时间未在后台还原作业

希望是唯一的武器

我正在运行蜂巢查询如下

Select count(*),group_name from table_name group by group_name;

状态:正在运行(在应用ID为XXXX的YARN群集上执行)

--------------------------------------------------------------------------------
        VERTICES      STATUS  TOTAL  COMPLETED  RUNNING  PENDING  FAILED  KILLED
--------------------------------------------------------------------------------
Map 1 ..........   SUCCEEDED     54         54        0        0       0       0
Reducer 2 ......   SUCCEEDED     13         13        0        0       0       0
--------------------------------------------------------------------------------
VERTICES: 02/02  [==========================>>] 100%  ELAPSED TIME: 24.93 s
--------------------------------------------------------------------------------
OK
Result
Time taken: 26.786 seconds, Fetched: 10 row(s)

当涉及到地图缩减时,以上时序看起来很准确。但是当我运行如下所示的简单查询时

select group_name from table_name

花费时间:0.771秒,获取:14行

以上时间不正确。

同样,将对任何关于如何更精确地测量查询时间的想法大加赞赏。

提前致谢

左连接

从shell脚本测量时间。time命令。

hive像这样调用您的命令:

time hive -e 'select group_name from table_name;'

时间输出指令三次:realusersys

real        0m0.007s
user        0m0.000s
sys         0m0.005s 

真实是您可能想知道的。实际时间是挂钟时间-从通话开始到结束的时间。这是所有经过的时间,包括其他进程使用的时间片以及该进程花费的时间被阻塞(例如,如果它正在等待I / O完成)。

另请参阅以下问题:如何从“时间”命令中获取实时值?

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章