使用order
by会引发全局排序
select
*
from
baidu_click order
by click
desc;
使用distribute和sort进行分组排序
select
*
from
baidu_click distribute
by product_line sort
by click
desc;
distribute
by
+
sort
by就是该替代方案,被distribute
by设定的字段为KEY,数据会被HASH分发到不同的reducer机器上,然后sort
by会对同一个reducer机器上的每组数据进行局部排序。