Hive优化---mapjoin和union all避免数据倾斜

心已赠人 2023-01-21 15:21 40阅读 0赞

### [mapjoin和union all避免数据倾斜][mapjoin_union all] ###

发生数据倾斜时，通常的现象是：

*  任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。
 *  查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。

数据倾斜一般是由于代码中的join或group by或distinct的key分布不均导致的，大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务需要这样倾斜的逻辑.

*  对于join，使用map join，即在查询头添加map join hint，例如

select /\*+MAPJOIN(b)\*/ \* from a join b on a.id =b.id

将会把join转换为mapjoin，且将b表作为小表处理。

*  对于group by或distinct，使用两次MR优化，即设定参数: hive.groupby.skewindata=true
 *  随机数解决数据倾斜

二、MAPJOIN 结合 UNIONALL

原始sql：

select a.\*,coalesce(c.categoryid,’NA’) as app\_category

from (select \* from t\_aa\_pvid\_ctr\_hour\_js\_mes1

) a

left outer join

(select \* fromt\_qd\_cmfu\_book\_info\_mes

) c

on a.app\_id=c.book\_id;

速度很慢，老办法，先查下数据分布。

select \*

from

(selectapp\_id,count(1) cnt

fromt\_aa\_pvid\_ctr\_hour\_js\_mes1

group by app\_id) t

order by cnt DESC

limit 50;

数据分布如下：

NA      617370129

2       118293314

1       40673814

d       20151236

b       1846306

s       1124246

5       675240

8       642231

6       611104

t       596973

4       579473

3       489516

7       475999

9       373395

107580  10508

我们可以看到除了NA是有问题的异常值，还有appid=1~9的数据也很多，而这些数据是可以关联到的，所以这里不能简单的随机函数了。而t\_qd\_cmfu\_book\_info\_mes这张app库表，又有几百万数据，太大以致不能放入内存使用mapjoin。

解决方案：

select a.\*,coalesce(c.categoryid,’NA’) as app\_category

from –if app\_id isnot number value or <=9,then not join

(select \* fromt\_aa\_pvid\_ctr\_hour\_js\_mes1

where cast(app\_id asint)>9

) a

left outer join

(select \* fromt\_qd\_cmfu\_book\_info\_mes

where cast(book\_id asint)>9) c

on a.app\_id=c.book\_id

union all

select /\*+ MAPJOIN(c)\*/

a.\*,coalesce(c.categoryid,’NA’) as app\_category

from –if app\_id<=9,use map join

(select \* fromt\_aa\_pvid\_ctr\_hour\_js\_mes1

wherecoalesce(cast(app\_id as int),-999)<=9) a

left outer join

(select \* fromt\_qd\_cmfu\_book\_info\_mes

where cast(book\_id asint)<=9) c

–if app\_id is notnumber value,then not join

on a.app\_id=c.book\_id

首先将appid=NA和1~9的数据存入一组，并使用mapjoin与维表（维表也限定appid=1~9，这样内存就放得下了）关联，而除此之外的数据存入另一组，使用普通的join，最后使用union

all 放到一起。

[mapjoin_union all]: http://blog.csdn.net/lpxuan151009/article/details/7980509

发表评论取消回复

表情：

评论列表（有 0 条评论，40人围观）

还没有评论，来说两句吧...

相关阅读

相关 Hive 优化之 union all 与 multi insert

同一张表的union all 要比多重insert快的多，原因是hive本身对这种union all做过优化，即只扫描一次源表；而多重insert也只扫描一次，但应...

素颜马尾好姑娘i/ 2024年04月18日 11:02/ 0 赞/ 139 阅读

相关【Hive-优化】Hive的优化方式四（数据倾斜优化）

【Hive-优化】Hive的优化方式四（数据倾斜优化） 1）关联优化器 2）数据倾斜Skewin 2.1.基础查询数据倾斜 2.2.

柔情只为你懂/ 2023年10月08日 18:31/ 0 赞/ 64 阅读

相关 Hive优化---mapjoin和union all避免数据倾斜

[mapjoin和union all避免数据倾斜][mapjoin_union all] 发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%）

心已赠人/ 2023年01月21日 15:21/ 0 赞/ 41 阅读

相关 Hive优化----利用随机数避免数据倾斜

发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看

你的名字/ 2023年01月21日 15:20/ 0 赞/ 35 阅读

相关 Hive优化----MapJoin 优化

1、Hive本地MR 如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感，查询的数据不能太大，否则本地

墨蓝/ 2023年01月21日 15:20/ 0 赞/ 108 阅读

相关 UNION 和 UNION ALL 区别

union 将两个表连接后删除其重复的项。bai union all 将两个表连接都不删除其重复的项。补充资料：数据库中，UNION和UNION ALL都是将两个结

拼搏现实的明天。/ 2022年11月21日 14:48/ 0 赞/ 396 阅读

相关 hive数据倾斜优化策略

hive数据倾斜优化策略 Hive数据倾斜 Group By 中的计算均衡优化 1.Map端部分聚合先看看下面这条SQL，由于用户的性别

清疚/ 2022年11月20日 09:37/ 0 赞/ 386 阅读

相关 Hive UNION ALL的使用和Hive子查询

UNION的使用 union用于联合多个select语句的结果集，合并为一个独立的结果集。当前只支持UNION ALL(bag union)。不能消除重复行，每个sele

àì夳堔傛蜴生んèń/ 2022年06月10日 14:38/ 0 赞/ 323 阅读

相关 Hive中mapjoin优化例子

1 基本信息 3个表，1个事实表，2个维度表事实表 test\_fact （mid string,sex\_id string,age\_id string ）

墨蓝/ 2022年04月24日 11:44/ 0 赞/ 335 阅读

相关 hive同一张表union all的优化

insert overwrite table dwd.dwd_user_play_event_1d_delta_daily partitions (dt = '${DT

矫情吗；*/ 2021年09月24日 02:14/ 0 赞/ 1126 阅读