处理Hive中的数据倾斜的方法

更新时间：2024年10月29日 10:19:25 作者：莫叫石榴姐

数据倾斜是大数据处理不可避免会遇到的问题,那么在Hive中数据倾斜又是如何导致的？通过本片本章,你可以清楚的认识为什么Hive中会发生数据倾斜；发生数据倾斜时我们又该用怎么的方案去解决不同的数据倾斜问题,需要的朋友可以参考下

1 groupby(大表分组-局部聚合+全局聚合)

示例1：

select label,sum(cnt) as all from 
(
    select rd,label,sum(1) as cnt from 
    (
        select id,label,round(rand(),2) as rd,value from tmp1
    ) as tmp
    group by rd,label
) as tmp
group by label;

示例2：

select 
	split(new_source,'\\_')[0] as source 
	,sum(cnt) as cnt 
from  
(select  
	concat(source,'_', rand()*100) as  new_source
	,count(1) as cnt 
from  test_table 
where day ='2022-01-01'
group by 
	concat(source,'_', rand()*100)
)tt 
group by 
	split(new_source,'\\_')[0]

2 join（大中表Join - 加salt + 小表膨胀）

示例1：

select label,sum(value) as all from 
(
    select rd,label,sum(value) as cnt from
    (
        select tmp1.rd as rd,tmp1.label as label,tmp1.value*tmp2.value as value 
        from 
        (
            select id,round(rand(),1) as rd,label,value from tmp1
        ) as tmp1
        join
        (
            select id,rd,label,value from tmp2
            lateral view explode(split('0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9',',')) mytable as rd
        ) as tmp2
        on tmp1.rd = tmp2.rd and tmp1.label = tmp2.label
    ) as tmp1
    group by rd,label
) as tmp1
group by label;

示例2：

select 
	source
	,source_name
	,sum(cnt) as cnt 
from  
(select 
	t1.source 
	,new_source
	,nvl(source_name,'未知') as source_name 
	,count(imei) as cnt 
from  
(select  
	imei
	,source 
	,concat(cast(rand()*10 as int ),'_',source ) as new_source
from  test_table_1
where day ='2022-01-01'
) t1 
inner join 
(
select 
	source_name 
	,concat(preflix,'_',source) as new_source
from  test_table_1
where day ='2022-01-01'
lateral view explode(split('0,1,2,3,4,5,6,7,8,9,10',','))b as preflix 
) t2 
on t1.new_source =t2.new_source
group by 
t1.source 
,new_source
,nvl(source_name,'未知')
) tta  
group by 
	source
	,source_name

3 双大表Join - 抽样取倾斜key+BroadJoin

##优化前：
create table test.tmp_table_test_all as 
select  
imei 
,lable_id 
,nvl(label_name,'未知')
from tmp_table_1  t1  
left join 
(select  
lable_id
,label_name
from  tmp_table_2 
where day ='2024-01-01') t2 
on t1.lable_id =t2.lable_id
where t1.day ='2024-01-01'
;
 
## 优化后 ：
create table test.tmp_table_test_all_new  as 
 
 
with tmp_table_test_1 as 
(select  
lable_id 
,count(1) as cnt 
from tmp_table_1  t1 
tablesample(5 percent) --抽样取5%的数据，减少table scan的量
group by lable_id
order by cnt desc 
limit 100
) 
 
 
select  
	imei 
	,lable_id 
	,nvl(label_name,'未知') as  label_name
from tmp_table_1  t1 
left join  tmp_table_test_1  t2
on t1.lable_id =t2.lable_id
left join 
(select  
	lable_id
	,label_name
from  tmp_table_2 
where day ='2024-01-01') t3
on t1.lable_id =t3.lable_id
where t1.day ='2024-01-01' and  t2.lable_id is null 
 
union all  
 
select  
	imei 
	,lable_id 
	,nvl(label_name,'未知') as  label_name 
from tmp_table_1  t1 
inner  join 
(select  
	lable_id
from  tmp_table_test_1  t1 
left   join   tmp_table_2  t2 
on t1.lable_id =t2.lable_id
where t2.day ='2024-01-01') t3
on t1.lable_id =t3.lable_id
where t1.day ='2024-01-01' 
;

4 小结

到此这篇关于处理Hive中的数据倾斜的方法的文章就介绍到这了,更多相关处理Hive数据倾斜内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

pymysql如何解决sql注入问题深入讲解
这篇文章主要给大家介绍了关于pymysql如何解决sql注入问题的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考价值，需要的朋友们下面随着小编来一起学习学习吧
2019-01-01
SQL查询出表、存储过程、触发器的创建时间和最后修改时间示例
这篇文章主要介绍了SQL查询出表、存储过程、触发器的创建时间和最后修改时间示例,本文直接给出代码实例,需要的朋友可以参考下
2015-06-06
CentOS 8.2部署CouchDB 3.3数据库的方法
这篇文章主要介绍了CentOS 8.2部署CouchDB 3.3数据库,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-12-12
SQL 按特定字段值排序
SQL 按特定字段值排序的代码，有需要的朋友可以参考下。
2009-08-08
Instagram提升PostgreSQL性能的五个技巧
这篇文章主要介绍了Instagram提升PostgreSQL性能的五个技巧,Instagram的数据库一直由PostgreSQL支撑,经验很具有参考性,需要的朋友可以参考下
2015-04-04
数据库同步优化技巧分享
这篇文章主要介绍了数据库同步优化技巧分享,需要的朋友可以参考下
2015-10-10
mybatis 项目配置文件实例详解
这篇文章主要介绍了mybatis 项目配置文件实例详解的相关资料,需要的朋友可以参考下
2017-03-03
MyISAM与InnoDB索引实现对比详解
这篇文章主要给大家介绍了关于MyISAM与InnoDB索引实现对比的相关资料，文中通过图文介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-09-09
sql语句实现行转列的3种方法实例
将列值旋转为列名(即行转列)是我们在开发中经常会遇到的一个需要，下面这篇文章主要给大家介绍了关于sql语句实现行转列的3种方法，分别给出了详细的示例代码，需要的朋友可以参考借鉴，下面来一起学习学习吧。
2018-02-02
在CRUD操作中与业务无关的SQL字段赋值的方法
这篇文章主要介绍了在CRUD操作中与业务无关的SQL字段赋值的方法的相关资料,需要的朋友可以参考下
2016-04-04