hadoop 全面解读自定义分区

更新时间：2024年10月11日 12:01:30 作者：缘不易

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储

需求

将统计结果按照手机号，以136、137、138、139开头的数据分别放到一个独立的文件中，其他开头的放到一个文件中。（分区）

输入数据

1863157985066 120.196.100.82 2481 24681 200
1363157995033 120.197.40.4 264 0 200
1373157993055 120.196.100.99 132 1512 200
1393154400022 120.197.40.4 240 0 200
1363157993044 120.196.100.99 1527 2106 200
1397157993055 120.197.40.4 4116 1432 200
1463157993055 120.196.100.99 1116 954 200
1383157995033 120.197.40.4 3156 2936 200
1363157983019 120.196.100.82 240 0 200
1383154400022 120.197.40.4 6960 690 200
1363157973098 120.197.40.4 3659 3538 200
1373157993055 120.196.100.99 1938 180 200
1363154400022 120.196.100.99 918 4938 200
1393157993055 120.197.40.4 180 180 200
1363157984040 120.197.40.4 1938 2910 200

具体实现：

第一步：自定义Mapper：

public class PhoneMapper extends Mapper {
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String line = value.toString(); //拿到一行数据
String[] fields = line.split(“\s+”); //切分成各个字段
String phoneNumber = fields[0]; //拿到手机号的字段
//封装数据为key-value进行输出
context.write(new Text(phoneNumber), value);
}
}

第二步：自定义Partitioner

public class PhonePartitioner extends Partitioner {
@Override
public int getPartition(Text key, Text value, int numPartitions) {
String preNum = key.toString().substring(0, 3); // 1 获取电话号码的前三位
int partition = 4;
switch (preNum) {
case “136”:
partition = 0;
break;
case “137”:
partition = 1;
break;
case “138”:
partition = 2;
break;
case “139”:
partition = 3;
break;
default:
break;
}
return partition;
}
}

第三步：自定义Reducer

public class PhoneReducer extends Reducer {
int index = 0;
@Override
protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
index++;
context.write(new LongWritable(index), values.iterator().next());
}
}

第四步：自定义Driver

public class PhoneDriver {
public static void main(String[] args) throws Exception {
args = new String[2];
args[0] = “src/main/resources/phonei”;
args[1] = “src/main/resources/phoneo”;

    // 1 获取配置信息，或者job对象实例
    Configuration cfg = new Configuration();
    //设置本地模式运行（即使项目类路径下core-site.xml文件，依然采用本地模式）
    cfg.set("mapreduce.framework.name", "local");
    cfg.set("fs.defaultFS", "file:///");
    Job job = Job.getInstance(cfg);
    // 2 指定本程序的jar包所在的本地路径
    job.setJarByClass(PhoneDriver.class);
    // 3 指定本业务job要使用的mapper/Reducer业务类
    job.setMapperClass(PhoneMapper.class);
    job.setReducerClass(PhoneReducer.class);
    // 4 指定mapper输出数据的kv类型
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(Text.class);
    // 5 指定最终输出的数据的kv类型
    job.setOutputKeyClass(LongWritable.class);
    job.setOutputValueClass(Text.class);
    // 8 指定自定义数据分区
    job.setPartitionerClass(PhonePartitioner.class);
    // 9 同时指定相应数量的reduce task(必须指定)
    job.setNumReduceTasks(5);  //----①
    // 6 指定job的输入原始文件所在目录
    FileInputFormat.setInputPaths(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    // 7 将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行
    boolean result = job.waitForCompletion(true);
    System.exit(result ? 0 : 1);
}
}

到此这篇关于hadoop 全面解读自定义分区的文章就介绍到这了,更多相关hadoop 自定义分区内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Spring Data JPA踩坑记录(@id @GeneratedValue)
这篇文章主要介绍了Spring Data JPA踩坑记录(@id @GeneratedValue)，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-07-07
SSH框架网上商城项目第6战之基于DataGrid的数据显示
SSH框架网上商城项目第6战之基于DataGrid的数据显示,提供了丰富的选择、排序、分组和编辑数据的功能支持,感兴趣的小伙伴们可以参考一下
2016-05-05
解决Eclipse的Servers视图中无法添加Tomcat6/Tomcat7的方法
这篇文章主要介绍了解决Eclipse的Servers视图中无法添加Tomcat6/Tomcat7的方法的相关资料,需要的朋友可以参考下
2017-02-02
流式图表拒绝增删改查之框架搭建过程
这篇文章主要为大家介绍了流式图表拒绝增删改查之框架搭建过程详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-04-04
SpringBoot接口或方法进行失败重试的实现方式
为了防止网络抖动,影响我们核心接口或方法的成功率,通常我们会对核心方法进行失败重试,如果我们自己通过for循环实现,会使代码显得比较臃肿,所以本文给大家介绍了SpringBoot接口或方法进行失败重试的实现方式,需要的朋友可以参考下
2024-07-07
Java 关键字 volatile 的理解与正确使用
本文主要介绍 volatile 的使用准则，以及使用过程中需注意的地方，感兴趣的朋友一起看看吧
2017-06-06
C#中NAudio音频库的安装与使用教程详解
NAudio为.NET平台下的开源库,采用ML-PL协议,它支持许多音频操作,可实现多种API播放与录制、多种不同音频格式等功能,下面就跟随小编一起学习一下NAudio的安装与使用吧
2023-11-11
IDEA+GIT使用入门图文详解
这篇文章主要介绍了IDEA+GIT使用入门详解,本文通过图文并茂的形式给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-11-11
Java集合系列之ArrayList源码分析
这篇文章主要为大家详细介绍了Java集合系列之ArrayList源码，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-02-02
java程序中protobuf的基本用法示例
这篇文章主要给大家介绍了关于java程序中protobuf的基本用法,protobuf 与json相比具有压缩比高、解压缩速度更快的优点,本文通过示例代码介绍的非常详细,需要的朋友可以参考下
2021-08-08

hadoop 全面解读自定义分区

目录

需求

输入数据

具体实现：

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具