shuffle的关键阶段sort(Map端和Reduce端)源码分析

更新时间：2019年01月10日 11:14:02 作者：qq_43193797

今天小编就为大家分享一篇关于shuffle的关键阶段sort(Map端和Reduce端)源码分析，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

源码中有这样一段代码

1. Map端排序获取的比较器

public RawComparator getOutputKeyComparator() {
  // 获取mapreduce.job.output.key.comparator.class，必须是RawComparator类型，如果没设置，是null
  Class<? extends RawComparator> theClass = getClass(
   JobContext.KEY_COMPARATOR, null, RawComparator.class);
  // 如果用户自定义了这个参数，那么实例化用户自定义的比较器
  if (theClass != null)
   return ReflectionUtils.newInstance(theClass, this);
  // 默认情况，用户是没用自定义这个参数
  // 判断Map输出的key，是否是WritableComparable的子类
 //  如果是，调用当前类的内部的Comparator!
  return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);
 }

总结：如何对感兴趣的数据进行排序？

① 数据必须作为key

② 排序是框架自动排序，我们提供基于key的比较器，也就是Comparator，必须是RawComparator类型

a) 自定义类，实现RawComparator，重写compare()

指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

b）key实现WritableComparable(推荐)

③ 实质都是调用相关的comparaTo()方法，进行比较

2. Reduce端进行分组的比较器

RawComparator comparator = job.getOutputValueGroupingComparator();
// 获取mapreduce.job.output.group.comparator.class，必须是RawComparator类型
// 如果没用设置，直接获取MapTask排序使用的比较器
// 也是比较key
public RawComparator getOutputValueGroupingComparator() {
  Class<? extends RawComparator> theClass = getClass(
   JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);
  if (theClass == null) {
   return getOutputKeyComparator();
  }
  // 如果设置了，就使用设置的比较器
  return ReflectionUtils.newInstance(theClass, this);
 }

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

您可能感兴趣的文章:

Java反射简易教程
这篇文章主要介绍了Java反射简易教程，小编觉得挺不错的，这里分享给大家，需要的朋友可以参考。
2017-11-11
Mybatis分页插件PageHelper手写实现示例
这篇文章主要为大家介绍了Mybatis分页插件PageHelper手写实现示例，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-08-08
通过实例解析POJO和JavaBean的区别
这篇文章主要介绍了通过实例解析POJO和JavaBean的区别,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-07-07
JMX监控的具体使用
JMX最常见的场景是监控Java程序的基本信息和运行情况,本文主要介绍了JMX监控的具体使用,具有一定的参考价值,感兴趣的可以了解一下
2024-02-02
如何使用Java调用Spark集群
这篇文章主要介绍了如何使用Java调用Spark集群,我搭建的Spark集群的版本是2.4.4,本文结合示例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
2024-02-02
浅谈一下Java中的访问修饰符以及作用
这篇文章主要介绍了浅谈一下Java中的访问修饰符以及作用,修饰符修饰的是“被访问”的权限,所有修饰符都可以修饰成员变量，方法，构造方法,需要的朋友可以参考下
2023-05-05
详解Java中信号量Semaphore的使用
在Java中,正确地管理并发是一件既挑战又有趣的事情,当谈到并发控制,就不得不说Java中的一个非常强大的工具,就是Semaphore,下面我们就来看看Java中信号量Semaphore的具体使用吧
2024-01-01
idea使用easyCode生成代码(根据mybatis-plus模板创建自己的模板)
本文主要介绍了idea使用easyCode生成代码,easyCode代码生成器可以减少低价值搬砖,具有一定的参考价值,感兴趣的可以了解一下
2023-10-10
java Person,Student,GoodStudent 三个类的继承、构造函数的执行
这篇文章主要介绍了java Person,Student,GoodStudent 三个类的继承、构造函数的执行,需要的朋友可以参考下
2017-02-02
SpringBoot2.6.3集成quartz的方式
quartz是java里头定时任务的经典开源实现，这里讲述一下如何在SpringBoot2.6.3集成quartz，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友参考下吧
2022-02-02

shuffle的关键阶段sort(Map端和Reduce端)源码分析

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具