shuffle的关键阶段sort(Map端和Reduce端)源码分析

 更新时间:2019年01月10日 11:14:02   作者:qq_43193797  
今天小编就为大家分享一篇关于shuffle的关键阶段sort(Map端和Reduce端)源码分析,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧

源码中有这样一段代码

1. Map端排序获取的比较器

public RawComparator getOutputKeyComparator() {
  // 获取mapreduce.job.output.key.comparator.class,必须是RawComparator类型,如果没设置,是null
  Class<? extends RawComparator> theClass = getClass(
   JobContext.KEY_COMPARATOR, null, RawComparator.class);
  // 如果用户自定义了这个参数,那么实例化用户自定义的比较器
  if (theClass != null)
   return ReflectionUtils.newInstance(theClass, this);
  // 默认情况,用户是没用自定义这个参数
  // 判断Map输出的key,是否是WritableComparable的子类
 //  如果是,调用当前类的内部的Comparator!
  return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);
 }

总结: 如何对感兴趣的数据进行排序?

             ① 数据必须作为key

             ② 排序是框架自动排序,我们提供基于key的比较器,也就是Comparator,必须是RawComparator类型

                            a) 自定义类,实现RawComparator,重写compare()

                                          指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

                            b)key实现WritableComparable(推荐)

              ③ 实质都是调用相关的comparaTo()方法,进行比较

2. Reduce端进行分组的比较器

RawComparator comparator = job.getOutputValueGroupingComparator();
// 获取mapreduce.job.output.group.comparator.class,必须是RawComparator类型
// 如果没用设置,直接获取MapTask排序使用的比较器
// 也是比较key
public RawComparator getOutputValueGroupingComparator() {
  Class<? extends RawComparator> theClass = getClass(
   JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);
  if (theClass == null) {
   return getOutputKeyComparator();
  }
  // 如果设置了,就使用设置的比较器
  return ReflectionUtils.newInstance(theClass, this);
 }

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

相关文章

  • Java反射简易教程

    Java反射简易教程

    这篇文章主要介绍了Java反射简易教程,小编觉得挺不错的,这里分享给大家,需要的朋友可以参考。
    2017-11-11
  • Mybatis分页插件PageHelper手写实现示例

    Mybatis分页插件PageHelper手写实现示例

    这篇文章主要为大家介绍了Mybatis分页插件PageHelper手写实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-08-08
  • 通过实例解析POJO和JavaBean的区别

    通过实例解析POJO和JavaBean的区别

    这篇文章主要介绍了通过实例解析POJO和JavaBean的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-07-07
  • JMX监控的具体使用

    JMX监控的具体使用

    JMX最常见的场景是监控Java程序的基本信息和运行情况,本文主要介绍了JMX监控的具体使用,具有一定的参考价值,感兴趣的可以了解一下
    2024-02-02
  • 如何使用Java调用Spark集群

    如何使用Java调用Spark集群

    这篇文章主要介绍了如何使用Java调用Spark集群,我搭建的Spark集群的版本是2.4.4,本文结合示例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
    2024-02-02
  • 浅谈一下Java中的访问修饰符以及作用

    浅谈一下Java中的访问修饰符以及作用

    这篇文章主要介绍了浅谈一下Java中的访问修饰符以及作用,修饰符修饰的是“被访问”的权限,所有修饰符都可以修饰成员变量,方法,构造方法,需要的朋友可以参考下
    2023-05-05
  • 详解Java中信号量Semaphore的使用

    详解Java中信号量Semaphore的使用

    在Java中,正确地管理并发是一件既挑战又有趣的事情,当谈到并发控制,就不得不说Java中的一个非常强大的工具,就是Semaphore,下面我们就来看看Java中信号量Semaphore的具体使用吧
    2024-01-01
  • idea使用easyCode生成代码(根据mybatis-plus模板创建自己的模板)

    idea使用easyCode生成代码(根据mybatis-plus模板创建自己的模板)

    本文主要介绍了idea使用easyCode生成代码,easyCode代码生成器可以减少低价值搬砖,具有一定的参考价值,感兴趣的可以了解一下
    2023-10-10
  • java Person,Student,GoodStudent 三个类的继承、构造函数的执行

    java Person,Student,GoodStudent 三个类的继承、构造函数的执行

    这篇文章主要介绍了java Person,Student,GoodStudent 三个类的继承、构造函数的执行,需要的朋友可以参考下
    2017-02-02
  • SpringBoot2.6.3集成quartz的方式

    SpringBoot2.6.3集成quartz的方式

    quartz是java里头定时任务的经典开源实现,这里讲述一下如何在SpringBoot2.6.3集成quartz,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧
    2022-02-02

最新评论