Hadoop MultipleOutputs输出到多个文件中的实现方法

 更新时间:2017年10月25日 10:21:34   作者:csguo007  
这篇文章主要介绍了 Hadoop MultipleOutputs输出到多个文件中的实现方法的相关资料,希望通过本文能帮助到大家,需要的朋友可以参考下

 Hadoop MultipleOutputs输出到多个文件中的实现方法

1.输出到多个文件或多个文件夹:

驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码

private MultipleOutputs<Text,IntWritable> mos;
public void setup(Context context) throws IOException,InterruptedException {
  mos = new MultipleOutputs(context);
}
public void cleanup(Context context) throws IOException,InterruptedException {
  mos.close();
}

  然后就可以用mos.write(Key key,Value value,String baseOutputPath)代替context.write(key, value);

  在MapClass或Reduce中使用,输出时也会有默认的文件part-m-00*或part-r-00*,不过这些文件是无内容的,大小为0. 而且只有part-m-00*会传给Reduce。

注意:multipleOutputs.write(key, value, baseOutputPath)方法的第三个函数表明了该输出所在的目录(相对于用户指定的输出目录)。

如果baseOutputPath不包含文件分隔符“/”,那么输出的文件格式为baseOutputPath-r-nnnnn(name-r-nnnnn);
如果包含文件分隔符“/”,例如baseOutputPath=“029070-99999/1901/part”,那么输出文件则为029070-99999/1901/part-r-nnnnn

2.案例-需求

需求,下面是有些测试数据,要对这些数据按类目输出到output中:

1512,iphone5s,4英寸,指纹识别,A7处理器,64位,M7协处理器,低功耗

1512,iphone5,4英寸,A6处理器,IOS7

1512,iphone4s,3.5英寸,A5处理器,双核,经典

50019780,ipad,9.7英寸,retina屏幕,丰富的应用

50019780,yoga,联想,待机18小时,外形独特

50019780,nexus 7,华硕&google,7英寸

50019780,ipad mini 2,retina显示屏,苹果,7.9英寸

1101,macbook air,苹果超薄,OS X mavericks

1101,macbook pro,苹果,OS X lion

1101,thinkpad yoga,联想,windows 8,超级本

3.Mapper程序:

package cn.edu.bjut.multioutput;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MultiOutPutMapper extends Mapper<LongWritable, Text, IntWritable, Text> {

  @Override
  protected void map(LongWritable key, Text value, Context context)
      throws IOException, InterruptedException {
    String line = value.toString().trim();
    if(null != line && 0 != line.length()) {
      String[] arr = line.split(",");
      context.write(new IntWritable(Integer.parseInt(arr[0])), value);
    }
  }

}

4.Reducer程序:

package cn.edu.bjut.multioutput;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

public class MultiOutPutReducer extends
    Reducer<IntWritable, Text, NullWritable, Text> {

  private MultipleOutputs<NullWritable, Text> multipleOutputs = null;

  @Override
  protected void reduce(IntWritable key, Iterable<Text> values, Context context)
      throws IOException, InterruptedException {
    for(Text text : values) {
      multipleOutputs.write("KeySpilt", NullWritable.get(), text, key.toString()+"/");
      multipleOutputs.write("AllPart", NullWritable.get(), text);
    }
  }

  @Override
  protected void setup(Context context)
      throws IOException, InterruptedException {
    multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
  }

  @Override
  protected void cleanup(Context context)
      throws IOException, InterruptedException {
    if(null != multipleOutputs) {
      multipleOutputs.close();
      multipleOutputs = null;
    }
  }


}

5.主程序:

package cn.edu.bjut.multioutput;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class MainJob {
  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = new Job(conf, "aaa");
    job.setJarByClass(MainJob.class);

    job.setMapperClass(MultiOutPutMapper.class);
    job.setMapOutputKeyClass(IntWritable.class);
    job.setMapOutputValueClass(Text.class);

    job.setReducerClass(MultiOutPutReducer.class);
    job.setOutputKeyClass(NullWritable.class);
    job.setOutputValueClass(Text.class);

    FileInputFormat.addInputPath(job, new Path(args[0]));

    MultipleOutputs.addNamedOutput(job, "KeySpilt", TextOutputFormat.class, NullWritable.class, Text.class);
    MultipleOutputs.addNamedOutput(job, "AllPart", TextOutputFormat.class, NullWritable.class, Text.class);

    Path outPath = new Path(args[1]);
    FileSystem fs = FileSystem.get(conf);
    if(fs.exists(outPath)) {
      fs.delete(outPath, true);
    }
    FileOutputFormat.setOutputPath(job, outPath);

    job.waitForCompletion(true);
  }
}

如有疑问请留言或者到本站社区交流讨论,感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

  • 基于Retrofit+Rxjava实现带进度显示的下载文件

    基于Retrofit+Rxjava实现带进度显示的下载文件

    这篇文章主要为大家详细介绍了基于Retrofit+Rxjava实现带进度显示的下载文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • Java中Struts2的值栈ValueStack详解

    Java中Struts2的值栈ValueStack详解

    这篇文章主要介绍了Java中Struts2的值栈ValueStack详解,值栈(ValueStack)就是 OGNL 表达式存取数据的地方,在一个值栈中,封装了一次请求所需要的所有数据,需要的朋友可以参考下
    2023-08-08
  • Maven插件之Dependency:analyze的使用

    Maven插件之Dependency:analyze的使用

    在软件开发中,合理管理项目依赖是保证构建稳定性的关键,Maven作为流行的项目管理工具,提供了Dependency插件来帮助开发者分析和优化项目依赖,通过执行dependency:analyze指令,可以辨识项目中使用的、未声明的、和未使用的依赖项
    2024-10-10
  • java实现简单石头剪刀布小游戏

    java实现简单石头剪刀布小游戏

    这篇文章主要为大家详细介绍了java实现简单石头剪刀布小游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-01-01
  • JavaWeb中的文件的上传和下载

    JavaWeb中的文件的上传和下载

    JavaWeb 文件的上传和下载是指在Web应用中实现用户上传文件到服务器和从服务器下载文件的功能,通过JavaWeb技术,可以方便地实现文件的上传和下载操作,提供更好的用户体验和数据交互,需要的朋友可以参考下
    2023-10-10
  • java中List、Array、Map、Set等集合相互转换

    java中List、Array、Map、Set等集合相互转换

    这篇文章主要介绍了java中List、Array、Map、Set等集合相互转换的相关资料,需要的朋友可以参考下
    2017-05-05
  • Java中LinkedList的模拟实现

    Java中LinkedList的模拟实现

    本文主要介绍了Java中LinkedList的模拟实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • Java实现根据前端所要格式返回树形3级层级数据

    Java实现根据前端所要格式返回树形3级层级数据

    这篇文章主要为大家详细介绍了Java如何实现根据前端所要格式返回树形3级层级数据,文中的示例代码讲解详细,有需要的小伙伴可以了解下
    2024-02-02
  • idea中的Maven导包失败问题解决方案汇总

    idea中的Maven导包失败问题解决方案汇总

    这篇文章主要介绍了idea中的Maven导包失败问题解决总结,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2023-02-02
  • springboot中restful风格请求的使用方法示例

    springboot中restful风格请求的使用方法示例

    RESTful是一种web软件风格,它不是标准也不是协议,它不一定要采用,只是一种风格,它倡导的是一个资源定位(url)及资源操作的风格,下面这篇文章主要给大家介绍了关于springboot中restful风格请求的使用方法,需要的朋友可以参考下
    2023-02-02

最新评论