Hadoop 2.x伪分布式环境搭建详细步骤

更新时间：2016年05月08日 23:01:59 作者：dafei10086

这篇文章主要为大家详细介绍了Hadoop 2.x伪分布式环境搭建详细步骤，感兴趣的朋友可以参考一下

本文以图文结合的方式详细介绍了Hadoop 2.x伪分布式环境搭建的全过程，供大家参考，具体内容如下

1、修改hadoop-env.sh、yarn-env.sh、mapred-env.sh

方法：使用notepad++(beifeng用户)打开这三个文件

添加代码：export JAVA_HOME=/opt/modules/jdk1.7.0_67

2、修改core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml配置文件

1）修改core-site.xml

<configuration>
　　<property>
　　　　<name>fs.defaultFS</name>
　　　　<value>hdfs://Hadoop-senior02.beifeng.com:8020</value>
　　</property>
　　<property>
　　　　<name>hadoop.tmp.dir</name>
　　　　<value>/opt/modules/hadoop-2.5.0/data</value>
　　</property>
</configuration>

2）修改hdfs-site.xml

<configuration>
　　<property>
　　　　<name>dfs.replication</name>
　　　　<value>1</value>
　　</property>
　　<property>
　　　　<name>dfs.namenode.http-address</name>
　　　　<value>Hadoop-senior02.beifeng.com:50070</value>
　　</property>
</configuration>

3）修改yarn-site.xml

<configuration>
　　<property>
　　　　<name>yarn.nodemanager.aux-services</name>
　　　　<value>mapreduce_shuffle</value>
　　</property>
　　<property>
　　　　<name>yarn.resourcemanager.hostname</name>
　　　　<value>Hadoop-senior02.beifeng.com</value>
　　</property>
　　<property>
　　　　<name>yarn.log-aggregation-enable</name>
　　　　<value>true</value>
　　</property>
　　<property>
　　　　<name>yarn.log-aggregation.retain-seconds</name>
　　　　<value>86400</value>
　　</property>
</configuration>

4）修改mapred-site.xml

<configuration>
　　<property>
　　　　<name>mapreduce.framework.name</name>
　　　　<value>yarn</value>
　　</property>
　　<property>
　　　　<name>mapreduce.jobhistory.webapp.address</name>
　　　　<value>0.0.0.0:19888</value>
　　</property>
</configuration>

3、启动hdfs

1）格式化namenode:$ bin/hdfs namenode -format

2）启动namenode:$sbin/hadoop-daemon.sh start namenode

3）启动datanode:$sbin/hadoop-daemon.sh start datanode

4）hdfs监控web页面：http://hadoop-senior02.beifeng.com:50070

4、启动yarn

1）启动resourcemanager:$sbin/yarn-daemon.sh start resourcemanager

2）启动nodemanager:sbin/yarn-daemon.sh start nodemanager

3）yarn监控web页面：http://hadoop-senior02.beifeng.com:8088

5、测试wordcount jar包

1）定位路径：/opt/modules/hadoop-2.5.0

2）代码测试：bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/sort.txt /output6/

运行过程：

16/05/08 06:39:13 INFO client.RMProxy: Connecting to ResourceManager at Hadoop-senior02.beifeng.com/192.168.241.130:8032
16/05/08 06:39:15 INFO input.FileInputFormat: Total input paths to process : 1
16/05/08 06:39:15 INFO mapreduce.JobSubmitter: number of splits:1
16/05/08 06:39:15 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1462660542807_0001
16/05/08 06:39:16 INFO impl.YarnClientImpl: Submitted application application_1462660542807_0001
16/05/08 06:39:16 INFO mapreduce.Job: The url to track the job: http://Hadoop-senior02.beifeng.com:8088/proxy/application_1462660542807_0001/
16/05/08 06:39:16 INFO mapreduce.Job: Running job: job_1462660542807_0001
16/05/08 06:39:36 INFO mapreduce.Job: Job job_1462660542807_0001 running in uber mode : false
16/05/08 06:39:36 INFO mapreduce.Job: map 0% reduce 0%
16/05/08 06:39:48 INFO mapreduce.Job: map 100% reduce 0%
16/05/08 06:40:04 INFO mapreduce.Job: map 100% reduce 100%
16/05/08 06:40:04 INFO mapreduce.Job: Job job_1462660542807_0001 completed successfully
16/05/08 06:40:04 INFO mapreduce.Job: Counters: 49

3）结果查看：bin/hdfs dfs -text /output6/par*

运行结果：

hadoop 2
jps 1
mapreduce 2
yarn 1

6、MapReduce历史服务器

1）启动：sbin/mr-jobhistory-daemon.sh start historyserver

2）web ui界面：http://hadoop-senior02.beifeng.com:19888

7、hdfs、yarn、mapreduce功能

1）hdfs：分布式文件系统，高容错性的文件系统，适合部署在廉价的机器上。

hdfs是一个主从结构，分为namenode和datanode，其中namenode是命名空间，datanode是存储空间，datanode以数据块的形式进行存储，每个数据块128M

2）yarn：通用资源管理系统，为上层应用提供统一的资源管理和调度。

yarn分为resourcemanager和nodemanager，resourcemanager负责资源调度和分配，nodemanager负责数据处理和资源

3）mapreduce：MapReduce是一种计算模型，分为Map（映射）和Reduce（归约）。

map将每一行数据处理后，以键值对的形式出现，并传给reduce；reduce将map传过来的数据进行汇总和统计。

以上就是本文的全部内容，希望对大家的学习有所帮助。

您可能感兴趣的文章:

MSSQL自动同步设置方法
因有几台服务器，做下同步方便数据传输与备份
2008-09-09
使用Navicat连接opengauss数据库完整步骤(详细图文)
Navicat是一套快速、可靠并价格相当便宜的数据库管理工具,专为简化数据库的管理及降低系统管理成本而设,下面这篇文章主要给大家介绍了关于使用Navicat连接opengauss数据库的完整步骤,需要的朋友可以参考下
2024-02-02
DataGrip 连接 HiveServer2 报错的问题
这篇文章主要介绍了DataGrip 连接 HiveServer2 报错的问题,本文通过图文实例相结合给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-09-09
dapper使用Insert或update时部分字段不映射到数据库
我们在使用dapper的insert或update方法时可能会遇见一些实体中存在的字段但是,数据库中不存在的字段,这样在使用insert时就是抛出异常提示字段不存在,这个时候该怎么解决呢,下面给大家分享示例实体代码,感兴趣的朋友一起看看吧
2023-12-12
在PostgreSQL的基础上创建一个MongoDB的副本的教程
这篇文章主要介绍了在PostgreSQL的基础上创建一个MongoDB的副本的教程,使在使用NoSQL的同时又能用到PostgreSQL中的东西,需要的朋友可以参考下
2015-04-04
数据库测试实用技巧及测试方法
软件应用程序已经离不开数据库。无论是在Web、桌面应用、客户端服务器、企业和个人业务，都需要数据库在后端操作。
2011-07-07
数据分析之ELT的基本概念
这篇文章主要介绍了数据分析之ELT的基本概念, ETL是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,需要的朋友可以参考下
2023-07-07
SQL语句优化之JOIN和LEFT JOIN 和 RIGHT JOIN语句的优化
在数据库的应用中，我们经常需要对数据库进行多表查询，然而当数据量非常大时多表查询会对执行效率产生非常大的影响，因此我们在使用JOIN和LEFT JOIN 和 RIGHT JOIN语句时要特别注意
2018-03-03
eXtremeDB 6.0正式发布:提高扩展性和分布式查询速度
这篇文章主要介绍了eXtremeDB 6.0正式发布:提高扩展性和分布式查询速度,本文详细介绍了全新的eXtremeDB 6.0的一些特性,需要的朋友可以参考下
2014-10-10
简单聊聊SQL注入的原理以及一般步骤
所谓SQL注入式攻击,就是攻击者把SQL命令插入到Web表单的输入域或页面请求的查询字符串,欺骗服务器执行恶意的SQL命令,下面这篇文章主要给大家介绍了关于SQL注入的原理以及一般步骤的相关资料,需要的朋友可以参考下
2022-02-02

Hadoop 2.x伪分布式环境搭建详细步骤

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具