首页 > 大数据平台 > hadoop > 安装hadoop 记录
2015
07-31

安装hadoop 记录

所使用的包 hadoop-2.7.0.tar.gz jdk-8u45-linux-x64.tar.gz
5台机器 一台master 4台slave  相互之间做好了SSH 免密码登陆

2># cat /etc/hosts
192.168.7.244  master.hadoop
192.168.7.232  slave1.hadoop
192.168.7.237  slave2.hadoop
192.168.7.246  slave3.hadoop
192.168.7.247  slave4.hadoop

5台机器都一样

统一用的hadoop用户
把hadoop和JDK解压在/usr/local/
配置Hadoop环境变量

1)编辑profile文件。

vi /etc/profile
# set hadoop path
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
 
# set JDK path
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin

通过如上配置就可以让系统找到JDK和Hadoop的安装路径。

(3)编辑配置文件

1)进入Hadoop所在目录/usr/local/hadoop/etc/hadoop。

2)配置hadoop-env.sh文件。

vim hadoop-env.sh
export JAVA_HOME=/usr/local/jdk

3)配置core-site.xml文件。

fs.defaultFS
hdfs://master.hadoop:9000
io.file.buffer.size
131702
hadoop.tmp.dir
file:/usr/local/hadoop/tmp
hadoop.proxyuser.hadoop.hosts
hadoop.proxyuser.hadoop.groups

4)配置yarn-site.xml文件。

 
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.auxservices.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.resourcemanager.address
master.hadoop:8032
yarn.resourcemanager.scheduler.address
master.hadoop:8030
yarn.resourcemanager.resource-tracker.address
master.hadoop:8031
yarn.resourcemanager.admin.address
master.hadoop:8033
yarn.resourcemanager.webapp.address
master.hadoop:8088
yarn.nodemanager.resource.memory-mb
2048

5)配置mapred-site.xml文件,加入如下内容。

mapreduce.framework.name
yarn
mapreduce.jobhistory.address
master.hadoop:10020
mapreduce.jobhistory.webapp.address
master.hadoop:19888

(4)创建namenode和datanode目录,并配置其相应路径

mkdir -p /usr/local/hadoop/dfs/data/
mkdir -p /usr/local/hadoop/dfs/name
mkdir -p /usr/local/hadoop/tmp

2)执行命令后,再次回到目录 /usr/local/hadoop/etc/hadoop,配置hdfs-site.xml 文件,在文件中添加如下内容。

dfs.namenode.name.dir
/usr/local/hadoop/dfs/name
dfs.datanode.data.dir
/usr/local/hadoop/dfs/data
dfs.replication
3
dfs.namenode.secondary.http-address
master.hadoop:9001
dfs.webhdfs.enabled
true
配置Slaves文件添加从节点主机名,这样主节点就可以通过配置文件找到从节点,和从节点进行通信。
># cat slaves
slave1.hadoop
slave2.hadoop
slave3.hadoop
slave4.hadoop

将配置好的hadoop打包分发到每个slave上面安装

(7)格式化Namenode(在Hadoop根目录下)

./bin/hadoop namenode -format
启动dfs和yarn
./sbin/start-dfs.sh
./sbin/start-yarn.sh
也可以./sbin/start-all.sh 直接启动
停止./sbin/stop-all.sh

(9)查看是否配置和启动成功

如果在x86机器上运行,则通过jps命令,查看相应的JVM进程

16>$ jps
21267 ResourceManager
21062 SecondaryNameNode
23239 Jps
27404 JobHistoryServer
20846 NameNode
 
slave 上面会有
>$ jps
7027 DataNode
24150 Jps
7243 NodeManager

可以用web查看信息
http://192.168.7.244:50070/
http://192.168.7.244:8088

HDFS命令

HDFS文件操作命令
1、列出HDFS文件
hdfs dfs -ls

在HDFS中未带参数的-ls命令没有返回任何值,它默认返回HDFS的“home”目录下的内容,在HDFS中,没有当前目录这一概念,也没有cd命令。

2、列HDFS目录下某个文档中的文件
hdfs dfs -ls in

3、上传文件到HDFS
hdfs dfs -put test1 test
将hadoop目录下的test1文件上传到HDFS上并重命名为test

4、将HDFS中的文件复制到本地系统中
hdfs dfs -get in getin
将HDFS中的in文件复制到本地系统并命名为getin

5、删除HDFS下的文档
hdfs dfs -rmr out
删除HDFS下名为out的文档

6、查看HDFS下某个文件
hdfs dfs -cat in/*
查看HDFS下in文件中的内容

7、报告HDFS的基本统计信息
hdfs dfsadmin -report

8、退出安全模式
hdfs dfsadmin -safemode leave

9、进入安全模式
hdfs dfsadmin -safemode enter

最后编辑:
作者:saunix
大型互联网公司linux系统运维攻城狮,专门担当消防员

留下一个回复