基于VMware虚拟机的Hadoop完全分布式集群搭建-HQY 一个和谐有爱的空间

02

2024
02
00:35:52

基于VMware虚拟机的Hadoop完全分布式集群搭建

1.Linux安装配置

1.1创建模板虚拟机

网络类型选择【NAT模式】

可选用最小化安装

1.2网络配置

虚拟机网络配置

vi /etc/sysconfig/network-scripts/ifcfg-ens33

操作如下几行即可：

BOOTPROTO=dhcp改为BOOTPROTO=static
ONBOOT=no改为ONBOOT=yes
添加4行

IPADDR=192.168.150.200与物理机VMnet8虚拟网卡在同一网段
NETMASK=255.255.255.0与物理机VMnet8虚拟网卡子网掩码相同
GATEWAY=192.168.150.2与物理机VMnet8虚拟网卡网关相同
DNS1=114.114.114.114可与物理机相同

配置完则重启网卡：

service network restart

检查网络配置是否正确

ping baidu.com //ping外网
ping 192.168.1.103 //ping物理机

虚拟机无法ping通物理机，可能是物理机开启了防火墙，在控制面板-Windows Defender中关闭防火墙即可。

1.3安装epel-release

配置国内yum源

sudo sed -e 's|^mirrorlist=|#mirrorlist=|g' \
         -e 's|^#baseurl=http://mirror.centos.org|baseurl=https://mirrors.tuna.tsinghua.edu.cn|g' \
         -i.bak \
         /etc/yum.repos.d/CentOS-*.repo

更新yum并安装epel-release

yum update && yum -y install epel-release

1.4关闭模板机防火墙

systemctl stop firewalld && systemctl disable firewalld

1.5创建资源目录

建议指定一个目录用于后期软件的安装

mkdir -p /data/{module,software}

1.6安装rsync

其实可以不要，我后面没用上这个

rsync用于后期执行集群分发脚本

yum install -y rsync

启动并设置开机自启

systemctl start rsyncd && systemctl enable rsyncd

修改rsync配置文件

vi /etc/rsyncd.conf

可复制以下内容：

# 运行RSYNC守护进程的用户
uid = root
# 运行RSYNC守护进程的组
gid = root
#不使用chroot
use chroot = no
# 最大连接数为4
max connections = 4
# CentOS7中yum安装不需指定pid file 否则报错
# pid file = /var/run/rsyncd.pid
# 指定锁文件
lock file=/var/run/rsyncd.lock
# 指定日志文件
log file = /var/log/rsyncd.log
exclude = lost+found/
transfer logging = yes
# 超时时间
timeout = 900
# 同步时跳过没有权限的目录
ignore nonreadable = yes
# 传输时不压缩的文件
dont compress = *.gz *.tgz *.zip *.z *.Z *.rpm *.deb *.bz2

1.7卸载自带JDK

检查是否安装了Java

rpm -qa | grep javarpm -qa | grep jdkrpm -qs | grep gcj

如果自带了openjdk则需要卸载

rpm -e XXX

卸载完再检查一下

1.8重启模板机

reboot

2.创建分布集群

2.1创建虚拟机

利用模板机克隆出三台虚拟机Node1、Node2、Node3

修改主机名：

echo "Node1" > /etc/hostname

UUID设置E

生成UUID

uuidgen >> /etc/sysconfig/network-scripts/ifcfg-ens33

    删除ifcfg-ens33文件中第一个UUID值，并在生成的uuid前面加上“UUID=”，三个节点的uuid都要配置

配置静态IP

vi /etc/sysconfig/network-scripts/ifcfg-ens33

BOOTPROTO=static

ONBOOT=yes

IPADDR=192.168.150.201与物理机VMnet8虚拟网卡在同一网段

NETMASK=255.255.255.0与物理机VMnet8虚拟网卡子网掩码相同

GATEWAY=192.168.150.2与物理机VMnet8虚拟网卡网关相同

DNS1=114.114.114.114可与物理机相同

最好给物理机的VMnet8虚拟网卡配置好相应的静态ip、子网掩码、网关和DNS

三个节点的静态IP都要配置且不能相同

修改映射文件

vi /etc/hosts

echo "192.168.150.201 Node1" >> /etc/hostsecho "192.168.150.202 Node2" >> /etc/hostsecho "192.168.150.203 Node3" >> /etc/hosts

重启三台虚拟机

reboot

3.安装JDK

上传jdk压缩包

统一放在/data/software目录下

解压

解压到/data/module目录下

tar -zxvf /data/software/jdk-8u311-linux-x64.tar.gz -C /data/module

添加环境变量

echo "export JAVA_HOME=/data/module/jdk1.8.0_311" >> /etc/profile 
echo "export PATH=\$JAVA_HOME/bin:\$PATH" >> /etc/profile

source /etc/profile

4.安装hadoop

上传压缩包

统一放在/data/software目录下

解压
统一解压到/data/module目录下

tar -xzvf /data/software/hadoop-3.3.2.tar.gz -C /data/module

配置环境变量

echo "export HADOOP_HOME=/data/module/hadoop-3.3.2" >> /etc/profileecho "export PATH=\$HADOOP_HOME/bin:\$PATH" >> /etc/profileecho "export PATH=\$HADOOP_HOME/sbin:\$PATH" >> /etc/profile

使环境变量生效

source /etc/profile

5.完全分布式集群搭建

5.1设置免密登陆

三台机器分别创建公钥私钥对

ssh-keygen -t rsa

将3台虚拟机的公钥拷贝到Node1上

ssh-copy-id Node1

从Node1复制公钥到Node2和Node3

scp /root/.ssh/authorized_keys Node2:/root/.sshscp /root/.ssh/authorized_keys Node3:/root/.ssh

设置时间同步
安装chrony

yum install chrony
systemctl start chronyd
systemctl enable chronyd

修改时间服务器

vi /etc/chrony.conf

server ntp.aliyun.com iburst
server cn.ntp.org.cn iburst

重启chrony

systemctl restart chronyd.service

5.2分发JDK和Hadoop

将Node1的JDK分发给Node2和Node3

scp -r /data/module/jdk1.8.0_311 Node2:/data/module/scp -r /data/module/jdk1.8.0_311 Node3:/data/module/

将Node1的Hadoop分发给Node2和Node3

scp -r /data/module/hadoop-3.3.2/ Node2:/data/module/scp -r /data/module/hadoop-3.3.2/ Node3:/data/module/

将环境变量分发给Node2和Node3

scp /etc/profile Node2:/etc/profilescp /etc/profile Node3:/etc/profile

使Node2和Node3的环境变量生效

在Node2和Node3机器上运行如下：

source /etc/profile

5.3配置主节点

修改hadoop-env.sh

echo "export JAVA_HOME=/data/module/jdk1.8.0_311
#HADOOP_SHELL_EXECNAME=root
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root" >> /data/module/hadoop-3.3.2/etc/hadoop/hadoop-env.sh

修改core-site.xml

<configuration><!-- 指定NameNode的地址 --><property>
    <name>fs.defaultFS</name>
    <value>hdfs://Node1:9000</value></property><!-- 指定hadoop数据的存储目录--><property>
    <name>hadoop.tmp.dir</name>
    <value>/data/module/hadoop/data</value></property><!-- 配置HDFS网页登录使用的静态用户为master --><property>
    <name>hadoop.http.staticuser.user</name>
    <value>master</value></property></configuration>

修改hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>3</value></property><property><name>dfs.namenode.name.dir</name><value>${hadoop.tmp.dir}/nndata</value></property><property><name>dfs.datanode.data.dir</name><value>${hadoop.tmp.dir}/dndata</value></property><property><name>dfs.namenode.http-address</name><value>Node1:9870</value></property><property><name>dfs.namenode.secondary.http-address</name><value>Node2:9870</value></property></configuration>

修改yarn-site.xml

<configuration><!-- 指定MR走shuffle --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定ResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>Node1</value></property><!-- 环境变量的继承--><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HA
DOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,
HADOOP_MAPRED_HOME</value></property><!-- 如果要程序的运行日志信息上传到HDFS系统上，可配置日志聚集（选
择配置） --><!-- 开启日志聚集功能--><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 设置日志聚集服务器地址--><property><name>yarn.log.server.url</name><value>http://Node2:19888/jobhistory/logs</value></property><!-- 设置日志保留时间为7天--><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property></configuration>

修改mapred-site.xml

<!-- 指定MapReduce程序运行在Yarn上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property><!-- 如果要看程序的历史运行情况，可以配置历史服务器（选择配置）--><!-- 历史服务器端地址--><property><name>mapreduce.jobhistory.address</name><value>Node2:10020</value></property><!-- 历史服务器web端地址--><property><name>mapreduce.jobhistory.webapp.address</name><value>Node2:19888</value></property>

修改workers文件

echo "Node1
Node2
Node3" > /data/module/hadoop-3.3.2/etc/hadoop//workers

scp /data/module/hadoop-3.3.2/etc/hadoop/workers Node2:/data/module/hadoop-3.3.2/etc/hadoop/workersscp /data/module/hadoop-3.3.2/etc/hadoop/workers Node3:/data/module/hadoop-3.3.2/etc/hadoop/workers

分发配置文件

scp /data/module/hadoop-3.3.2/etc//hadoop/* Node2:/data/module/hadoop-3.3.2/etc/hadoop/scp /data/module/hadoop-3.3.2/etc//hadoop/* Node3:/data/module/hadoop-3.3.2/etc/hadoop/

5.5启动集群

hdfs namenode -format

start-all.sh

//stop-all.sh

5.6ZooKeeper安装

下载安装包到/data/software
解压到/data/module并重命名为zookeeper
创建数据目录和日志目录

mkdir /data/module/zookeeper/{data,logs}

创建myid文件

touch /data/module/zookeeper/data/myid

配置ZooKeeper运行参数

复制一个配置文件

cp /data/module/zookeeper/conf/zoo_sample.cfg /data/module/zookeeper/conf/zoo.cfg

追加配置内容如下：

#dataDir: 数据文件目录
dataDir=/usr/local/servers/zookeeper/data
#dataLogDir: 日志文件目录
dataLoDir=/usr/local/servers/zookeeper/logs
admin.serverPort=9099

server.1=Node1:2888:3888
server.2=Node2:2888:3888
server.3=Node3:2888:3888

分发zookeeper给Node2和Node3

scp /data/module/zookeeper Node2:/data/modulescp /data/module/zookeeper Node3:/data/module

写myid文件

echo 1 > /data/module/zookeeper/data/myid

   Node1写入1

   Node2写入2

   Node3写入3

启动ZooKeeper

/data/module/zookeeper/bin/zkServer.sh start

推荐本站淘宝优惠价购买喜欢的宝贝:

本文链接：https://hqyman.cn/post/5021.html 非本站原创文章欢迎转载，原创文章需保留本站地址！

分享到：

打赏

休息一下~~

作者:hqy | 分类:虚拟化&超融合 | 浏览:490 | 评论:0

发表评论:

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

« 2025年6月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

本站推荐小工具: MSDN ISO 磁力地址版本1

MSDN ISO 磁力地址版本2

Windows系统下载仓储站

微软原版软件官方镜像下载列表

Windows kms激活

Office kms激活

VMware ESXi8.0 补丁免费下载

Vmpatch镜像站

领淘宝优惠券

在线小工具

BING精品壁纸图片

360精品4K壁纸图片，每日词霸

Unlock Music 音乐解锁 (React)

在线查IP |WhatIsMyIPAddress

在线下载测速

百家姓暗号

在线fc小游戏

圈住猫的游戏

2048的游戏

找色差小游戏

今天吃什么呢

毒鸡汤网页

每日笑话精选

在线查QQ价值

在线it-tools工具箱

在线it-tools工具箱(备站)

微软密钥在线检测

在线WinXP虚拟机

whois在线查询

开发者资源的宝库

Linux工具箱一键脚本

Linux工具箱

城通网盘

宝塔服务器面板

阿里云特价VPS服务器

腾讯云特价VPS服务器

华为云特价VPS服务器

京东云特价VPS服务器

cloudcone特价VPS服务器

racknerd特价VPS服务器

恒创VPS特价服务器

简云免费虚拟云主机

PrivacyPolicy

控制面板: 您好，欢迎到访网站！
登录后台查看权限
个人中心修改密码

随心随性: 沧海月明珠有泪，蓝田日暖玉生烟。

网站分类

搜索

最新留言

文章归档

网站收藏

一个和谐有爱的空间

友情链接

孙悟空

HQY 一个和谐有爱的空间

HQY

02

20240200:35:52