用虚拟机克隆大法，30分钟搞定Hadoop 3.1.3全分布式环境（Ubuntu 18.04版）

张开发

• 2026/4/22 17:32:22 • 15 分钟阅读

分享文章

用虚拟机克隆大法，30分钟搞定Hadoop 3.1.3全分布式环境（Ubuntu 18.04版）

虚拟机克隆技术快速部署Hadoop集群实战指南在当今数据驱动的时代掌握大数据技术已成为工程师的必备技能。而Hadoop作为大数据生态系统的基石其集群环境的搭建往往是学习与实践的第一步。传统的手动逐台配置方式不仅耗时费力还容易因操作不一致导致环境差异。本文将介绍一种基于虚拟机克隆的高效部署方法让您能在30分钟内完成Hadoop 3.1.3全分布式环境的搭建。1. 环境准备与模板机配置1.1 虚拟机平台选择与基础设置无论是VMware Workstation还是VirtualBox现代虚拟化平台都提供了强大的克隆功能。建议选择Ubuntu 18.04 LTS作为基础系统因其长期支持特性和广泛的社区资源。关键配置步骤网络模式选择NAT确保各节点能互相通信创建专用用户hadoop并赋予sudo权限关闭不必要的防火墙规则sudo ufw disable1.2 系统级基础配置静态IP配置是集群稳定运行的关键。Ubuntu 18.04使用netplan进行网络管理配置示例如下# /etc/netplan/02-config.yaml network: version: 2 renderer: networkd ethernets: ens33: addresses: [192.168.33.130/24] gateway4: 192.168.33.2 nameservers: addresses: [8.8.8.8, 1.1.1.1]应用配置并验证sudo netplan apply ifconfig1.3 SSH无密码登录配置集群节点间的免密通信是Hadoop正常运行的基础# 生成密钥对 ssh-keygen -t rsa -P -f ~/.ssh/id_rsa # 将公钥加入授权列表 cat ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys # 设置合适权限 chmod 600 ~/.ssh/authorized_keys2. Hadoop核心组件安装与配置2.1 JDK环境部署Hadoop 3.1.3需要Java 8运行环境推荐使用OpenJDKsudo apt update sudo apt install -y openjdk-8-jdk环境变量配置示例添加到~/.bashrcexport JAVA_HOME/usr/lib/jvm/java-8-openjdk-amd64 export PATH$JAVA_HOME/bin:$PATH2.2 Hadoop安装与基础配置下载并解压Hadoop 3.1.3wget https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz tar -xzf hadoop-3.1.3.tar.gz -C /opt配置环境变量export HADOOP_HOME/opt/hadoop-3.1.3 export PATH$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export HADOOP_CONF_DIR$HADOOP_HOME/etc/hadoop2.3 关键配置文件优化core-site.xml配置configuration property namefs.defaultFS/name valuehdfs://master:9000/value /property property namehadoop.tmp.dir/name value/opt/hadoop/tmp/value /property /configurationhdfs-site.xml配置configuration property namedfs.replication/name value3/value /property property namedfs.namenode.name.dir/name value/opt/hadoop/namenode/value /property property namedfs.datanode.data.dir/name value/opt/hadoop/datanode/value /property /configuration3. 虚拟机克隆与节点配置3.1 模板机快照与克隆在完成上述所有配置后建议先创建虚拟机快照然后进行完整克隆操作。克隆时应选择创建完整克隆选项确保各节点独立性。克隆后必要修改主机名修改sudo hostnamectl set-hostname slave1更新/etc/hostname文件调整静态IP地址如前文netplan配置3.2 批量配置自动化脚本为提升效率可编写自动化脚本处理克隆后的配置#!/bin/bash # adjust_node_config.sh NEW_IP$1 NEW_HOSTNAME$2 # 修改IP配置 sudo sed -i s/192.168.33.130\/24/${NEW_IP}\/24/ /etc/netplan/02-config.yaml # 修改主机名 sudo hostnamectl set-hostname ${NEW_HOSTNAME} echo ${NEW_HOSTNAME} | sudo tee /etc/hostname # 应用网络配置 sudo netplan apply # 重启网络服务 sudo systemctl restart systemd-networkd3.3 SSH密钥同步方案克隆会导致各节点SSH密钥相同需重新生成并同步# 在各节点执行 rm -rf ~/.ssh ssh-keygen -t rsa -P -f ~/.ssh/id_rsa # 在master节点收集所有公钥 for node in master slave1 slave2; do ssh-copy-id hadoop$node done # 分发统一的authorized_keys scp ~/.ssh/authorized_keys hadoopslave1:~/.ssh/ scp ~/.ssh/authorized_keys hadoopslave2:~/.ssh/4. 集群启动与验证4.1 格式化HDFS仅在首次启动时需要执行hdfs namenode -format4.2 启动集群服务start-dfs.sh start-yarn.sh4.3 服务状态验证检查各节点进程jps预期输出Master节点NameNode, ResourceManager, SecondaryNameNodeSlave节点DataNode, NodeManagerWeb UI访问HDFS: http://master:9870YARN: http://master:80884.4 测试MapReduce作业运行示例词频统计hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output5. 常见问题排查与优化5.1 网络连接问题症状节点间无法通信解决方案检查/etc/hosts配置验证防火墙状态测试基础网络连通性ping slave1 ssh slave1 hostname5.2 权限相关问题症状启动服务时提示权限不足解决方案在hadoop-env.sh中添加export HDFS_NAMENODE_USERhadoop export HDFS_DATANODE_USERhadoop export HDFS_SECONDARYNAMENODE_USERhadoop export YARN_RESOURCEMANAGER_USERhadoop export YARN_NODEMANAGER_USERhadoop5.3 资源分配优化根据物理机资源调整配置yarn-site.xml调整property nameyarn.nodemanager.resource.memory-mb/name value8192/value /property property nameyarn.scheduler.maximum-allocation-mb/name value8192/value /propertymapred-site.xml调整property namemapreduce.map.memory.mb/name value2048/value /property property namemapreduce.reduce.memory.mb/name value4096/value /property在实际项目中这种基于模板克隆的部署方式相比传统方法可节省约70%的时间成本。特别是在需要频繁重建测试环境的场景下只需维护好模板机就能快速生成标准化的集群环境。

更多文章

前端开发 2026/4/22 10:11:14

CUDA版本降级踩坑实录：解决‘NVIDIA安装程序无法继续’的完整排错指南

CUDA版本降级实战手册：从错误诊断到系统修复的全链路解决方案当你的深度学习项目突然提示"CUDA版本不兼容"时，那种感觉就像赛车手在决赛圈发现油箱漏油。上周我就遇到了这个噩梦——为了运行一个基于TensorFlow 1.15的遗产代码库&#xff0c…

HI3861实战：从日志打印到双向通信的UART1深度开发指南在物联网设备开发中，UART串口通信就像设备间的"普通话"——简单、通用且无处不在。但很多开发者对它的认知停留在printf调试阶段，这就像只学会了用"你好"打招呼&…

张开发

前端开发 2026/4/20 21:21:33

从零手搓一个简易Operator：用Go和client-go实现一个‘网站状态监控’CRD（附完整代码）

从零构建网站监控Operator：基于Kubebuilder与client-go的实战指南在云原生生态中，Operator模式已成为扩展Kubernetes能力的标准方式。本文将带您从零开始构建一个实用的WebsiteMonitor Operator，通过完整代码示例演示如何利用Kubebuilder框架…

张开发

用虚拟机克隆大法，30分钟搞定Hadoop 3.1.3全分布式环境（Ubuntu 18.04版）

最新文章

基于深度徐恶习的YOLOv8和YOLOv11的汽车Logo识别汽车品牌视频实时检测项目

中兴光猫管理神器zteOnu：一键开启工厂模式与永久Telnet

p90RSK重组兔单抗能否解析激酶信号的多维调控？

p90RSK兔多克隆抗体能否覆盖激酶信号的全谱检测？

[工业互联-16] 从通用到确定：实时Linux内核补丁PREEMPT-RT的演进与工业实践

从零手搓一个DES-CBC加密库：用C语言一步步还原经典算法（附完整源码）

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

CUDA版本降级踩坑实录：解决‘NVIDIA安装程序无法继续’的完整排错指南

5分钟完成Windows风扇控制：FanControl终极配置指南

医学影像分类模型构建与辅助诊断落地

Unlearnable CIFAR 10 图像分类实战从异常训练数据到鲁棒建模

手把手教你用Kalibr标定Kinect V1和SBG IMU：ROS下的传感器标定实战笔记

从《加密与解密》到实战：用OllyDbg永久Patch掉TraceMe.exe的校验逻辑

AI Agent在智能风控中的多智能体协同：从规则到AI的演进

libmodbus从机地址被限制在1-247？教你修改源码适配非标设备（如0xFE广播）

C# Winform数据可视化避坑指南：Chart控件Series数据绑定的3种正确姿势与5个常见错误

如何快速掌握VTube Studio API：打造智能虚拟主播的完整指南

别再只调printf了！手把手教你用HI3861的UART1和PC串口助手通信（附完整代码）

从零手搓一个简易Operator：用Go和client-go实现一个‘网站状态监控’CRD（附完整代码）

用虚拟机克隆大法，30分钟搞定Hadoop 3.1.3全分布式环境（Ubuntu 18.04版）

最新文章

基于深度徐恶习的YOLOv8和YOLOv11的汽车Logo识别 汽车品牌视频实时检测项目

中兴光猫管理神器zteOnu：一键开启工厂模式与永久Telnet

p90RSK重组兔单抗能否解析激酶信号的多维调控？

p90RSK兔多克隆抗体能否覆盖激酶信号的全谱检测？

[工业互联-16] 从通用到确定：实时Linux内核补丁PREEMPT-RT的演进与工业实践

从零手搓一个DES-CBC加密库：用C语言一步步还原经典算法（附完整源码）

推荐文章

工业通信协议：Modbus与OPC UA的解析与实现

Verilog仿真翻车现场：Testbench里这些‘坑’你踩过几个？（含$monitor、defparam避坑指南）

Python自动化新手福音：用uiautomator2+Weditor搞定安卓APP元素定位（保姆级避坑）

Path of Building完全指南：5步掌握流放之路最强Build规划工具

保姆级避坑指南：在Ubuntu 16.04上搞定Kinect v2驱动与ORB-SLAM2环境搭建

Java CompletableFuture 并发链式任务管理

相关文章

分享文章

更多文章

基于深度徐恶习的YOLOv8和YOLOv11的汽车Logo识别汽车品牌视频实时检测项目