3# 虚拟机搭建 Hadoop 分布式与伪分布式折腾记录

教程参考 在 Ubuntu 20.04 LTS 上搭建 Hadoop 环境 – DGideas' Blog

这篇教程挺简陋的, 第一次照着做基本上操作3步一个问题, 遇到问题即刻上网冲浪.

后来逐渐了解之后, 照着操作就没什么问题了, 令我受益匪浅, 在这里感谢一下作者.

 

起因: 闲, 突然想玩hadoop

目标: 利用虚拟机, 搭建两台奴隶的分布式系统, 再做一台伪分布式.


Linux版本选择: 

    第一版用了 Ubuntu, 在什么都不会的情况下当然还是Ubuntu用起来简便一点啊

    第二版选择了Arch Linux 原版, 配置 linux 配了一万年, 说实话不用 arch 还不知道Linux 竟然可以这么简陋 (简陋? 其实是剩饭吃多啦!). 选择 arch 的原因有一部分是出于系统体积, 物理机上只给 linux 分了 80Gb 物理储存空间, 做一个1主2奴的分布式正好留点空间存快照. 但万万没想到我是真的菜哦, 连个 arch 都玩不好, 进入系统10分钟 网上找问题解决方案1小时. 最后放弃.

    第三版 arch 的发行版 manjaro, 尝试后除了 dhcp 阻碍设置静态 ip, 还遇到了 vmtools 装不上的情况, 放弃. 自己像个傻逼一样装一个防火墙关一个防火墙 iptables --> ufw --> firewalld 高强度套娃, 最后在本来能连上网的情况下硬是把自己搞得上不了网.

    魔怔配置之窗口管理器 i3, i3bar 配了结果不能启用, polybar 编译完不能启用, VMware 自带的 vmtools 不兼容用不了, 冲浪了以下才知道2021年已经可以用 open vm tools, 我可真是个火星人.

就算装了 open vm tools 也只用上了窗口缩放, 不能文件复制粘贴研究十万年也没解决.

 

    第四版 Debian, 用不来, 放弃.

    第五版 centos, 因为centos8要死了, 索性用了 centos stream, 很好用, 准备在centos上装hadoop玩.

    第六版 Rocky Linux, 年关将至,开了个新的虚拟机装 Hadoo, 上学的时候老师说 "不要嫌安装麻烦, 出问题就删了虚拟机重来", 我也乐此不疲.

照着教程一步一步, 逐渐搭好了环境, 写了一个上位机分发脚本, 给集群配置好 ssh 免密码登录, 以及几个应用的群起脚本. 这是最成功的一个版本.


以下是流程

    准备工作:

    修改各种工具下载镜像源, 琐碎组件要下载很多次, 也有一些仓库用 fastgit.org 也行, 不过考虑到后期使用建议装个 vpn 和 proxychain.

 

    设置静态ip:

    更改 VMware 的虚拟网卡设置 --> 更改物理机里看到的 VMware 虚拟网卡网卡设置 --> 更改虚拟机中 Linux 的 ip 地址, 将 ip 设置为 VMware 设置的地址即可.

    设置 ip 主机名映射关系:

    在 hosts 里添加 ip 空格主机名, 复制粘贴增量.

    安装一个可以用的 jdk.

 

    安装 Hadoop:

    首先下载环境, apache 官网镜像列表下, 因为我下载的时候虚拟机还没装, 所以要把物理机上的内容传给虚拟机, Rocky 作为换皮 CentOS, 在 vmtool 这方面可以说完全简直没有任何不一样的差别.

    解压 Hadoop 环境, 我选择解压到 /opt/ 里用. 解压好之后就直接改配置文件就能用了.

    直接复制虚拟机, 逐个修改 ip.

    网上找个脚本批量 ssh 免密.

    修改 Hadoop 环境配置.

    安装 hive 和 Hbase.

    分发到别的虚拟机.

    群起, done! 

 

奇怪的踩坑: java 运行环境的某个位置里报错, 错误内容是个 xml 里的注释用了 & 符号, 然后就奇奇妙妙报错了, 害我给他修改成了 and. 

评论

  1. 你好,我是《在 Ubuntu 20.04 LTS 上搭建 Hadoop 环境》一篇文章的作者,注意到阁下在按照教程尝试在 Ubuntu 20.04 服务器上尝试搭建 Hadoop 环境时遇到了种种问题,请问能否分享一下吗?我个人按照文章所述步骤搭建没有再遇到额外的问题。

    回复删除
    回复
    1. 您的文章没有问题, 我受益匪浅, 文字里提到的主要是因为我初次接触 Hadoop, 操作不熟练导致.😗

      删除

发表评论

此博客中的热门博文

17# Apache Spark 的学习笔记 (WIP)

20# Apache Kafka 的学习笔记

1# 失败的赛博空间匿名技术的思考