Hadoop 及Spark 分布式HA運行環境搭建-魔扣目錄

欲善其事必先利其器，在深入學習大數據相關技術之前，先手動從0到1搭建一個屬于自己的本地Hadoop和Spark運行環境，對于繼續研究大數據生態圈各類技術具有重要意義。本文旨在站在研發的角度上通過手動實踐搭建運行環境，文中不拖泥帶水過多講述基礎知識，結合Hadoop和Spark最新版本，幫助大家跟著步驟一步步實踐環境搭建。

1. 總體運行環境概覽

（1）軟件包及使用工具版本介紹表：

（2）環境部署與分布介紹表：

（3）進程介紹：（1表示進程存在，0表示不存在）

2. 系統基礎環境準備

步驟1：虛擬機中linux系統安裝（略）

VirtualBox中安裝centos7操作系統

步驟2： CentOS7基礎配置

（1）配置主機的hostname

命令： vim/etc/hostname

（2）配置hosts，命令vim /etc/hosts

（3）安裝JDK

命令：

rpm -qa | grep JAVA 查看是否有通過rpm方式安裝的java

java -version 查看當前環境變量下的java 版本

1） filezilla上傳安裝包，tar -zxvf

jdk-8u212-linux-x64.tar.gz 解壓

2） bin目錄的完整路徑：

/usr/local/jdk/jdk1.8.0_212/bin

3） vim /etc/profile 配置jdk環境變量

（4）復制主機：

1）利用VirtualBox復制功能復制兩臺主機

2）命令：vi

/etc/sysconfig.NETwork-scripts/ifcfg-eth0，設置相應的網絡信息

3）三臺主機IP分別為： 192.168.0.20/21/22

（5）配置三臺主機ssh無密碼登錄（略）

（6）安裝zookeeper

1） filezilla上傳安裝包，zookeeper-3.4.10.tar.gz 解壓

2） bin目錄的完整路徑：

/usr/local/zookeeper/zookeeper-3.4.10/bin

3） vim /etc/profile 配置jdk環境變量

4） zookeeper的配置文件修改，zookeeper-3.4.10/conf/

5）執行命令從master節點復制配置到其他兩個節點

6）每臺機器zookeeper目錄下新建一個data目錄， data目錄下新建一個myid文件，master主機存放標識值1；slave1主機標識值為2；slave3主機標識值為3

7）每臺機器上命令：zkServer.sh start ，啟動ZK，進程名：QuorumPeerMain

3. Hadoop安裝與部署 3.1安裝Hadoop

1）filezilla上傳安裝包，hadoop-3.3.4.tar.gz 解壓

2）bin目錄的完整路徑： /usr/local/hadoop/hadoop-3.3.4/bin

3）vim /etc/profile 配置jdk環境變量

4）修改配置文件共6個： hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml和workers

文件1： hadoop-env.sh；增加jdk環境變量

文件2： core-site.xml；配置臨時目錄及zookeeper信息

文件3： hdfs-site.xml；配置hdfs信息

文件4： mapred-site.xml；配置mapreduce和dfs權限信息

文件5： yarn-site.xml；配置yarn資源調度信息

文件6: worker文件存放當前的worker節點名，復制到每一個虛擬機中

3.2啟動Hadoop

1）使用命令： hadoop-daemon.sh start journalnode 啟動journalnode 進程（每個節點執行）

2）使用命令： hadoop-daemon.sh start namenode 啟動namenode 進程（master、slave1節點上執行）

3）使用命令：hadoop-daemon.sh start datanode 在所有節點上啟動datanode 進程

4）使用命令：start-yarn.sh 在master上啟動yarn

5）使用命令： hdfs zkfc -formatZK 在ZK上生成ha節點

6）使用命令： hadoop-daemon.sh start zkfc 啟動 DFSZKFailoverController進程，在master節點執行

a. 訪問HDFS的管理頁面

http://192.168.0.20:50070 此處192.168.0.20為namenode節點的Active節點

http://192.168.0.21:50070 此處192.168.0.20為namenode節點的standby節點

3.3 驗證HDFS使用

使用命令：hdfs dfs -ls / 查看HDFS中文件

使用命令：hdfs dfs -mkdir /input 在HDFS上創建目錄

使用命令：hdfs dfs -put ./test.txt /input 將本地文件上傳到HDFS指定目錄

使用命令：hdfs dfs -get /input/test.txt ./tmp 將HDFS文件復制到本地目錄

使用命令：hdfs dfs -text /input/test.txt 查看HDFS上的文本文件

web端瀏覽HDFS目錄

3.4 驗證MapReduce的wordcount案例

（1）先通過命令將帶有文本內容的test2.txt文件上傳到HDFS

（2）對HDFS上test2.txt文件執行wordcount統計，結果放回HDFS新目錄，命令：

hadoop jar /usr/local/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input/test2.txt /out

4. Spark安裝與部署 3.1安裝Scala

（1）安裝scala

上傳scala壓縮包解壓，使用命令：

scala -version 查看當前環境變量下的scala 版本

（2）拷貝scala目錄和環境變量到其他兩臺機器

使用命令：

scp -r /usr/local/scala root@slave1:/usr/local/

scp /etc/profile root@slave1:/etc/profile

3.2安裝Spark

（1）上傳spark壓縮包解壓，修改配置文件

命令： vim

/usr/local/spark/spark-3.3.1/conf/spark-env.sh

（2）新建worker目錄，寫入master機器名稱

3.3啟動Spark

（1）在master的spark安裝目錄下啟動spark

命令：

cd /usr/local/spark/spark-3.3.1/sbin

./start-all.sh

（2）在slave1同樣目錄啟動master進程

命令：./start-master.sh

（3）訪問spark管理頁面ui

3.3 驗證Spark的wordcount案例

（1）執行命令：

cd /usr/local/spark/spark-3.3.1/bin

./spark-shell --master spark://master:7077

（3）從HDFS讀取數據執行自定義wordcount代碼，結果寫入HDFS，命令：

sc.textFile("hdfs://master:9000/input/test2.txt").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._2,pair._1)).saveAsTextFile("hdfs://master:9000/spark_out")

（4）輸出結果：

5. 后記

大數據技術日新月異，得益于互聯網技術加持下的商業和工業模式變革。人們日益增長的對生活生產便捷性、數字化、智能化的需求，催生了數據爆炸式的增長，推動了大數據技術推陳出新。作為新時代的程序開發者，必須掌握一定的大數據基礎知識才能適應時代的要求，本文只是一個引子，從自身實踐的角度幫助初學者認識大數據，并基于此搭建自己屬于自己的開發環境，希望大家能夠在此基礎上繼續鉆研有所建樹。

作者：京東物流秦彪

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

Hadoop 及Spark 分布式HA運行環境搭建

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03