wordpress 命令插件東莞seo靠譜
分布式系統(tǒng)框架hadoop3入門 (qq.com)
Hadoop3作為分布式系統(tǒng)架構(gòu)的重要基石,為大規(guī)模數(shù)據(jù)存儲與處理提供了強大支持
基本信息
hadoop:一個存儲和處理大數(shù)據(jù)的分布式系統(tǒng)框架
組成: HDFS(數(shù)據(jù)存儲)、MapReduce(計算)、Yarn(資源調(diào)度)、Common(輔助工具)
HDFS:Hadoop Distributed File System,一個分布式文件系統(tǒng);組成有NameNode(存儲文件的元數(shù)據(jù),類似目錄索引),DataNode(存儲文件塊數(shù)據(jù)),Secondary NameNode(NameNode元數(shù)據(jù)備份)
YARN:Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者,Hadoop 的資源管理器,組成有ResourceManager(管理集群資源)、NodeManager(管理單個節(jié)點資源)、ApplicationMaster(管理單個任務(wù))、Container(封裝任務(wù)需要的資源)
MapReduce:將計算過程分為兩個階段Map 和 Reduce,Map 階段并行處理輸入數(shù)據(jù),Reduce 階段對 Map 結(jié)果進行匯總
配置環(huán)境
三臺虛機:安裝vmvare,創(chuàng)建模板虛擬機h1,centos7.5,配置完虛機模板后,克隆三個虛機h2-h4,分別修改對應(yīng)的ip地址和主機名
配置ip地址:vm設(shè)置VMnet8的子網(wǎng)ip和網(wǎng)關(guān)、內(nèi)部虛機修改主機名和hosts文件,靜態(tài)地址、window配置Adapter VMnet8 默認(rèn)網(wǎng)關(guān),DNS服務(wù)器
安裝遠程終端工具:Xshell,Xftp傳輸工具
模板虛機配置:
安裝epel-release(需更換為阿里源)
關(guān)閉防火墻及開機自啟、配置常用用戶有root權(quán)限
/opt目錄下創(chuàng)建文件夾module和software,一個安裝軟件,一個放軟件包
卸載虛擬機自帶的JDK
在h2安裝JDK和hadoop
用XShell傳輸工具將安裝包,導(dǎo)入到opt目錄下面的software文件夾下面
解壓安裝包到/opt/module目錄下
配置環(huán)境變量
測試是否安裝成功
將在h2安裝的JDK和hadoop分發(fā)到h3,h4
兩個命令:scp(secure copy)安全拷貝、rsync遠程同步工具,前者可以在虛機之間復(fù)制文件,后者增量復(fù)制,效率更高
xsync集群分發(fā)腳本:基于上述兩個命令編寫xsync編寫集群分發(fā)腳本,聲明了全局環(huán)境變量的路徑的bin目錄下
SSH無密登錄配置:生成公鑰和私鑰,將公鑰拷貝到要免密登錄的目標(biāo)機器上,每臺機器都要生成,并拷貝到其他機器上
配置集群并啟動
集群規(guī)劃:h2放NameNode,h3放ResourceManager,h4放SecondaryNameNode
配置-修改配置文件
核心配置文件core-site.xml:指定NameNode的地址、指定hadoop數(shù)據(jù)的存儲目錄
HDFS配置文件hdfs-site.xml:指定NameNode(nn)的地址 web端訪問地址、SecondaryNameNode(2nn) web端訪問地址
YARN配置文件yarn-site.xml:指定MR走shuffle、指定ResourceManager的地址、環(huán)境變量的繼承
MapReduce配置文件mapred-site.xml:指定MapReduce程序運行在Yarn上
在集群上分發(fā)配置好的Hadoop配置文件:xsync
啟動
配置workers并同步
集群是第一次啟動:在h2節(jié)點格式化NameNode
h2機器上啟動HDFS:start-dfs.sh
h3機器上啟動YARN:start-yarn.sh
Web端查看HDFS的NameNode、YARN的ResourceManager
測試上傳文件和執(zhí)行wordcount程序
配置歷史服務(wù)器和日志聚集
配置歷史服務(wù)器
配置mapred-site.xml:配置歷史服務(wù)器端地址、歷史服務(wù)器web端地址
分發(fā)配置并啟動,web查看
配置日志聚集
配置yarn-site.xml:開啟日志聚集功能、設(shè)置日志聚集服務(wù)器地址、設(shè)置日志保留時間為7天
分發(fā)配置,關(guān)閉NodeManager 、ResourceManager和HistoryServer
啟動NodeManager 、ResourceManage和HistoryServer
刪除HDFS上已經(jīng)存在的輸出文件
執(zhí)行WordCount程序
查看日志
參考資料
大海哥,hadoop3.x
hadoop+spark生態(tài)系統(tǒng)操作與實戰(zhàn)指南