1、安裝VMware
2、在編輯里面找到虛擬網(wǎng)絡(luò)編輯器
3、配置VNnet8的子網(wǎng)IP為192.168.59.0;子網(wǎng)掩碼為:255.255.255.0
4、在文件中找到新建虛擬機(jī),根據(jù)電腦配置創(chuàng)建新的虛擬機(jī)
5、修改主機(jī)名 vi /etc/sysconfig/network(bigdata-training01.huadian.com)
6、配置ip UI界面 或 /vi /etc/sysconfig/network-scripts/ifcfg-eth0 (個(gè)人建議:IPv4 Setting 192.168.59.150 255.255.255.0192.168.59.2 8.8.8.8)
7、主機(jī)名映射 vi /etc/hosts 192.168.59.150 bigdata-training01.huadian.com bigdata-training01
8、測試 ping bigdata-training01.huadian.com
9、改Windows下的配置 C:WindowsSystem32driversetchosts 192.168.59.150 bigdata-training01.huadian.com bigdata-training01
10、可以運(yùn)用遠(yuǎn)程連接工具 CRT、Xshell、notepad++
11、在root用戶下配置普通用戶具有sudo權(quán)限 visudo huadian ALL=(root) NOPASSWD:ALL
12、關(guān)閉防火墻 當(dāng)前關(guān)閉 sudo service iptables stop
13、檢查是否關(guān)閉成功 sudo service iptables status
14、設(shè)置開機(jī)不啟動 sudo service iptables off
15、檢查設(shè)置是否成功 chkcomfig iptables –list
補(bǔ)充:關(guān)閉selinux
vi /etc/selinux/config
vi /etc/sysconfig/selinux
設(shè)置SELINUX=disabled 該設(shè)置必須重啟才能生效
16、關(guān)閉虛擬機(jī) init 0 / halt
17、虛擬機(jī)快照
18、開機(jī)工作
19、規(guī)劃Linux系統(tǒng)的目錄結(jié)構(gòu)
20、以系統(tǒng)的/opt為主安裝軟件包
21、/opt
/datas 測試數(shù)據(jù)
/softwares 軟件包,上傳的軟件包
/moduls 軟件安裝目錄
/tools 開發(fā)的IDE及工具
22、將上述目錄所有者改為huadian sudo chown huadian:huadian /datas /softwares /moduls /tools
23、安裝JDK
24、查看系統(tǒng)自帶的openjdk是否存在 sudo rpm -qa |grep java
25、卸載系統(tǒng)自帶的openjdk sudo -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 tzdata-java-2012j-1.el6.noarch java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64
26、下載Linux自帶的上傳和下載文件軟件 sudo yum install -y lrzsz
27、rz 上傳文件 上傳到當(dāng)前執(zhí)行rz命令的路徑
28、sz 下載文件
29、正式安裝JDK 注意:Linux安裝JDK類似于Windows安裝一個(gè)綠色版本軟件直接解壓,然后配置環(huán)境變量即可
30、使用rz將Windows下的JDK上傳的Linux系統(tǒng)下/opt/softwares下
31、解壓JDK到/opt/moduls下 tar -zxvf jdk-8u91-linux-x64.tar.gz -C /opt/moduls/
32、配置環(huán)境變量 sudo vi /etc/profile
33、在最后面追加 #JAVA_HOME
export JAVA_HOME=/opt/moduls/jdk1.8.0_91
export PATH=${PATH}:${JAVA_HOME}/bin
34、使其生效 source /etc/profile
35、驗(yàn)證 java -version
36、虛擬機(jī)快照
37、偽分布式的安裝
38、上傳解壓 hadoop-2.7.3.tar.gz
39、查看目錄結(jié)構(gòu) ls/ll
40、刪除 /bin /sbin share 下的*.cmd doc文件 補(bǔ)充:查看JDK路徑:echo ${JAVA_HOME}
41、修改三個(gè)模塊的環(huán)境變量(*.evn) hadoop-env.sh、 yarn-env.sh、mapred-env.sh 將JAVA_HOME的路徑改為現(xiàn)在的路徑
42、添加可執(zhí)行權(quán)限 chown u+x hadoop-env.sh yarn-env.sh mapred-env.sh?
43、如果上述操作有誤而導(dǎo)致權(quán)限問題 chown -R huadian:huadian hadoop……(出現(xiàn)權(quán)限問題的路徑)
44、按照模塊進(jìn)行配置
45、common:
core-site.xml
fs.defaultFS
hdfs://bigdata-training01.huadian.com:8020 //8020:HDFS的內(nèi)部通信端口
hadoop.tmp.dir
/opt/moduls/hadoop-2.7.2/data/tmpData
46、執(zhí)行創(chuàng)建的臨時(shí)目錄
47、HDFS:
hdfs.site.xml
dfs.replications
1
48、slaves:
配置slaves文件,指定datanode運(yùn)行在那些機(jī)器上
49、啟動HDFS:
第一次使用文件系統(tǒng),需要格式化。
-》格式系統(tǒng)
cd /opt/moduls/hadoop-2.7.3
bin/hdfs namenode -format(返回0 Exiting with status 0表示格式化成功)
-》啟動和關(guān)閉
主節(jié)點(diǎn)
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh stop namenode
從節(jié)點(diǎn)
sbin/hadoop-daemon.sh start datanode
sbin/hadoop-daemon.sh stop datanode
50、驗(yàn)證是否啟動成功
方式一:jps / ps -ef |grep java
方式二:通過web界面查看 bigdata-training01.huadian.com:50070 //50070:HDFS的外部UI訪問端口
60、虛擬機(jī)快照
61、測試HDFS cd /opt/moduls/hadoop-2.7.3/
幫助文檔 bin/hdfs dfs
在HDFS下創(chuàng)建目錄 bin/hdfs dfs -mkdir -p /datas
HDFS的文件系統(tǒng)目錄和Linux目錄結(jié)構(gòu)類似 命令也類似
上傳文件 bin/hdfs dfs -put /opt/datas/input.data /datas/
查看文件內(nèi)容 bin/hdfs dfs -text /datas/input.data 或 bin/hdfs dfs -cat /datas/input.data
下載文件 bin/hdfs dfs -get /datas/input.data ./
刪除文件 bin/hdfs dfs -rm -r /datas/input.data
62、配置YARN
對于分布式資源管理和任務(wù)調(diào)度來說:哪些程序可以運(yùn)行在YARN上
MapReduce
并行數(shù)據(jù)處理框架
spark
基于內(nèi)存分布式處理框架
storm / flink
實(shí)時(shí)流式處理框架
TeZ
分析數(shù)據(jù),比MapReduce快
主節(jié)點(diǎn)
resourceManager
從節(jié)點(diǎn)
nodeManager
需要修改的配置
yarn-site.xml
yarn.resourcemanager.hostname
bigdata-training01.huadian.com
yarn.resourcemanager.aux-services
mapreduce_shuffle
63、slaves文件 因?yàn)橛玫氖莻畏植际剑谐绦蛟谝慌_機(jī)器上,所以前面已經(jīng)配置過,就不用再次配置
64、啟動
主節(jié)點(diǎn):resourceManager
sbin/yarn-daemon.sh start resourcemanager
從節(jié)點(diǎn):nodeManager
sbin/yarn-daemon.sh start nodemanager
65、MapReduce
并行計(jì)算框架(2.X) 思想:分而治之
核心
Map 并行處理數(shù)據(jù),將數(shù)據(jù)分割,一部分一部分的處理
Reduce 將Map的處理結(jié)果進(jìn)行合并
配置
cd {Hadoop_Home}/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
mapreduce.farmework.name
yarn
66.mapreduce程序運(yùn)行在yarn上
通過經(jīng)典程序案例:wordcount
Hadoop提到測試案例,
/opt/moduls/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
-》準(zhǔn)備數(shù)據(jù),數(shù)據(jù)是放到hdfs上的
-》提交運(yùn)行
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount? //會報(bào)出需要傳參數(shù)的錯(cuò)誤
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /datas/input.data /output1
-》查看單詞統(tǒng)計(jì)后的文件
bin/hdfs dfs -text (/output1/part-r-00000)根據(jù)自己的文件目錄而定
67、配置歷史服務(wù)器
查看監(jiān)聽已經(jīng)運(yùn)行完成的MapReduce任務(wù)的執(zhí)行情況
配置mapred-site.xml
mapreduce.jobhistory.address
bigdata-hpsk01.huadian.com:10020
啟動
sbin/mr-jobhistory-daemon.sh start historyserver
注意:在啟動historyServer服務(wù)之前運(yùn)行的job相關(guān)信息已經(jīng)沒了,只有后面運(yùn)行的才有。
68、日志集聚功能
當(dāng)MapReduce程序在YARN上運(yùn)行完成之后,將產(chǎn)生日志文件上傳到HDFS目錄中,
以便后續(xù)查看。
yarn-site.xml
yarn.log-aggregation-enable
true
yarn.log-aggregation.retain-seconds
604800
69、重啟YARN和jobHistoryServer
——————快照,克隆————————-
70、日志信息
{Hadoop_home}/logs
組件名稱-用戶名-服務(wù)名稱-主機(jī)名
hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log
根據(jù)后綴名:
.log
程序啟動相關(guān)信息會在里面,
進(jìn)程啟動失敗
.out
程序運(yùn)行相關(guān)的輸出
system.out.print
system.out.error
怎么看:
tail -100f name