1、安裝VMware
2、在編輯里面找到虛擬網(wǎng)絡編輯器
3、配置VNnet8的子網(wǎng)IP為192.168.59.0;子網(wǎng)掩碼為:255.255.255.0
4、在文件中找到新建虛擬機,根據(jù)電腦配置創(chuàng)建新的虛擬機
5、修改主機名 vi /etc/sysconfig/network(bigdata-training01.huadian.com)
6、配置ip UI界面 或 /vi /etc/sysconfig/network-scripts/ifcfg-eth0 (個人建議:IPv4 Setting 192.168.59.150 255.255.255.0192.168.59.2 8.8.8.8)
7、主機名映射 vi /etc/hosts 192.168.59.150 bigdata-training01.huadian.com bigdata-training01
8、測試 ping bigdata-training01.huadian.com
9、改Windows下的配置 C:WindowsSystem32driversetchosts 192.168.59.150 bigdata-training01.huadian.com bigdata-training01
10、可以運用遠程連接工具 CRT、Xshell、notepad++
11、在root用戶下配置普通用戶具有sudo權限 visudo huadian ALL=(root) NOPASSWD:ALL
12、關閉防火墻 當前關閉 sudo service iptables stop
13、檢查是否關閉成功 sudo service iptables status
14、設置開機不啟動 sudo service iptables off
15、檢查設置是否成功 chkcomfig iptables –list
補充:關閉selinux
vi /etc/selinux/config
vi /etc/sysconfig/selinux
設置SELINUX=disabled 該設置必須重啟才能生效
16、關閉虛擬機 init 0 / halt
17、虛擬機快照
18、開機工作
19、規(guī)劃Linux系統(tǒng)的目錄結構
20、以系統(tǒng)的/opt為主安裝軟件包
21、/opt
/datas 測試數(shù)據(jù)
/softwares 軟件包,上傳的軟件包
/moduls 軟件安裝目錄
/tools 開發(fā)的IDE及工具
22、將上述目錄所有者改為huadian sudo chown huadian:huadian /datas /softwares /moduls /tools
23、安裝JDK
24、查看系統(tǒng)自帶的openjdk是否存在 sudo rpm -qa |grep java
25、卸載系統(tǒng)自帶的openjdk sudo -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 tzdata-java-2012j-1.el6.noarch java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64
26、下載Linux自帶的上傳和下載文件軟件 sudo yum install -y lrzsz
27、rz 上傳文件 上傳到當前執(zhí)行rz命令的路徑
28、sz 下載文件
29、正式安裝JDK 注意:Linux安裝JDK類似于Windows安裝一個綠色版本軟件直接解壓,然后配置環(huán)境變量即可
30、使用rz將Windows下的JDK上傳的Linux系統(tǒng)下/opt/softwares下
31、解壓JDK到/opt/moduls下 tar -zxvf jdk-8u91-linux-x64.tar.gz -C /opt/moduls/
32、配置環(huán)境變量 sudo vi /etc/profile
33、在最后面追加 #JAVA_HOME
export JAVA_HOME=/opt/moduls/jdk1.8.0_91
export PATH=${PATH}:${JAVA_HOME}/bin
34、使其生效 source /etc/profile
35、驗證 java -version
36、虛擬機快照
37、偽分布式的安裝
38、上傳解壓 hadoop-2.7.3.tar.gz
39、查看目錄結構 ls/ll
40、刪除 /bin /sbin share 下的*.cmd doc文件 補充:查看JDK路徑:echo ${JAVA_HOME}
41、修改三個模塊的環(huán)境變量(*.evn) hadoop-env.sh、 yarn-env.sh、mapred-env.sh 將JAVA_HOME的路徑改為現(xiàn)在的路徑
42、添加可執(zhí)行權限 chown u+x hadoop-env.sh yarn-env.sh mapred-env.sh?
43、如果上述操作有誤而導致權限問題 chown -R huadian:huadian hadoop……(出現(xiàn)權限問題的路徑)
44、按照模塊進行配置
45、common:
core-site.xml
fs.defaultFS
hdfs://bigdata-training01.huadian.com:8020 //8020:HDFS的內部通信端口
hadoop.tmp.dir
/opt/moduls/hadoop-2.7.2/data/tmpData
46、執(zhí)行創(chuàng)建的臨時目錄
47、HDFS:
hdfs.site.xml
dfs.replications
1
48、slaves:
配置slaves文件,指定datanode運行在那些機器上
49、啟動HDFS:
第一次使用文件系統(tǒng),需要格式化。
-》格式系統(tǒng)
cd /opt/moduls/hadoop-2.7.3
bin/hdfs namenode -format(返回0 Exiting with status 0表示格式化成功)
-》啟動和關閉
主節(jié)點
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh stop namenode
從節(jié)點
sbin/hadoop-daemon.sh start datanode
sbin/hadoop-daemon.sh stop datanode
50、驗證是否啟動成功
方式一:jps / ps -ef |grep java
方式二:通過web界面查看 bigdata-training01.huadian.com:50070 //50070:HDFS的外部UI訪問端口
60、虛擬機快照
61、測試HDFS cd /opt/moduls/hadoop-2.7.3/
幫助文檔 bin/hdfs dfs
在HDFS下創(chuàng)建目錄 bin/hdfs dfs -mkdir -p /datas
HDFS的文件系統(tǒng)目錄和Linux目錄結構類似 命令也類似
上傳文件 bin/hdfs dfs -put /opt/datas/input.data /datas/
查看文件內容 bin/hdfs dfs -text /datas/input.data 或 bin/hdfs dfs -cat /datas/input.data
下載文件 bin/hdfs dfs -get /datas/input.data ./
刪除文件 bin/hdfs dfs -rm -r /datas/input.data
62、配置YARN
對于分布式資源管理和任務調度來說:哪些程序可以運行在YARN上
MapReduce
并行數(shù)據(jù)處理框架
spark
基于內存分布式處理框架
storm / flink
實時流式處理框架
TeZ
分析數(shù)據(jù),比MapReduce快
主節(jié)點
resourceManager
從節(jié)點
nodeManager
需要修改的配置
yarn-site.xml
yarn.resourcemanager.hostname
bigdata-training01.huadian.com
yarn.resourcemanager.aux-services
mapreduce_shuffle
63、slaves文件 因為用的是偽分布式,所有程序在一臺機器上,所以前面已經(jīng)配置過,就不用再次配置
64、啟動
主節(jié)點:resourceManager
sbin/yarn-daemon.sh start resourcemanager
從節(jié)點:nodeManager
sbin/yarn-daemon.sh start nodemanager
65、MapReduce
并行計算框架(2.X) 思想:分而治之
核心
Map 并行處理數(shù)據(jù),將數(shù)據(jù)分割,一部分一部分的處理
Reduce 將Map的處理結果進行合并
配置
cd {Hadoop_Home}/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
mapreduce.farmework.name
yarn
66.mapreduce程序運行在yarn上
通過經(jīng)典程序案例:wordcount
Hadoop提到測試案例,
/opt/moduls/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
-》準備數(shù)據(jù),數(shù)據(jù)是放到hdfs上的
-》提交運行
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount? //會報出需要傳參數(shù)的錯誤
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /datas/input.data /output1
-》查看單詞統(tǒng)計后的文件
bin/hdfs dfs -text (/output1/part-r-00000)根據(jù)自己的文件目錄而定
67、配置歷史服務器
查看監(jiān)聽已經(jīng)運行完成的MapReduce任務的執(zhí)行情況
配置mapred-site.xml
mapreduce.jobhistory.address
bigdata-hpsk01.huadian.com:10020
啟動
sbin/mr-jobhistory-daemon.sh start historyserver
注意:在啟動historyServer服務之前運行的job相關信息已經(jīng)沒了,只有后面運行的才有。
68、日志集聚功能
當MapReduce程序在YARN上運行完成之后,將產(chǎn)生日志文件上傳到HDFS目錄中,
以便后續(xù)查看。
yarn-site.xml
yarn.log-aggregation-enable
true
yarn.log-aggregation.retain-seconds
604800
69、重啟YARN和jobHistoryServer
——————快照,克隆————————-
70、日志信息
{Hadoop_home}/logs
組件名稱-用戶名-服務名稱-主機名
hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log
根據(jù)后綴名:
.log
程序啟動相關信息會在里面,
進程啟動失敗
.out
程序運行相關的輸出
system.out.print
system.out.error
怎么看:
tail -100f name