課程簡介
1.掌握基于大數(shù)據(jù)平臺核心組件(HDFS、Yarn、Hive、Hbase、Spark和Flink等)的搭建、使用、運(yùn)維
2.掌握大數(shù)據(jù)使用場景和性能優(yōu)化
3.能夠掌握700+節(jié)點(diǎn)集群的運(yùn)維和優(yōu)化
4.掌握大數(shù)據(jù)平臺性能優(yōu)化的思路,同時能夠?qū)park、Flink和Hive組件進(jìn)行性能優(yōu)化
5.能夠?qū)Υ髷?shù)據(jù)平臺組件出現(xiàn)的問題進(jìn)行有條不紊的分析和解決
目標(biāo)收益
培訓(xùn)對象
1.大數(shù)據(jù)開發(fā)工程師
2.大數(shù)據(jù)架構(gòu)師
3.大數(shù)據(jù)運(yùn)維工程師
4.對大數(shù)據(jù)開發(fā)感興趣的一線開發(fā)人員
課程大綱
Day1 大數(shù)據(jù)集群搭建實(shí)戰(zhàn)(1小時) |
?Master節(jié)點(diǎn)角色部署實(shí)戰(zhàn) ?Slave節(jié)點(diǎn)角色部署實(shí)戰(zhàn) ?工具節(jié)點(diǎn)角色部署實(shí)戰(zhàn) ?Edge節(jié)點(diǎn)角色部署實(shí)戰(zhàn) ?不同角色節(jié)點(diǎn)配置建議(內(nèi)存、磁盤和CPU) ?不同服務(wù)磁盤使用規(guī)劃實(shí)戰(zhàn)(DN、NN、JN和ZK等) ?小于100節(jié)點(diǎn)大數(shù)據(jù)集群角色部署實(shí)戰(zhàn) ?100-200節(jié)點(diǎn)大數(shù)據(jù)集群角色部署實(shí)戰(zhàn) ?大于300節(jié)點(diǎn)大數(shù)據(jù)集群角色部署實(shí)戰(zhàn) ?Hive服務(wù)HMS和HS2高可用和loadbalance部署實(shí)戰(zhàn) 大數(shù)據(jù)平臺權(quán)限認(rèn)證和授權(quán)解決方案(LDAP+SSSD+Kerberos+Ranger) |
Day1 HDFS原理介紹(1小時) |
?HDFS架構(gòu)介紹 ?HDFS運(yùn)行原理介紹 ?NameNode功能詳解 ?DataNode功能詳 ?HDFS HA功能詳解 ?HSFD的fsimage和editslog詳解 ?HDFS的block詳解 HDFS的block的備份策略 |
Day1 HDFS運(yùn)維和優(yōu)化(3小時) |
?機(jī)架感知對性能的提升 ?HDFS+Ranger權(quán)限控制運(yùn)維 ?Small Files and Java Heap Tuning ?HDFS集群通過文件書和block數(shù)來估算NN的內(nèi)存使用和性能瓶頸 ?元數(shù)據(jù)FSImage和Edit文件的工作原理和合并機(jī)制解析 ?NN RPC processing is too long ?生產(chǎn)環(huán)境NN active 和 Standby切換失敗,導(dǎo)致集群癱瘓 ?DN日志出現(xiàn)大量"Slow.*?(took|cost)"問題診斷 ?Namenode checkpoint status again ?Disk Slowness問題排查 ?Slow LDAP通過日志觀察常見的現(xiàn)象 ?HDFS服務(wù)最佳實(shí)踐 — number of DataNodes, — Amount of data, — number of blocks & files, — number of snapshots, — number of RPCs per second, Other limits |
Day1 Yarn運(yùn)維和優(yōu)化(2小時) |
?Yarn架構(gòu)和原理 ?ResourceManager工作原理 ?NodeManager工作原理 ?ApplicationMaster工作原理 ?Yarn的資源控制機(jī)制 ?Yarn資源封裝Container介紹 ?Yarn資源都租戶配置和實(shí)戰(zhàn) ?Yarn replacement rules權(quán)限配置和實(shí)操 ?Yarn 隊(duì)列+Ranger控制詳解和實(shí)操 ?Yarn Container資源最大最小設(shè)置 ?Yarn Queue核心參數(shù)解釋和優(yōu)化,提升資源使用效率 ?MapReduce配置參數(shù)設(shè)置和優(yōu)化 ?Yarn任務(wù)調(diào)度策略CS和FA深度比較 Yarn核心參數(shù)解釋和優(yōu)化實(shí)戰(zhàn) |
Day1 大數(shù)據(jù)集群搭建實(shí)戰(zhàn)(1小時) ?Master節(jié)點(diǎn)角色部署實(shí)戰(zhàn) ?Slave節(jié)點(diǎn)角色部署實(shí)戰(zhàn) ?工具節(jié)點(diǎn)角色部署實(shí)戰(zhàn) ?Edge節(jié)點(diǎn)角色部署實(shí)戰(zhàn) ?不同角色節(jié)點(diǎn)配置建議(內(nèi)存、磁盤和CPU) ?不同服務(wù)磁盤使用規(guī)劃實(shí)戰(zhàn)(DN、NN、JN和ZK等) ?小于100節(jié)點(diǎn)大數(shù)據(jù)集群角色部署實(shí)戰(zhàn) ?100-200節(jié)點(diǎn)大數(shù)據(jù)集群角色部署實(shí)戰(zhàn) ?大于300節(jié)點(diǎn)大數(shù)據(jù)集群角色部署實(shí)戰(zhàn) ?Hive服務(wù)HMS和HS2高可用和loadbalance部署實(shí)戰(zhàn) 大數(shù)據(jù)平臺權(quán)限認(rèn)證和授權(quán)解決方案(LDAP+SSSD+Kerberos+Ranger) |
Day1 HDFS原理介紹(1小時) ?HDFS架構(gòu)介紹 ?HDFS運(yùn)行原理介紹 ?NameNode功能詳解 ?DataNode功能詳 ?HDFS HA功能詳解 ?HSFD的fsimage和editslog詳解 ?HDFS的block詳解 HDFS的block的備份策略 |
Day1 HDFS運(yùn)維和優(yōu)化(3小時) ?機(jī)架感知對性能的提升 ?HDFS+Ranger權(quán)限控制運(yùn)維 ?Small Files and Java Heap Tuning ?HDFS集群通過文件書和block數(shù)來估算NN的內(nèi)存使用和性能瓶頸 ?元數(shù)據(jù)FSImage和Edit文件的工作原理和合并機(jī)制解析 ?NN RPC processing is too long ?生產(chǎn)環(huán)境NN active 和 Standby切換失敗,導(dǎo)致集群癱瘓 ?DN日志出現(xiàn)大量"Slow.*?(took|cost)"問題診斷 ?Namenode checkpoint status again ?Disk Slowness問題排查 ?Slow LDAP通過日志觀察常見的現(xiàn)象 ?HDFS服務(wù)最佳實(shí)踐 — number of DataNodes, — Amount of data, — number of blocks & files, — number of snapshots, — number of RPCs per second, Other limits |
Day1 Yarn運(yùn)維和優(yōu)化(2小時) ?Yarn架構(gòu)和原理 ?ResourceManager工作原理 ?NodeManager工作原理 ?ApplicationMaster工作原理 ?Yarn的資源控制機(jī)制 ?Yarn資源封裝Container介紹 ?Yarn資源都租戶配置和實(shí)戰(zhàn) ?Yarn replacement rules權(quán)限配置和實(shí)操 ?Yarn 隊(duì)列+Ranger控制詳解和實(shí)操 ?Yarn Container資源最大最小設(shè)置 ?Yarn Queue核心參數(shù)解釋和優(yōu)化,提升資源使用效率 ?MapReduce配置參數(shù)設(shè)置和優(yōu)化 ?Yarn任務(wù)調(diào)度策略CS和FA深度比較 Yarn核心參數(shù)解釋和優(yōu)化實(shí)戰(zhàn) |