課程簡介
本次課程主要針對大數(shù)據(jù)平臺中MapReduce,Spark中的Spark core、Spark SQL 、SparkStreaming這些內(nèi)容進行講解,通過這些內(nèi)容的學習,可以掌握MapReduce的編程思想,以及掌握Spark中的離線計算和實時計算。
目標收益
?了解大數(shù)據(jù)中MapReduce的核心原理
?掌握MapReduce核心編程
?了解Spark性能優(yōu)化
?掌握Spark中的離線計算和實時計算
?掌握Spark SQL的使用
?掌握HBase的高級特性
培訓對象
1. 有一定編程基礎,想學習和了解大數(shù)據(jù)的學員
2. 計算機相關專業(yè),未來向大數(shù)據(jù)領域方向發(fā)展的學員
課程大綱
第一天上午:(Hadoop)HDFS核心原理及實操 |
1 快速了解Hadoop 2 Hadoop3.x的核心細節(jié)優(yōu)化 3 HDFS核心原理詳解 4 【實戰(zhàn)】HDFS的常用及高級shell命令 5 HDFS體系結(jié)構(gòu)原理詳細剖析 6 【實戰(zhàn)】HDFS的回收站和安全模式 7 HDFS的高可用和高擴展架構(gòu)剖析 8 HDFS機架感知策略原理剖析 9 HDFS糾刪碼機制(Erasure Coding)剖析 |
第一天上午:MapReduce核心編程+YARN |
1 MapReduce原理深度剖析 2 【實戰(zhàn)】MapReduce實戰(zhàn)案例開發(fā) 3 YARN資源管理模型分析 4 【實戰(zhàn)】YARN中的多資源隊列配置和使用 5【案例】Hadoop(HDFS+MapReduce+YARN)在企業(yè)中的典型案例分析 |
第一天下午:HBase核心原理及高級特性 |
1 HBase核心原理及架構(gòu)分析 2 HBase典型應用場景及應用案例分析 3 常見NoSQL數(shù)據(jù)庫綜合對比分析(MongoDB\Cassandra\Redis\HBase) 4【實戰(zhàn)】HBase常用命令的使用(DDL+DML) 5【實戰(zhàn)】HBase JavaAPI的使用 6 HBase底層架構(gòu)詳解(HFile+Region) 7【實戰(zhàn)】HBase批量導入和批量導出功能 8 HBase預分區(qū)、Rowkey列族的設計實戰(zhàn) 9 HBase Scan全表掃描功能實戰(zhàn)(包括分頁的實現(xiàn)) 10 HBase如何間接實現(xiàn)SQL語法支持(Hive+HBase、Phoenix) 11 【案例】Elasticsearch+HBase典型場景分析 12【案例】HBase在用戶畫像項目中的應用分析 |
第二天上午:Spark核心原理及編程 |
1 Spark核心原理及架構(gòu)分析 2【實戰(zhàn)】Spark離線計算案例開發(fā) 3【實戰(zhàn)】Spark之RDD的核心原理及使用 4【實戰(zhàn)】Spark中常見Transformation算子的原理及使用 5【實戰(zhàn)】Spark中常見Action算子的原理及使用 6 Spark任務的提交模式詳解 7【案例】Spark在企業(yè)中的典型案例分析 |
第二天上午:Spark SQL核心原理及使用 |
1 Spark SQL核心原理分析 2【實戰(zhàn)】DataFrame(DataSet)的SQL操作 3【實戰(zhàn)】RDD和DataFrame的相互轉(zhuǎn)換使用 4【實戰(zhàn)】Spark SQL實現(xiàn)TopN數(shù)據(jù)統(tǒng)計 5【實戰(zhàn)】Spark SQL集成Hive 6 【案例】基于SparkSQL的一站式SQL開發(fā)引擎 |
第二天下午:Flink核心原理及使用 |
1 Flink核心原理及架構(gòu)分析 2 Storm vs SparkStreaming vs Flink 3【實戰(zhàn)】Flink流批一體代碼案例開發(fā) 4 Flink常用部署模式分析(yarn-session\per-job\Application) 5【實戰(zhàn)】Flink DataStream API的使用 6 【實戰(zhàn)】Flink中window及Time詳解及應用 7 【實戰(zhàn)】Flink實時數(shù)據(jù)亂序問題原理及解決方案 |
第三天 上午:Flink SQL的核心應用 |
1 Flink中狀態(tài)(State)的原理機制分析 2 Flink中State(狀態(tài))的容錯與一致性 3 【實戰(zhàn)】Kafka+Flink+Kafka端到端一致性代碼開發(fā) 4 Flink SQL核心原理分析 5【實戰(zhàn)】Flink SQL數(shù)據(jù)處理案例開發(fā) 6【增加kafka->Flink SQL->hudi的實操】 7 Flink SQL雙流Join核心原理分析 8【實戰(zhàn)】Flink SQL雙流Join案例開發(fā) 9【案例】Flink在企業(yè)中的典型案例分析 10【案例】一站式流計算SQL開發(fā)平臺StreamPark原理及架構(gòu)分析 |
第三天下午:實時數(shù)倉/湖倉一體建設 |
1 數(shù)據(jù)湖四劍客綜合對比分析(Iceberg\Hudi\Delta?Lake\Paimon) 2 數(shù)據(jù)湖Hudi的核心原理及架構(gòu)分析 3 基于Hudi的核心功能的使用 4 什么是數(shù)據(jù)倉庫 5 數(shù)據(jù)倉庫建模方式分析(ER實體建模、維度建模) 6 數(shù)據(jù)倉庫分層設計 7 【架構(gòu)】數(shù)據(jù)倉庫架構(gòu)演進過程(離線數(shù)倉、實時數(shù)倉、批流一體數(shù)倉、湖倉一體) 8 【案例】從0~1如何構(gòu)建企業(yè)級實時數(shù)據(jù)倉庫(湖倉一體) 9 實時數(shù)據(jù)倉庫(湖倉一體)架構(gòu)設計+技術選型 |
第一天上午:(Hadoop)HDFS核心原理及實操 1 快速了解Hadoop 2 Hadoop3.x的核心細節(jié)優(yōu)化 3 HDFS核心原理詳解 4 【實戰(zhàn)】HDFS的常用及高級shell命令 5 HDFS體系結(jié)構(gòu)原理詳細剖析 6 【實戰(zhàn)】HDFS的回收站和安全模式 7 HDFS的高可用和高擴展架構(gòu)剖析 8 HDFS機架感知策略原理剖析 9 HDFS糾刪碼機制(Erasure Coding)剖析 |
第一天上午:MapReduce核心編程+YARN 1 MapReduce原理深度剖析 2 【實戰(zhàn)】MapReduce實戰(zhàn)案例開發(fā) 3 YARN資源管理模型分析 4 【實戰(zhàn)】YARN中的多資源隊列配置和使用 5【案例】Hadoop(HDFS+MapReduce+YARN)在企業(yè)中的典型案例分析 |
第一天下午:HBase核心原理及高級特性 1 HBase核心原理及架構(gòu)分析 2 HBase典型應用場景及應用案例分析 3 常見NoSQL數(shù)據(jù)庫綜合對比分析(MongoDB\Cassandra\Redis\HBase) 4【實戰(zhàn)】HBase常用命令的使用(DDL+DML) 5【實戰(zhàn)】HBase JavaAPI的使用 6 HBase底層架構(gòu)詳解(HFile+Region) 7【實戰(zhàn)】HBase批量導入和批量導出功能 8 HBase預分區(qū)、Rowkey列族的設計實戰(zhàn) 9 HBase Scan全表掃描功能實戰(zhàn)(包括分頁的實現(xiàn)) 10 HBase如何間接實現(xiàn)SQL語法支持(Hive+HBase、Phoenix) 11 【案例】Elasticsearch+HBase典型場景分析 12【案例】HBase在用戶畫像項目中的應用分析 |
第二天上午:Spark核心原理及編程 1 Spark核心原理及架構(gòu)分析 2【實戰(zhàn)】Spark離線計算案例開發(fā) 3【實戰(zhàn)】Spark之RDD的核心原理及使用 4【實戰(zhàn)】Spark中常見Transformation算子的原理及使用 5【實戰(zhàn)】Spark中常見Action算子的原理及使用 6 Spark任務的提交模式詳解 7【案例】Spark在企業(yè)中的典型案例分析 |
第二天上午:Spark SQL核心原理及使用 1 Spark SQL核心原理分析 2【實戰(zhàn)】DataFrame(DataSet)的SQL操作 3【實戰(zhàn)】RDD和DataFrame的相互轉(zhuǎn)換使用 4【實戰(zhàn)】Spark SQL實現(xiàn)TopN數(shù)據(jù)統(tǒng)計 5【實戰(zhàn)】Spark SQL集成Hive 6 【案例】基于SparkSQL的一站式SQL開發(fā)引擎 |
第二天下午:Flink核心原理及使用 1 Flink核心原理及架構(gòu)分析 2 Storm vs SparkStreaming vs Flink 3【實戰(zhàn)】Flink流批一體代碼案例開發(fā) 4 Flink常用部署模式分析(yarn-session\per-job\Application) 5【實戰(zhàn)】Flink DataStream API的使用 6 【實戰(zhàn)】Flink中window及Time詳解及應用 7 【實戰(zhàn)】Flink實時數(shù)據(jù)亂序問題原理及解決方案 |
第三天 上午:Flink SQL的核心應用 1 Flink中狀態(tài)(State)的原理機制分析 2 Flink中State(狀態(tài))的容錯與一致性 3 【實戰(zhàn)】Kafka+Flink+Kafka端到端一致性代碼開發(fā) 4 Flink SQL核心原理分析 5【實戰(zhàn)】Flink SQL數(shù)據(jù)處理案例開發(fā) 6【增加kafka->Flink SQL->hudi的實操】 7 Flink SQL雙流Join核心原理分析 8【實戰(zhàn)】Flink SQL雙流Join案例開發(fā) 9【案例】Flink在企業(yè)中的典型案例分析 10【案例】一站式流計算SQL開發(fā)平臺StreamPark原理及架構(gòu)分析 |
第三天下午:實時數(shù)倉/湖倉一體建設 1 數(shù)據(jù)湖四劍客綜合對比分析(Iceberg\Hudi\Delta?Lake\Paimon) 2 數(shù)據(jù)湖Hudi的核心原理及架構(gòu)分析 3 基于Hudi的核心功能的使用 4 什么是數(shù)據(jù)倉庫 5 數(shù)據(jù)倉庫建模方式分析(ER實體建模、維度建模) 6 數(shù)據(jù)倉庫分層設計 7 【架構(gòu)】數(shù)據(jù)倉庫架構(gòu)演進過程(離線數(shù)倉、實時數(shù)倉、批流一體數(shù)倉、湖倉一體) 8 【案例】從0~1如何構(gòu)建企業(yè)級實時數(shù)據(jù)倉庫(湖倉一體) 9 實時數(shù)據(jù)倉庫(湖倉一體)架構(gòu)設計+技術選型 |