課程簡介
當下是大數據時代,為構建大數據平臺,技術人員需要對分布式計算平臺有一定深入的理解和應用。
目標收益
通過本課程實踐,幫助學員對Hadoop、spark和NoSQL生態(tài)系統(tǒng)有一個清晰明了的認識;理解Hadoop、spark和NoSQL系統(tǒng)適用的場景;掌握Hadoop、spark和NoSQL等初中級應用開發(fā)技能;搭建穩(wěn)定可靠的Hadoop、spark和NoSQL集群,滿足生產環(huán)境的標準;了解和清楚大數據應用的幾個行業(yè)中的經典案例,包括阿里巴巴,華為等。
培訓對象
各類 IT/軟件企業(yè)和研發(fā)機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。
課程大綱
大數據在國內的運用 |
大數據在國內的使用介紹 離線計算框架介紹 流式計算框架介紹 內存計算框架介紹 內存流式計算介紹 |
大數據的整體技術架構 |
開源大數據技術架構 開源大數據常用組件之間的依賴關系 離線計算框架介紹 —Mapreduce、Hive、Tez、Presto、Kylin 實時查詢框架介紹 —NoSQL、Hbase 實時計算框架介紹 —Kafka、Strom、Spark Streaming 內存計算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR 前沿大數據技術介紹 —Flink、Drill、Druid、KUDU等 海量日志快速檢索架構 —ELK(Elasticsearch、Logstash、Kibana)等 |
Hadoop平臺優(yōu)化點 |
Linux系統(tǒng)的優(yōu)化 最佳硬件的選擇和建議 HDFS架構和原理 HDFS的優(yōu)化、維護和經常出現的問題 MapReduce架構和原理 MapReduce的優(yōu)化、維護和經常出現的問題 Yarn的內存、CPU和IO的優(yōu)化 Hbase的優(yōu)化和生產環(huán)境常見的問題 Hive的優(yōu)化和Hive的改進工具介紹 Impala、Kylin、Presto工具介紹 RCFile、ORC和parquet格式介紹 |
Hadoop核心組件的運維和配置 |
HDFS的元數據管理 FSimage和Edit文件解析 手動修改FSimage和Edit文件 HDFS HA的架構運維解析 Yarn服務運維詳解 Yarn核心配置參數的詳解 Hbase服務運維詳解 手動設置Split和Compaction操作 RS宕機的運維處理 Hbase 超大表的優(yōu)化實踐 |
Yarn實戰(zhàn) |
Yarn架構和原理 ResourceManager工作原理 NodeManager工作原理 基于IO的控制這是 Yarn為某個運用獨立分配資 基于隊列的資源管理配置 基于底層硬件的SLA資源配置 不同部門或者用戶的資源配置 |
NoSQL和Hbase使用 |
NoSQL介紹 NoSQL應用場景 Hbase原理 Hmaster詳解 RegionServer詳解 Zookeeper介紹 Hbase安裝 Hbase邏輯視圖介紹 Hbase物理視圖介紹 Hbase的二級索引介紹 Hbase 的DDL和DML Hbase表的設計案例 Hbase的import功能介紹 MapReduce操作Hbase Hbase的 thrift Server介紹 Hbase 的API介紹 Hbase使用場景介紹 Hbase案例分析 |
Spark Streaming原理和實踐 |
Spark Streaming原理 ApplicationMaster工作原理 Yarn的資源控制機制 基于內存的控制設置 基于CPU的控制設置 ? Spark流式處理架構 ? DStream的特點 ? Dstream的操作和RDD的區(qū)別 ? SatefulRDD和windowRDD實戰(zhàn) ? Kafka+Spark Steaming實戰(zhàn) ? Spark Streaming的優(yōu)化 Kafka+Spark Streaming實例 ? 文本實例 網絡數據處理 |
Spark SQL原理和實踐 |
Spark SQL原理 ? Spark SQL的Catalyst優(yōu)化器 ? Spark SQL內核 ? Spark SQL和Hive DataFrame和DataSet架構 Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實戰(zhàn) Spark SQL的實例和編程 ? Spark SQL的實例操作demo Spark SQL的編程 |
Spark優(yōu)化 |
Spark SQL的優(yōu)化 基于Spark計算的文件格式選擇 Spark on Yarn的優(yōu)化 Spark SQL執(zhí)行計劃的優(yōu)化 Spark 內存管理的機制 |
互聯網大數案例分享 |
互聯網大數據應用案例介紹 某銀行基于大數據平臺風險監(jiān)控案例 某銀行基于大數據數據湖的案例 |
大數據在國內的運用 大數據在國內的使用介紹 離線計算框架介紹 流式計算框架介紹 內存計算框架介紹 內存流式計算介紹 |
大數據的整體技術架構 開源大數據技術架構 開源大數據常用組件之間的依賴關系 離線計算框架介紹 —Mapreduce、Hive、Tez、Presto、Kylin 實時查詢框架介紹 —NoSQL、Hbase 實時計算框架介紹 —Kafka、Strom、Spark Streaming 內存計算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR 前沿大數據技術介紹 —Flink、Drill、Druid、KUDU等 海量日志快速檢索架構 —ELK(Elasticsearch、Logstash、Kibana)等 |
Hadoop平臺優(yōu)化點 Linux系統(tǒng)的優(yōu)化 最佳硬件的選擇和建議 HDFS架構和原理 HDFS的優(yōu)化、維護和經常出現的問題 MapReduce架構和原理 MapReduce的優(yōu)化、維護和經常出現的問題 Yarn的內存、CPU和IO的優(yōu)化 Hbase的優(yōu)化和生產環(huán)境常見的問題 Hive的優(yōu)化和Hive的改進工具介紹 Impala、Kylin、Presto工具介紹 RCFile、ORC和parquet格式介紹 |
Hadoop核心組件的運維和配置 HDFS的元數據管理 FSimage和Edit文件解析 手動修改FSimage和Edit文件 HDFS HA的架構運維解析 Yarn服務運維詳解 Yarn核心配置參數的詳解 Hbase服務運維詳解 手動設置Split和Compaction操作 RS宕機的運維處理 Hbase 超大表的優(yōu)化實踐 |
Yarn實戰(zhàn) Yarn架構和原理 ResourceManager工作原理 NodeManager工作原理 基于IO的控制這是 Yarn為某個運用獨立分配資 基于隊列的資源管理配置 基于底層硬件的SLA資源配置 不同部門或者用戶的資源配置 |
NoSQL和Hbase使用 NoSQL介紹 NoSQL應用場景 Hbase原理 Hmaster詳解 RegionServer詳解 Zookeeper介紹 Hbase安裝 Hbase邏輯視圖介紹 Hbase物理視圖介紹 Hbase的二級索引介紹 Hbase 的DDL和DML Hbase表的設計案例 Hbase的import功能介紹 MapReduce操作Hbase Hbase的 thrift Server介紹 Hbase 的API介紹 Hbase使用場景介紹 Hbase案例分析 |
Spark Streaming原理和實踐 Spark Streaming原理 ApplicationMaster工作原理 Yarn的資源控制機制 基于內存的控制設置 基于CPU的控制設置 ? Spark流式處理架構 ? DStream的特點 ? Dstream的操作和RDD的區(qū)別 ? SatefulRDD和windowRDD實戰(zhàn) ? Kafka+Spark Steaming實戰(zhàn) ? Spark Streaming的優(yōu)化 Kafka+Spark Streaming實例 ? 文本實例 網絡數據處理 |
Spark SQL原理和實踐 Spark SQL原理 ? Spark SQL的Catalyst優(yōu)化器 ? Spark SQL內核 ? Spark SQL和Hive DataFrame和DataSet架構 Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實戰(zhàn) Spark SQL的實例和編程 ? Spark SQL的實例操作demo Spark SQL的編程 |
Spark優(yōu)化 Spark SQL的優(yōu)化 基于Spark計算的文件格式選擇 Spark on Yarn的優(yōu)化 Spark SQL執(zhí)行計劃的優(yōu)化 Spark 內存管理的機制 |
互聯網大數案例分享 互聯網大數據應用案例介紹 某銀行基于大數據平臺風險監(jiān)控案例 某銀行基于大數據數據湖的案例 |