課程簡介
當下是大數(shù)據(jù)時代,為構(gòu)建大數(shù)據(jù)平臺,技術(shù)人員需要對分布式計算平臺有一定深入的理解和應(yīng)用。
目標收益
通過本課程實踐,幫助學員對Hadoop、spark和NoSQL生態(tài)系統(tǒng)有一個清晰明了的認識;理解Hadoop、spark和NoSQL系統(tǒng)適用的場景;掌握Hadoop、spark和NoSQL等初中級應(yīng)用開發(fā)技能;搭建穩(wěn)定可靠的Hadoop、spark和NoSQL集群,滿足生產(chǎn)環(huán)境的標準;了解和清楚大數(shù)據(jù)應(yīng)用的幾個行業(yè)中的經(jīng)典案例,包括阿里巴巴,華為等。
培訓對象
各類 IT/軟件企業(yè)和研發(fā)機構(gòu)的軟件架構(gòu)師、軟件設(shè)計師、程序員。對于懷有設(shè)計疑問和問題,需要梳理解答的團隊和個人,效果最佳。
課程大綱
大數(shù)據(jù)在國內(nèi)的運用 |
大數(shù)據(jù)在國內(nèi)的使用介紹 離線計算框架介紹 流式計算框架介紹 內(nèi)存計算框架介紹 內(nèi)存流式計算介紹 |
大數(shù)據(jù)的整體技術(shù)架構(gòu) |
開源大數(shù)據(jù)技術(shù)架構(gòu) 開源大數(shù)據(jù)常用組件之間的依賴關(guān)系 離線計算框架介紹 —Mapreduce、Hive、Tez、Presto、Kylin 實時查詢框架介紹 —NoSQL、Hbase 實時計算框架介紹 —Kafka、Strom、Spark Streaming 內(nèi)存計算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR 前沿大數(shù)據(jù)技術(shù)介紹 —Flink、Drill、Druid、KUDU等 海量日志快速檢索架構(gòu) —ELK(Elasticsearch、Logstash、Kibana)等 |
Hadoop平臺優(yōu)化點 |
Linux系統(tǒng)的優(yōu)化 最佳硬件的選擇和建議 HDFS架構(gòu)和原理 HDFS的優(yōu)化、維護和經(jīng)常出現(xiàn)的問題 MapReduce架構(gòu)和原理 MapReduce的優(yōu)化、維護和經(jīng)常出現(xiàn)的問題 Yarn的內(nèi)存、CPU和IO的優(yōu)化 Hbase的優(yōu)化和生產(chǎn)環(huán)境常見的問題 Hive的優(yōu)化和Hive的改進工具介紹 Impala、Kylin、Presto工具介紹 RCFile、ORC和parquet格式介紹 |
Hadoop核心組件的運維和配置 |
HDFS的元數(shù)據(jù)管理 FSimage和Edit文件解析 手動修改FSimage和Edit文件 HDFS HA的架構(gòu)運維解析 Yarn服務(wù)運維詳解 Yarn核心配置參數(shù)的詳解 Hbase服務(wù)運維詳解 手動設(shè)置Split和Compaction操作 RS宕機的運維處理 Hbase 超大表的優(yōu)化實踐 |
Yarn實戰(zhàn) |
Yarn架構(gòu)和原理 ResourceManager工作原理 NodeManager工作原理 基于IO的控制這是 Yarn為某個運用獨立分配資 基于隊列的資源管理配置 基于底層硬件的SLA資源配置 不同部門或者用戶的資源配置 |
NoSQL和Hbase使用 |
NoSQL介紹 NoSQL應(yīng)用場景 Hbase原理 Hmaster詳解 RegionServer詳解 Zookeeper介紹 Hbase安裝 Hbase邏輯視圖介紹 Hbase物理視圖介紹 Hbase的二級索引介紹 Hbase 的DDL和DML Hbase表的設(shè)計案例 Hbase的import功能介紹 MapReduce操作Hbase Hbase的 thrift Server介紹 Hbase 的API介紹 Hbase使用場景介紹 Hbase案例分析 |
Spark Streaming原理和實踐 |
Spark Streaming原理 ApplicationMaster工作原理 Yarn的資源控制機制 基于內(nèi)存的控制設(shè)置 基于CPU的控制設(shè)置 ? Spark流式處理架構(gòu) ? DStream的特點 ? Dstream的操作和RDD的區(qū)別 ? SatefulRDD和windowRDD實戰(zhàn) ? Kafka+Spark Steaming實戰(zhàn) ? Spark Streaming的優(yōu)化 Kafka+Spark Streaming實例 ? 文本實例 網(wǎng)絡(luò)數(shù)據(jù)處理 |
Spark SQL原理和實踐 |
Spark SQL原理 ? Spark SQL的Catalyst優(yōu)化器 ? Spark SQL內(nèi)核 ? Spark SQL和Hive DataFrame和DataSet架構(gòu) Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實戰(zhàn) Spark SQL的實例和編程 ? Spark SQL的實例操作demo Spark SQL的編程 |
Spark優(yōu)化 |
Spark SQL的優(yōu)化 基于Spark計算的文件格式選擇 Spark on Yarn的優(yōu)化 Spark SQL執(zhí)行計劃的優(yōu)化 Spark 內(nèi)存管理的機制 |
互聯(lián)網(wǎng)大數(shù)案例分享 |
互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用案例介紹 某銀行基于大數(shù)據(jù)平臺風險監(jiān)控案例 某銀行基于大數(shù)據(jù)數(shù)據(jù)湖的案例 |
大數(shù)據(jù)在國內(nèi)的運用 大數(shù)據(jù)在國內(nèi)的使用介紹 離線計算框架介紹 流式計算框架介紹 內(nèi)存計算框架介紹 內(nèi)存流式計算介紹 |
大數(shù)據(jù)的整體技術(shù)架構(gòu) 開源大數(shù)據(jù)技術(shù)架構(gòu) 開源大數(shù)據(jù)常用組件之間的依賴關(guān)系 離線計算框架介紹 —Mapreduce、Hive、Tez、Presto、Kylin 實時查詢框架介紹 —NoSQL、Hbase 實時計算框架介紹 —Kafka、Strom、Spark Streaming 內(nèi)存計算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR 前沿大數(shù)據(jù)技術(shù)介紹 —Flink、Drill、Druid、KUDU等 海量日志快速檢索架構(gòu) —ELK(Elasticsearch、Logstash、Kibana)等 |
Hadoop平臺優(yōu)化點 Linux系統(tǒng)的優(yōu)化 最佳硬件的選擇和建議 HDFS架構(gòu)和原理 HDFS的優(yōu)化、維護和經(jīng)常出現(xiàn)的問題 MapReduce架構(gòu)和原理 MapReduce的優(yōu)化、維護和經(jīng)常出現(xiàn)的問題 Yarn的內(nèi)存、CPU和IO的優(yōu)化 Hbase的優(yōu)化和生產(chǎn)環(huán)境常見的問題 Hive的優(yōu)化和Hive的改進工具介紹 Impala、Kylin、Presto工具介紹 RCFile、ORC和parquet格式介紹 |
Hadoop核心組件的運維和配置 HDFS的元數(shù)據(jù)管理 FSimage和Edit文件解析 手動修改FSimage和Edit文件 HDFS HA的架構(gòu)運維解析 Yarn服務(wù)運維詳解 Yarn核心配置參數(shù)的詳解 Hbase服務(wù)運維詳解 手動設(shè)置Split和Compaction操作 RS宕機的運維處理 Hbase 超大表的優(yōu)化實踐 |
Yarn實戰(zhàn) Yarn架構(gòu)和原理 ResourceManager工作原理 NodeManager工作原理 基于IO的控制這是 Yarn為某個運用獨立分配資 基于隊列的資源管理配置 基于底層硬件的SLA資源配置 不同部門或者用戶的資源配置 |
NoSQL和Hbase使用 NoSQL介紹 NoSQL應(yīng)用場景 Hbase原理 Hmaster詳解 RegionServer詳解 Zookeeper介紹 Hbase安裝 Hbase邏輯視圖介紹 Hbase物理視圖介紹 Hbase的二級索引介紹 Hbase 的DDL和DML Hbase表的設(shè)計案例 Hbase的import功能介紹 MapReduce操作Hbase Hbase的 thrift Server介紹 Hbase 的API介紹 Hbase使用場景介紹 Hbase案例分析 |
Spark Streaming原理和實踐 Spark Streaming原理 ApplicationMaster工作原理 Yarn的資源控制機制 基于內(nèi)存的控制設(shè)置 基于CPU的控制設(shè)置 ? Spark流式處理架構(gòu) ? DStream的特點 ? Dstream的操作和RDD的區(qū)別 ? SatefulRDD和windowRDD實戰(zhàn) ? Kafka+Spark Steaming實戰(zhàn) ? Spark Streaming的優(yōu)化 Kafka+Spark Streaming實例 ? 文本實例 網(wǎng)絡(luò)數(shù)據(jù)處理 |
Spark SQL原理和實踐 Spark SQL原理 ? Spark SQL的Catalyst優(yōu)化器 ? Spark SQL內(nèi)核 ? Spark SQL和Hive DataFrame和DataSet架構(gòu) Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實戰(zhàn) Spark SQL的實例和編程 ? Spark SQL的實例操作demo Spark SQL的編程 |
Spark優(yōu)化 Spark SQL的優(yōu)化 基于Spark計算的文件格式選擇 Spark on Yarn的優(yōu)化 Spark SQL執(zhí)行計劃的優(yōu)化 Spark 內(nèi)存管理的機制 |
互聯(lián)網(wǎng)大數(shù)案例分享 互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用案例介紹 某銀行基于大數(shù)據(jù)平臺風險監(jiān)控案例 某銀行基于大數(shù)據(jù)數(shù)據(jù)湖的案例 |