課程簡(jiǎn)介
基于開源大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析和挖掘?qū)嵱?xùn)課程,該是一個(gè)理論與實(shí)踐相結(jié)合的課程,闡述大數(shù)據(jù)主流的系統(tǒng)架構(gòu),數(shù)據(jù)分析和挖掘的技術(shù)、流程。
本課程包含了兩個(gè)真實(shí)數(shù)據(jù)分析和挖掘?qū)崙?zhàn)案例,通過具體的案例了解大數(shù)據(jù)平臺(tái)常用的數(shù)據(jù)分析和挖掘技術(shù)。
本課程是目前基于大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析和挖掘的主流課程,涵蓋了基于大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析和挖掘的整個(gè)流程和技術(shù)
目標(biāo)收益
深度了解主流大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構(gòu),組件交互,及其內(nèi)核工作與運(yùn)行機(jī)制;
了解大數(shù)據(jù)平臺(tái)常用的以希望數(shù)據(jù)分析和挖掘的技術(shù),如:Hadoop、Hive、Spark等
深度了解機(jī)器學(xué)習(xí)算法,及其Spark MLlib基本算法原理,以及機(jī)器學(xué)習(xí)算法實(shí)踐與優(yōu)化。
了解目前主流的數(shù)據(jù)分析和挖掘平臺(tái)
了解基于Python數(shù)據(jù)分析和挖掘的技術(shù)棧
能夠使用Python基于Spark額mllib上面進(jìn)行數(shù)據(jù)分析和挖掘。
培訓(xùn)對(duì)象
具有1年及以上工作經(jīng)驗(yàn),并期望掌握大數(shù)據(jù)系統(tǒng)與機(jī)器學(xué)習(xí)算法,大數(shù)據(jù)系統(tǒng)架構(gòu),機(jī)器學(xué)習(xí)算法運(yùn)行機(jī)制的研發(fā)工程師,算法工程師,及其架構(gòu)師。
利用大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析挖掘的同學(xué)
了解基于大數(shù)據(jù)平臺(tái)常用數(shù)據(jù)分析和挖掘的流程和方法
課程大綱
第一天 Spark技術(shù)棧介紹 |
Spark-Core介紹 Spark SQL介紹 Spark Streaming介紹 Spark mllib介紹 Spark GraphX介紹 PySpark介紹 SparkR介紹 Spark3.0重要特性介紹 |
Spark編程模型和解析 |
Spark的編程模型 Spark編程模型解析 Partition實(shí)現(xiàn)機(jī)制 RDD的特點(diǎn)、操作、依賴關(guān)系 Transformation RDD詳解 Action RDD詳解 Spark的累加器詳解 Spark的廣播變量詳解 Spark容錯(cuò)機(jī)制 —lineage和checkpoint詳解 Spark的運(yùn)行方式 Spark的Shuffle原理詳解 —Sort-Based原理 —Hash-Based原理 Spark Partition詳解 |
Spark SQL原理和實(shí)踐 |
Spark SQL原理 Spark SQL的Catalyst優(yōu)化器 Spark SQL內(nèi)核 Spark SQL和Hive連接 DataFrame和DataSet架構(gòu) Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實(shí)戰(zhàn) Spark SQL的實(shí)例和編程 Spark SQL的實(shí)例操作demo Spark SQL的編程 Spark SQL學(xué)員實(shí)操訓(xùn)練 |
Spark Streaming詳解 |
Spark Streaming原理 Spark Streaming的應(yīng)用場(chǎng)景 Windows 窗口操作 DStream詳解 Spark SQL on Spark Streaming詳解 Structured Streaming介紹 Structured Streaming的水印操作 Structured Streaming+kafka應(yīng)用實(shí)戰(zhàn) 流式任務(wù)的痛點(diǎn)和注意點(diǎn) 流式任務(wù)數(shù)據(jù)延遲問題 流式任務(wù)作業(yè)性能問題 流式任務(wù)任務(wù)常見的處理方式 |
Day2 上午 Spark優(yōu)化實(shí)戰(zhàn) |
Spark DAG原理和優(yōu)化 GC垃圾回收分析 減少任務(wù)使用內(nèi)存 廣播大變量 數(shù)據(jù)本地化 Spark shuffle原理和優(yōu)化 Spark內(nèi)存模型設(shè)計(jì)原理 Spark堆內(nèi)內(nèi)存管理 Spark堆外內(nèi)存管理 Spark任務(wù)執(zhí)行過程分析和資源占用詳解 sparkSQL核心配置參數(shù)詳解 |
Day2 下午 數(shù)據(jù)分析和數(shù)據(jù)挖掘方法論和Spark數(shù)據(jù)分析實(shí)戰(zhàn) |
數(shù)據(jù)分析和挖掘技術(shù)介紹 數(shù)據(jù)分析和挖掘挖掘應(yīng)用場(chǎng)景介紹 數(shù)據(jù)分析和挖掘挖掘常用的算法介紹 數(shù)據(jù)分析和挖掘挖掘應(yīng)用架構(gòu) 數(shù)據(jù)分析和挖掘挖掘流程CRISP-DM模型介紹 數(shù)據(jù)分析和挖掘挖掘流程方法論介紹 數(shù)據(jù)特征工程構(gòu)建方法論 |
第一天 Spark技術(shù)棧介紹 Spark-Core介紹 Spark SQL介紹 Spark Streaming介紹 Spark mllib介紹 Spark GraphX介紹 PySpark介紹 SparkR介紹 Spark3.0重要特性介紹 |
Spark編程模型和解析 Spark的編程模型 Spark編程模型解析 Partition實(shí)現(xiàn)機(jī)制 RDD的特點(diǎn)、操作、依賴關(guān)系 Transformation RDD詳解 Action RDD詳解 Spark的累加器詳解 Spark的廣播變量詳解 Spark容錯(cuò)機(jī)制 —lineage和checkpoint詳解 Spark的運(yùn)行方式 Spark的Shuffle原理詳解 —Sort-Based原理 —Hash-Based原理 Spark Partition詳解 |
Spark SQL原理和實(shí)踐 Spark SQL原理 Spark SQL的Catalyst優(yōu)化器 Spark SQL內(nèi)核 Spark SQL和Hive連接 DataFrame和DataSet架構(gòu) Fataframe、DataSet和Spark SQL的比較 SparkSQL parquet格式實(shí)戰(zhàn) Spark SQL的實(shí)例和編程 Spark SQL的實(shí)例操作demo Spark SQL的編程 Spark SQL學(xué)員實(shí)操訓(xùn)練 |
Spark Streaming詳解 Spark Streaming原理 Spark Streaming的應(yīng)用場(chǎng)景 Windows 窗口操作 DStream詳解 Spark SQL on Spark Streaming詳解 Structured Streaming介紹 Structured Streaming的水印操作 Structured Streaming+kafka應(yīng)用實(shí)戰(zhàn) 流式任務(wù)的痛點(diǎn)和注意點(diǎn) 流式任務(wù)數(shù)據(jù)延遲問題 流式任務(wù)作業(yè)性能問題 流式任務(wù)任務(wù)常見的處理方式 |
Day2 上午 Spark優(yōu)化實(shí)戰(zhàn) Spark DAG原理和優(yōu)化 GC垃圾回收分析 減少任務(wù)使用內(nèi)存 廣播大變量 數(shù)據(jù)本地化 Spark shuffle原理和優(yōu)化 Spark內(nèi)存模型設(shè)計(jì)原理 Spark堆內(nèi)內(nèi)存管理 Spark堆外內(nèi)存管理 Spark任務(wù)執(zhí)行過程分析和資源占用詳解 sparkSQL核心配置參數(shù)詳解 |
Day2 下午 數(shù)據(jù)分析和數(shù)據(jù)挖掘方法論和Spark數(shù)據(jù)分析實(shí)戰(zhàn) 數(shù)據(jù)分析和挖掘技術(shù)介紹 數(shù)據(jù)分析和挖掘挖掘應(yīng)用場(chǎng)景介紹 數(shù)據(jù)分析和挖掘挖掘常用的算法介紹 數(shù)據(jù)分析和挖掘挖掘應(yīng)用架構(gòu) 數(shù)據(jù)分析和挖掘挖掘流程CRISP-DM模型介紹 數(shù)據(jù)分析和挖掘挖掘流程方法論介紹 數(shù)據(jù)特征工程構(gòu)建方法論 |