工程師
其他
大數(shù)據(jù)
數(shù)據(jù)分析
大數(shù)據(jù)平臺(tái)
推薦課程
average > 0 ? $model->average . '分' : '10.0分' ?>

基于Hadoop、Spark數(shù)據(jù)分析和挖掘?qū)崙?zhàn)

劉老師

某知名咨詢公司 云平臺(tái)系統(tǒng)架構(gòu)師

畢業(yè)于?連理??學(xué)
簡(jiǎn)介:
精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。
有10年左右基于?數(shù)據(jù)解決?案平臺(tái)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù)
據(jù)中臺(tái)項(xiàng)?架構(gòu)實(shí)施經(jīng)驗(yàn),
?前任職國內(nèi)知名咨詢公司,先后服務(wù)于北京?學(xué)軟件研究所、阿?巴巴、Teradata,實(shí)施過基于開源?數(shù)據(jù)技術(shù)
棧的數(shù)據(jù)湖解決?案和實(shí)施、湖倉?體架構(gòu)咨詢和實(shí)施、數(shù)據(jù)中臺(tái)的咨詢和設(shè)施
最近主要項(xiàng)?介紹:
某移動(dòng)?數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)和設(shè)施 (Hadoop、Spark)
四??之?的數(shù)據(jù)湖咨詢和實(shí)施
某?型商業(yè)銀?數(shù)據(jù)中臺(tái)咨詢
某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺(tái)的咨詢和實(shí)施
某航空公司數(shù)據(jù)平臺(tái)流批?體解決?案和實(shí)施
特長:
在?數(shù)據(jù)架構(gòu)、開發(fā)、運(yùn)維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)、數(shù)據(jù)
中臺(tái)等??有豐富經(jīng) 驗(yàn)。

畢業(yè)于?連理??學(xué) 簡(jiǎn)介: 精通開源的?數(shù)據(jù)?態(tài)技術(shù)和架構(gòu),Hadoop、Hive、Hbase、 Spark、Flink等開源技術(shù)棧。 有10年左右基于?數(shù)據(jù)解決?案平臺(tái)、數(shù)據(jù)架構(gòu)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)治理、數(shù)據(jù)分析和挖掘的?型數(shù)據(jù)湖和數(shù) 據(jù)中臺(tái)項(xiàng)?架構(gòu)實(shí)施經(jīng)驗(yàn), ?前任職國內(nèi)知名咨詢公司,先后服務(wù)于北京?學(xué)軟件研究所、阿?巴巴、Teradata,實(shí)施過基于開源?數(shù)據(jù)技術(shù) 棧的數(shù)據(jù)湖解決?案和實(shí)施、湖倉?體架構(gòu)咨詢和實(shí)施、數(shù)據(jù)中臺(tái)的咨詢和設(shè)施 最近主要項(xiàng)?介紹: 某移動(dòng)?數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)和設(shè)施 (Hadoop、Spark) 四??之?的數(shù)據(jù)湖咨詢和實(shí)施 某?型商業(yè)銀?數(shù)據(jù)中臺(tái)咨詢 某銀?基于開源?數(shù)據(jù)技術(shù)棧數(shù)據(jù)中臺(tái)的咨詢和實(shí)施 某航空公司數(shù)據(jù)平臺(tái)流批?體解決?案和實(shí)施 特長: 在?數(shù)據(jù)架構(gòu)、開發(fā)、運(yùn)維和優(yōu)化、數(shù)據(jù)集成、 數(shù)據(jù)湖(Data Lake)、數(shù)據(jù)建模、數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)、數(shù)據(jù) 中臺(tái)等??有豐富經(jīng) 驗(yàn)。

課程費(fèi)用

6800.00 /人

課程時(shí)長

2

成為教練

課程簡(jiǎn)介

基于開源大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析和挖掘?qū)嵱?xùn)課程,該是一個(gè)理論與實(shí)踐相結(jié)合的課程,闡述大數(shù)據(jù)主流的系統(tǒng)架構(gòu),數(shù)據(jù)分析和挖掘的技術(shù)、流程。
本課程包含了兩個(gè)真實(shí)數(shù)據(jù)分析和挖掘?qū)崙?zhàn)案例,通過具體的案例了解大數(shù)據(jù)平臺(tái)常用的數(shù)據(jù)分析和挖掘技術(shù)。
本課程是目前基于大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析和挖掘的主流課程,涵蓋了基于大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析和挖掘的整個(gè)流程和技術(shù)

目標(biāo)收益

深度了解主流大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構(gòu),組件交互,及其內(nèi)核工作與運(yùn)行機(jī)制;
了解大數(shù)據(jù)平臺(tái)常用的以希望數(shù)據(jù)分析和挖掘的技術(shù),如:Hadoop、Hive、Spark等
深度了解機(jī)器學(xué)習(xí)算法,及其Spark MLlib基本算法原理,以及機(jī)器學(xué)習(xí)算法實(shí)踐與優(yōu)化。
了解目前主流的數(shù)據(jù)分析和挖掘平臺(tái)
了解基于Python數(shù)據(jù)分析和挖掘的技術(shù)棧
能夠使用Python基于Spark額mllib上面進(jìn)行數(shù)據(jù)分析和挖掘。

培訓(xùn)對(duì)象

具有1年及以上工作經(jīng)驗(yàn),并期望掌握大數(shù)據(jù)系統(tǒng)與機(jī)器學(xué)習(xí)算法,大數(shù)據(jù)系統(tǒng)架構(gòu),機(jī)器學(xué)習(xí)算法運(yùn)行機(jī)制的研發(fā)工程師,算法工程師,及其架構(gòu)師。
利用大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析挖掘的同學(xué)
了解基于大數(shù)據(jù)平臺(tái)常用數(shù)據(jù)分析和挖掘的流程和方法

課程大綱

第一天
Spark技術(shù)棧介紹
Spark-Core介紹
Spark SQL介紹
Spark Streaming介紹
Spark mllib介紹
Spark GraphX介紹
PySpark介紹
SparkR介紹
Spark3.0重要特性介紹
Spark編程模型和解析 Spark的編程模型
Spark編程模型解析
Partition實(shí)現(xiàn)機(jī)制
RDD的特點(diǎn)、操作、依賴關(guān)系
Transformation RDD詳解
Action RDD詳解
Spark的累加器詳解
Spark的廣播變量詳解
Spark容錯(cuò)機(jī)制
—lineage和checkpoint詳解
Spark的運(yùn)行方式
Spark的Shuffle原理詳解
—Sort-Based原理
—Hash-Based原理
Spark Partition詳解
Spark SQL原理和實(shí)踐 Spark SQL原理
Spark SQL的Catalyst優(yōu)化器
Spark SQL內(nèi)核
Spark SQL和Hive連接
DataFrame和DataSet架構(gòu)
Fataframe、DataSet和Spark SQL的比較
SparkSQL parquet格式實(shí)戰(zhàn)
Spark SQL的實(shí)例和編程
Spark SQL的實(shí)例操作demo
Spark SQL的編程
Spark SQL學(xué)員實(shí)操訓(xùn)練
Spark Streaming詳解 Spark Streaming原理
Spark Streaming的應(yīng)用場(chǎng)景
Windows 窗口操作
DStream詳解
Spark SQL on Spark Streaming詳解
Structured Streaming介紹
Structured Streaming的水印操作
Structured Streaming+kafka應(yīng)用實(shí)戰(zhàn)
流式任務(wù)的痛點(diǎn)和注意點(diǎn)
流式任務(wù)數(shù)據(jù)延遲問題
流式任務(wù)作業(yè)性能問題
流式任務(wù)任務(wù)常見的處理方式
Day2 上午
Spark優(yōu)化實(shí)戰(zhàn)
Spark DAG原理和優(yōu)化
GC垃圾回收分析
減少任務(wù)使用內(nèi)存
廣播大變量
數(shù)據(jù)本地化
Spark shuffle原理和優(yōu)化
Spark內(nèi)存模型設(shè)計(jì)原理
Spark堆內(nèi)內(nèi)存管理
Spark堆外內(nèi)存管理
Spark任務(wù)執(zhí)行過程分析和資源占用詳解
sparkSQL核心配置參數(shù)詳解
Day2 下午
數(shù)據(jù)分析和數(shù)據(jù)挖掘方法論和Spark數(shù)據(jù)分析實(shí)戰(zhàn)
數(shù)據(jù)分析和挖掘技術(shù)介紹
數(shù)據(jù)分析和挖掘挖掘應(yīng)用場(chǎng)景介紹
數(shù)據(jù)分析和挖掘挖掘常用的算法介紹
數(shù)據(jù)分析和挖掘挖掘應(yīng)用架構(gòu)
數(shù)據(jù)分析和挖掘挖掘流程CRISP-DM模型介紹
數(shù)據(jù)分析和挖掘挖掘流程方法論介紹
數(shù)據(jù)特征工程構(gòu)建方法論
第一天
Spark技術(shù)棧介紹
Spark-Core介紹
Spark SQL介紹
Spark Streaming介紹
Spark mllib介紹
Spark GraphX介紹
PySpark介紹
SparkR介紹
Spark3.0重要特性介紹
Spark編程模型和解析
Spark的編程模型
Spark編程模型解析
Partition實(shí)現(xiàn)機(jī)制
RDD的特點(diǎn)、操作、依賴關(guān)系
Transformation RDD詳解
Action RDD詳解
Spark的累加器詳解
Spark的廣播變量詳解
Spark容錯(cuò)機(jī)制
—lineage和checkpoint詳解
Spark的運(yùn)行方式
Spark的Shuffle原理詳解
—Sort-Based原理
—Hash-Based原理
Spark Partition詳解
Spark SQL原理和實(shí)踐
Spark SQL原理
Spark SQL的Catalyst優(yōu)化器
Spark SQL內(nèi)核
Spark SQL和Hive連接
DataFrame和DataSet架構(gòu)
Fataframe、DataSet和Spark SQL的比較
SparkSQL parquet格式實(shí)戰(zhàn)
Spark SQL的實(shí)例和編程
Spark SQL的實(shí)例操作demo
Spark SQL的編程
Spark SQL學(xué)員實(shí)操訓(xùn)練
Spark Streaming詳解
Spark Streaming原理
Spark Streaming的應(yīng)用場(chǎng)景
Windows 窗口操作
DStream詳解
Spark SQL on Spark Streaming詳解
Structured Streaming介紹
Structured Streaming的水印操作
Structured Streaming+kafka應(yīng)用實(shí)戰(zhàn)
流式任務(wù)的痛點(diǎn)和注意點(diǎn)
流式任務(wù)數(shù)據(jù)延遲問題
流式任務(wù)作業(yè)性能問題
流式任務(wù)任務(wù)常見的處理方式
Day2 上午
Spark優(yōu)化實(shí)戰(zhàn)
Spark DAG原理和優(yōu)化
GC垃圾回收分析
減少任務(wù)使用內(nèi)存
廣播大變量
數(shù)據(jù)本地化
Spark shuffle原理和優(yōu)化
Spark內(nèi)存模型設(shè)計(jì)原理
Spark堆內(nèi)內(nèi)存管理
Spark堆外內(nèi)存管理
Spark任務(wù)執(zhí)行過程分析和資源占用詳解
sparkSQL核心配置參數(shù)詳解
Day2 下午
數(shù)據(jù)分析和數(shù)據(jù)挖掘方法論和Spark數(shù)據(jù)分析實(shí)戰(zhàn)
數(shù)據(jù)分析和挖掘技術(shù)介紹
數(shù)據(jù)分析和挖掘挖掘應(yīng)用場(chǎng)景介紹
數(shù)據(jù)分析和挖掘挖掘常用的算法介紹
數(shù)據(jù)分析和挖掘挖掘應(yīng)用架構(gòu)
數(shù)據(jù)分析和挖掘挖掘流程CRISP-DM模型介紹
數(shù)據(jù)分析和挖掘挖掘流程方法論介紹
數(shù)據(jù)特征工程構(gòu)建方法論

課程費(fèi)用

6800.00 /人

課程時(shí)長

2

預(yù)約體驗(yàn)票 我要分享

近期公開課推薦

近期公開課推薦

活動(dòng)詳情

提交需求