課程簡(jiǎn)介
第一天涵蓋大數(shù)據(jù)平臺(tái)架構(gòu)演變、湖倉一體數(shù)據(jù)架構(gòu)實(shí)戰(zhàn)、StarRocks高性能MPP、數(shù)據(jù)湖工具Hudi實(shí)戰(zhàn)及Flink DataStream原理。第二天則聚焦Flink狀態(tài)和容錯(cuò)、Flink SQL和Table開發(fā)、Flink CDC實(shí)戰(zhàn)解析及流批一體項(xiàng)目實(shí)戰(zhàn),包括RDBMS、Kafka、Flink CDC、FlinkSQL、ES和Kibana的整合應(yīng)用。通過豐富案例分享,幫助學(xué)員掌握流批一體典型技術(shù)架構(gòu)與應(yīng)用場(chǎng)景,適用于大數(shù)據(jù)架構(gòu)師及開發(fā)人員。
目標(biāo)收益
培訓(xùn)對(duì)象
課程大綱
Day1 大數(shù)據(jù)平臺(tái)的架構(gòu)演變 |
數(shù)據(jù)湖架構(gòu)案例實(shí)戰(zhàn) 離線計(jì)算大數(shù)據(jù)平臺(tái)架構(gòu) 實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景介紹 新一代湖倉一體架構(gòu) 基于Flink實(shí)時(shí)數(shù)倉數(shù)倉解決方案 基于Flink+Hudi流批一體數(shù)據(jù)架構(gòu)解決方案 |
Day1 湖倉一體數(shù)據(jù)架構(gòu)實(shí)戰(zhàn)解析 |
數(shù)據(jù)接入大數(shù)據(jù)平臺(tái) —離線數(shù)據(jù)接入 —實(shí)時(shí)的數(shù)據(jù)接入 數(shù)據(jù)處理過程 —數(shù)據(jù)的ETL —數(shù)據(jù)分層(ODS、DW和DM等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗(yàn) ?數(shù)據(jù)應(yīng)用 —數(shù)據(jù)離線應(yīng)用 —數(shù)據(jù)實(shí)時(shí)應(yīng)用 —數(shù)據(jù)實(shí)驗(yàn)室 數(shù)據(jù)展示工具(BI工具) |
Day1 StarRocks高性能MPP介紹 |
StarRocks架構(gòu)和原理 StarRocks高性能MPP的特性 StarRocks的表設(shè)計(jì)介紹 — 數(shù)據(jù)模型 — 排序和前綴索引 — 分區(qū)和分桶 — 數(shù)據(jù)類型 — 列級(jí)別索引 — 視圖 StarRocks應(yīng)用場(chǎng)景介紹 StarRocks數(shù)據(jù)導(dǎo)入 — insert into — Stream Load — Routine Load — Flink CDC StarRocks+Flink實(shí)時(shí)數(shù)倉解決方案介紹 |
Day1 數(shù)據(jù)湖工具實(shí)戰(zhàn)解析 |
什么是Hudi 為什么會(huì)有Hudi Hudi整體架構(gòu) Hudi的文件結(jié)構(gòu)介紹 Hudi數(shù)據(jù)存儲(chǔ) Hudi數(shù)據(jù)合并的原理介紹 Hudi表格式介紹 Hudi的索引設(shè)計(jì)介紹 Hudi的元數(shù)據(jù)表介紹 Hudi表的存儲(chǔ)類型介紹 — COW存儲(chǔ)類型 — MOR存儲(chǔ)類型 Hudi時(shí)間軸服務(wù)介紹 Flink+Hudi整合實(shí)操 |
Day1 Flink DataStream原理 |
實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景介紹 實(shí)時(shí)處理框架Flink簡(jiǎn)介 Flink on Yarn運(yùn)行機(jī)制介紹 Flink DataStream原理 Flink并行計(jì)算和DAG Flink API邏輯層次 DataStream轉(zhuǎn)換操作 數(shù)據(jù)分區(qū) Flink中的時(shí)間EventTime和ProcessingTime WateMark原理和實(shí)戰(zhàn) DataStream Window原理和實(shí)戰(zhàn) CountWindow介紹和實(shí)戰(zhàn) TimeWindow介紹和實(shí)戰(zhàn) |
Day2 Flink狀態(tài)和容錯(cuò) |
分布式流計(jì)算原理 流計(jì)算的狀態(tài) 快照和全局快照 全局一致性原理介紹和實(shí)戰(zhàn) Exactly once語義原理和實(shí)戰(zhàn) Flink故障恢復(fù)原理和實(shí)戰(zhàn) Flink Checkpoint原理和實(shí)實(shí)現(xiàn) Flink快照Barrier原理和實(shí)戰(zhàn) Flink狀態(tài)管理介紹 MemoryStateBackend介紹 FSStateBackend介紹 RocksDBStateBackend介紹 |
Day2 Flink SQL和Table開發(fā)實(shí)戰(zhàn) |
Flink SQL和Table開發(fā)實(shí)戰(zhàn) Flink SQL功能介紹 Flink SQL Kafka+FlinkSQL整合 Flink Table介紹 Flink Table DSL語法介紹 |
Day2 數(shù)據(jù)離線和增量同步工具Flink CDC實(shí)戰(zhàn)解析 |
Flink CDC實(shí)戰(zhàn)解析 傳統(tǒng)CDC工具實(shí)戰(zhàn)解析 CDC工具實(shí)戰(zhàn)解析和比較 Flink CDC支持的功能 基于日志CDC的數(shù)據(jù)同步流程 ETL—傳統(tǒng)CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 數(shù)據(jù)寬表 Flink SQL如何集成CDC Flink CDC 作為數(shù)據(jù)采集層的優(yōu)勢(shì) 實(shí)操:老師演練項(xiàng)目 |
Day2 流批一體項(xiàng)目實(shí)戰(zhàn)RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項(xiàng)目實(shí)戰(zhàn) |
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項(xiàng)目實(shí)戰(zhàn): Docker演示環(huán)境介紹 項(xiàng)目需求分析和解決方案設(shè)計(jì) 流式數(shù)倉分層模型設(shè)計(jì) Flink CDC mysql實(shí)戰(zhàn) Flink CDC postgres實(shí)戰(zhàn) Flink CDC Kafka實(shí)戰(zhàn) Flink CDC ES實(shí)現(xiàn) Kibana結(jié)果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項(xiàng)目實(shí)戰(zhàn) 實(shí)操:老師演練項(xiàng)目 |
Day2 流批一體大數(shù)據(jù)案例分享 |
流批一體典型的技術(shù)架構(gòu)和應(yīng)用場(chǎng)景介紹 大型互聯(lián)網(wǎng)Flink+hudi流批一體大數(shù)據(jù)架構(gòu)和案例介紹 某銀行基于Flink的流批一體大數(shù)據(jù)架構(gòu)和案例介紹 |
Day1 大數(shù)據(jù)平臺(tái)的架構(gòu)演變 數(shù)據(jù)湖架構(gòu)案例實(shí)戰(zhàn) 離線計(jì)算大數(shù)據(jù)平臺(tái)架構(gòu) 實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景介紹 新一代湖倉一體架構(gòu) 基于Flink實(shí)時(shí)數(shù)倉數(shù)倉解決方案 基于Flink+Hudi流批一體數(shù)據(jù)架構(gòu)解決方案 |
Day1 湖倉一體數(shù)據(jù)架構(gòu)實(shí)戰(zhàn)解析 數(shù)據(jù)接入大數(shù)據(jù)平臺(tái) —離線數(shù)據(jù)接入 —實(shí)時(shí)的數(shù)據(jù)接入 數(shù)據(jù)處理過程 —數(shù)據(jù)的ETL —數(shù)據(jù)分層(ODS、DW和DM等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗(yàn) ?數(shù)據(jù)應(yīng)用 —數(shù)據(jù)離線應(yīng)用 —數(shù)據(jù)實(shí)時(shí)應(yīng)用 —數(shù)據(jù)實(shí)驗(yàn)室 數(shù)據(jù)展示工具(BI工具) |
Day1 StarRocks高性能MPP介紹 StarRocks架構(gòu)和原理 StarRocks高性能MPP的特性 StarRocks的表設(shè)計(jì)介紹 — 數(shù)據(jù)模型 — 排序和前綴索引 — 分區(qū)和分桶 — 數(shù)據(jù)類型 — 列級(jí)別索引 — 視圖 StarRocks應(yīng)用場(chǎng)景介紹 StarRocks數(shù)據(jù)導(dǎo)入 — insert into — Stream Load — Routine Load — Flink CDC StarRocks+Flink實(shí)時(shí)數(shù)倉解決方案介紹 |
Day1 數(shù)據(jù)湖工具實(shí)戰(zhàn)解析 什么是Hudi 為什么會(huì)有Hudi Hudi整體架構(gòu) Hudi的文件結(jié)構(gòu)介紹 Hudi數(shù)據(jù)存儲(chǔ) Hudi數(shù)據(jù)合并的原理介紹 Hudi表格式介紹 Hudi的索引設(shè)計(jì)介紹 Hudi的元數(shù)據(jù)表介紹 Hudi表的存儲(chǔ)類型介紹 — COW存儲(chǔ)類型 — MOR存儲(chǔ)類型 Hudi時(shí)間軸服務(wù)介紹 Flink+Hudi整合實(shí)操 |
Day1 Flink DataStream原理 實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景介紹 實(shí)時(shí)處理框架Flink簡(jiǎn)介 Flink on Yarn運(yùn)行機(jī)制介紹 Flink DataStream原理 Flink并行計(jì)算和DAG Flink API邏輯層次 DataStream轉(zhuǎn)換操作 數(shù)據(jù)分區(qū) Flink中的時(shí)間EventTime和ProcessingTime WateMark原理和實(shí)戰(zhàn) DataStream Window原理和實(shí)戰(zhàn) CountWindow介紹和實(shí)戰(zhàn) TimeWindow介紹和實(shí)戰(zhàn) |
Day2 Flink狀態(tài)和容錯(cuò) 分布式流計(jì)算原理 流計(jì)算的狀態(tài) 快照和全局快照 全局一致性原理介紹和實(shí)戰(zhàn) Exactly once語義原理和實(shí)戰(zhàn) Flink故障恢復(fù)原理和實(shí)戰(zhàn) Flink Checkpoint原理和實(shí)實(shí)現(xiàn) Flink快照Barrier原理和實(shí)戰(zhàn) Flink狀態(tài)管理介紹 MemoryStateBackend介紹 FSStateBackend介紹 RocksDBStateBackend介紹 |
Day2 Flink SQL和Table開發(fā)實(shí)戰(zhàn) Flink SQL和Table開發(fā)實(shí)戰(zhàn) Flink SQL功能介紹 Flink SQL Kafka+FlinkSQL整合 Flink Table介紹 Flink Table DSL語法介紹 |
Day2 數(shù)據(jù)離線和增量同步工具Flink CDC實(shí)戰(zhàn)解析 Flink CDC實(shí)戰(zhàn)解析 傳統(tǒng)CDC工具實(shí)戰(zhàn)解析 CDC工具實(shí)戰(zhàn)解析和比較 Flink CDC支持的功能 基于日志CDC的數(shù)據(jù)同步流程 ETL—傳統(tǒng)CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 數(shù)據(jù)寬表 Flink SQL如何集成CDC Flink CDC 作為數(shù)據(jù)采集層的優(yōu)勢(shì) 實(shí)操:老師演練項(xiàng)目 |
Day2 流批一體項(xiàng)目實(shí)戰(zhàn)RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項(xiàng)目實(shí)戰(zhàn) RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項(xiàng)目實(shí)戰(zhàn): Docker演示環(huán)境介紹 項(xiàng)目需求分析和解決方案設(shè)計(jì) 流式數(shù)倉分層模型設(shè)計(jì) Flink CDC mysql實(shí)戰(zhàn) Flink CDC postgres實(shí)戰(zhàn) Flink CDC Kafka實(shí)戰(zhàn) Flink CDC ES實(shí)現(xiàn) Kibana結(jié)果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項(xiàng)目實(shí)戰(zhàn) 實(shí)操:老師演練項(xiàng)目 |
Day2 流批一體大數(shù)據(jù)案例分享 流批一體典型的技術(shù)架構(gòu)和應(yīng)用場(chǎng)景介紹 大型互聯(lián)網(wǎng)Flink+hudi流批一體大數(shù)據(jù)架構(gòu)和案例介紹 某銀行基于Flink的流批一體大數(shù)據(jù)架構(gòu)和案例介紹 |