課程簡介
隨著大數(shù)據(jù)技術(shù)的使用越來越廣泛,企業(yè)面臨數(shù)據(jù)整合、數(shù)據(jù)分層、數(shù)據(jù)管理、數(shù)據(jù)使用、 數(shù)據(jù)湖等問題尤為的重要。使得基于大數(shù)據(jù)平臺的數(shù)據(jù)倉庫和數(shù)據(jù)湖建設(shè)非常的必要。本次 大數(shù)據(jù)數(shù)據(jù)倉庫的培訓(xùn)理論和實踐相結(jié)合,通過一些企業(yè)級的真實案例實現(xiàn)基于大數(shù)據(jù)平臺 數(shù)倉、數(shù)據(jù)湖的建設(shè)。
目標(biāo)收益
1. 數(shù)據(jù)倉庫和數(shù)據(jù)湖的概念和架構(gòu)
2. 數(shù)據(jù)建模的技術(shù)、流程和注意點
3. 數(shù)據(jù)整合、處理和展示的流程
4. 基于大數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)倉庫、數(shù)據(jù)湖的技術(shù)和案例分享
5. 電信和銀行等傳統(tǒng)行業(yè)大數(shù)據(jù)平臺數(shù)據(jù)倉庫、數(shù)據(jù)湖的落地案例和經(jīng)驗分享
6. 關(guān)系模型和維度模型的應(yīng)用場景
培訓(xùn)對象
數(shù)據(jù)架構(gòu)師、數(shù)據(jù)分析和挖掘人員、模型師、大數(shù)據(jù)架構(gòu)師、ETL 開發(fā)工程師、業(yè)務(wù)人員
課程大綱
第一章 數(shù)據(jù)倉庫和數(shù)據(jù)湖介紹 |
1.數(shù)據(jù)倉庫體系結(jié)構(gòu) 2.數(shù)據(jù)倉庫建設(shè)過程方法論 3.數(shù)倉五層結(jié)構(gòu) 4.數(shù)據(jù)倉庫模型設(shè)計 5.數(shù)據(jù)湖體系架構(gòu) 6.數(shù)據(jù)湖技術(shù)架構(gòu) 7.數(shù)據(jù)湖構(gòu)建步驟 8.數(shù)據(jù)服務(wù)概念 9.數(shù)倉和數(shù)據(jù)湖的區(qū)別 |
第二章 數(shù)據(jù)建模介紹 |
1. 數(shù)據(jù)建模概念 2. 為什么要數(shù)據(jù)建模 3. 數(shù)據(jù)建模的方法論介紹 4. 概念模型 5. 邏輯模型 6. 物理模型 7. 數(shù)據(jù)建模常用工具介紹 |
第三章 數(shù)據(jù)建模實戰(zhàn)(維度模型) |
1. 維度建模概念 2. 為什么要維度建模 3. 維度表介紹 4. 維度種類 5. 緩慢變化維處理 6. 快速變化維處理 7. 代理鍵 8. 維度的三種模型介紹:星型模型、雪花模型、多維模型 9. 事實表的類型 10. 基于維度模型數(shù)據(jù)倉庫的基本概念 11. 維度模型建設(shè)步驟 |
第四章 范式建模和維度建模的比較 |
1. 企業(yè)級數(shù)據(jù)倉庫范式建模和維度建模的引用場景 2. 范式建模解決的問題領(lǐng)域 3. 維度建模解決的問題領(lǐng)域 4. 關(guān)系建模和維度建模的比較 |
第五章 數(shù)據(jù)倉庫設(shè)計架構(gòu) |
1. 數(shù)據(jù)倉庫典型架構(gòu)介紹:、ODS 層、DW 層、DM 層 2. 數(shù)據(jù)安全控制 3. ETL 任務(wù)調(diào)度 |
第六章 數(shù)據(jù)倉庫和數(shù)據(jù)湖總體架構(gòu) |
1.數(shù)據(jù)倉庫典型架構(gòu)介紹 —ODS層 —DW層 —DM層 —ADS層 2.數(shù)據(jù)體系規(guī)劃 3.數(shù)據(jù)分層思想 4.貼源層數(shù)據(jù)建設(shè) 5.統(tǒng)一數(shù)據(jù)底座建設(shè) 6.數(shù)據(jù)集市建設(shè)設(shè)計 7.標(biāo)簽數(shù)據(jù)層建設(shè)計 8.應(yīng)用數(shù)據(jù)層建設(shè) |
第七章 指標(biāo)數(shù)據(jù)建模案例分享 |
1.業(yè)務(wù)需求 2.數(shù)倉總線矩陣梳理 3.維度建模 – 選擇業(yè)務(wù)過程 4.維度建模 – 聲明粒度 5.維度建模 – 確定維度 6.維度建模 – 確定事實 7.維度建模 – 模型的擴(kuò)展與集成 8.ETL&BI設(shè)計 – 金字塔原理 9.數(shù)據(jù)底座建設(shè)理念和線路 10.指標(biāo)關(guān)聯(lián)關(guān)系矩陣 |
第八章: 數(shù)據(jù)湖的數(shù)據(jù)架構(gòu)數(shù)據(jù)架構(gòu)實戰(zhàn) |
1.數(shù)據(jù)接入大數(shù)據(jù)平臺 —離線數(shù)據(jù)接入 —實時的數(shù)據(jù)接入 2.數(shù)據(jù)處理過程 —數(shù)據(jù)的 ETL —數(shù)據(jù)分層(ODS、DW 和 DM 等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗 3.數(shù)據(jù)應(yīng)用 —數(shù)據(jù)離線應(yīng)用 —數(shù)據(jù)實時應(yīng)用 —數(shù)據(jù)實驗室 —數(shù)據(jù)展示工具(BI 工具) |
第九章 數(shù)據(jù)湖落地技術(shù)實戰(zhàn) |
1. RDBMS 導(dǎo)入導(dǎo)出到 hadoop 數(shù)據(jù)倉庫 2. Sqoop 工具介紹和使用 3. DataX 工具介紹 4. CDC 工具介紹(Oracle OGG 和 Mysql Binlog) 5. Flink CDC介紹和實戰(zhàn) 6. 實時非結(jié)構(gòu)化數(shù)據(jù)的采集 7. 從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉庫 8. 基于 Hadoop、Spark、Flink 數(shù)據(jù)湖的數(shù)據(jù)分層(ODS、DW、 DWS/B、DM、ST) 9. 數(shù)據(jù)湖不同層之間的數(shù)據(jù)交互和 ETL |
第十章 案例實戰(zhàn)分享(數(shù)據(jù)倉庫建設(shè)0到1) |
1.離線數(shù)據(jù)平臺典型架構(gòu)介紹 2.流式數(shù)據(jù)平臺典型架構(gòu)介紹 3.流批一體數(shù)據(jù)平臺典型架構(gòu)介紹 4.數(shù)據(jù)倉庫0到1建設(shè)案例分享 5.數(shù)據(jù)倉庫建設(shè)規(guī)范 6.自上而下和自下而上的建設(shè)融合 7.數(shù)據(jù)分層架構(gòu)和注意事項 8.數(shù)據(jù)分層設(shè)計原則和ETL處理流 9.數(shù)據(jù)分層公共數(shù)據(jù)下沉設(shè)計準(zhǔn)側(cè) 10.數(shù)據(jù)標(biāo)準(zhǔn)和口徑梳理流程,解決數(shù)據(jù)口徑的不一致 11.如何將業(yè)務(wù)需求梳理成數(shù)據(jù)需求從而設(shè)計ADS數(shù)據(jù)服務(wù)應(yīng)用分享 12.如何控制數(shù)據(jù)處理鏈路,實現(xiàn)高效的數(shù)據(jù)處理 13.數(shù)據(jù)集市建設(shè)的要點和注意點 14.批量數(shù)據(jù)裝載、整合、處理和全流程ETL處理過程最佳實戰(zhàn) 15.實時數(shù)據(jù)抽取、整合、處理和全流程ETL處理過程最佳實戰(zhàn) |
第一章 數(shù)據(jù)倉庫和數(shù)據(jù)湖介紹 1.數(shù)據(jù)倉庫體系結(jié)構(gòu) 2.數(shù)據(jù)倉庫建設(shè)過程方法論 3.數(shù)倉五層結(jié)構(gòu) 4.數(shù)據(jù)倉庫模型設(shè)計 5.數(shù)據(jù)湖體系架構(gòu) 6.數(shù)據(jù)湖技術(shù)架構(gòu) 7.數(shù)據(jù)湖構(gòu)建步驟 8.數(shù)據(jù)服務(wù)概念 9.數(shù)倉和數(shù)據(jù)湖的區(qū)別 |
第二章 數(shù)據(jù)建模介紹 1. 數(shù)據(jù)建模概念 2. 為什么要數(shù)據(jù)建模 3. 數(shù)據(jù)建模的方法論介紹 4. 概念模型 5. 邏輯模型 6. 物理模型 7. 數(shù)據(jù)建模常用工具介紹 |
第三章 數(shù)據(jù)建模實戰(zhàn)(維度模型) 1. 維度建模概念 2. 為什么要維度建模 3. 維度表介紹 4. 維度種類 5. 緩慢變化維處理 6. 快速變化維處理 7. 代理鍵 8. 維度的三種模型介紹:星型模型、雪花模型、多維模型 9. 事實表的類型 10. 基于維度模型數(shù)據(jù)倉庫的基本概念 11. 維度模型建設(shè)步驟 |
第四章 范式建模和維度建模的比較 1. 企業(yè)級數(shù)據(jù)倉庫范式建模和維度建模的引用場景 2. 范式建模解決的問題領(lǐng)域 3. 維度建模解決的問題領(lǐng)域 4. 關(guān)系建模和維度建模的比較 |
第五章 數(shù)據(jù)倉庫設(shè)計架構(gòu) 1. 數(shù)據(jù)倉庫典型架構(gòu)介紹:、ODS 層、DW 層、DM 層 2. 數(shù)據(jù)安全控制 3. ETL 任務(wù)調(diào)度 |
第六章 數(shù)據(jù)倉庫和數(shù)據(jù)湖總體架構(gòu) 1.數(shù)據(jù)倉庫典型架構(gòu)介紹 —ODS層 —DW層 —DM層 —ADS層 2.數(shù)據(jù)體系規(guī)劃 3.數(shù)據(jù)分層思想 4.貼源層數(shù)據(jù)建設(shè) 5.統(tǒng)一數(shù)據(jù)底座建設(shè) 6.數(shù)據(jù)集市建設(shè)設(shè)計 7.標(biāo)簽數(shù)據(jù)層建設(shè)計 8.應(yīng)用數(shù)據(jù)層建設(shè) |
第七章 指標(biāo)數(shù)據(jù)建模案例分享 1.業(yè)務(wù)需求 2.數(shù)倉總線矩陣梳理 3.維度建模 – 選擇業(yè)務(wù)過程 4.維度建模 – 聲明粒度 5.維度建模 – 確定維度 6.維度建模 – 確定事實 7.維度建模 – 模型的擴(kuò)展與集成 8.ETL&BI設(shè)計 – 金字塔原理 9.數(shù)據(jù)底座建設(shè)理念和線路 10.指標(biāo)關(guān)聯(lián)關(guān)系矩陣 |
第八章: 數(shù)據(jù)湖的數(shù)據(jù)架構(gòu)數(shù)據(jù)架構(gòu)實戰(zhàn) 1.數(shù)據(jù)接入大數(shù)據(jù)平臺 —離線數(shù)據(jù)接入 —實時的數(shù)據(jù)接入 2.數(shù)據(jù)處理過程 —數(shù)據(jù)的 ETL —數(shù)據(jù)分層(ODS、DW 和 DM 等) —數(shù)據(jù)建模 —數(shù)據(jù)校驗 3.數(shù)據(jù)應(yīng)用 —數(shù)據(jù)離線應(yīng)用 —數(shù)據(jù)實時應(yīng)用 —數(shù)據(jù)實驗室 —數(shù)據(jù)展示工具(BI 工具) |
第九章 數(shù)據(jù)湖落地技術(shù)實戰(zhàn) 1. RDBMS 導(dǎo)入導(dǎo)出到 hadoop 數(shù)據(jù)倉庫 2. Sqoop 工具介紹和使用 3. DataX 工具介紹 4. CDC 工具介紹(Oracle OGG 和 Mysql Binlog) 5. Flink CDC介紹和實戰(zhàn) 6. 實時非結(jié)構(gòu)化數(shù)據(jù)的采集 7. 從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉庫 8. 基于 Hadoop、Spark、Flink 數(shù)據(jù)湖的數(shù)據(jù)分層(ODS、DW、 DWS/B、DM、ST) 9. 數(shù)據(jù)湖不同層之間的數(shù)據(jù)交互和 ETL |
第十章 案例實戰(zhàn)分享(數(shù)據(jù)倉庫建設(shè)0到1) 1.離線數(shù)據(jù)平臺典型架構(gòu)介紹 2.流式數(shù)據(jù)平臺典型架構(gòu)介紹 3.流批一體數(shù)據(jù)平臺典型架構(gòu)介紹 4.數(shù)據(jù)倉庫0到1建設(shè)案例分享 5.數(shù)據(jù)倉庫建設(shè)規(guī)范 6.自上而下和自下而上的建設(shè)融合 7.數(shù)據(jù)分層架構(gòu)和注意事項 8.數(shù)據(jù)分層設(shè)計原則和ETL處理流 9.數(shù)據(jù)分層公共數(shù)據(jù)下沉設(shè)計準(zhǔn)側(cè) 10.數(shù)據(jù)標(biāo)準(zhǔn)和口徑梳理流程,解決數(shù)據(jù)口徑的不一致 11.如何將業(yè)務(wù)需求梳理成數(shù)據(jù)需求從而設(shè)計ADS數(shù)據(jù)服務(wù)應(yīng)用分享 12.如何控制數(shù)據(jù)處理鏈路,實現(xiàn)高效的數(shù)據(jù)處理 13.數(shù)據(jù)集市建設(shè)的要點和注意點 14.批量數(shù)據(jù)裝載、整合、處理和全流程ETL處理過程最佳實戰(zhàn) 15.實時數(shù)據(jù)抽取、整合、處理和全流程ETL處理過程最佳實戰(zhàn) |