課程簡(jiǎn)介
Flink SQL 是基于流處理和批處理的強(qiáng)大工具,通過多表關(guān)聯(lián)、自定義 TableSource 和 Table Sink 等實(shí)戰(zhàn),實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析。同時(shí),結(jié)合 Watermark 和窗口函數(shù)處理時(shí)間序列數(shù)據(jù)。此外,F(xiàn)link 還與 Hive、RDBMS、Kafka、CDC、ES 等集成,滿足各種數(shù)據(jù)源需求。項(xiàng)目實(shí)戰(zhàn)涵蓋了流批一體、Kafka、Elasticsearch、Docker 演示等環(huán)境,提供完整的解決方案。
目標(biāo)收益
培訓(xùn)對(duì)象
課程大綱
主流大數(shù)據(jù)的整體技術(shù)架構(gòu) |
?開源大數(shù)據(jù)技術(shù)架構(gòu) ?開源大數(shù)據(jù)常用組件之間的依賴關(guān)系 ?離線計(jì)算框架介紹 —Mapreduce、Hive、Tez、Impala、Presto ?實(shí)時(shí)查詢框架介紹 —NoSQL、Hbase ?實(shí)時(shí)計(jì)算框架介紹 —Kafka、Flink、Spark Streaming ?內(nèi)存計(jì)算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR ?實(shí)時(shí)OLAP技術(shù)介紹 —Clickhouse、StarRocks等 ?海量日志快速檢索架構(gòu) —ELK(Elasticsearch、Logstash、Kibana)等 ?數(shù)據(jù)湖工具介紹 Hudi、IceBerg |
大數(shù)據(jù)平臺(tái)的架構(gòu)演變 |
?數(shù)據(jù)湖架構(gòu)案例實(shí)戰(zhàn) ?離線計(jì)算大數(shù)據(jù)平臺(tái)架構(gòu) ?實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景介紹 ?新一代湖倉一體架構(gòu) ?基于Flink實(shí)時(shí)數(shù)倉數(shù)倉解決方案 —Kafka+Flink+clickhouse —Flink CDC+Flink+StarRocks 基于Flink CDC+Flink+Hudi流批一體數(shù)據(jù)架構(gòu)解決方案 |
實(shí)時(shí)數(shù)倉和湖倉一體數(shù)據(jù)架構(gòu)實(shí)戰(zhàn)解析 |
?數(shù)據(jù)接入大數(shù)據(jù)平臺(tái) -離線數(shù)據(jù)接入 -實(shí)時(shí)的數(shù)據(jù)接入 ?數(shù)據(jù)處理過程 -數(shù)據(jù)的ETL -數(shù)據(jù)分層(ODS、DW和DM等) -數(shù)據(jù)建模 -數(shù)據(jù)校驗(yàn) ?數(shù)據(jù)應(yīng)用 -數(shù)據(jù)離線應(yīng)用 -數(shù)據(jù)實(shí)時(shí)應(yīng)用 -數(shù)據(jù)實(shí)驗(yàn)室 數(shù)據(jù)展示工具(BI工具) |
Hadoop開發(fā)實(shí)戰(zhàn) |
?HDFS架構(gòu)介紹 ?HDFS原理介紹 ?NameNode功能詳解 ?DataNode功能詳 ?HDFS HA功能詳解 ?HSFD的fsimage和editslog詳解 ?HDFS的block詳解 ?HDFS的block的備份策略 ?Mapreduce原理 ?MapReduce流程 ?剖析一個(gè)MapReduce程序 ?Mapper和Reducer抽象類詳解 ?Combiner詳解 Partitioner詳解 |
Hive數(shù)倉工具開發(fā)實(shí)戰(zhàn) |
?Hive的作用和原理說明 ?Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系 ?Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流 ?Hive的MetaStore詳解 ?Hive的基本用法 ?Hive的server啟動(dòng) ?HQL基本語法 ?Hive的加載數(shù)據(jù)本地加載和HDFS加載 ?Hive的partition詳解 ?Hive的存儲(chǔ)方式詳解 RCFILE、TEXTFILE和SEQUEUEFILE |
Hbase原理和開發(fā)實(shí)戰(zhàn) |
?NoSQL介紹 ?NoSQL應(yīng)用場(chǎng)景 ?Hbase的架構(gòu)原理 ?Hbase核心概念詳解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) ?Hbase自帶的namesapce和Meta表詳解 ?HBase邏輯視圖介紹 ?HBase物理視圖介紹 ?HBase的RowKey設(shè)計(jì)原則 ?HBase BloomFilter的介紹 ?手動(dòng)設(shè)置Split和Compaction操作 ?Pre-Split的介紹 ?HBase使用場(chǎng)景介紹 Hbase shell增刪改查實(shí)戰(zhàn) |
Spark原理和開發(fā)實(shí)戰(zhàn) |
?Spark的編程模型 ?Spark編程模型解析 ?Partition實(shí)現(xiàn)機(jī)制 ?RDD的特點(diǎn)、操作、依賴關(guān)系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark容錯(cuò)機(jī)制 ?lineage和checkpoint詳解 ?Spark的運(yùn)行方式 ?Spark DataFrame和DateSet介紹 ?Spark SQL原理 ?Spark SQL和Hive連接 ?DataFrame和DataSet架構(gòu) ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實(shí)戰(zhàn) Spark SQL開發(fā) |
Flink原理和開發(fā)實(shí)戰(zhàn) |
?DataStream API介紹與使用 ?DataStream編程模型 ?DataStream類型與轉(zhuǎn)換 ?Pipeline與StreamGraph轉(zhuǎn)換 ?Transformation ?時(shí)間概念與Watermark ?Windows窗口計(jì)算和多流合并 ?Flink table API原理和使用 ?Flink SQL原理和使用 ?TimeStamp與Watermark原理和實(shí)戰(zhàn) ?多表關(guān)聯(lián)實(shí)戰(zhàn) ?與Hive的集成實(shí)戰(zhàn) ?自定義TableSource、Table Sink和Table Factory實(shí)戰(zhàn) 項(xiàng)目實(shí)戰(zhàn):基于Flink SQL實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析 |
流批一體項(xiàng)目實(shí)戰(zhàn)RDBMS +Kafka+Flink CDC+FlinkSQL+ES+Kibana項(xiàng)目實(shí)戰(zhàn) |
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項(xiàng)目實(shí)戰(zhàn): ?Docker演示環(huán)境介紹 ?項(xiàng)目需求分析和解決方案設(shè)計(jì) ?流式數(shù)倉分層模型設(shè)計(jì) ?Flink CDC mysql實(shí)戰(zhàn) ?Flink CDC postgres實(shí)戰(zhàn) ?Flink CDC Kafka實(shí)戰(zhàn) ?Flink CDC ES實(shí)現(xiàn) ?Kibana結(jié)果展示 ?RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項(xiàng)目實(shí)戰(zhàn) 實(shí)操:老師演練項(xiàng)目 |
大數(shù)據(jù)平臺(tái)實(shí)施和運(yùn)維 |
?大數(shù)據(jù)平臺(tái)規(guī)劃 ?大數(shù)據(jù)平臺(tái)實(shí)施的步驟及構(gòu)建 ?大數(shù)據(jù)平臺(tái)權(quán)限認(rèn)證和授權(quán)解決方案 ?Kerberos+Openldap+sssd+knox+Ranger實(shí)現(xiàn)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)安全控制和實(shí)操 ?Yarn資源分配策略詳解和實(shí)操 ?yarn replacement rules權(quán)限控制和實(shí)操 ?Yarn 隊(duì)列+Ranger控制詳解和實(shí)操 ?HDFS+Ranger權(quán)限控制和實(shí)操 ?跨集群數(shù)據(jù)訪問的安全和資源控制案例分享 某大型銀行大數(shù)據(jù)平臺(tái)深度解析 |
主流大數(shù)據(jù)的整體技術(shù)架構(gòu) ?開源大數(shù)據(jù)技術(shù)架構(gòu) ?開源大數(shù)據(jù)常用組件之間的依賴關(guān)系 ?離線計(jì)算框架介紹 —Mapreduce、Hive、Tez、Impala、Presto ?實(shí)時(shí)查詢框架介紹 —NoSQL、Hbase ?實(shí)時(shí)計(jì)算框架介紹 —Kafka、Flink、Spark Streaming ?內(nèi)存計(jì)算框架介紹 —Spark、SparkSQL、SparkMllib、SparkR ?實(shí)時(shí)OLAP技術(shù)介紹 —Clickhouse、StarRocks等 ?海量日志快速檢索架構(gòu) —ELK(Elasticsearch、Logstash、Kibana)等 ?數(shù)據(jù)湖工具介紹 Hudi、IceBerg |
大數(shù)據(jù)平臺(tái)的架構(gòu)演變 ?數(shù)據(jù)湖架構(gòu)案例實(shí)戰(zhàn) ?離線計(jì)算大數(shù)據(jù)平臺(tái)架構(gòu) ?實(shí)時(shí)計(jì)算應(yīng)用場(chǎng)景介紹 ?新一代湖倉一體架構(gòu) ?基于Flink實(shí)時(shí)數(shù)倉數(shù)倉解決方案 —Kafka+Flink+clickhouse —Flink CDC+Flink+StarRocks 基于Flink CDC+Flink+Hudi流批一體數(shù)據(jù)架構(gòu)解決方案 |
實(shí)時(shí)數(shù)倉和湖倉一體數(shù)據(jù)架構(gòu)實(shí)戰(zhàn)解析 ?數(shù)據(jù)接入大數(shù)據(jù)平臺(tái) -離線數(shù)據(jù)接入 -實(shí)時(shí)的數(shù)據(jù)接入 ?數(shù)據(jù)處理過程 -數(shù)據(jù)的ETL -數(shù)據(jù)分層(ODS、DW和DM等) -數(shù)據(jù)建模 -數(shù)據(jù)校驗(yàn) ?數(shù)據(jù)應(yīng)用 -數(shù)據(jù)離線應(yīng)用 -數(shù)據(jù)實(shí)時(shí)應(yīng)用 -數(shù)據(jù)實(shí)驗(yàn)室 數(shù)據(jù)展示工具(BI工具) |
Hadoop開發(fā)實(shí)戰(zhàn) ?HDFS架構(gòu)介紹 ?HDFS原理介紹 ?NameNode功能詳解 ?DataNode功能詳 ?HDFS HA功能詳解 ?HSFD的fsimage和editslog詳解 ?HDFS的block詳解 ?HDFS的block的備份策略 ?Mapreduce原理 ?MapReduce流程 ?剖析一個(gè)MapReduce程序 ?Mapper和Reducer抽象類詳解 ?Combiner詳解 Partitioner詳解 |
Hive數(shù)倉工具開發(fā)實(shí)戰(zhàn) ?Hive的作用和原理說明 ?Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系 ?Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流 ?Hive的MetaStore詳解 ?Hive的基本用法 ?Hive的server啟動(dòng) ?HQL基本語法 ?Hive的加載數(shù)據(jù)本地加載和HDFS加載 ?Hive的partition詳解 ?Hive的存儲(chǔ)方式詳解 RCFILE、TEXTFILE和SEQUEUEFILE |
Hbase原理和開發(fā)實(shí)戰(zhàn) ?NoSQL介紹 ?NoSQL應(yīng)用場(chǎng)景 ?Hbase的架構(gòu)原理 ?Hbase核心概念詳解(HMaster、HRegionServer、Store、StoreFile、HFile、HLog和MetaStore) ?Hbase自帶的namesapce和Meta表詳解 ?HBase邏輯視圖介紹 ?HBase物理視圖介紹 ?HBase的RowKey設(shè)計(jì)原則 ?HBase BloomFilter的介紹 ?手動(dòng)設(shè)置Split和Compaction操作 ?Pre-Split的介紹 ?HBase使用場(chǎng)景介紹 Hbase shell增刪改查實(shí)戰(zhàn) |
Spark原理和開發(fā)實(shí)戰(zhàn) ?Spark的編程模型 ?Spark編程模型解析 ?Partition實(shí)現(xiàn)機(jī)制 ?RDD的特點(diǎn)、操作、依賴關(guān)系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark容錯(cuò)機(jī)制 ?lineage和checkpoint詳解 ?Spark的運(yùn)行方式 ?Spark DataFrame和DateSet介紹 ?Spark SQL原理 ?Spark SQL和Hive連接 ?DataFrame和DataSet架構(gòu) ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實(shí)戰(zhàn) Spark SQL開發(fā) |
Flink原理和開發(fā)實(shí)戰(zhàn) ?DataStream API介紹與使用 ?DataStream編程模型 ?DataStream類型與轉(zhuǎn)換 ?Pipeline與StreamGraph轉(zhuǎn)換 ?Transformation ?時(shí)間概念與Watermark ?Windows窗口計(jì)算和多流合并 ?Flink table API原理和使用 ?Flink SQL原理和使用 ?TimeStamp與Watermark原理和實(shí)戰(zhàn) ?多表關(guān)聯(lián)實(shí)戰(zhàn) ?與Hive的集成實(shí)戰(zhàn) ?自定義TableSource、Table Sink和Table Factory實(shí)戰(zhàn) 項(xiàng)目實(shí)戰(zhàn):基于Flink SQL實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析 |
流批一體項(xiàng)目實(shí)戰(zhàn)RDBMS +Kafka+Flink CDC+FlinkSQL+ES+Kibana項(xiàng)目實(shí)戰(zhàn) RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana項(xiàng)目實(shí)戰(zhàn): ?Docker演示環(huán)境介紹 ?項(xiàng)目需求分析和解決方案設(shè)計(jì) ?流式數(shù)倉分層模型設(shè)計(jì) ?Flink CDC mysql實(shí)戰(zhàn) ?Flink CDC postgres實(shí)戰(zhàn) ?Flink CDC Kafka實(shí)戰(zhàn) ?Flink CDC ES實(shí)現(xiàn) ?Kibana結(jié)果展示 ?RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整項(xiàng)目實(shí)戰(zhàn) 實(shí)操:老師演練項(xiàng)目 |
大數(shù)據(jù)平臺(tái)實(shí)施和運(yùn)維 ?大數(shù)據(jù)平臺(tái)規(guī)劃 ?大數(shù)據(jù)平臺(tái)實(shí)施的步驟及構(gòu)建 ?大數(shù)據(jù)平臺(tái)權(quán)限認(rèn)證和授權(quán)解決方案 ?Kerberos+Openldap+sssd+knox+Ranger實(shí)現(xiàn)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)安全控制和實(shí)操 ?Yarn資源分配策略詳解和實(shí)操 ?yarn replacement rules權(quán)限控制和實(shí)操 ?Yarn 隊(duì)列+Ranger控制詳解和實(shí)操 ?HDFS+Ranger權(quán)限控制和實(shí)操 ?跨集群數(shù)據(jù)訪問的安全和資源控制案例分享 某大型銀行大數(shù)據(jù)平臺(tái)深度解析 |