課程簡(jiǎn)介
數(shù)據(jù)分析技能培訓(xùn)的培訓(xùn)時(shí)長(zhǎng)為2天,培訓(xùn)內(nèi)容涵蓋數(shù)據(jù)思維的概念、特點(diǎn)、方法論和應(yīng)用價(jià)值,以及基于大數(shù)據(jù)平臺(tái)落地?cái)?shù)據(jù)思維的案例分享。此外,還介紹了數(shù)據(jù)分析和挖掘流程,包括數(shù)據(jù)取樣、探索、預(yù)處理和特征工程構(gòu)建等。在Python和Spark編程方面,學(xué)員將學(xué)習(xí)Python數(shù)據(jù)挖掘常用模塊、Numpy、pandas和Matplotlib等庫(kù),以及Spark編程模型、RDD操作和Spark SQL原理和實(shí)踐等內(nèi)容。這些內(nèi)容將幫助學(xué)員掌握數(shù)據(jù)分析技能,提高數(shù)據(jù)處理和分析能力,為大數(shù)據(jù)時(shí)代的業(yè)務(wù)發(fā)展打下堅(jiān)實(shí)基礎(chǔ)
目標(biāo)收益
培訓(xùn)對(duì)象
課程大綱
數(shù)據(jù)分析和數(shù)據(jù)挖掘體系及方法論 |
?數(shù)據(jù)思維的概念 ?數(shù)據(jù)思維的特點(diǎn) ?數(shù)據(jù)思維的方法論 ?數(shù)據(jù)思維的應(yīng)用價(jià)值 ?數(shù)據(jù)思維的應(yīng)用流程 ?數(shù)據(jù)思維的模式 — 全量數(shù)據(jù)思維 — 容錯(cuò)性思維 — 相關(guān)性思維 |
基于大數(shù)據(jù)平臺(tái)落地?cái)?shù)據(jù)思維的案例分享 |
?數(shù)據(jù)采集 ?數(shù)據(jù)存儲(chǔ) ?數(shù)據(jù)處理 ?數(shù)據(jù)建模( 數(shù)據(jù)指標(biāo)和維度) 數(shù)據(jù)分析和可視化 |
數(shù)據(jù)分析和挖掘流程介紹 |
?數(shù)據(jù)挖掘的基本任務(wù) ?定義分析和挖掘目標(biāo) ?數(shù)據(jù)取樣 ?數(shù)據(jù)探索 ?單變量數(shù)據(jù)探索 ?數(shù)據(jù)關(guān)聯(lián)性分析 ?數(shù)據(jù)預(yù)處理 ?數(shù)據(jù)特征工程構(gòu)建和選擇 ?挖掘建模 模型評(píng)價(jià) |
Python數(shù)據(jù)分析庫(kù)實(shí)戰(zhàn) |
?Python數(shù)據(jù)挖掘常用模塊 ?Numpy ?pandas ?Matplotlib Python機(jī)器學(xué)習(xí)庫(kù):Scikit-learn |
Spark編程模型和解析 |
?Spark的編程模型 ?Spark編程模型解析 ?Partition實(shí)現(xiàn)機(jī)制 ?RDD的特點(diǎn)、操作、依賴(lài)關(guān)系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark的累加器詳解 ?Spark的廣播變量詳解 ?Spark容錯(cuò)機(jī)制 —lineage和checkpoint詳解 ?Spark的運(yùn)行方式 ?Spark的Shuffle原理詳解 —Sort-Based原理 —Hash-Based原理 Spark Partition詳解 |
Spark SQL原理和實(shí)踐 |
?Spark SQL原理 ?Spark SQL的Catalyst優(yōu)化器 ?Spark SQL內(nèi)核 ?Spark SQL和Hive連接 ?DataFrame和DataSet架構(gòu) ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實(shí)戰(zhàn) ?Spark SQL的實(shí)例和編程 ?Spark SQL的實(shí)例操作demo ?Spark SQL的編程 Spark SQL實(shí)操演示 |
PySpark原理和基礎(chǔ)操作 |
?Pyspark實(shí)例創(chuàng)建 1.引入庫(kù) 2.轉(zhuǎn)換實(shí)現(xiàn) pyspark pandas series創(chuàng)建 pyspark pandas dataframe創(chuàng)建 from_pandas轉(zhuǎn)換 Spark DataFrame轉(zhuǎn)換 ?PySpark Pandas操作 1.讀取行列索引 2.內(nèi)容轉(zhuǎn)換為數(shù)組 3.DataFrame統(tǒng)計(jì)描述 4.轉(zhuǎn)置 5.排序 按行索引排序 按某列值排序 |
PySpark數(shù)據(jù)分析營(yíng)銷(xiāo)案例實(shí)戰(zhàn) |
?一、數(shù)據(jù)概況分析 ? 數(shù)據(jù)概況 ? 數(shù)據(jù)清洗 ?二、單變量分析 ? 觀察樣本0、1的平衡性 ? 觀察均值大小 ? 可視化 ?三、相關(guān)性分析和可視化 ?四、邏輯回歸模型的建立和評(píng)估 ? 模型建立 ? 模型評(píng)估 ? 模型優(yōu)化 ?五、業(yè)務(wù)價(jià)值 ?六、模型管理、發(fā)布和調(diào)用 七、MLFlow模型管理工具介紹和實(shí)戰(zhàn) |
數(shù)據(jù)分析和數(shù)據(jù)挖掘體系及方法論 ?數(shù)據(jù)思維的概念 ?數(shù)據(jù)思維的特點(diǎn) ?數(shù)據(jù)思維的方法論 ?數(shù)據(jù)思維的應(yīng)用價(jià)值 ?數(shù)據(jù)思維的應(yīng)用流程 ?數(shù)據(jù)思維的模式 — 全量數(shù)據(jù)思維 — 容錯(cuò)性思維 — 相關(guān)性思維 |
基于大數(shù)據(jù)平臺(tái)落地?cái)?shù)據(jù)思維的案例分享 ?數(shù)據(jù)采集 ?數(shù)據(jù)存儲(chǔ) ?數(shù)據(jù)處理 ?數(shù)據(jù)建模( 數(shù)據(jù)指標(biāo)和維度) 數(shù)據(jù)分析和可視化 |
數(shù)據(jù)分析和挖掘流程介紹 ?數(shù)據(jù)挖掘的基本任務(wù) ?定義分析和挖掘目標(biāo) ?數(shù)據(jù)取樣 ?數(shù)據(jù)探索 ?單變量數(shù)據(jù)探索 ?數(shù)據(jù)關(guān)聯(lián)性分析 ?數(shù)據(jù)預(yù)處理 ?數(shù)據(jù)特征工程構(gòu)建和選擇 ?挖掘建模 模型評(píng)價(jià) |
Python數(shù)據(jù)分析庫(kù)實(shí)戰(zhàn) ?Python數(shù)據(jù)挖掘常用模塊 ?Numpy ?pandas ?Matplotlib Python機(jī)器學(xué)習(xí)庫(kù):Scikit-learn |
Spark編程模型和解析 ?Spark的編程模型 ?Spark編程模型解析 ?Partition實(shí)現(xiàn)機(jī)制 ?RDD的特點(diǎn)、操作、依賴(lài)關(guān)系 ?Transformation RDD詳解 ?Action RDD詳解 ?Spark的累加器詳解 ?Spark的廣播變量詳解 ?Spark容錯(cuò)機(jī)制 —lineage和checkpoint詳解 ?Spark的運(yùn)行方式 ?Spark的Shuffle原理詳解 —Sort-Based原理 —Hash-Based原理 Spark Partition詳解 |
Spark SQL原理和實(shí)踐 ?Spark SQL原理 ?Spark SQL的Catalyst優(yōu)化器 ?Spark SQL內(nèi)核 ?Spark SQL和Hive連接 ?DataFrame和DataSet架構(gòu) ?Fataframe、DataSet和Spark SQL的比較 ?SparkSQL parquet格式實(shí)戰(zhàn) ?Spark SQL的實(shí)例和編程 ?Spark SQL的實(shí)例操作demo ?Spark SQL的編程 Spark SQL實(shí)操演示 |
PySpark原理和基礎(chǔ)操作 ?Pyspark實(shí)例創(chuàng)建 1.引入庫(kù) 2.轉(zhuǎn)換實(shí)現(xiàn) pyspark pandas series創(chuàng)建 pyspark pandas dataframe創(chuàng)建 from_pandas轉(zhuǎn)換 Spark DataFrame轉(zhuǎn)換 ?PySpark Pandas操作 1.讀取行列索引 2.內(nèi)容轉(zhuǎn)換為數(shù)組 3.DataFrame統(tǒng)計(jì)描述 4.轉(zhuǎn)置 5.排序 按行索引排序 按某列值排序 |
PySpark數(shù)據(jù)分析營(yíng)銷(xiāo)案例實(shí)戰(zhàn) ?一、數(shù)據(jù)概況分析 ? 數(shù)據(jù)概況 ? 數(shù)據(jù)清洗 ?二、單變量分析 ? 觀察樣本0、1的平衡性 ? 觀察均值大小 ? 可視化 ?三、相關(guān)性分析和可視化 ?四、邏輯回歸模型的建立和評(píng)估 ? 模型建立 ? 模型評(píng)估 ? 模型優(yōu)化 ?五、業(yè)務(wù)價(jià)值 ?六、模型管理、發(fā)布和調(diào)用 七、MLFlow模型管理工具介紹和實(shí)戰(zhàn) |