課程簡介
1. 使用“用戶-電影”數據集、Large Movie Review Dataset、MovieLens Dataset、Netflix、TMDB、真實的用戶離網流失分析數據集、真實用戶的換機數據模型進行項目制內容講解,闡述從經典協同過濾、略復雜的隱特征推薦算法、深度學習方案的推薦算法、大廠使用的“非經典”推薦算法(如word2vec模型在數據中的使用等)。
2.實踐和理論相結合。學習期間將按照真實的“項目開發(fā)”模式進行。
目標收益
1.推薦系統(tǒng)算法基礎和機器學習模型
2.數據集分析和推薦系統(tǒng)的整體結構
3.特征工程
4.基于協同過濾的商品推薦
5.基于協同過濾和隱特征的商品推薦
6.完成推薦系統(tǒng)的整體設計和算法驗證
培訓對象
有Python編程經驗 至少1年軟件工程研發(fā)經驗 初步掌握機器學習算法的理論基礎
課程大綱
第1節(jié):推薦系統(tǒng)算法基礎和機器學習模型 |
1. python解釋器與概況 2. 數據挖掘和機器學習包的應用 3. 爬蟲的編寫 4. json與數據交換 5. 線性回歸 6. Logistic回歸 7. 隨機森林 8. 層次聚類、空間密度聚類 9. 協同過濾 10. 卷積神經網絡 |
第2節(jié):數據集分析和推薦系統(tǒng)的整體結構 |
1. “用戶-電影”數據集、Large Movie Review Dataset、MovieLens Dataset、Netflix、TMDB、用戶離網流失分析數據集、用戶的換機模型等數據集的各自分析。 2. 完成數據表讀寫和檢索 3. 完成數據表關聯分析 4. 完成兩個進階矩陣“用戶列表”和“商品列表”,為協同過濾做準備 |
第3節(jié):特征工程 |
1. 數據清洗:異常值、空值的處理 2. 完成數據分析和特征選擇 3. 完成用戶相似度、商品相似度的計算 思考:使用不同相似度會產生何種影響(非常重要) |
第4節(jié):基于協同過濾的商品推薦 |
1. 搜索是推薦的系統(tǒng)基礎 2. 鄰接表的使用 3. 基于搜索系統(tǒng),完成快速檢索 4. user-based/item-based 協同過濾算法的使用 5. 分類標簽和作用和如何定義標簽 6. 商品評論中的分值計算 7. 鄰接表的逆向使用:使用商品對用戶打分 8. 建立用戶興趣模型 9. 構建少量用戶訪問記錄 10. 構建用戶“關鍵詞”模型,思考和TopN模型的區(qū)別 |
第5節(jié):基于協同過濾和隱特征的商品推薦 |
1.基于標準測試集,構建用戶訪問記錄 2.基于標準測試集,構建商品被訪問記錄 3. 完成實時和離線的user-based 推薦 4. 完成實時和離線的item-based 推薦 5. 隱特征推薦的含義 6. LFM模型的算法原理 7. SVD模型和LFM的比較 8. LFM、SVD模型用于隱特征的推薦 |
第6節(jié):完成推薦系統(tǒng)的整體設計和算法驗證 |
1. 完成特征選擇文檔 2. 完成特征的構建 3. 完成基于LR的點擊預估模型訓練 4. 完成基于LR的線上推薦服務 5. 完成多種推薦算法的整合 6. 完成項目總結 |
思考: |
1. 如何獲得更多的特征,如冷啟動階段。 2.是否能使用深度學習模型,如果可以,如何使用。 |
第1節(jié):推薦系統(tǒng)算法基礎和機器學習模型 1. python解釋器與概況 2. 數據挖掘和機器學習包的應用 3. 爬蟲的編寫 4. json與數據交換 5. 線性回歸 6. Logistic回歸 7. 隨機森林 8. 層次聚類、空間密度聚類 9. 協同過濾 10. 卷積神經網絡 |
第2節(jié):數據集分析和推薦系統(tǒng)的整體結構 1. “用戶-電影”數據集、Large Movie Review Dataset、MovieLens Dataset、Netflix、TMDB、用戶離網流失分析數據集、用戶的換機模型等數據集的各自分析。 2. 完成數據表讀寫和檢索 3. 完成數據表關聯分析 4. 完成兩個進階矩陣“用戶列表”和“商品列表”,為協同過濾做準備 |
第3節(jié):特征工程 1. 數據清洗:異常值、空值的處理 2. 完成數據分析和特征選擇 3. 完成用戶相似度、商品相似度的計算 思考:使用不同相似度會產生何種影響(非常重要) |
第4節(jié):基于協同過濾的商品推薦 1. 搜索是推薦的系統(tǒng)基礎 2. 鄰接表的使用 3. 基于搜索系統(tǒng),完成快速檢索 4. user-based/item-based 協同過濾算法的使用 5. 分類標簽和作用和如何定義標簽 6. 商品評論中的分值計算 7. 鄰接表的逆向使用:使用商品對用戶打分 8. 建立用戶興趣模型 9. 構建少量用戶訪問記錄 10. 構建用戶“關鍵詞”模型,思考和TopN模型的區(qū)別 |
第5節(jié):基于協同過濾和隱特征的商品推薦 1.基于標準測試集,構建用戶訪問記錄 2.基于標準測試集,構建商品被訪問記錄 3. 完成實時和離線的user-based 推薦 4. 完成實時和離線的item-based 推薦 5. 隱特征推薦的含義 6. LFM模型的算法原理 7. SVD模型和LFM的比較 8. LFM、SVD模型用于隱特征的推薦 |
第6節(jié):完成推薦系統(tǒng)的整體設計和算法驗證 1. 完成特征選擇文檔 2. 完成特征的構建 3. 完成基于LR的點擊預估模型訓練 4. 完成基于LR的線上推薦服務 5. 完成多種推薦算法的整合 6. 完成項目總結 |
思考: 1. 如何獲得更多的特征,如冷啟動階段。 2.是否能使用深度學習模型,如果可以,如何使用。 |