Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。

Deep Learning 101 Buy Me A Coffee

去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心


大語言模型 語音處理 自然語言處理 電腦視覺
Large Language Model Speech Processing Natural Language Processing, NLP Computer Vision

用 AI 懂 AI

AI 技術 體驗/分享

手把手帶你一起踩 AI 坑https://www.twman.org/AI


AI 技術 開源/試用

🎵 不聽可惜的 NotebookLM Podcast @ Google 🎵

A、B、C 那個影片比較適合呢 ?



第七章 深度學習中的正則化

2017/02/10, Regularization for Deep Learning @ Deep Learning Book Chapter 7

1. 正則化的基本含義與目標

2. 常見的正則化策略類型

正則化策略通常可以歸納為幾種主要方式:

  1. 添加參數約束: 對模型的參數施加額外的限制(例如,限制參數的取值範圍或範數)[1-3, 5]。
  2. 修改目標函數: 在原始的目標函數中添加一個額外的懲罰項(正則化項),該懲罰項與模型參數的某些屬性相關(如大小、稀疏性)[1-3, 5-7]。
  3. 增加數據集: 透過數據增強等方式增加訓練數據的多樣性 [5, 8]。
  4. 模型集成: 訓練多個模型並將它們的預測結果結合起來 [5, 6, 9]。
  5. 修改優化過程: 例如提前終止 (early stopping) [5, 10]。
  6. 向模型中注入噪聲 (Noise Robustness): [11-13]
  7. 稀疏表示 (Sparse Representation): [14, 15]
  8. 參數共享 (Parameter Sharing) / 多任務學習 (Multitask Learning): [16-20]
  9. 半監督學習 (Semi-supervised learning): [21]
  10. Dropout: [22-28]

3. 參數范數懲罰

3.1 L² 參數正則化 (權重衰減 Weight Decay)

3.2 L¹ 參數正則化

3.3 L¹ 與 L² 的比較

特性 L¹ 正則化 (Lasso) L² 正則化 (Ridge / 權重衰減)    
正則化項 權重絕對值之和 Σ wᵢ   權重平方和的一半 (1/2)Σwᵢ²
對權重的影響 傾向於使許多權重變為零 傾向於使權重變小但不為零    
解的特性 稀疏解 (Sparse Solution) 非稀疏解    
特徵選擇能力 強 (因為能使權重為零) 無特徵選擇能力    
與先驗的關聯 拉普拉斯先驗 高斯先驗    
幾何解釋 約束區域為菱形/多邊形 (在 2D) 約束區域為圓形 (在 2D)    

選擇使用 L¹ 或 L² 正則化通常取決於具體問題和數據的特性。如果認為許多特徵是不相關的且希望模型更稀疏,L¹ 可能更適合;如果認為所有特徵都可能對結果有貢獻,L² 可能更適合 [37-39]。

4. 數據集增強 (Dataset Augmentation)

5. 噪聲魯棒性 (Noise Robustness)

6. 稀疏表示 (Sparse Representation)

7. Dropout

8. 半監督學習 (Semi-supervised learning)

9. 多任務學習 (Multitask Learning)

10. 提前終止 (Early Stopping)

11. 欠約束 / 欠定問題 (Underconstrained / Underdetermined Problems)

12. 其他相關概念

13. 實作考量與工具