Deep Learning 101

Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。

2018/03/16, Approximate Inference @ Deep Learning Book Chapter 19

近似推斷

探索 MAP 推斷、變分推斷、均值場方法與學成近似推斷等核心技術

最大後驗 (MAP) 推斷 Maximum A Posteriori Inference

定義 (Definition)： MAP 推斷是計算潛變數 $h$ 在給定可見變數 $v$ 時的最可能值 (眾數) $h^*$。

與完整後驗分佈的差異：它只提供一個點估計，而不是完整的機率分佈。若將 MAP 結果 $h^*$ 定義為近似後驗 $q$，則 $q(h|v) = \delta(h-h^*)$ (狄拉克函數)。

局限性 (Limitations)： 從變分下界角度看，狄拉克分佈的熵趨近負無窮，導致 ELBO 的下界無限鬆散，通常不被認為是好的變分近似方法。

在稀疏編碼中的應用 Application in Sparse Coding

MAP 推斷在深度學習中被廣泛應用於稀疏編碼模型。因在稀疏編碼中，計算精確後驗 $p(h|v)$ 非常困難 (尤其當潛變數先驗非高斯，如 Laplace 稀疏先驗)，MAP 推斷成為實用替代方案。

學習目標通常是最小化包含稀疏性懲罰項 (如 L1 範數 $\sum \lambda|H_{i,j}|$) 和重構誤差項的組合函數。

變分推斷 Variational Inference

核心思想 (Core Idea)： 在一個預先定義的、受約束的分佈族 $Q$ 中，尋找一個近似後驗分佈 $q \in Q$，使得證據下界 (ELBO) $L(v, \theta, q)$ 被最大化。

與 KL 散度的關係 (Relation to KL Divergence)： 最大化 ELBO 等價於最小化近似後驗 $q$ 與真實後驗 $p(h|v)$ 之間的 KL 散度 $D_{KL}(q||p)$。最小化 $D_{KL}(q||p)$ 傾向於找到一個 $q$，使得在真實後驗 $p$ 機率低的地方，$q$ 的機率也低。

均值場 (Mean-field) 方法 Mean-field Method

一種常用的變分學習方法，假設近似後驗 $q$ 可以分解為各個潛變數邊緣分佈的乘積，即 $q(h|v) = \prod_i q(h_i|v)$。

帶來的簡化 (Simplification)： 均值場近似使得原本複雜的聯合後驗期望計算可以分解為對各個獨立的 $q(h_i|v)$ 的期望計算，使 ELBO 更容易處理和優化。

參數優化 Parameter Optimization

近似後驗 $q$ 的參數通常可以通過求解不動點方程來優化，反覆迭代更新直到收斂 (類似坐標上升法)。

對於連續型潛變數，最優單個因子 $q(h_i|v)$ 的通用更新規則是未歸一化的 $\tilde{q}(h_i|v) = \exp(E_{h_{-i} \sim \prod_{j \neq i}q(h_j|v)}[\log p(v,h)])$。

可以通過選擇 $q$ 的圖模型結構來更靈活地決定近似程度 (結構化變分推斷)。

學成近似推斷 Amortized Inference

訓練一個額外的參數化函數 (推斷網路)，直接從輸入 $v$ 預測潛變數的近似後驗分佈 $q(h|v)$ 的參數。

主要優勢 (Main Advantage)： 避免在每次需要推斷時都執行耗時的迭代優化過程。一旦推斷網路訓練完成，對於新的輸入 $v$，只需一次前向傳播就能快速得到近似後驗。

應用示例 Application Examples

變分自編碼器 (VAE)： 編碼器 (推斷網路) 直接參數化近似後驗分佈 $q(z|x)$。
深度玻爾茲曼機 (DBM)： 可用學成推斷網路加速，訓練推斷網路輸出改進後的均值場估計。
預測性稀疏分解 (PSD)： 編碼器被視為執行學成近似 MAP 推斷的網路。

期望最大化 (EM) 演算法 (相關背景) EM Algorithm (Related Background)

目標 (Objective)： 最大化模型參數 $\theta$ 下數據的對數概似 $\log p(v;\theta)$。

步驟 (Steps)

E 步 (Expectation)： 基於當前模型參數 $\theta$ 和可見變數 $v$，推斷潛變數 $h$ 的後驗分佈 $q(h|v)$。
M 步 (Maximization)： 固定 E 步得到的 $q(h|v)$，調整模型參數 $\theta$ 以最大化證據下界 $L(v, \theta, q)$ (等價於最大化 $E_q[\log p(v,h;\theta)]$)。

與變分推斷的聯繫 Connection to Variational Inference

EM 演算法最大化 ELBO。當完整後驗 $p(h|v)$ 難以計算時，需使用近似推斷方法 (如變分推斷) 來近似後驗 $p(h|v)$。

EM 可被看作是坐標上升法的一種應用，通過交替優化 $q$ (E 步) 和 $\theta$ (M 步) 來單調最大化 ELBO。

深度學習中 M 步通常需梯度下降等迭代優化，而非解析解。

醒眠算法 (Wake-Sleep algorithm)： 一種學成近似推斷方法。Wake 階段使用推斷網路推斷 $h$ 並更新生成模型。Sleep 階段從生成模型採樣 $(v,h)$ 對，並訓練推斷網路去預測這些採樣到的 $h$。