Deep Learning 101

Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。

Deep Learning 101 Buy Me A Coffee

YouTube | Facebook | 回 GitHub Pages | 網站 | Hugging Face Space

2019/03/08, Mark Chang, Domain adaptation

網域適應關鍵重點

探討資料分佈不一致下的機器學習挑戰與解決方案

核心概念與問題定義 Core Concept & Problem Definition

傳統機器學習模型假設訓練資料 (Source Domain) 和測試資料 (Target Domain) 來自同一個資料分佈。然而,網域適應 (Domain Adaptation) 處理的核心問題是訓練資料和實際應用資料的資料分佈不一致的情況。

當資料分佈不同時,傳統機器學習理論不再適用,在 Source Domain 訓練的模型直接應用於 Target Domain 可能性能會顯著下降。因此,Domain Adaptation 需要新的理論來保證在 Target Domain 上的誤差與 Source Domain 訓練誤差之間的關係。

影響目標網域性能的因素 Influencing Factors

模型在 Target Domain 上的表現主要受到以下因素影響:

  • 輸入資料 (Input X) 的分佈差異: Source 和 Target Domain 輸入資料分佈的距離。
  • 標記者的差異 (Labeler Difference / Label Distance): Source 和 Target Domain 資料標記標準的不一致性。

理論基礎與誤差界限 Theoretical Basis & Error Bounds

Domain Adaptation 的目標是開發理論和方法,即使在分佈不同的情況下,也能使在 Source Domain 訓練的模型在 Target Domain 的表現接近理想狀況。理論上需要推導出 Target Domain 誤差的上限 (Error Bound)。

基礎理論 (Theorem 1 概念) Basic Theory (Theorem 1 Concept)

Target Domain 上的錯誤率上限受限於 Source Domain 錯誤率、Source 和 Target Domain 之間的輸入資料分佈距離 (Distance of X),以及理想假設下的組合錯誤(或標記者標準差異相關項)。

改進的理論 (Theorem 2) Improved Theory (Theorem 2)

基於 Hypothesis 估計距離的改進理論提供了更接近實際應用的誤差上界,主要包含:Source Domain 錯誤率、Source 和 Target Domain 間的 Hypothesis 距離、與 Hypothesis 空間複雜度 (VC Dimension) 和資料量有關的項(考慮過度擬合風險),以及理想假設下的聯合錯誤率。

理想假設 (Ideal Hypothesis H*): 指在知道所有 Source 和 Target Domain 資料的標籤情況下,能在聯合資料分佈上達到最低誤差的假設。

衡量網域間距離 Measuring Domain Distance

實際應用中直接計算基於分佈的距離非常困難,因處理複雜分佈形狀和對微小位置偏移過於敏感。

利用 Hypothesis 估計距離: 訓練一個分類器 (Hypothesis H) 來區分來自 Source 和 Target Domain 的資料。分類器越難區分(錯誤率越高),表示兩個 Domain 距離越小

Symmetric Difference Hypothesis Space Distance: 一種基於 Hypothesis 的距離衡量方法,定義了兩個 Hypothesis 在資料分佈上產生不同預測結果的區域的「大小」。

實際應用方法與案例 Applications & Cases

Domain Adaptation 理論指導演算法設計,目標是通過減小 Source 和 Target 之間的距離來改進模型性能。

縮小網域差距方法 (GANs) Bridging Domain Gap (GANs)

  • 減小 Feature Space 距離:利用 GAN 的 Discriminator 區分 Source/Target Feature,訓練生成器產生能騙過判別器的 Source Features。
  • 減小 Image Space 距離:直接將 Source Domain 圖像轉換為 Target Domain 風格 (類似 CycleGAN)。

合成資料的應用 Application of Synthetic Data

在 Target Domain 標籤資料稀缺時非常有用。可以使用 3D 建模工具(如 BlenderMakeHuman)生成大量帶有精確標籤的 Source Domain 合成資料(如人體關節位置),然後將模型遷移到少量真實 Target Domain 資料上。合成資料優勢在於可大量生成並控制變數。

醫學資料應用 Medical Data Applications

醫學資料獲取真實標記困難,不同醫院/儀器資料差異大,標記標準不一。克服挑戰需技術、法規、制度和合作。連續學習或終身學習有潛力。

多個 Source Domain 的選擇 Selecting from Multiple Sources

當有多個 Source Domain 可選時,應選擇與 Target Domain 距離最小的。可通過訓練分類器區分不同 Source Domain 和 Target Domain 的資料,難以區分的 Source Domain(分類錯誤率高)表示距離較小,是較好的選擇。

相關概念 Related Concepts

  • Domain Adaptation vs. Transfer Learning: Domain Adaptation 更側重於理論上量化 Source 和 Target 之間的距離,並提供評估不同 Domain 資料代表性的方法。Transfer Learning 是更廣泛的概念,Domain Adaptation 是其下的分支。
  • Domain Adaptation vs. MCMC: Domain Adaptation 中的採樣是從固定的分佈中抽取資料,與 MCMC 中在不同狀態之間移動來採樣的概念不同。