Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷，是為了普及與分享深度學習及AI領域的尖端知識，深信AI的價值在於解決真實世界的商業問題。

🗣️ 那些語音處理 (Speech Processing) 踩的坑：從識別到去噪實戰

語音處理是一門極度考驗信號處理與深度學習結合的領域。本文記錄了團隊在語音識別 (ASR)、聲紋辨識、語音去噪與模型輕量化等任務中的實作經驗與心得。

作者：TonTon Huang Ph.D.
原文出處：那些語音處理 (Speech Processing) 踩的坑 (發布於 2021/04/26)

🛠️ 核心研究領域與實戰經驗

1. 聲紋識別 / 語者識別 (Speaker Recognition)

目標：讓系統能精準辨識出「現在說話的人是誰」。
實作路徑：
- 使用如 VoxCeleb2、CN-CELEB 等標準開源語音數據集進行訓練。
- 特徵工程：探討了傳統的 i-vector 到基於深度學習的 d-vector、x-vector 等特徵抽取法。
- 模型架構：廣泛應用 CNN、ResNet 進行特徵學習，並結合 LDA、PLDA 進行評估與分類。

2. 語音識別 (ASR) 與 Kaldi 工具包

痛點：資料集的獲取常是一大挑戰（例如早期處理 AISHELL 數據集時，常面臨百度雲盤對台灣 IP 封鎖的問題）。
實作路徑：深入使用語音領域的經典工具包 Kaldi，針對 AISHELL-1、AISHELL-2 等中文開源語料進行語音識別的實驗與調優。

3. 語音增強 / 去噪 (Speech Enhancement)

目標：從充滿背景雜音的音訊中，抽取出純淨清晰的人聲。
實作路徑：
- 探討了包含 Real Time Speech Enhancement、DCCRN、Deep Complex U-Net 等先進的去噪模型架構。
- 針對網路上搜集的各種雜訊數據集進行信號分離實驗，驗證模型在複雜環境下的強健性。

4. 語者分離 (Speaker Separation)

挑戰：解決經典的「雞尾酒會問題 (Cocktail Party Problem)」，即在多人同時說話的環境中，將不同說話者的聲音獨立分離出來。
實作路徑：透過將單一數據集打散並混合，人工模擬多語者重疊說話的場景，藉此訓練並評估語者分離模型的極限。

5. 模型壓縮與加速推論 (Model Compression & Inference)

痛點：強大的語音模型往往伴隨龐大的運算需求，難以直接應用於即時的線上串流服務或邊緣裝置。
對策：積極探討「模型量化 (Quantization)」等壓縮技術，在極力維持辨識準確率的前提下，大幅提升模型在串流應用中的推論速度與效能。

💡 結語：語音處理系統的落地，不只要追求模型在乾淨語料上的高分，更要解決現實中充滿噪音、多人交談的複雜場景。透過完善的前處理去噪與後端的模型壓縮，才能打造出真正實用的 AI 語音服務。

📚 精選資源導航