Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。
🗣️ 那些語音處理 (Speech Processing) 踩的坑:從識別到去噪實戰
語音處理是一門極度考驗信號處理與深度學習結合的領域。本文記錄了團隊在語音識別 (ASR)、聲紋辨識、語音去噪與模型輕量化等任務中的實作經驗與心得。
作者:TonTon Huang Ph.D.
原文出處:那些語音處理 (Speech Processing) 踩的坑 (發布於 2021/04/26)
🛠️ 核心研究領域與實戰經驗
1. 聲紋識別 / 語者識別 (Speaker Recognition)
- 目標:讓系統能精準辨識出「現在說話的人是誰」。
- 實作路徑:
- 使用如 VoxCeleb2、CN-CELEB 等標準開源語音數據集進行訓練。
- 特徵工程:探討了傳統的 i-vector 到基於深度學習的 d-vector、x-vector 等特徵抽取法。
- 模型架構:廣泛應用 CNN、ResNet 進行特徵學習,並結合 LDA、PLDA 進行評估與分類。
2. 語音識別 (ASR) 與 Kaldi 工具包
- 痛點:資料集的獲取常是一大挑戰(例如早期處理 AISHELL 數據集時,常面臨百度雲盤對台灣 IP 封鎖的問題)。
- 實作路徑:深入使用語音領域的經典工具包 Kaldi,針對 AISHELL-1、AISHELL-2 等中文開源語料進行語音識別的實驗與調優。
3. 語音增強 / 去噪 (Speech Enhancement)
- 目標:從充滿背景雜音的音訊中,抽取出純淨清晰的人聲。
- 實作路徑:
- 探討了包含 Real Time Speech Enhancement、DCCRN、Deep Complex U-Net 等先進的去噪模型架構。
- 針對網路上搜集的各種雜訊數據集進行信號分離實驗,驗證模型在複雜環境下的強健性。
4. 語者分離 (Speaker Separation)
- 挑戰:解決經典的「雞尾酒會問題 (Cocktail Party Problem)」,即在多人同時說話的環境中,將不同說話者的聲音獨立分離出來。
- 實作路徑:透過將單一數據集打散並混合,人工模擬多語者重疊說話的場景,藉此訓練並評估語者分離模型的極限。
5. 模型壓縮與加速推論 (Model Compression & Inference)
- 痛點:強大的語音模型往往伴隨龐大的運算需求,難以直接應用於即時的線上串流服務或邊緣裝置。
- 對策:積極探討「模型量化 (Quantization)」等壓縮技術,在極力維持辨識準確率的前提下,大幅提升模型在串流應用中的推論速度與效能。
💡 結語:語音處理系統的落地,不只要追求模型在乾淨語料上的高分,更要解決現實中充滿噪音、多人交談的複雜場景。透過完善的前處理去噪與後端的模型壓縮,才能打造出真正實用的 AI 語音服務。