Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。
🎙️ ASR / TTS 開發避坑指南:語音辨識與合成的挑戰與對策
在開發自動語音辨識 (ASR) 與文字轉語音 (TTS) 應用時,開發者往往會遇到標點符號錯亂、中英夾雜辨識不佳、背景噪音干擾等痛點。本頁面為你匯整了實務上最常踩的坑,並提供對應的開源模型與除錯工具指南。
作者:TonTon Huang Ph.D.
原文出處:那些 ASR 和 TTS 可能會踩的坑 (發布於 2024/02/25)
🎧 1. Whisper 家族的應用與極限
OpenAI 推出的 Whisper 是目前最具代表性的多語言語音辨識模型,但直接套用在中文場景時仍有許多挑戰。
- 常見痛點:中文標點符號處理極不穩定、特定專有名詞辨識率低,且原始模型推理速度較慢。
- 強力擴充工具包:
- faster-whisper:重新實作的高效版本,大幅降低 VRAM 消耗並提升推理速度。
- WhisperX:在 faster-whisper 的基礎上,加入了「精準單詞級別時間戳記 (Word-level Timestamps)」與說話者分離 (Diarization) 功能。
- BELLE-2 & Whisper-Finetune:提供針對中文特別微調過的 Whisper 模型與開源微調訓練腳本。
- WhisperStreaming:專為長時間語音、直播場景設計的串流轉錄與翻譯工具。
✂️ 2. 語音資料的「清洗與煉丹」準備
要訓練或微調出好的 ASR/TTS 模型,「乾淨的語音資料」是決定成敗的關鍵。以下是必備的音訊前處理工具:
- Ultimate Vocal Remover 5 (UVR5):目前最強大的開源音軌分離工具,能完美剝離人聲與背景音樂。
- Denoiser:由 Facebook Research 提供的語音去噪工具,專門清除環境底噪。
- Audio-Slicer:能根據語音靜音區間,精準地將長音檔剪裁成適合訓練的短語句。
🇨🇳 3. 中文場景的強力替代方案
如果你的應用場景「純粹只有中文」,有時候捨棄 Whisper,改用專為中文打造的模型會是更好的選擇。
- 阿里通義實驗室 FunASR:
- 阿里巴巴達摩院開源的語音模型,訓練於高達 6 萬小時 的中文語料。
- 在中文語境的辨識準確度、標點符號預測與執行效率上,往往能提供比原生 Whisper 更優異的開箱體驗。
🩹 4. ASR 辨識後的「錯字急救」 (後處理)
無論 ASR 模型多強大,一定還是會遇到同音異字或專有名詞錯誤。這時就需要引入「文字糾錯 (Error Correction)」機制。
- pycorrector:非常實用的中文文本糾錯開源工具,基於語言模型來修正錯別字。
- FastCorrect / FastCorrect2:微軟 (Microsoft) 推出的語音辨識錯誤自動修正架構,速度極快且專為 ASR 後處理設計。
- AdapterASR:同樣來自微軟,透過插入適配器 (Adapter) 的方式,讓 ASR 模型在特定領域(如醫療、法律)的辨識效果大幅提升。
💡 結語:一個完美的語音系統從來不是單靠一個大模型就能搞定。結合 UVR5 進行降噪、根據語系選擇 Whisper 或 FunASR、最後再加上 pycorrector 進行錯字後處理,才是完整的企業級解決方案!