Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，特別感謝時任職公司台灣雪豹科技無償贊助場地及茶水點心。
這裡不僅匯集了我們歷年的 Meetup 紀錄，更是 AI 演算法與開源資源匯整中心。

👉 查看 Deep Learning 101 歷年所有實體 Meetup 影像與逐字稿 📺

🎙️ ASR / TTS 開發避坑指南：語音辨識與合成的挑戰與對策

在開發自動語音辨識 (ASR) 與文字轉語音 (TTS) 應用時，開發者往往會遇到標點符號錯亂、中英夾雜辨識不佳、背景噪音干擾等痛點。本頁面為你匯整了實務上最常踩的坑，並提供對應的開源模型與除錯工具指南。

作者：TonTon Huang Ph.D.
原文出處：那些 ASR 和 TTS 可能會踩的坑 (發布於 2024/02/25)

🎧 1. Whisper 家族的應用與極限

OpenAI 推出的 Whisper 是目前最具代表性的多語言語音辨識模型，但直接套用在中文場景時仍有許多挑戰。

常見痛點：中文標點符號處理極不穩定、特定專有名詞辨識率低，且原始模型推理速度較慢。
強力擴充工具包：
- faster-whisper：重新實作的高效版本，大幅降低 VRAM 消耗並提升推理速度。
- WhisperX：在 faster-whisper 的基礎上，加入了「精準單詞級別時間戳記 (Word-level Timestamps)」與說話者分離 (Diarization) 功能。
- BELLE-2 & Whisper-Finetune：提供針對中文特別微調過的 Whisper 模型與開源微調訓練腳本。
- WhisperStreaming：專為長時間語音、直播場景設計的串流轉錄與翻譯工具。

✂️ 2. 語音資料的「清洗與煉丹」準備

要訓練或微調出好的 ASR/TTS 模型，「乾淨的語音資料」是決定成敗的關鍵。以下是必備的音訊前處理工具：

Ultimate Vocal Remover 5 (UVR5)：目前最強大的開源音軌分離工具，能完美剝離人聲與背景音樂。
Denoiser：由 Facebook Research 提供的語音去噪工具，專門清除環境底噪。
Audio-Slicer：能根據語音靜音區間，精準地將長音檔剪裁成適合訓練的短語句。

🇨🇳 3. 中文場景的強力替代方案

如果你的應用場景「純粹只有中文」，有時候捨棄 Whisper，改用專為中文打造的模型會是更好的選擇。

阿里通義實驗室 FunASR：
- 阿里巴巴達摩院開源的語音模型，訓練於高達 6 萬小時 的中文語料。
- 在中文語境的辨識準確度、標點符號預測與執行效率上，往往能提供比原生 Whisper 更優異的開箱體驗。

🩹 4. ASR 辨識後的「錯字急救」 (後處理)

無論 ASR 模型多強大，一定還是會遇到同音異字或專有名詞錯誤。這時就需要引入「文字糾錯 (Error Correction)」機制。

pycorrector：非常實用的中文文本糾錯開源工具，基於語言模型來修正錯別字。
FastCorrect / FastCorrect2：微軟 (Microsoft) 推出的語音辨識錯誤自動修正架構，速度極快且專為 ASR 後處理設計。
AdapterASR：同樣來自微軟，透過插入適配器 (Adapter) 的方式，讓 ASR 模型在特定領域（如醫療、法律）的辨識效果大幅提升。

💡 結語：一個完美的語音系統從來不是單靠一個大模型就能搞定。結合 UVR5 進行降噪、根據語系選擇 Whisper 或 FunASR、最後再加上 pycorrector 進行錯字後處理，才是完整的企業級解決方案！