Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。

Deep Learning 101 TonTon H.-D. Huang Ph.D.


🎙️ ASR / TTS 開發避坑指南:語音辨識與合成的挑戰與對策

在開發自動語音辨識 (ASR) 與文字轉語音 (TTS) 應用時,開發者往往會遇到標點符號錯亂、中英夾雜辨識不佳、背景噪音干擾等痛點。本頁面為你匯整了實務上最常踩的坑,並提供對應的開源模型與除錯工具指南。

作者TonTon Huang Ph.D.
原文出處那些 ASR 和 TTS 可能會踩的坑 (發布於 2024/02/25)


🎧 1. Whisper 家族的應用與極限

OpenAI 推出的 Whisper 是目前最具代表性的多語言語音辨識模型,但直接套用在中文場景時仍有許多挑戰。


✂️ 2. 語音資料的「清洗與煉丹」準備

要訓練或微調出好的 ASR/TTS 模型,「乾淨的語音資料」是決定成敗的關鍵。以下是必備的音訊前處理工具:


🇨🇳 3. 中文場景的強力替代方案

如果你的應用場景「純粹只有中文」,有時候捨棄 Whisper,改用專為中文打造的模型會是更好的選擇。


🩹 4. ASR 辨識後的「錯字急救」 (後處理)

無論 ASR 模型多強大,一定還是會遇到同音異字或專有名詞錯誤。這時就需要引入「文字糾錯 (Error Correction)」機制。


💡 結語:一個完美的語音系統從來不是單靠一個大模型就能搞定。結合 UVR5 進行降噪、根據語系選擇 Whisper 或 FunASR、最後再加上 pycorrector 進行錯字後處理,才是完整的企業級解決方案!