Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。

Deep Learning 101 TonTon H.-D. Huang Ph.D.

🎤 語音處理 (Speech)・必讀資源總整理

編者按: 本頁面彙整了語音處理領域的前沿技術。包含自動語音辨識、語音合成、語者識別與語音轉換的經典論文與開源工具。

如果您想尋找更詳細的筆記,歡迎訪問 GitHub Repository: 👉 GitHub: Speech-Processing-Paper (歡迎 Star ⭐)



語音處理 (Speech Processing)

🎙️ 語音識別 / 合成平台價格比較

~2025/04

名稱 功能 網址 說明
Whisper (開源) 語音識別、翻譯 每分鐘150字 × 10分鐘 = 1500字  
Fish Audio 語音識別、語音合成 TTS:英文 $0.0225,中文 $0.0675;ASR:30分鐘 = $0.18  
Deepgram 語音識別 TTS:英文 $0.02025,中文 $0.06075;ASR:30分鐘 = $0.147  
Microsoft Azure 語音合成 TTS:英文 $0.036,中文 $0.108;ASR:即時轉錄 $1/小時,超額 $0.8/小時  
Amazon Polly 語音合成 TTS:英文 $0.024,中文 $0.072  
Google WaveNet 語音合成 TTS:英文 $0.024,中文 $0.072  
Google Vertex AI 大型語言模型 Gemini/Claude 定價頁  
Google Cloud VM 虛擬機器 VM 執行個體定價頁面  

文章目錄

Speech-Processing

🗣️ Speech Processing (語音處理與對話式 AI)

語音處理是讓 AI 擁有「耳朵」與「嘴巴」的關鍵技術。隨著大型語言模型 (LLM) 的普及,現在的戰場已經從單純的語音辨識 (ASR) 與語音合成 (TTS),轉移到強調低延遲、能處理自然打斷的「即時對話代理 (Voice Agents)」。

🩸 實戰血淚史:ASR / TTS 落地踩坑指南

如果你正準備踏入語音開發的深坑,請務必先停下來看看這些實務經驗。演算法再好,遇到現場的「背景噪音」、「麥克風收音距離」與「詭異的口音」,模型一樣會崩潰。

💡 開發者的真心話:數據質量決定一切
在語音領域,「垃圾進,垃圾出」 的現象比影像或文本更嚴重。很多時候,與其花時間去微調模型參數,不如好好去清洗你的音檔數據、處理好降噪 (Noise Reduction) 與 VAD (語音活動偵測)。

👉 必讀實務經驗分享:


🚀 核心框架與即時對話技術 (Frameworks & Real-time AI)

要在本地端部署極速的語音模型,或是打造像 ChatGPT Voice 一樣能自然對話的 AI,你需要以下這些前沿框架:



📚 語音底層基礎知識 (Fundamentals)

無論是想自己訓練模型,還是理解音訊底層邏輯,這些資源能幫你打穩基本功:

影音底層原理與技術綜述


Speech-Recognition

中文語音識別 (Chinese Speech Recognition)

通過語音信號處理和模式識別讓機器自動識別和理解人類的口述。 🌐 更多 ASR 資源


👑 2026 全球開源 ASR 語音辨識模型大比拚 (非中/歐美大廠篇)

在語音辨識領域,目前主要分為兩大陣營:一派是歐美主導的「Whisper 生態系與巨頭大模型」,專注於極限吞吐量與串流延遲;另一派則是亞洲大廠針對「中文語境、方言與複雜環境」特化的 SOTA 模型。

1. 歐美 AI 巨頭與 Whisper 生態系 (效能與極速)

解決痛點:極致壓榨推理速度、精準時間戳對齊,以及串流即時辨識。

模型/工具名稱 開發源頭 💡 核心優勢 🚀 推薦場景
WhisperX 開源社群 精準時間戳:強力對齊字級時間戳,解決原版糊在一起的問題。 會議紀錄、自動上字幕
Distil-Whisper 開源社群 輕量極速:模型縮小 49%,速度提升 6 倍,保留 99% 精準度。 本地伺服器、英文場景
Insanely-Fast-Whisper 開源社群 天下武功唯快不破:底層優化,推理速度達到令人髮指的地步。 海量音檔批次處理
CarelessWhisper 開源社群 低延遲串流:微調 Whisper 實現接近非串流式的精準度。 語音助理、直播字幕
Parakeet-tdt-0.6b-v3 NVIDIA 吞吐量王者:1秒轉錄1小時音訊!輝達最強開源模型之一。 企業級資料清洗
Voxtral (Mini 4B) Mistral AI 實時對話:超越 GPT-4o mini 的語音能力,歐洲巨頭首發。 整合 LLM 的語音應用
OpusLM CMU 多模態統一:學術界重磅!統一語音辨識、合成與文字理解。 AI 研究、多模態系統
MedASR Google 醫療專精:解決醫學專業術語難以辨識的痛點。 醫療院所、數位健康

2. 亞洲頂尖開源 ASR 模型 (中文語境特化篇)

如果你處理的音訊包含大量複雜的中文方言、中英夾雜,或是極具挑戰性的長時段錄音,以下模型目前處於領先地位。(註:注重地緣資安合規的專案,請自行評估導入風險)

模型名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景
FireRedASR2S 🇨🇳 小紅書 SOTA 工業全能系統:在複雜口音與噪音場景下辨識率極強悍。 短影音、內容監控
Qwen3-ASR 🇨🇳 阿里巴巴 多語種霸主:吊打原生 Whisper,支援高達 52 種語言和方言。 出海企業、多語客服
VibeVoice-ASR 🇨🇳 微軟亞洲 拒絕切片:64K 超長窗口,一次吞下 60 分鐘音訊並吐出結構化結果。 長篇演講、一小時會議
Fun-ASR 🇨🇳 阿里達摩院 小參數大能量:0.8B 效能直逼 12B,支援離線轉寫 SDK。 邊緣運算、本地部署

🔥 2025-2026 最新 ASR 模型資源庫 (完整收錄)

🇨🇳 亞洲與中文特化模型 (Chinese & Asian Languages)

🌐 國際巨頭與創新架構 (Global Tech & Innovations)

⏱️ Whisper 變體與串流應用工具 (Streaming & Tools)


📦 經典模型與開發套件庫 (Classic Toolkits)

🎙️ 2020/03-2021/01 開發心得:ASR 語音辨識的拓荒與踩坑
語音辨識技術(Automatic Speech Recognition, ASR / Speech To Text, STT),其目標是讓電腦自動將人類語音轉換為相應的文字。這是一門極度跨領域的深水區,涵蓋了訊號處理、圖型識別、機率論、發聲與聽覺機理以及人工智慧。*(註:ASR 的重點是辨識「內容說了什麼」,這與辨識「是誰說的」說話人辨識 / Speaker Verification 完全不同!)*
🛠️ 框架與 API 的神農嚐百草
當時為了搞定 ASR,跟小夥伴們幾乎把市面上的方案全測過了一輪!我們嘗試過 NEMO、Kaldi、MASR、VOSK、wav2vec,也串接過 Google、Azure 等商用 API,更別說後來陸續冒出來的 SpeechBrain、出門問問的 WeNet 跟騰訊 PIKA 等。每一種演算法架構都各有優缺點,實際落地的效果也是如人飲水,冷暖自知。
📊 數據痛點:找不到靠譜的「台灣口音」
搞語音辨識,聲學模型 (AM) 搭配語言模型 (LM) 是基本功,但最大的死穴在於「開源數據庫」。目前公開已知可訓練的中文數據(如:Magic-Data_Mandarin-Chinese-Read-Speech-Corpusaidatatangaishell-1aishell-4)大約有 2000 多小時。但可惜的是,這些幾乎全是中國發音與用語,至今仍缺乏較靠譜的台灣在地數據。而且說實話,若真想達到「商用級別」,訓練數據量至少得破萬小時才算及格。
💡 應用場景與進階延伸



Speaker-Recognition

🗣️ Speaker Recognition (中文語者與聲紋識別)

通過聲音判別說話人身份的技術 (聲紋特徵)。 🌐 更多資源

💡 核心觀念:語音辨識 (ASR) 是破解「說了什麼」,而聲紋識別 (Speaker Recognition) 則是破解「是誰說的」。透過提取聲音中的生物特徵(聲紋),實現說話人身份的驗證與辨識。 👉 🌐 更多資源:TWMAN 聲紋識別技術總結

1. 主流開源框架與模型 (Open Source Frameworks)

2. 實戰教學與開源資料集 (Tutorials & Datasets)


🗓️ 2020/03-2020/08 開發心得:聲紋識別的從零到一與踩坑實錄
投入約 150 天。通常我們是怎樣開始一個 AI 專案的研究與開發?
🔍 R&D 前期調研 SOP (約耗時 30 天)
首先會盡可能把 3 年內的學術論文或比賽的 SOTA 都查過一輪,分工閱讀找到相關的數據集和開源實作。同時,我們會去盤點目前已有相關產品的公司(含新創)以及他們提交的專利(透過 Google Patents, Papers with Code, arXiv 等)。在聲紋識別這塊,對岸有非常多的新創公司,例如「國音智能」,在我們的研發過程中就一直被當作標竿目標。
🚧 數據獲取的「地理限制」與預處理地獄
在分享實驗結果前,必須先警告後人避免踩坑:上述很多中文聲紋數據集都放在對岸的百度雲盤等空間,而百度是直接封鎖台灣 IP 的,所以你打不開是非常正常的!另外,像 VoxCeleb 這種神級數據庫是被切成 7 份的,下載完再合併就要花上不少時間(相比之下 aishellCMDSTIMIT 就相對好處理多了)。
🧠 技術架構總結與 Kaldi 泥沼
聲紋技術的發展脈絡可簡單總結為三大核心:
1. 向量抽取 (Vector Extraction):i-vector, d-vector, x-vector 等。
2. 模型架構與調參:CNN, ResNet 等深度學習架構。
3. 評分方式 (Scoring):LDA, PLDA (Probabilistic Linear Discriminant Analysis) 等組合。
我們當時也使用了 Kaldi 內附的功能,光是跟 Kaldi 搏鬥就投入了極大的時間和精力!其實跟 NLP 相比,聲紋識別雖然數據集難搞,但好處是聲音可以自行用程式「加工」做切割合併(Data Augmentation)。因為真實場景錄音通常很短,還得處理「非註冊聲紋 (Open-set)」的拒絕判定,前前後後在數據搭配評分模式上花費了龐大心血,是個不折不扣的大工程。

📐 必備技術指標字典 (Evaluation Metrics) 在聲紋領域,你必須看懂以下指標才能評估模型好壞: ⚡ 效能與速度指標



Speech-Enhancement

🎧 Speech Enhancement (中文語音增強與去噪)

💡 核心觀念:從含雜訊的複雜環境音中,精準提取出純淨的人聲(語音信號)。這在語音辨識(ASR)的前處理中,是決定辨識率成敗的關鍵第一步。 👉 🌐 更多資源:TWMAN 語音增強總結 | 🤗 線上 DEMO 體驗 (Meta Denoiser)

1. 前沿開源去噪模型與框架


🗓️ 2020/08-2021/01 開發心得:從圖靈獎大神的貼文,到壓榨極致的 9MB 模型
分組投入約 150 天。說到為什麼會跳下來做語音增強 (去噪音),這一切真的只是因為在 Facebook 上看到了那一面之緣的圖靈獎大神(Turing Award)發文介紹 FAIR 的最新成果,腦洞大開就跟著跳坑了!
🧠 底層邏輯與技術差異
其實,噪音去除跟「聲音分離 (Source Separation)」可以做聯想,兩者的基本概念差不多。差別在於:噪音去除是純粹把「非人聲」的頻段或特徵給過濾掉(實作時記得要注意音檔是否為多通道 Multi-channel)。
🧪 數據「煉丹」的眉角:算力與語系的拉扯
做這個項目時,我們一樣彙整了相當多的學術論文和實驗結果。深度學習都是數據為王,但「去噪」任務的數據集相對好處理很多!因為網路上到處都能找到乾淨的語音跟純噪音,只要寫程式進行動態的調整與合併(Mix),就可以無限生成數量龐大的訓練數據集。

這時你唯一需要考量的有兩點:
1. 你的 GPU 記憶體(VRAM)夠不夠大,能不能把這些海量音頻特徵整個吃下來?
2. 你的乾淨人聲數據集是不是「全英文」?如果你想要擁有極佳的「中文」去噪效果,在混合數據時就必須加入大量在地的中文語料。
🚀 實戰成果與效能突破
經過無數次的架構修剪與調參,順道一提,我們最終煉出來的模型大小,是經過極致優化的 9 MB!而且實時比 (RTF, Real Time Factor) 高達 0.08。這意味著在極低的硬體資源下,也能實現極速的即時語音降噪!



Speaker-Separation

👥 Speaker Separation (中文語者分離)

💡 核心觀念:從混疊的聲音訊號中提取出單一目標使用者的聲音。這是為了解決經典的「雞尾酒會問題 (Cocktail Party Effect)」,即在多人同時說話的吵雜場景中,精準分離出每個人獨立的聲軌。 👉 🌐 更多資源:TWMAN 語者分離技術總結 | 🤗 HF Space Demo 體驗

1. 實戰模型與應用工具 (Practical Tools)

2. 經典論文與底層架構 (Classic Papers & Architectures)

了解語音分離的底層演進,以下是必讀的學術基石:


🗓️ 2020/08-2021/01 開發心得:破解雞尾酒會問題的資料煉丹術
投入約 150 天。如同做語音常踩的坑,比較常碰到的是在做網路架構參數調整時「導致 loss 壞掉」等等問題。反而因為數據集造成的問題少很多,網路上很容易找到各種資料,比賽也多,有各種模型架構的結果可以參考(當然,多數一樣是英文數據)。
🚧 語音數據合成的藝術:完全重疊 vs 部分重疊
語音坑最棒的地方在於,只要有了像 aishell 等乾淨的數據集,你想要切割或合併成「混合語音」都不是太大的問題!

這裡做數據相對簡單一點:我們直接把數據集打散混合,隨機挑選兩個人,然後分別挑出語音做混合 (Mix)。如果長度不同,就選擇短者為參考,將長者切到與短者相同。

但要注意的是,「兩兩完全重疊」與「兩兩互不完全重疊」對模型效果有不小的影響!我們第一波產出的數據是兩兩完全重疊的,後來為了解決不完全重疊的現實場景,又額外產出了第二波升級版數據。
📊 實戰數據配方大公開
  • 第一版 (完全重疊):Train 約 5 萬多筆 (32小時) / Val 約 1 萬多筆 (10小時) / Test 約 9 千多筆 (6小時)。
  • 第二版 (互不完全重疊):Train 約 9 萬多筆 (112小時) / Val 約 2 萬多筆 (26.3小時) / Test 約 2 萬多筆 (29.4小時)。
🧠 追隨大神腳步與架構大亂鬥
中間意外發現了 Google Brain 的 wavesplit,在有噪音及兩人同時講話情形下感覺效果不差,但沒找到相關 code,未能進一步驗證。

而且,又是那位有一起用餐之緣的深度學習大神 Yann LeCun!繼發文介紹完去噪後,又發文介紹了語音分離。後來我們陸續研究了各種架構,包含把 NLP 最早應用的 Transformer 導入的 DPT-NET (Dual-path transformer)DP-RNN,還有 VoiceFilterTasNetConv-TasNetsudo-rm-rf 等等。
🎓 台大李宏毅老師的指點與 CPU 落地的最後一哩路
這段旅程絕對不能錯過台大電機李宏毅老師的 SSL-pretraining-separation 論文(務必去看李老師的影片!)。最後也是多虧李老師及第一作者黃同學的解惑,小夥伴們才又更深入地確認並且解決問題。

在工程端,我們也深入研究了 Data ParallelDistributed Data Parallel (DDP) 的差異。但說到底,如何才能在 CPU 上跑得又快又準,才是這個專案真正能落地的關鍵!



Speech-Synthesis

🗣️ Chinese Speech Synthesis & TTS (中文語音合成與音色克隆)

「想做有聲書、全自動短影音,還是專屬的虛擬 VTuber 聲優?目前的 TTS 技術不僅告別了傳統的『機器人平淡嗓音』,還能做到 3 秒極速複製你的聲音。本清單為你拆解目前最主流的歐美大廠方案與亞洲霸榜神作,讓你根據資安需求與硬體條件精準選型。」

💡 效能指標:如何評估一個 TTS 模型的好壞?


1. 歐美 AI 巨頭與國際開源社群 (資安友善 / 輕量部署篇)

如果你對專案的「原產地」有嚴格要求,或者伺服器沒有配備頂級 GPU,以下由歐美巨頭或國際社群主導的專案是你的首選:

模型/工具名稱 開發團隊/生態 💡 核心優勢與解決痛點 🚀 推薦場景與資源
Voxtral TTS (4B) 🇫🇷 Mistral AI [2026-03-27] 34 億參數跑在手機上。生成速度是真人說話的 6 倍,延遲 < 0.1 秒。權重全開源 MIT 協議!支援英、法、德等 9 語系 (暫無中文)。 筆電端本地部署、多語系
[極低延遲]
🤗 Model
OpenAI Edge TTS 🇺🇸 微軟/OpenAI 生態 完全免算力、免費白嫖! 透過呼叫微軟 Edge 瀏覽器的語音介面,免 GPU 就能產出高水準語音。 輕量網頁應用、零成本
[免 GPU]
🐙 GitHub
Parler-TTS 🇺🇸/🇪🇺 Hugging Face [2024-09] 安裝最無腦的輕量之王。HF 官方開源,主打「一行指令安裝」,對開發者極度友善。 PoC 開發、英/歐語系
[極易部署]
🐙 GitHub
Kokoro-TTS 🌐 國際開源社群 [2024-11] 歐美社群熱推平替。架構輕量且聲音自然,是取代龐大模型的優質選擇。 本地輕量語音助理
[社群熱推]
🌐 官方介紹
VALL-E X / DragonV2.1 🇺🇸 Microsoft (微軟) [2025-07 更新] 跨語言音色保留。微軟的經典架構與最新模型,技術底蘊深厚。 企業多語種配音
[大廠背書]
📝 VALL-E 教學
Orpheus TTS 🌐 開源社群 [2025-03] 即時對話王者。25ms 超低延遲,專為即時雙向對話設計。 語音 AI Agent
[超低延遲]
🐙 GitHub
NeuTTS Air 🌐 開源社群 [2025-10] 主打端側運算 (On-Device)。極小體積與超低功耗,可直接部署於 iOS/Android。 離線隱私保護 APP
[端側部署]
🐙 GitHub

2. 亞洲/中國開源霸榜神作 (極致擬真 & 零樣本克隆篇)

技術客觀評析:在「中文」表現上,以下模型目前領先全球。它們不僅精確掌握中文發音,甚至能生成帶有「笑聲、嘆氣、語氣詞」的超擬真語音。(註:注重地緣資安的專案,建議於完全離線的沙盒環境中運行)

模型名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景與資源
GPT-SoVITS 🇨🇳 RVC-Boss 人聲克隆無冕王! 只要 1 分鐘語音樣本就能完美複製聲音,GitHub 狂攬 35k+ Stars。 VTuber 聲優、有聲書
[霸榜神作]
🐙 GitHub
ChatTTS 🇨🇳 2noise [2024-06] 打破 AI 機械音的終極武器。支援在語句中加入「笑聲」、「停頓」,擬真度極高。 AI Podcast、劇情對白
[情緒控制]
🐙 GitHub
Fish Speech (v1.5) 🇨🇳 Fish Audio 當前最火紅全能型。支援多語言克隆並配備視覺化 GUI 介面,降低使用門檻。 短影音自動化生成
[自帶 GUI]
🐙 GitHub
Qwen3-TTS 🇨🇳 阿里巴巴 [2025-12] 不只克隆,還能「捏聲音」。提供 VoiceDesign (音色創造) 與 VoiceClone (音色克隆)。 遊戲 NPC 配音
[音色創造]
📝 中文解讀
Fun-CosyVoice3 🇨🇳 阿里通義百聆 [2025-12] 極速克隆專家。只需短短 3 秒錄音,就能複製並轉換成 9 種不同的語言。 出海行銷影片翻譯
[3秒克隆]
🐙 GitHub
MOSS-TTSD / F5-TTS 🇨🇳 復旦 / 上海交大 [2025-07] 學術界頂規猛獸。MOSS 經百萬小時訓練;F5-TTS 15 秒樣本完成克隆。 底層架構二次開發
[巨量訓練]
🌐 MOSS Project

🔥 2025-2026 前沿創新與特殊場景模型 (Special Cases)


💾 開源語音資料集 (Speech Datasets)

沒有百萬小時的煉丹爐,生不出好模型!對於需要訓練在地化模型的開發者來說,高品質、標註乾淨的語料庫是無價之寶。以下收錄 2024-2025 釋出的重量級資料集。

🇨🇳 中文與方言 / 區域性資料集

🌍 國際與醫療/情緒等特殊應用資料集