Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。

Deep Learning 101 TonTon H.-D. Huang Ph.D.

🎤 語音處理 (Speech)・必讀資源總整理

編者按: 本頁面彙整了語音處理領域的前沿技術。包含自動語音辨識、語音合成、語者識別與語音轉換的經典論文與開源工具。

如果您想尋找更詳細的筆記,歡迎訪問 GitHub Repository: 👉 GitHub: Speech-Processing-Paper (歡迎 Star ⭐)



語音處理 (Speech Processing)

https://github.com/Deep-Learning-101/Speech-Processing-Paper

🎙️ 語音識別 / 合成平台價格比較

~2025/04

名稱 功能 網址 說明
Whisper (開源) 語音識別、翻譯 每分鐘150字 × 10分鐘 = 1500字  
Fish Audio 語音識別、語音合成 TTS:英文 $0.0225,中文 $0.0675;ASR:30分鐘 = $0.18  
Deepgram 語音識別 TTS:英文 $0.02025,中文 $0.06075;ASR:30分鐘 = $0.147  
Microsoft Azure 語音合成 TTS:英文 $0.036,中文 $0.108;ASR:即時轉錄 $1/小時,超額 $0.8/小時  
Amazon Polly 語音合成 TTS:英文 $0.024,中文 $0.072  
Google WaveNet 語音合成 TTS:英文 $0.024,中文 $0.072  
Google Vertex AI 大型語言模型 Gemini/Claude 定價頁  
Google Cloud VM 虛擬機器 VM 執行個體定價頁面  

文章目錄

Speech-Processing

語音處理 (Speech Processing)


Speech-Recognition

中文語音識別 (Chinese Speech Recognition)

通過語音信號處理和模式識別讓機器自動識別和理解人類的口述。 🌐 更多 ASR 資源


👑 2026 全球開源 ASR 語音辨識模型大比拚 (非中/歐美大廠篇)

1. Whisper 生態系擴充:效能與速度的極致壓榨

模型/工具名稱 開發源頭/生態 💡 解決什麼痛點? (核心優勢) 🚀 推薦適用場景 & 規格標籤
WhisperX 歐美開源社群 精準時間戳與語者辨識:原版 Whisper 常常把不同人的對話糊在一起,它能強力對齊字級時間戳。 適合:會議紀錄、影片自動上字幕
[需 GPU] [高精度時間戳]
Distil-Whisper 歐美開源社群 輕量化與極速:模型縮小 49%,速度提升 6 倍,但保留了 99% 的辨識精準度。 適合:算力有限的本地伺服器
[低顯存需求] [英文效能極佳]
Insanely-Fast-Whisper 歐美開源社群 天下武功唯快不破:透過底層優化,讓 Whisper 的推理速度達到令人髮指的地步。 適合:需要批次處理海量音檔的企業
[極速轉寫] [吞吐量王者]
CarelessWhisper 歐美開源社群 低延遲串流辨識:微調 Whisper 實現接近非串流式的精準度,適合即時應用。 適合:即時語音助理、直播實時字幕
[低延遲] [即時辨識]

2. 歐美 AI 巨頭的逆襲:次世代 ASR 模型

模型名稱 開發團隊 💡 核心技術與亮點 🚀 推薦適用場景 & 規格標籤
Parakeet-tdt-0.6b-v3 🇺🇸 NVIDIA (輝達) 1秒轉錄1小時音訊! 輝達推出的最強開源模型之一,吞吐量極其驚人。 適合:具備高等級 GPU 算力的企業級資料清洗
[NVIDIA 生態] [極限速度]
Voxtral (Small 24B/Mini 3B) 🇫🇷 Mistral AI 超越 GPT-4o mini 的語音能力,歐洲 AI 巨頭的首個開源語音模型。 適合:需要整合大型語言模型的語音應用
[歐美頂規] [多語種]
OpusLM 🇺🇸 CMU (卡內基梅隆) 學術界重磅!統一了語音辨識、合成與文字理解的大模型。 適合:AI 研究人員、多模態系統開發
[學術開源] [多模態]
MedASR 🇺🇸 Google 專攻醫療領域的語音辨識模型,解決專業術語難以辨識的痛點。 適合:醫療院所、數位健康領域的語音病歷輸入
[醫療專精] [高準確度]

🌏 亞洲頂尖開源 ASR 模型 (中文語境特化篇)

「如果你處理的音訊包含大量複雜的中文方言、中英夾雜,或是極具挑戰性的長時段錄音,以下這些由亞洲/中國科技大廠開源的模型,在中文語境的基準測試中目前處於領先地位。(註:注重地緣資安合規的專案,請自行評估導入風險)

模型名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦適用場景 & 規格標籤
FireRedASR2S 🇨🇳 小紅書 (FireRedTeam) SOTA 級別的工業全能系統,第二代架構在極端場景下的辨識率非常強悍。 適合:短影音平台、社交媒體內容監控
[中文 SOTA] [工業級]
Qwen3-ASR 🇨🇳 阿里巴巴 吊打原生 Whisper,支援高達 52 種語言和方言,阿里體系的最新力作。 適合:出海企業、多語種客服系統
[方言支援] [多語種]
VibeVoice-ASR 🇨🇳 開源社群 拒絕切片!一次吞下 60 分鐘音訊。透過 64K 超長上下文窗口,直接吐出結構化結果。 適合:長篇演講、一小時以上的完整會議錄音
[超長上下文] [免切片]
Fun-ASR 🇨🇳 阿里達摩院 小參數大能量,0.8B 的模型效能直逼 12B 的巨頭,且支援離線轉寫 SDK。 適合:邊緣運算設備、本地端低資源部署
[輕量化] [高性價比]

🔥 最新模型 (2026)

經典模型庫 (Classic Toolkits)

2020/03-2021/01 開發心得 語音辨識(speech recognition)技術,也被稱為自動語音辨識(英語:Automatic Speech Recognition, ASR)、電腦語音識別(英語:Computer Speech Recognition)或是語音轉文字識別(英語:Speech To Text, STT),其目標是以電腦自動將人類的語音內容轉換為相應的文字;跟小夥伴們一起嘗試過NEMO還有Kaldi、MASR、VOSK,wav2vec以及Google、Azure等API,更別說後來陸續又出現SpeechBrain、出門問問的WeNet跟騰訊PIKA等。目前已知可訓練聲學模型(AM)中文語音(中國發音/用語,可惜還沒臺灣較靠譜的)公開數據如:Magic-Data_Mandarin-Chinese-Read-Speech-Corpus、aidatatang、aishell-1 、aishell-2等約2000多小時(aishell目前已到4,但想商用至少得破萬小時較靠譜);再搭配語言模型(LM),然後基於各種演算法架構優化各有優缺點,效果也各有優劣。與說話人辨識及說話人確認不同,後者嘗試辨識或確認發出語音的說話人而非其中所包含的詞彙內容。 語音辨識技術的應用包括語音撥號、語音導航、室內裝置控制、語音文件檢索、簡單的聽寫資料錄入等。語音辨識技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的應用,例如語音到語音的翻譯。語音辨識技術所涉及的領域包括:訊號處理、圖型識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。



Speaker-Recognition

中文語者(聲紋)識別 (Chinese Speaker Recognition)

通過聲音判別說話人身份的技術 (聲紋特徵)。 🌐 更多資源

2020/03/08-2020/08/29 開發心得 投入約150天。通常我們是怎樣開始項目的研究與開發?首先會先盡可能的把3年內的學術論文或比賽等SOTA都查到,然後分工閱讀找到相關的數據集和論文及相關實作;同時會找到目前已有相關產品的公司(含新創)及他們提交的專利,這部份通常再花約30天的時間;通常就是透過 Google patens、paper with codes、arxiv等等。 聲紋識別這塊在對岸查到非常多的新創公司,例如: 國音智能在我們研究開發過程就是一直被當做目標的新創公司。可以先看一下上方的DEMO影片效果;然後介紹相關實驗結果前,避免之後有人還陸續踩到我們踩過的坑;需注意的是上述很多數據集都是放在對岸像是百度雲盤等,百度是直接封鎖台灣的IP,所以你打不開是很正常的;另外像是voxcelab是切成7份,下載完再合起來也要花上不少時間,aishell、CMDS, TIMIT 比起來相對好處理就是。 簡單總結為:1. 幾種 vector 的抽取 (i-vector, d-vector, x-vector) 跟 2. 模型架構 (CNN, ResNet) 和調參,再來就是 3. 評分方式 (LDA, PLDA (Probabilistic Linear Discriminant Analysis)) 等等幾種組合;我們也使用了 kaldi 其中內附的功能,光是 kaldi 就又投入了不少時間和精力 ! 其實比起自然語言處理做聲紋識別,最小的坑莫過於雖然數據集不是很容易獲取,但是聲音是可以自行用程式加工做切割合併,然後因為場景限制,錄聲紋時的時長頗短,還得處理非註冊聲紋的處理,所以前前後後花了很多時間在將相關的數據搭配評分模式調整,也算是個大工程。 **技術指標:** 錯誤拒絕率(False Rejection Rate, FRR):同類的兩人被系統判別為不同類。FRR為誤判案例在所有同類匹配案例中的比例 錯誤接受率(False Acceptance Rate, FAR):不同類的兩人被系統判為同類。FAR為接受案例在所有異類匹配案例中的比例 等錯誤率(Equal Error Rate, EER):調整threshold,當FRR=FAR時,FRR和FAR的數值稱為等錯誤率 準確率(Accuracy,ACC):ACC=1-min(FAR+FRR) **速度:** Real Time Factor 實時比:衡量提取時間跟音頻時長的關係,ex:1秒可以處理80s的音頻,實時比=1:80;驗證比對速度:平均每秒能進行的聲紋比對次數 ROC曲線:描述FAR和FRR間變化的曲線,X軸為FAR,Y軸為FRR。 閥值:當分數超過閥值才做出接受決定。



Speech-Enhancement

中文語音增強(去噪) (Chinese Speech Enhancement)

從含雜訊的語音信號中提取出純淨語音。 🌐 更多資源 | 🤗 Demo Space

2020/08/30-2021/01/25 開發心得 分組投入約150天;說到會做語音增強(去噪音),這一切真的只是因為那有一面之緣的圖靈獎大神在FB發文介紹FAIR的最新成果;而噪音去除你可以跟另外一個聲音分離做聯想,基本概念其實差不多,只是噪音去除是把非人聲給去除 (記得注意一下是不是多通道);而做這個項目時,一樣也是匯整準備了相當多的學術論文和實驗結果 (如下所附) ;做語音感覺上數據也是很重要,但噪音去除相對的數據集就比較好處理,網路上都可以找到,只要進行前後調整合併,就可以產出數量頗大的數據集,唯一需要考量的就是你的 GPU 夠不夠大整個吃下了,還有你這些數據集裡的人聲是不是一樣是英文,或者是你想要中文的效果?順道一提最後我們的模型大小是經過優化的9 MB,而 RTF 是 0.08。



Speaker-Separation

中文語者分離 (Speaker Separation)

定義: 從混疊的聲音訊號中提取出單一目標訊號(解決雞尾酒會問題,即多人同時說話的場景)。

資源導航:🌐 站長整理 🤗 HF Space Demo

📚 經典論文與實作 (Papers & Code)

🛠️ 實戰模型與工具 (Tools)

2020/08/30-2021/01/25 開發心得 投入約150天。如同語音踩的坑來說,比較常碰到因為網路架構在做參數調整時導致loss壞掉等等,而因數據集造成的問題少很多,網路上也比較容易找到更多的數據集,然後也有非常多的比賽有各種模型架構的結果可以參考,但是一樣是英文數據,而語音坑最好的就是只要有了像是 aishell 等的數據集,你想要切割或合併成一個語音,都不是太大的問題;例如我們就是把數據集打散混合,再從中隨機挑選兩個人,然後再從中分別挑出語音做混合;如是長度不同,選擇短者為參考,將長者切到與短者相同;最後產出約 train: 5萬多筆,約 32小時、val:1萬多筆語音,約10小時、test:9,千多筆語音,約 6小時,而這個數據集是兩兩完全重疊,後來為了處理兩兩互不完全重疊,再次另外產出了這樣的數據集:train:9萬多筆語音,計112小時、val:2萬多筆語音,計 26.3 小時、test:2萬多筆語音,計 29.4 小時。 中間也意外發現了Google brain 的 wavesplit,在有噪音及兩個人同時講話情形下,感覺效果還不差,但沒找到相關的code,未能進一步驗證或是嘗試更改數據集。還有又是那位有一起用餐之緣的深度學習大神 Yann LeCun繼發文介紹 完去噪後,又發文介紹了語音分離;後來還有像是最早應用在NLP的Transformer等Dual-path RNN (DP-RNN) 或 DPT-NET (Dual-path transformer) 等應用在語音增強/分割,另外VoiceFilter、TasNet 跟 Conv-TasNet還有sudo-rm等等也是語音分割相關,當然更不能錯過臺大電機李宏毅老師一篇SSL-pretraining-separation的論文 (務必看完臺大電機李宏毅老師的影片),最後也是多虧李老師及第一作者黃同學的解惑,然後小夥伴們才又更深入的確認並且解決問題。 這裡做數據時相對簡單一點,直接打散混合,再從中隨機挑選兩個人,然後分別挑出語音做混合,若長度不同,選擇短者為參考,將長者切到與短者相同,兩兩完全重疊或者兩兩互不完全重疊等都對效果有不小的影響;同時也研究了Data Parallel 跟 Distributed Data Parallel 的差異,但是如何才能在 CPU 上跑得又快又準才是落地的關鍵



Speech-Synthesis

中文語音合成 (Chinese Speech Synthesis / TTS)

🎙️ 2026 全球開源 TTS 語音合成與音色克隆大全 (依開發陣營分類)

「想做有聲書、全自動短影音,還是專屬的虛擬 VTuber 聲優?目前的 TTS 技術不僅告別了傳統的『機器人平淡嗓音』,還能做到 3 秒極速複製你的聲音。本清單為你拆解目前最主流的歐美大廠方案與亞洲霸榜神作,讓你根據資安需求與硬體條件精準選型。」

1. 歐美 AI 巨頭與國際開源社群 (資安友善 / 輕量部署篇)

如果你對專案的「原產地」有嚴格要求,或者伺服器沒有配備頂級 GPU,以下由歐美巨頭或國際社群主導的專案是你的首選:

模型/工具名稱 開發團隊/生態 💡 解決什麼痛點? (核心優勢) 🚀 推薦適用場景 & 規格標籤
OpenAI Edge TTS 🇺🇸 微軟/OpenAI 生態 完全免算力、免費白嫖! 透過呼叫微軟 Edge 瀏覽器的語音介面,免 GPU 就能產出高水準語音。 適合:個人開發者、輕量級網頁應用
[免 GPU] [零成本] [微軟原生]
Parler-TTS 🇺🇸/🇪🇺 Hugging Face 安裝最無腦的輕量之王。Hugging Face 官方開源,主打「一行指令安裝」,對開發者極度友善。 適合:快速概念驗證 (PoC)、英/歐語系合成
[極易部署] [國際開源]
Kokoro-TTS 🌐 國際開源社群 近期在歐美社群討論度極高的 TTS 方案,架構輕量且聲音自然,是取代龐大模型的優質平替。 適合:本地端輕量化語音助理
[輕量模型] [社群熱推]
VALL-E X / DragonV2.1 🇺🇸 Microsoft (微軟) 跨語言音色保留。微軟的經典架構(VALL-E X)與 2025 最新模型(DragonV2.1),技術底蘊深厚。 適合:企業級多語種配音、微軟生態系整合
[大廠背書] [多語種克隆]
Deepgram 🇺🇸 Deepgram 超穩定的商業級 API。雖然不是純開源,但提供極低延遲的商業級 TTS/ASR 接口,適合不想管底層架構的企業。 適合:企業級 SaaS 產品、即時語音對話系統
[商業方案] [高穩定性]

2. 亞洲/中國開源霸榜神作 (極致擬真 & 零樣本克隆篇)

技術客觀評析:在「中文」的表現上,以下模型目前領先全球。它們不僅能精確掌握中文的發音,甚至能生成帶有「笑聲、嘆氣、語氣詞」的超擬真人類語音。(註:注重地緣資安的專案,建議於完全離線的本地沙盒環境中運行)

模型名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦適用場景 & 規格標籤
GPT-SoVITS 🇨🇳 開源社群 (RVC-Boss) 人聲克隆的無冕王! 只要 1 分鐘的語音樣本,就能完美複製你的聲音,目前在 GitHub 狂攬 35k+ Stars。 適合:VTuber 聲優克隆、個人有聲書配音
[極少樣本] [霸榜神作]
ChatTTS 🇨🇳 2noise 打破 AI 機械音的終極武器。它最大的震撼在於支援在語句中加入「笑聲」、「停頓」,擬真度極高。 適合:AI Podcast、劇情對白生成
[超高擬真] [情緒控制]
Fish Speech 🇨🇳 Fish Audio 當前最火紅的全能型 TTS。性能極其強大,不僅支援多語言克隆,還配備了視覺化的 GUI 介面,降低使用門檻。 適合:短影音自動化生成、多語種自媒體
[多語支援] [自帶 GUI]
Qwen3-TTS 🇨🇳 阿里巴巴 不只克隆,還能「捏聲音」。提供 VoiceDesign (音色創造) 與 VoiceClone (音色克隆) 雙重強大功能。 適合:遊戲 NPC 配音生成、大型多模態系統
[音色創造] [大廠開源]
Fun-CosyVoice3 🇨🇳 阿里通義百聆 極速克隆專家。只需短短 3 秒錄音,就能直接複製並轉換成 9 種不同的語言。 適合:出海行銷影片自動翻譯配音
[3秒克隆] [跨語言]
MOSS-TTSD / F5-TTS 🇨🇳 復旦大學 / 上海交大 學術界的頂規猛獸。MOSS 經過百萬小時訓練;F5-TTS 則能用 15 秒樣本完成聲音克隆。 適合:學術研究、底層架構二次開發
[學術開源] [巨量訓練]

💡 額外優化建議:「效能指標」名詞解釋

🎯 如何評估一個 TTS 模型的好壞?


⭐ 必備明星專案 (Star Projects)


📅 2026 最新模型 (Latest Arrivals)


🏛️ 2024 經典模型與教程 (Classics)

Speech-Datasets

開源語音資料 (Speech Datasets)

🇨🇳 中文與方言 / 區域性資料集


🌍 國際與特殊應用資料集

過往資訊 - [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS):[GPT-SoVits: 上線兩天獲得了1.4k star的開源聲音克隆項目,1分鐘語音訓練TTS模型](https://zhuanlan.zhihu.com/p/679547903) - [Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI) - [Rectified Flow Matching 語音合成,上海交大開源**](https://www.speechhome.com/blogs/news/1712396018944970752):https://github.com/cantabile-kwok/VoiceFlow-TTS - [coqui-ai TTS](https://github.com/coqui-ai/TTS) * [XTTS v2線上體驗](https://huggingface.co/spaces/coqui/xtts) * [coqui-ai TTS 簡評](https://www.speechhome.com/blogs/news/1726435660778311680) * [新一代開源語音庫CoQui TTS衝到了GitHub 20.5k Star](https://zhuanlan.zhihu.com/p/661291996) - [EmotiVoice](https://github.com/netease-youdao/EmotiVoice) * [正式開源!網路易有道上線「易魔聲」語音合成引擎](https://zhuanlan.zhihu.com/p/666172336) - Amphion@OpenMMLab:https://github.com/open-mmlab/Amphion - Bark:https://github.com/suno-ai/bark * [最強文本轉語音工具:Bark,本地安裝+雲端部署+在線體驗詳細教程](https://zhuanlan.zhihu.com/p/630900585) * [使用Transformers 優化文本轉語音模型Bark](https://zhuanlan.zhihu.com/p/651951136) * [GitHub 開源神器Bark模型,讓文字轉語音更簡單!](https://www.speechhome.com/blogs/news/1724361984838864896) - [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2) * [本地訓練,開箱可用,Bert-VITS2 V2.0.2版本本地基於現有資料集訓練](https://zhuanlan.zhihu.com/p/668211415) * [栩栩如生,音色克隆,Bert-vits2文字轉語音打造鬼畜視訊實踐](https://zhuanlan.zhihu.com/p/662885913) - [清華大學LightGrad-TTS,且流式實現](https://zhuanlan.zhihu.com/p/656012430):https://github.com/thuhcsi/LightGrad - [Wunjo AI: Synthesize & clone voices in English, Russian & Chinese](https://github.com/wladradchenko/wunjo.wladradchenko.ru):https://huggingface.co/wladradchenko/wunjo.wladradchenko.ru - [VALL-E:微軟全新語音合成模型可以在3秒內復制任何人的聲音](https://zhuanlan.zhihu.com/p/598473227) * [非官方](https://lifeiteng.github.io/valle/):To avoid abuse, Well-trained models and services will not be provided. - [BLSTM-RNN、Deep Voice、Tacotron…你都掌握了吗?一文总结语音合成必备经典模型(一)](https://new.qq.com/rain/a/20221204A02GIT00) - [Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)](https://cloud.tencent.com/developer/article/2250062) - [出門問問MeetVoice, 讓合成聲音以假亂真](https://zhuanlan.zhihu.com/p/92903377)