Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷，是為了普及與分享深度學習及AI領域的尖端知識，深信AI的價值在於解決真實世界的商業問題。

大語言模型	語音處理	自然語言處理	電腦視覺
Large Language Model	Speech Processing	Natural Language Processing, NLP	Computer Vision

語音處理 (Speech Processing)

用 AI 懂 AI

AI 技術體驗/分享

手把手帶你一起踩 AI 坑：https://www.twman.org/AI

手把手AI 技術深度實戰教學/開源/試用

AI x Cyber-Security

https://github.com/Deep-Learning-101/Speech-Processing-Paper

🎙️ 語音識別 / 合成平台價格比較

~2025/04

名稱	功能	網址
Whisper (開源)	語音識別、翻譯	每分鐘150字 × 10分鐘 = 1500字
Fish Audio	語音識別、語音合成	TTS：英文 $0.0225，中文 $0.0675；ASR：30分鐘 = $0.18
Deepgram	語音識別	TTS：英文 $0.02025，中文 $0.06075；ASR：30分鐘 = $0.147
Microsoft Azure	語音合成	TTS：英文 $0.036，中文 $0.108；ASR：即時轉錄 $1/小時，超額 $0.8/小時
Amazon Polly	語音合成	TTS：英文 $0.024，中文 $0.072
Google WaveNet	語音合成	TTS：英文 $0.024，中文 $0.072
Google Vertex AI	大型語言模型	Gemini/Claude 定價頁
Google Cloud VM	虛擬機器	VM 執行個體定價頁面

Speech-Processing

語音處理 (Speech Processing)

Speech-Recognition

中文語音識別 (Chinese Speech Recognition)

https://www.twman.org/AI/ASR

通過語音信號處理和模式識別讓機器自動識別和理解人類的口述

2025-09-19：Canary-1b-v2_NVIDIA；推動語音AI 創新：NVIDIA 發布多語種語音AI 開放資料集與模型
2025-07-16：Voxtral Small 1.0 (24B) - 2507；Voxtral-Mini-3B-250；Mistral首個開源語音模型來了！多項測試超越GPT-4o mini
2025-07-02：OpusLM：全開源！ CMU 發布OpusLM：統一語音辨識、合成、文字理解的大模型
2025-06-06：speakr；開源的轉錄音訊記錄工具，更夠設定音訊轉錄語言和AI 生成內容
2025-05-06：VITA-Audio；VITA-Audio：快速交錯跨模態令牌生成，用於高效的大型語音語言模型
2025-04-28：FireRedASR：AI語音助理語音轉文字FireRedASR轉API；如何使用
2025-04-02：Dolphin；Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages
2024/07/03：SenseVoice：阿里開源語音大模型：語音辨識效果與表現強於Whisper，還能偵測掌聲、笑聲、咳嗽等！
2024/05/01：使用Hugging Face 推理終端建立強大的「語音辨識+ 說話者分割+ 投機解碼」工作流程

2020/03-2021/01 開發心得

語音辨識（speech recognition）技術，也被稱為自動語音辨識（英語：Automatic Speech Recognition, ASR）、電腦語音識別（英語：Computer Speech Recognition）或是語音轉文字識別（英語：Speech To Text, STT），其目標是以電腦自動將人類的語音內容轉換為相應的文字；跟小夥伴們一起嘗試過NEMO還有Kaldi、MASR、VOSK，wav2vec以及Google、Azure等API，更別說後來陸續又出現SpeechBrain、出門問問的WeNet跟騰訊PIKA等。目前已知可訓練聲學模型(AM)中文語音(中國發音/用語，可惜還沒臺灣較靠譜的)公開數據如：Magic-Data_Mandarin-Chinese-Read-Speech-Corpus、aidatatang、aishell-1 、aishell-2等約2000多小時(aishell目前已到4，但想商用至少得破萬小時較靠譜)；再搭配語言模型(LM)，然後基於各種演算法架構優化各有優缺點，效果也各有優劣。與說話人辨識及說話人確認不同，後者嘗試辨識或確認發出語音的說話人而非其中所包含的詞彙內容。語音辨識技術的應用包括語音撥號、語音導航、室內裝置控制、語音文件檢索、簡單的聽寫資料錄入等。語音辨識技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合，可以構建出更加複雜的應用，例如語音到語音的翻譯。語音辨識技術所涉及的領域包括：訊號處理、圖型識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。

Speaker-Recognition

中文語者(聲紋)識別 (Chinese Speaker Recognition)

https://www.twman.org/AI/ASR/SpeakerRecognition

找到描述特定對象的聲紋特徵，通過聲音判別說話人身份的技術；借助不同人的聲音，在語譜圖的分佈情況不同這一特徵，去對比兩個人的聲音，來判斷是否同人。

Speech-Enhancement

中文語音增強(去噪) (Chinese Speech Enhancement)

https://www.twman.org/AI/ASR/SpeechEnhancement

https://huggingface.co/spaces/DeepLearning101/Speech-Quality-Inspection_Meta-Denoiser

找到描述特定聲音特徵，並將其去除以提高質量；從含雜訊的語音信號中提取出純淨語音的過程

Speaker-Separation

中文語者分離(分割) (Chinese Speaker Separation)

https://www.twman.org/AI/ASR/SpeechSeparation

https://huggingface.co/spaces/DeepLearning101/Speech-Separation

從多個聲音信號中提取出目標信號；多個說話人情況的語音辨識問題，比如雞尾酒會上很多人講話

Speech-Synthesis

中文語音合成 (Chinese Speech Synthesis)

語音處理 (Speech Processing)

手把手帶你一起踩 AI 坑：https://www.twman.org/AI

文章目錄

🎙️ 語音識別 / 合成平台價格比較

Speech-Processing

Speech-Recognition

Speaker-Recognition

相關論文

相關連結

Speech-Enhancement

中文語音增強(去噪) (Chinese Speech Enhancement)

相關論文

相關連結

Speaker-Separation

中文語者分離(分割) (Chinese Speaker Separation)

相關論文

相關連結

Speech-Synthesis

中文語音合成 (Chinese Speech Synthesis)

相關連結