Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心
大語言模型 | 語音處理 | 自然語言處理 | 電腦視覺 |
Large Language Model | Speech Processing | Natural Language Processing, NLP | Computer Vision |
用 AI 懂 AI
AI 技術 體驗/分享
手把手帶你一起踩 AI 坑:https://www.twman.org/AI
- 白話文手把手帶你科普 GenAI:淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性。
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算:探討 LLM 的發展與應用,硬體資源在開發中的作用。
- Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成);深入探討影像生成與分割技術的應用,強調硬體資源的重要性。
- ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策:探討 ASR 和 TTS 技術應用中的問題,強調數據質量的重要性。
- 那些 NLP 踩的坑:分享 NLP 領域的實踐經驗,強調數據質量對模型效果的影響。
- 那些語音處理踩的坑:分享語音處理領域的實務經驗,強調資料品質對模型效果的影響。
- 手把手學深度學習安裝環境:詳細介紹在 Ubuntu 上安裝深度學習環境的步驟,分享實際操作經驗。
AI 技術 開源/試用
那些語音處理 (Speech Processing) 踩的坑
作者:TonTon Huang Ph.D.
日期:2021年4月26日
原文網址:https://blog.twman.org/2021/04/ASR.html
文章概述
本文是繼《那些自然語言處理 (Natural Language Processing, NLP) 踩的坑》後,作者與小夥伴們近年來在語音處理領域的實務經驗與挑戰的回顧與分享,涵蓋了語者識別、語音識別、語音增強、語者分離等多個方面。
主要內容摘要
1. 聲紋(語者)識別(Speaker Recognition)
- 研究方法:
- 查閱近三年的學術論文與比賽資料。
- 收集相關數據集與實作程式碼。
- 研究相關產品的公司與專利。
- 數據集與模型:
- 使用 VoxCeleb2、CN-CELEB 等數據集。
- 探討 i-vector、d-vector、x-vector 等特徵抽取方法。
- 應用 CNN、ResNet 等模型架構。
- 評估方式包括 LDA、PLDA 等。
2. 語音識別(ASR)與 Kaldi 的應用
- 實作經驗:
- 使用 Kaldi 工具進行語音識別實驗。
- 處理數據集如 AISHELL-1、AISHELL-2。
- 面對數據集下載困難(如百度雲盤封鎖台灣 IP)等挑戰。
3. 語音增強(Speech Enhancement)
- 研究動機:
- 受到 Yann LeCun 分享的啟發,投入語音去噪實驗。
- 技術方法:
- 探討 Real Time Speech Enhancement、DCCRN、Deep Complex U-Net 等模型。
- 處理含雜訊的語音信號,提取純淨語音。
- 使用網路上可獲得的數據集進行實驗。
4. 語者分離(Speaker Separation)
- 實驗方法:
- 處理多語者語音辨識問題(如雞尾酒會問題)。
- 將數據集打散混合,模擬多語者場景。
- 探討語音分離技術的應用與挑戰。
5. 模型壓縮與加速推論
- 研究動機:
- 為了實現語音處理模型的線上應用,需進行模型壓縮與加速推論的研究。
- 實作經驗:
- 探討量化技術,提升模型在串流應用中的效能。
結語
語音處理的實務應用涉及多個挑戰,包括數據集的取得與處理、模型的選擇與訓練、以及實際應用中的效能優化。透過結合多種技術與策略,並根據實際需求進行調整與優化,能夠有效提升語音處理系統的效能與準確度。本文提供的經驗分享對於從事語音處理開發與應用的從業者具有重要參考價值。
📖 如需進一步了解,請參閱原文:
https://blog.twman.org/2021/04/ASR.html