Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷，是為了普及與分享深度學習及AI領域的尖端知識，深信AI的價值在於解決真實世界的商業問題。

大語言模型	語音處理	自然語言處理	電腦視覺
Large Language Model	Speech Processing	Natural Language Processing, NLP	Computer Vision

在快速變動的全球局勢與本地產業環境下，您的營運是否正遭遇瓶頸？這些不僅是挑戰，更是導入AI、實現轉型升級的最佳契機。AI導入並非單純的技術採購，而是一場由上而下的企業變革。

【第一步】企業現況與需求訪談：了解商業模式、營運痛點與期望目標，定義出最具商業價值的AI應用場景。
【第二步】AI導入策略與藍圖規劃：量身打造清晰、務實的AI導入路線圖，包含技術架構、數據策略、預算規劃與預期效益。
【第三步】概念驗證 (PoC) 與模型開發：以最小成本、最快速度建立一個可行的AI模型來驗證構想，確保方向正確，並依據反饋快速迭代。
【第四步】系統整合與全面導入：將成熟的AI模型無縫對接到您現有的系統，實現真正的自動化與智慧化。
【第五步】團隊賦能與技術培訓：不只交付工具，更交付知識。提供教育訓練，確保AI能真正落地生根，成為企業文化的一部分。

用 AI 懂 AI

AI 技術體驗/分享

手把手帶你一起踩 AI 坑：https://www.twman.org/AI

AI 技術開源/試用

該踩或不該踩的坑都踩完，大型語言模型直接就打完收工？

作者：TonTon Huang Ph.D.
日期：2024年10月10日
原文網址：https://blog.twman.org/2024/09/LLM.html

文章概述

作者回顧了從 2016 年起在資安與深度學習領域的研究與應用，並分享了在自然語言處理（NLP）、語音處理、以及大型語言模型（LLM）等技術上的實踐經驗與挑戰。隨著 ChatGPT 等生成式 AI 的興起，作者反思了這些技術的演進，以及未來的發展方向。

主要內容摘要

1. 深度學習開發環境建置

Ubuntu 安裝與設定：建立深度學習開發的基礎環境。
CUDA 與 cuDNN 的安裝：確保 GPU 加速的正確配置。
NVIDIA 驅動程式與 NVIDIA-SMI：檢查 GPU 的運作狀態。
TensorFlow 與 PyTorch 安裝：配置主流深度學習框架。
Docker 與 NVIDIA-Docker：實現環境的隔離與管理。

2. 自然語言處理（NLP）相關挑戰

語料與數據前處理：繁體中文語料的稀缺性。
文本校正與分類：標註數據的重要性。
命名實體識別（NER）：處理繁體中文資料的困難。
模型選擇與應用：BERT 與 Seq2Seq 技術的實踐經驗。

3. 語音處理相關挑戰

語音識別（ASR）：數據集的準備與挑戰。
聲紋識別（Speaker Recognition）：語者辨識的應用場景。
語音去噪：噪聲處理的關鍵技術。
語者分離（Speaker Diarization）：多語者聲音分離的技術難點。
模型選擇與工具：Kaldi 等工具的應用經驗。

4. 大型語言模型（LLM）與相關工具

AutoGen、LangGraph、CrewAI、Dify、RAGFlow：多代理模型合作的應用。
RAG 技術：檢索增強生成的應用與挑戰。
GraphRAG 與知識圖譜：增強 RAG 性能的策略。
Whisper 模型的應用：中文語音識別中的應用與最佳化。
開源工具介紹：WhisperX、faster-whisper 等工具的使用。

5. 中文文本分類與糾錯的演進

文本分類技術的發展：從規則方法到深度學習模型的演進。
中文文本糾錯的挑戰：語境依賴的錯誤處理與生成模型的應用。

結語

作者指出，隨著大型語言模型的出現，許多過去需要大量人工處理的任務變得更加自動化與高效。然而，這也帶來了新的挑戰與學習曲線。技術的快速迭代要求從業者持續學習與適應，才能在這條不歸路上持續前行。

📖 如需進一步了解，請參閱原文：
https://blog.twman.org/2024/09/LLM.html