Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心
大語言模型 | 語音處理 | 自然語言處理 | 電腦視覺 |
Large Language Model | Speech Processing | Natural Language Processing, NLP | Computer Vision |
用 AI 懂 AI
AI 技術 體驗/分享
手把手帶你一起踩 AI 坑:https://www.twman.org/AI
- 白話文手把手帶你科普 GenAI:淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性。
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算:探討 LLM 的發展與應用,硬體資源在開發中的作用。
- Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成);深入探討影像生成與分割技術的應用,強調硬體資源的重要性。
- ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策:探討 ASR 和 TTS 技術應用中的問題,強調數據質量的重要性。
- 那些 NLP 踩的坑:分享 NLP 領域的實踐經驗,強調數據質量對模型效果的影響。
- 那些語音處理踩的坑:分享語音處理領域的實務經驗,強調資料品質對模型效果的影響。
- 手把手學深度學習安裝環境:詳細介紹在 Ubuntu 上安裝深度學習環境的步驟,分享實際操作經驗。
AI 技術 開源/試用
解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算
作者:TonTon Huang Ph.D.
日期:2023年4月12日
原文網址:https://blog.twman.org/2023/04/GPT.html
文章概述
本文深入探討大型語言模型(LLM)的發展歷史、訓練與微調技術,並詳細解析在不同精度與訓練策略下,所需的 GPU VRAM 估算方法,為從業者提供實作參考。
主要內容摘要
1. 模型參數與 VRAM 估算基礎
- 參數數量與記憶體需求:
- 1B(10億)參數約需 4GB VRAM(FP32 精度)。
- 精度降低(如 FP16)則記憶體需求減半。
- 常見精度格式:
- FP32(單精度):每參數佔 4 bytes。
- FP16/BF16(半精度):每參數佔 2 bytes。
- INT8(8位整數):每參數佔 1 byte,常用於推理階段。
2. 訓練與微調的 VRAM 需求估算
全參數訓練(Full Parameter Training)
- FP32 精度:
- 模型權重:4X GB
- 梯度:4X GB
- 優化器狀態(如 AdamW):8X GB
- 總計:16X GB + 啟動值與其他開銷
- FP16/BF16 精度:
- 模型權重:2X GB
- 梯度:2X GB
- 優化器狀態:8X GB
- 總計:12X GB + 啟動值與其他開銷
全參數微調(Full Fine-tuning)
- 與全參數訓練相似,但通常 batch size 較小,啟動值需求較低。
- 估算:
- 7B 模型:約 100–140 GB VRAM
- 70B 模型:超過 1 TB VRAM
LoRA 微調(Low-Rank Adaptation)
- 僅訓練少量適配器參數,凍結原始模型大部分參數。
- 估算:
- 7B 模型:約 16–24 GB VRAM
- 70B 模型:約 140–200 GB VRAM
實作經驗分享
作者分享了將 Deep Learning Book 的 PDF 進行重點摘要,並對影片進行語音辨識與逐字稿生成的經驗,展示了大型語言模型在實際應用中的潛力與挑戰。
結語
大型語言模型的訓練與微調對硬體資源有著極高的需求,透過合理的精度選擇與訓練策略,可以有效降低 VRAM 的使用,提升訓練效率。本文提供的估算方法與實作經驗,對於從事 LLM 開發與應用的從業者具有重要參考價值。
📖 如需進一步了解,請參閱原文:
https://blog.twman.org/2023/04/GPT.html