Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。
去 YouTube 訂閱 | Facebook | 回 GitHub Pages 首頁 | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心
解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算
🚀 本文重點摘要 (TL;DR): 想要玩轉 LLM,顯存 (VRAM) 是最大瓶頸。
- 推論 (Inference):模型參數量 x 精度 (FP16=2GB/1B, INT4=0.7GB/1B) + KV Cache (長文本/影片是殺手)。
- 微調 (Fine-tuning):全量微調需 16~20 倍 參數量顯存;LoRA/QLoRA 可將需求降至推論等級的 1.2~1.5 倍。
- 趨勢 (2026):Gemini 3.0 時代,計算單位從「文字 Token」轉向「多模態 Token」,顯存容量比計算速度更重要。
作者:TonTon Huang Ph.D.
日期:2023年4月12日 (2026年1月2日更新)
原文網址:https://blog.twman.org/2023/04/GPT.html
| 🔥 技術傳送門 (Tech Stack) | 📚 必讀心法 (Must Read) |
|---|---|
| 🤖 大語言模型 (LLM) | 🏹 策略篇:企業入門策略 |
| 📝 自然語言處理 (NLP) | 📊 評測篇:臺灣 LLM 分析 |
| 👁️ 電腦視覺 (CV) | 🛠️ 實戰篇:打造高精準 RAG |
| 🎤 語音處理 (Speech) | 🕳️ 避坑篇:AI Agent 開發陷阱 |
相關文章參考:
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算:探討 LLM 的發展與應用,硬體資源在開發中的作用。
- 中央社繁體中文預訓練資料集案
文章目錄
- 0. 前言:Gemini 2.5 到 3.0 的技術演進
- 1. 核心概念:VRAM 都被誰吃掉了?
- 2. 參數與 VRAM 的基礎換算 (The “B” Concept)
- 3. 訓練與微調的 VRAM 需求詳解 (含 Llama 2 經典案例)
- 4. 推論 (Inference) 與 KV Cache
- 5. 數據需求 (Data Scaling Laws)
- 6. 實戰經驗:我的硬體採購與推薦
0. 前言:從 Deep Learning 101 到 Gemini 3.0
還記得那幾年辦 Deep Learning 101 的活動,每個月總有那麼一個週五,我會在台北 101 因為佈署直播環境跟收拾打掃,搞到清晨 3-4 點才騎 YouBike 回家。當時我們讀的是 Deep Learning Book,討論的是 CNN 和 RNN。
轉眼來到 2025/2026 年,Google 發布了 Gemini 2.5 Pro Preview (05-06) 與後續的 Gemini 3.0,世界變了:
- 程式設計霸主:Gemini 2.5 在 WebDev Arena 排行榜以 147 Elo 分領先,超越 Claude 3.7 Sonnet。
- 百萬級 Context:支援 100 萬 token,可直接吃下長達一小時的影片或龐大程式碼庫。
- 影片轉程式碼:在 VideoMME 基準測試中得分 84.8%。
- 原生多模態 (Native Multimodal):Gemini 3.0 不再只是處理文字,而是將圖片 (Image Patches) 和 音訊 (Audio Frames) 直接 Token 化。這意味著 VRAM 的殺手不再只是參數量,而是Context Window (上下文)。
以前我們想著如何整合直播影片做逐字稿,現在 Gemini 2.5/3.0 已經能直接看完影片並生成重點摘要 Markdown,甚至寫出對應的程式碼,真的是「打完收工」的感覺。
1. 核心概念:VRAM 都被誰吃掉了?
在估算 GPU 需求前,必須理解 VRAM 主要被以下五部分佔用:
- 模型權重 (Model Weights):模型的靜態大小 (參數)。
- KV Cache (推論時):為了加速生成,儲存上下文的 Key/Value 矩陣。Context Window 越長,這塊吃越兇。 (Gemini 3.0 時代的隱形殺手)
- 梯度 (Gradients) (訓練時):反向傳播時計算的數值。
- 優化器狀態 (Optimizer States) (訓練時):如 AdamW 優化器需要儲存動量 (Momentum) 與方差 (Variance),佔用極大。
- 激活值 (Activations) (訓練時):Forward pass 中產生的中間層輸出。
2. 參數與 VRAM 的基礎換算 (The "B" Concept)
常聽到的 XX B,這個 B 表示 10億 (Billion),即 $10^9$。 例如 7B 表示 70 億個可訓練參數。
參數通常以 float32 (FP32) 儲存,佔 4 bytes。 最簡單的速算公式:
每 10 億 (1B) 參數,FP32 需 4GB VRAM;FP16 需 2GB;INT8 需 1GB。
| 精度格式 | 說明 | 每參數佔用 | 1B 模型需求 | 7B 模型需求 | 備註 |
|---|---|---|---|---|---|
| FP32 | 單精度 | 4 Bytes | 4 GB | 28 GB | 訓練標準格式 |
| FP16 / BF16 | 半精度 | 2 Bytes | 2 GB | 14 GB | 微調/推論主流 |
| INT8 | 8-bit 量化 | 1 Byte | 1 GB | 7 GB | 節省顯存 |
| INT4 | 4-bit 量化 | 0.5 Byte | 0.5 GB | 3.5 GB | 邊緣設備/QLoRA |
3. 訓練與微調的 VRAM 需求詳解
這是大家最容易誤解的地方:「我有 24GB 顯卡,能不能訓練 7B 模型?」 答案通常是:不能全量訓練,但可以微調。
A. 全量訓練/微調 (Full Fine-Tuning) - 資源黑洞
訓練時,每個參數需要的 VRAM 遠超其權重本身。以 AdamW 優化器為例:
- 模型權重: 4 bytes
- 梯度: 4 bytes
- 優化器狀態: 8 bytes (Momentum + Variance)
- 總計: 16 bytes / parameter (還沒算 Activation!)
Total VRAM = Model Weights + KV Cache + Activation Buffer
🏛️ 經典案例分析:Llama 2 的訓練成本
這是我在 2023 年整理的數據,至今仍極具參考價值,讓你明白為什麼「自己從頭訓練」是夢想:
- 訓練 Llama 2 70B (X=70)
- 核心需求:$16 \times 70 = 1,120 \text{ GB}$
- 加上 Activation:總計可能超過 1.5 TB VRAM。
- 硬體需求:需 128 台 DGX A100 系統,光硬體就數億台幣。
- 訓練 7B 模型 (X=7)
- 核心需求:$16 \times 7 = 112 \text{ GB}$
- 硬體需求:至少需要 2~3 張 A100 (80GB) 才能跑得動。
B. 高效微調 (PEFT - LoRA) - 個人的救星
LoRA 凍結了預訓練模型權重,只訓練極小的 Rank 矩陣。
- 微調 7B (LoRA):約需 20~24 GB (單張 RTX 3090/4090 可搞定)。
- 微調 70B (LoRA):約需 160 GB (需 2-3 張 A100)。
C. 量化微調 (QLoRA) - 窮人的法拉利
目前的微調主流。將基礎模型量化為 4-bit (NF4),並在上面加 LoRA。
- 微調 7B (QLoRA):約需 10~12 GB (RTX 3060 12G 勉強可跑,建議 16G)。
- 微調 70B (QLoRA):約需 48 GB (兩張 RTX 3090/4090 透過 NVLink 或軟體並行)。
4. 推論 (Inference) 與 KV Cache
推論相對簡單,公式為:
訓練 VRAM (GB) ≈ 參數數量 (B) × 16
實戰推論需求表 (含 OS overhead)
| 模型規模 | INT4 (GGUF/AWQ) | INT8 | FP16 | 推薦顯卡 |
|---|---|---|---|---|
| Llama-3-8B | ~6 GB | ~9 GB | ~16 GB | RTX 3060 / 4060 |
| Llama-3-70B | ~40 GB | ~72 GB | ~140 GB | 2x RTX 3090 / RTX 6000 Ada |
| Mixtral 8x7B | ~26 GB | ~48 GB | ~90 GB | RTX 6000 Ada / Mac Studio 64G |
⚠️ 注意 KV Cache (上下文): 在 Gemini 3.0 時代,如果你要讀 100 頁 PDF 或一支 10 分鐘影片,KV Cache 可能會瞬間吃掉 10GB 以上的 VRAM。這就是為什麼現在顯存 「容量 (Capacity)」 比 「速度 (Bandwidth)」 更重要。
5. 數據需求 (Data Scaling Laws)
訓練模型不只看 GPU,還看數據量。根據 Chinchilla Scaling Laws:
最佳 Token 數量 ≈ 20 × 模型參數量
- 訓練 1B 模型:需 200 億 (20B) Tokens。
- 訓練 8B 模型:需 1600 億 (160B) Tokens。
- (註:Llama 3 實際上用了 15 Trillion (15兆) Tokens,這是為了極致的推論性能,遠超定律)
微調 (SFT) 數據量: 微調不需要海量數據。通常 1,000 ~ 10,000 條高品質指令對 (Instruction Pairs) 就足以讓模型學會特定的說話風格。數據品質 > 數據數量。
6. 實戰經驗:我的硬體採購與推薦
這是我個人的血淚採購史,見證了從深度學習萌芽到 LLM 爆發的過程:
- 2016/06:GIGABYTE GTX 960 4G * 2 (剛開始學 CNN)
- 2017/01:技嘉 GTX 1080 XTREME GAMING 8G (GAN 最火的時候)
- 2018/05:NVIDIA TITAN V + TITAN XP (公司投資,算力大升級)
- 2023/08:RTX 6000 Ada 48GB * 2 + A100 80GB * 4 (LLM 時代降臨,顯存焦慮症開始)
- 2024/05:RTX 6000 Ada 48GB * 16 (為企業級 RAG 與微調準備)
2025/2026 硬體推薦建議
- 入門體驗 / INT4 推論:
- RTX 3060 12GB / 4060 Ti 16GB
- 性價比之王,跑 7B/8B 量化模型綽綽有餘,甚至能跑 SDXL 繪圖。
- 進階推論 / LoRA 微調:
- RTX 3090 / 4090 (24GB)
- 本地端神卡。二手 3090 是目前 CP 值最高的選擇。24GB VRAM 是微調 7B 模型的舒適區。
- 專業微調 (70B QLoRA):
- 雙卡 RTX 3090 / 4090 (48GB)
- 透過 NVLink 或軟體並行,這是個人/工作室能跑 70B 模型的最低門檻。
- 企業級 / 長文本 / 多人併發:
- RTX 6000 Ada (48GB):穩定性高,功耗比 4090 低,適合長時間訓練。
- A100 / H100 (80GB):工業標準,有錢就買這個。
- Mac 用戶 (推論專用):
- M2/M3/M4 Max/Ultra (64GB ~ 192GB)
- 統一記憶體 (Unified Memory) 是 Mac 的殺手鐧。雖然訓練慢,但能跑的模型大小是同價位 PC 跑不動的 (例如 120B 模型)。
結語
大型語言模型的門檻正在透過 QLoRA、GGUF 量化 與 Flash Attention 等技術迅速降低。以前需要百萬算力才能做的事,現在一張 RTX 4090 就能在家完成微調。
掌握上述的 VRAM 估算公式,能幫助你精準規劃硬體預算,避免「爆顯存」的慘劇。別被廠商唬弄了,先算算看你需要多少 B (Parameters) 和多少 Context (Length),再決定要買什麼卡!