Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。

Deep Learning 101

去 YouTube 訂閱 | Facebook | 回 GitHub Pages 首頁 | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心




解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算

🚀 本文重點摘要 (TL;DR): 想要玩轉 LLM,顯存 (VRAM) 是最大瓶頸。

作者TonTon Huang Ph.D.
日期:2023年4月12日 (2026年1月2日更新)
原文網址https://blog.twman.org/2023/04/GPT.html

🔥 技術傳送門 (Tech Stack) 📚 必讀心法 (Must Read)
🤖 大語言模型 (LLM) 🏹 策略篇:企業入門策略
📝 自然語言處理 (NLP) 📊 評測篇:臺灣 LLM 分析
👁️ 電腦視覺 (CV) 🛠️ 實戰篇:打造高精準 RAG
🎤 語音處理 (Speech) 🕳️ 避坑篇:AI Agent 開發陷阱

相關文章參考


文章目錄


0. 前言:從 Deep Learning 101 到 Gemini 3.0

還記得那幾年辦 Deep Learning 101 的活動,每個月總有那麼一個週五,我會在台北 101 因為佈署直播環境跟收拾打掃,搞到清晨 3-4 點才騎 YouBike 回家。當時我們讀的是 Deep Learning Book,討論的是 CNN 和 RNN。

轉眼來到 2025/2026 年,Google 發布了 Gemini 2.5 Pro Preview (05-06) 與後續的 Gemini 3.0,世界變了:

以前我們想著如何整合直播影片做逐字稿,現在 Gemini 2.5/3.0 已經能直接看完影片並生成重點摘要 Markdown,甚至寫出對應的程式碼,真的是「打完收工」的感覺。


1. 核心概念:VRAM 都被誰吃掉了?

在估算 GPU 需求前,必須理解 VRAM 主要被以下五部分佔用:

  1. 模型權重 (Model Weights):模型的靜態大小 (參數)。
  2. KV Cache (推論時):為了加速生成,儲存上下文的 Key/Value 矩陣。Context Window 越長,這塊吃越兇。 (Gemini 3.0 時代的隱形殺手)
  3. 梯度 (Gradients) (訓練時):反向傳播時計算的數值。
  4. 優化器狀態 (Optimizer States) (訓練時):如 AdamW 優化器需要儲存動量 (Momentum) 與方差 (Variance),佔用極大。
  5. 激活值 (Activations) (訓練時):Forward pass 中產生的中間層輸出。

2. 參數與 VRAM 的基礎換算 (The "B" Concept)

常聽到的 XX B,這個 B 表示 10億 (Billion),即 $10^9$。 例如 7B 表示 70 億個可訓練參數。

參數通常以 float32 (FP32) 儲存,佔 4 bytes。 最簡單的速算公式

每 10 億 (1B) 參數,FP32 需 4GB VRAM;FP16 需 2GB;INT8 需 1GB。

精度格式 說明 每參數佔用 1B 模型需求 7B 模型需求 備註
FP32 單精度 4 Bytes 4 GB 28 GB 訓練標準格式
FP16 / BF16 半精度 2 Bytes 2 GB 14 GB 微調/推論主流
INT8 8-bit 量化 1 Byte 1 GB 7 GB 節省顯存
INT4 4-bit 量化 0.5 Byte 0.5 GB 3.5 GB 邊緣設備/QLoRA

3. 訓練與微調的 VRAM 需求詳解

這是大家最容易誤解的地方:「我有 24GB 顯卡,能不能訓練 7B 模型?」 答案通常是:不能全量訓練,但可以微調。

A. 全量訓練/微調 (Full Fine-Tuning) - 資源黑洞

訓練時,每個參數需要的 VRAM 遠超其權重本身。以 AdamW 優化器為例:

Total VRAM = Model Weights + KV Cache + Activation Buffer

🏛️ 經典案例分析:Llama 2 的訓練成本

這是我在 2023 年整理的數據,至今仍極具參考價值,讓你明白為什麼「自己從頭訓練」是夢想:

B. 高效微調 (PEFT - LoRA) - 個人的救星

LoRA 凍結了預訓練模型權重,只訓練極小的 Rank 矩陣。

C. 量化微調 (QLoRA) - 窮人的法拉利

目前的微調主流。將基礎模型量化為 4-bit (NF4),並在上面加 LoRA。


4. 推論 (Inference) 與 KV Cache

推論相對簡單,公式為: 訓練 VRAM (GB) ≈ 參數數量 (B) × 16

實戰推論需求表 (含 OS overhead)

模型規模 INT4 (GGUF/AWQ) INT8 FP16 推薦顯卡
Llama-3-8B ~6 GB ~9 GB ~16 GB RTX 3060 / 4060
Llama-3-70B ~40 GB ~72 GB ~140 GB 2x RTX 3090 / RTX 6000 Ada
Mixtral 8x7B ~26 GB ~48 GB ~90 GB RTX 6000 Ada / Mac Studio 64G

⚠️ 注意 KV Cache (上下文): 在 Gemini 3.0 時代,如果你要讀 100 頁 PDF 或一支 10 分鐘影片,KV Cache 可能會瞬間吃掉 10GB 以上的 VRAM。這就是為什麼現在顯存 「容量 (Capacity)」「速度 (Bandwidth)」 更重要。


5. 數據需求 (Data Scaling Laws)

訓練模型不只看 GPU,還看數據量。根據 Chinchilla Scaling Laws最佳 Token 數量 ≈ 20 × 模型參數量

微調 (SFT) 數據量: 微調不需要海量數據。通常 1,000 ~ 10,000 條高品質指令對 (Instruction Pairs) 就足以讓模型學會特定的說話風格。數據品質 > 數據數量


6. 實戰經驗:我的硬體採購與推薦

這是我個人的血淚採購史,見證了從深度學習萌芽到 LLM 爆發的過程:

2025/2026 硬體推薦建議

  1. 入門體驗 / INT4 推論
    • RTX 3060 12GB / 4060 Ti 16GB
    • 性價比之王,跑 7B/8B 量化模型綽綽有餘,甚至能跑 SDXL 繪圖。
  2. 進階推論 / LoRA 微調
    • RTX 3090 / 4090 (24GB)
    • 本地端神卡。二手 3090 是目前 CP 值最高的選擇。24GB VRAM 是微調 7B 模型的舒適區。
  3. 專業微調 (70B QLoRA)
    • 雙卡 RTX 3090 / 4090 (48GB)
    • 透過 NVLink 或軟體並行,這是個人/工作室能跑 70B 模型的最低門檻。
  4. 企業級 / 長文本 / 多人併發
    • RTX 6000 Ada (48GB):穩定性高,功耗比 4090 低,適合長時間訓練。
    • A100 / H100 (80GB):工業標準,有錢就買這個。
  5. Mac 用戶 (推論專用)
    • M2/M3/M4 Max/Ultra (64GB ~ 192GB)
    • 統一記憶體 (Unified Memory) 是 Mac 的殺手鐧。雖然訓練慢,但能跑的模型大小是同價位 PC 跑不動的 (例如 120B 模型)。

結語

大型語言模型的門檻正在透過 QLoRAGGUF 量化Flash Attention 等技術迅速降低。以前需要百萬算力才能做的事,現在一張 RTX 4090 就能在家完成微調。

掌握上述的 VRAM 估算公式,能幫助你精準規劃硬體預算,避免「爆顯存」的慘劇。別被廠商唬弄了,先算算看你需要多少 B (Parameters) 和多少 Context (Length),再決定要買什麼卡!