Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷，是為了普及與分享深度學習及AI領域的尖端知識，深信AI的價值在於解決真實世界的商業問題。

大語言模型	語音處理	自然語言處理	電腦視覺
Large Language Model	Speech Processing	Natural Language Processing, NLP	Computer Vision

用 AI 懂 AI

AI 技術體驗/分享

手把手帶你一起踩 AI 坑：https://www.twman.org/AI

手把手AI 技術深度實戰教學/開源/試用

作者：TonTon Huang Ph.D.
Blog：2025年09月30日，vLLM、Ollama、SGLang、 LLaMA.cpp等四大主流熱門LLM服務框架

vLLM、Ollama、SGLang、 LLaMA.cpp

深度解析四大主流熱門LLM服務框架

生產環境高吞吐與低延遲選 vLLM；本地快速上手與多模型管理選 Ollama；複雜代理/結構化工作流選 SGLang；極致輕量與可攜性選 LLaMA.cpp Server。以下從架構原理、性能優化、特性矩陣、部署與運維到選型決策提供完整分析。

框架總覽

Ollama
- 定位：本地多模型管理與即用即啟的服務層，重視易用性與跨平台。
- 基礎：以 llama.cpp/ggml/gguf 生態為底，支援 CPU、Apple Silicon GPU，也可用 CUDA。
- 強項：Modelfile 自定義、模型管理、OpenAI 兼容 API、單機體驗流暢、離線與隱私。
vLLM
- 定位：GPU 伺服器上的高吞吐 LLM 推理引擎。
- 基礎：PyTorch + 自研高效 kernel，OpenAI 兼容 API，企業級佈署與擴展。
- 強項：PagedAttention、連續批次、多 GPU 擴展、LoRA 多適配、JSON/函式工具輸出支持。
SGLang
- 定位：面向複雜、多步驟、可結構化的 LLM 程式化工作流引擎。
- 基礎：LMSYS 團隊，提供前端 DSL 與高效後端（RadixAttention 等），深度整合 PyTorch。
- 強項：跨請求 KV 重用、推測解碼、張量並行、結構化/約束輸出與多輪協調。
LLaMA.cpp Server
- 定位：極致輕量、單一二進位、可在任何硬體上跑的本地服務。
- 基礎：純 C/C++ 高效實作，GGUF 量化格式；支援 CPU、CUDA、Apple Metal，甚至 WASM。
- 強項：超輕依賴、安裝簡單、離線可用、Grammar/GBNF 約束、嵌入生成。

核心機制與性能優化

記憶體/快取
- vLLM：PagedAttention 將 KV Cache 做成頁式虛擬記憶體，減少碎片與過度配置，顯著提升 VRAM 利用率與吞吐。
- SGLang：RadixAttention 以字首樹共享 KV，適合多分支/多步驟代理流程的跨請求快取復用；並結合連續批次、零開銷排程。
- Ollama / LLaMA.cpp：以量化縮小權重與 KV 記憶體需求，在 CPU/Metal 上仍可運作，適合長上下文但吞吐較低。
計算與排程
- vLLM：連續批次動態插入新請求，保持 GPU 忙碌；支援張量/流水線並行與多 GPU。
- SGLang：推測解碼、Chunked Prefill、張量並行；在多步驟/多路徑程式下維持高效。
- LLaMA.cpp：C++/SIMD/Metal/CUDA 核心優化；新增推測解碼、Embedding、語法約束等功能。
量化與精度
- Ollama/LLaMA.cpp：主打 4/5/8-bit（GGUF），顯著降低記憶體占用；精度受模型與量化方案影響。
- vLLM/SGLang：支援 FP16/BF16，並逐步支援 INT4/FP8/各類 GPTQ/AWQ 等；更適合高端 GPU 場景。
結構化/工具調用
- SGLang：DSL 驅動的結構化/約束生成、一致性控制與多步協調最強。
- vLLM：支援 OpenAI 風格 JSON 模式/函式（tool）呼叫輸出協議，便於應用遷移。
- LLaMA.cpp：GBNF/grammar 約束輸出成熟，對邊緣/離線結構化任務很實用。
- Ollama：Modelfile 可預置系統提示與參數，便捷但對多步編排不著力。

四大框架特性矩陣

性能與資源配置要點

GPU 記憶體預估
- 權重占用約為參數量乘每參數位元組；KV Cache 隨序列長與批次線性增長，長上下文場景請預留富餘 VRAM。
- 量化可大幅降低權重體積，但 KV Cache 多以高精度儲存，仍是長對話瓶頸。
典型觀測
- vLLM：在並發高且上下文中長時維持高 QPS 與低 P99 延遲，TTFT/TPOT 表現佳。
- SGLang：多步/分支代理吞吐顯著優於通用引擎，純生成任務亦具競爭力。
- Ollama/LLaMA.cpp：單機體驗流暢、tokens/s 對中小模型尚可；高併發不如 GPU 引擎。
取捨
- 量化提升吞吐與可部署性，但可能犧牲部分精度與對齊品質。
- 推測解碼在輸出熵較低時收益更大；結構化/強約束輸出會降低純生成吞吐。

部署與運維實務

權重與格式
- vLLM/SGLang：偏好 HF safetensors；若來源為 GGUF 需回轉換或改用對應模型。
- Ollama/LLaMA.cpp：偏好 GGUF；可用轉換工具從 HF 權重導出。
擴展與高可用
- vLLM/SGLang：建議以容器化 + Kubernetes 水平擴展，前置一層 OpenAI 兼容閘道；支援多卡與模型分片。
- 模型預熱與熱切換：規劃模型快取與權重上傳帶寬，降低載入抖動。
可觀測與治理
- 指標：TTFT、TPOT、TPOT/P50/P99、QPS、OOM 次數、上下文長度分佈、Cost/token。
- 控流：速率限制、輸入長度上限、並發窗口、最大批次與排程策略。
- 安全：日誌脫敏、模型切換權限、多租戶隔離、提示註入防護在應用層實作。
成本優化
- 長上下文與高併發混部：使用多池化（短上下文池/長上下文池），或使用專用草稿模型做推測解碼。
- LoRA 多適配：vLLM/SGLang 可共用基座模型，減少多版本常駐成本。

常見情境與建議

個人/小型團隊、離線與隱私優先
- 選 Ollama 或 LLaMA.cpp Server。以 4/5-bit 量化跑 7B/13B，VS Code/本地助手最省事。
企業級 API、生產高併發
- 選 vLLM。規劃多卡與連續批次，設定 KV 頁面大小、Pin Memory、FlashAttention 後端，並做 P99 目標導向的壓測調參。
代理/工具編排、結構化輸出
- 選 SGLang。用 DSL 管控格式、步驟與外部工具呼叫；RadixAttention 降低多分支成本。
邊緣/非 NVIDIA、極低依賴
- 選 LLaMA.cpp Server。單一二進位、Metal/WASM 便利；GBNF 輕鬆產出結構化資料。

基準測試方法（實務可比性）

工作負載
- 純生成（短/中/長輸入）、長上下文（≥32k）、代理式多步/分支、JSON/GBNF 約束輸出。
指標
- TTFT、TPOT、整體 tokens/s、QPS@P99、VRAM 佔用、OOM 次數、成本/千 tokens。
程式化測試
- 以 OpenAI 兼容 API 發壓，控制溫度、top-p、一致的停止詞與格式要求；同一模型/同一權重/同一精度比對。

與其他選項的關係

Text Generation Inference（TGI）：生產級 API 伺服器，管理功能齊全，吞吐不及 vLLM 的場景逐步被替代，但在企業治理與 Triton 集成上仍具價值。
TensorRT-LLM/LMDeploy：更偏底層或針對 NVIDIA 最優化的路徑，極致延遲/吞吐可期，但開發/維運門檻較高。
MLC LLM：強調跨裝置/瀏覽器部署與可攜性，與 LLaMA.cpp 取向相近。

選型決策建議（實操版）

你需要 GPU 上的生產級高吞吐與低延遲 → vLLM（首選），若工作流複雜或需嚴格結構化 → SGLang。
你需要最快落地的本地體驗與模型管理 → Ollama；若硬體極受限或需極致可攜 → LLaMA.cpp Server。
長上下文/多租戶/多 LoRA → vLLM 或 SGLang；JSON/GBNF 嚴格格式 → SGLang 或 LLaMA.cpp。
非 NVIDIA 或離線邊緣 → LLaMA.cpp 或 Ollama；Apple Silicon → Ollama/LLaMA.cpp（Metal）。

你計劃服務的硬體環境（GPU 型號/數量或僅 CPU）、目標上下文長度、P99 延遲與 QPS 指標、以及是否需要代理式多步工作流或嚴格 JSON/語法輸出？告訴我後我可給出更精準的架構與參數建議。