Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。
🎨 Diffusion Model 擴散模型完全解析:從原理到實作
生成式 AI 不僅在文字領域發光發熱,基於「擴散模型 (Diffusion Model)」的圖像與影片生成技術更是迎來了寒武紀大爆發。本頁面為你統整當今最強大的開源繪圖與影音生成生態系,帶你快速掌握各項工具的實作重點。
作者:TonTon Huang Ph.D.
原文出處:Diffusion Model 完全解析:從原理、應用到實作 (發布於 2024/11/01)
🖼️ 基礎核心與工作流工具
1. 擴散模型與 Stable Diffusion (SD)
擴散模型是透過「不斷加入雜訊再逐步還原」的數學過程來生成極高畫質的圖像。以 Stable Diffusion 為首的開源技術,目前已完美支援以下核心功能:
- Text-to-Image (文生圖):透過文字提示詞無中生有。
- Image-to-Image (圖生圖):基於參考圖進行風格轉換或細節重繪。
- Inpainting & Outpainting:局部修補與畫面無限擴展。
2. ComfyUI 模組化工作流
目前最強大的 AI 圖像生成圖形介面。捨棄了傳統的按鈕式面板,改用「節點連線 (Node-based)」的方式。
- 優勢:極度自由、節省顯示卡 VRAM,並能將複雜的「多模態生成邏輯(結合文字、圖像、影片)」封裝成可分享的 Workflow。
🔥 新世代霸主:FLUX.1 生態系
由 Black Forest Labs 推出的 FLUX 模型,在畫面細節與文字理解能力上大幅超越了前代開源模型。
版本分支:
- FLUX.1 [pro]:商業等級閉源模型,性能最強。
- FLUX.1 [dev]:開源的引導蒸餾版本,適合非商業應用的深度開發與研究。
- FLUX.1 [schnell]:極速版,專為本地端低配備硬體與個人快速測試設計。
專屬 Control 輔助工具:
FLUX.1 配備了強大的可控生成工具集:
- Fill:結合遮罩進行精準的局部圖像編輯。
- Depth:提取深度圖,鎖定畫面的 3D 空間結構。
- Canny:提取線條邊緣,強制保留物體的幾何輪廓。
- Redux:無需額外訓練,直接混合重組輸入的圖像風格與文字。
🎬 邁向動態:最新開源影片生成模型 (Video Generation)
隨著 DiT (Diffusion Transformer) 架構的成熟,開源社群的影片生成技術已達到電影級別的畫質與流暢度。
1. 阿里雲 Wan2.1 (通義萬象)
- 特點:採用 VAE + DiT 架構,大幅強化時間軸連續性與物理場景理解。支援 1080p 高清解析度。
- 功能:涵蓋文生視訊 (T2V)、圖生視訊 (I2V)、影片編輯,甚至能同步生成動態字幕與多國語音配音。曾在 2025 年初登頂 VBench 榜首。
2. 騰訊 HunyuanVideo-I2V (混元)
- 特點:由文生影片擴展至「圖生影片」的強大模型。
- 部署優勢:官方直接提供 LoRA 訓練程式碼(適用於客製化動態特效),且已完美整合進 ComfyUI 環境中,降低本地部署門檻。
3. 階躍星辰 Step-Video-TI2V
- 特點:高動態、高品質的圖生視訊模型。
- 硬體挑戰:極度吃重顯示卡記憶體 (VRAM),強烈建議使用 32GB 以上 的高階 GPU。如果顯存不足,實作時需調整系統層級的 Swap (虛擬記憶體) 設定以防崩潰。
💡 結語:從靜態的 FLUX 到動態的 Wan2.1 與 HunyuanVideo,開源 AI 的進化速度前所未見。掌握 ComfyUI 的節點邏輯並合理配置硬體資源,你也能在本地端打造出自己的好萊塢級製片廠!