Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。

Deep Learning 101 TonTon H.-D. Huang Ph.D.

👁️ 電腦視覺 (CV)・必讀資源總整理

編者按: 本頁面彙整了電腦視覺領域的關鍵技術資源,涵蓋物件偵測、生成式 AI、影像分割以及文字識別(OCR)等最新論文與實作。

如果您想尋找更詳細的筆記,歡迎訪問 GitHub Repository: 👉 GitHub: Computer-Vision-Paper (歡迎 Star ⭐)


文章目錄


👁️ 2026 全球電腦視覺開源模型大全:YOLO 家族與擴散模型 (Diffusion)

1. Object Detection (目標偵測與 YOLO 生態系)

目標偵測的標準幾乎由 YOLO 家族定義。此區塊整理了目前最主流的 YOLO 版本與新世代開放詞彙(Open-Vocabulary)模型。特別標註開發源頭,方便針對地緣資安需求進行選型。

A. 國際大廠與台灣原生強權 (資安合規首選)

模型名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景 & 規格標籤
YOLOv11 🇺🇸 Ultralytics 全能視覺霸主。架構大翻新,不僅做目標偵測,還原生支援實例分割、姿態辨識與旋轉邊界框 (OBB)。 邊緣運算、多任務視覺 AI
[歐美開源] [多任務支援]
YOLOv9 🇹🇼 中研院 (王建堯博士團隊) 台灣之光! 導入 PGI (Programmable Gradient Information) 技術,解決深層網路資訊遺失問題,參數少但準確度極高。 資源受限的本地端設備、瑕疵檢測
[台灣開發] [高參數利用率]
YOLOv8 🇺🇸 Ultralytics 生態系最完善。雖然不是最新,但在社群中的教學、部署套件、ONNX/TensorRT 轉換資源最為豐富。 工業級穩定部署、初學者專案
[生態豐富] [極易部署]
OV-DINO 🇺🇸 國際學術界 開源工業開放詞彙目標檢測。不需要預先定義好類別,直接用自然語言提示 (Prompt) 就能找出畫面中對應的物體。 零樣本 (Zero-shot) 偵測、通用場景
[Open-Vocabulary] [前沿技術]

B. 亞洲/中國頂尖開源 (極致效能與端側特化)

模型名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景 & 規格標籤
YOLOv10 🇨🇳 清華大學 徹底消滅 NMS。首次在 YOLO 家族中移除後處理的非極大值抑制 (NMS),大幅降低推理延遲。 即時自動駕駛、無人機視覺
[無後處理] [超低延遲]
VisionReasoner 🇨🇳 開源社群 統一視覺感知與推理。利用強化學習技術,標榜效能可對標 Qwen2.5-VL 等大型視覺模型。 複雜場景理解、視覺問答
[強化學習] [大模型對標]
MCL 🇨🇳 AAAI 2025 遙感影像專家。專為空拍、衛星圖設計的半監督目標檢測框架 (Multi-clue Consistency Learning)。 農業監測、空拍圖分析
[遙感特化] [半監督學習]

2. Diffusion Model & Video Generation (影像生成與擴散模型)

影像生成已從單純的「文生圖 (Text-to-Image)」進化到「影片生成 (Video Generation)」與「精準控制」。本區塊區分歐美主流開源底座與亞洲大廠的高效能模型。

A. 國際主流底座與生態系 (設計與產能主力)

模型/工具名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景 & 規格標籤
Flux 系列 🇩🇪 Black Forest Labs Stable Diffusion 的真正繼承者。目前最強大的開源生圖模型,提供 Canny/Depth/Fill 等強大控制網開發工具。 專業 AI 繪圖、高質量商稿生成
[開源王者] [極致細節]
Sana 🇺🇸 NVIDIA / MIT 等 比 FLUX 快 100 倍! (ICLR 2025 Oral)。導入新一代架構,大幅降低生成高清圖片所需的算力與時間。 實時圖像生成、低算力設備
[極速生成] [NVIDIA加持]
ComfyUI Impact Pack 🌐 國際開源社群 最強臉部修復擴充。ComfyUI 生態系中必裝的節點包,專治 AI 生成的人物臉部崩壞或手部變形問題。 人像生成、細節修補工作流
[ComfyUI外掛] [必裝工具]
FramePack 🌐 國際開源社群 低顯存影片生成神器。能在 6G 顯存下跑 13B 模型,最高支援生成 1 分鐘的長影片。 個人創作者影片生成、低階顯卡
[6G顯存] [長影片]

B. 亞洲/中國開源大模型 (影片生成與實用工具)

模型/工具名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景 & 規格標籤
Wan-Video (萬相) 🇨🇳 阿里巴巴 全模態、全尺寸影片生成。阿里萬相大模型開源,具備極強的物理規律理解與高解析度影片生成能力。 影視特效預覽、廣告素材生成
[大廠開源] [全尺寸]
HunyuanVideo-I2V 🇨🇳 騰訊 高質量圖生影片。開源了圖生視訊模型以及專屬的 LoRA 訓練腳本,客製化彈性極高。 動態插畫、個人化風格影片
[支援LoRA] [圖生影片]
Phantom 🇨🇳 字節跳動 10G 顯存可用。支援生成 1280x720 高清影片的模型,硬體門檻相對友善。 社交媒體短影音、720P生成
[低硬體門檻] [字節跳動]
HivisionIDPhotos 🇨🇳 開源社群 智慧證件照生成神器。全自動完成精準摳圖、換背景、裁切任意尺寸,實用性極高。 攝影工作室、自動化影像處理
[超高實用性] [一鍵生成]
Index-AniSora 🇨🇳 Bilibili (B站) 二次元特化。B 站開源的 SOTA 動畫影片生成模型,對動漫風格的掌握度目前無人能出其右。 動畫製作輔助、二次元創作
[動漫風格] [SOTA模型]

AnomalyDetection

Anomaly Detection,異常檢測


ObjectDetection

Object Detection (目標偵測)


Segmentation

Segmentation (圖像分割)


OCR

Optical Character Recognition (光學文字識別) 針對物件或場景影像進行分析與偵測


Diffusion Model

Diffusion Model (擴散模型)


Digital Human

Digital Human (虛擬數字人)


Image Recognition

Image Recognition (圖像識別)


Document AI

Document Understanding & OCR (文檔理解與文字識別)

📚 LayoutLM Series (點擊展開) - **LayoutLM (2020)**: Pre-training of Text and Layout. [📄 arXiv:1912.13318](./LayoutLM.md) - **LayoutLMv2 (2021)**: Multi-modal Pre-training. [📄 arXiv:2012.14740](./LayoutLMv2.md) - **LayoutXLM (2021)**: Multilingual Visually-rich Document Understanding. [📄 arXiv:2104.08836](./LayoutXLM.md) - **LayoutLMv3 (2022)**: Pre-training with Unified Text and Image Masking. [📄 arXiv:2204.08387](./LayoutLMv3.md)

DeepFake Detection

DeepFake Detection (深度偽造偵測)