Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。

Deep Learning 101 TonTon H.-D. Huang Ph.D.

👁️ 電腦視覺 (CV)・必讀資源總整理

編者按: 本頁面彙整了電腦視覺領域的關鍵技術資源,涵蓋物件偵測、生成式 AI、影像分割以及文字識別(OCR)等最新論文與實作。

如果您想尋找更詳細的筆記,歡迎訪問 GitHub Repository: 👉 GitHub: Computer-Vision-Paper (歡迎 Star ⭐)


文章目錄


👁️ 2026 全球電腦視覺開源模型大全:YOLO 家族與擴散模型 (Diffusion)

1. Object Detection (目標偵測與 YOLO 生態系)

目標偵測的標準幾乎由 YOLO 家族定義。此區塊整理了目前最主流的 YOLO 版本與新世代開放詞彙(Open-Vocabulary)模型。特別標註開發源頭,方便針對地緣資安需求進行選型。

A. 國際大廠與台灣原生強權 (資安合規首選)

模型名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景 & 規格標籤
YOLOv11 🇺🇸 Ultralytics 全能視覺霸主。架構大翻新,不僅做目標偵測,還原生支援實例分割、姿態辨識與旋轉邊界框 (OBB)。 邊緣運算、多任務視覺 AI
[歐美開源] [多任務支援]
YOLOv9 🇹🇼 中研院 (王建堯博士團隊) 台灣之光! 導入 PGI (Programmable Gradient Information) 技術,解決深層網路資訊遺失問題,參數少但準確度極高。 資源受限的本地端設備、瑕疵檢測
[台灣開發] [高參數利用率]
YOLOv8 🇺🇸 Ultralytics 生態系最完善。雖然不是最新,但在社群中的教學、部署套件、ONNX/TensorRT 轉換資源最為豐富。 工業級穩定部署、初學者專案
[生態豐富] [極易部署]
OV-DINO 🇺🇸 國際學術界 開源工業開放詞彙目標檢測。不需要預先定義好類別,直接用自然語言提示 (Prompt) 就能找出畫面中對應的物體。 零樣本 (Zero-shot) 偵測、通用場景
[Open-Vocabulary] [前沿技術]

B. 亞洲/中國頂尖開源 (極致效能與端側特化)

模型名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景 & 規格標籤
YOLOv10 🇨🇳 清華大學 徹底消滅 NMS。首次在 YOLO 家族中移除後處理的非極大值抑制 (NMS),大幅降低推理延遲。 即時自動駕駛、無人機視覺
[無後處理] [超低延遲]
VisionReasoner 🇨🇳 開源社群 統一視覺感知與推理。利用強化學習技術,標榜效能可對標 Qwen2.5-VL 等大型視覺模型。 複雜場景理解、視覺問答
[強化學習] [大模型對標]
MCL 🇨🇳 AAAI 2025 遙感影像專家。專為空拍、衛星圖設計的半監督目標檢測框架 (Multi-clue Consistency Learning)。 農業監測、空拍圖分析
[遙感特化] [半監督學習]

2. Diffusion Model & Video Generation (影像生成與擴散模型)

影像生成已從單純的「文生圖 (Text-to-Image)」進化到「影片生成 (Video Generation)」與「精準控制」。本區塊區分歐美主流開源底座與亞洲大廠的高效能模型。

A. 國際主流底座與生態系 (設計與產能主力)

模型/工具名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景 & 規格標籤
Flux 系列 🇩🇪 Black Forest Labs Stable Diffusion 的真正繼承者。目前最強大的開源生圖模型,提供 Canny/Depth/Fill 等強大控制網開發工具。 專業 AI 繪圖、高質量商稿生成
[開源王者] [極致細節]
Sana 🇺🇸 NVIDIA / MIT 等 比 FLUX 快 100 倍! (ICLR 2025 Oral)。導入新一代架構,大幅降低生成高清圖片所需的算力與時間。 實時圖像生成、低算力設備
[極速生成] [NVIDIA加持]
ComfyUI Impact Pack 🌐 國際開源社群 最強臉部修復擴充。ComfyUI 生態系中必裝的節點包,專治 AI 生成的人物臉部崩壞或手部變形問題。 人像生成、細節修補工作流
[ComfyUI外掛] [必裝工具]
FramePack 🌐 國際開源社群 低顯存影片生成神器。能在 6G 顯存下跑 13B 模型,最高支援生成 1 分鐘的長影片。 個人創作者影片生成、低階顯卡
[6G顯存] [長影片]

B. 亞洲/中國開源大模型 (影片生成與實用工具)

模型/工具名稱 開發團隊 💡 核心優勢與突破點 🚀 推薦場景 & 規格標籤
Wan-Video (萬相) 🇨🇳 阿里巴巴 全模態、全尺寸影片生成。阿里萬相大模型開源,具備極強的物理規律理解與高解析度影片生成能力。 影視特效預覽、廣告素材生成
[大廠開源] [全尺寸]
HunyuanVideo-I2V 🇨🇳 騰訊 高質量圖生影片。開源了圖生視訊模型以及專屬的 LoRA 訓練腳本,客製化彈性極高。 動態插畫、個人化風格影片
[支援LoRA] [圖生影片]
Phantom 🇨🇳 字節跳動 10G 顯存可用。支援生成 1280x720 高清影片的模型,硬體門檻相對友善。 社交媒體短影音、720P生成
[低硬體門檻] [字節跳動]
HivisionIDPhotos 🇨🇳 開源社群 智慧證件照生成神器。全自動完成精準摳圖、換背景、裁切任意尺寸,實用性極高。 攝影工作室、自動化影像處理
[超高實用性] [一鍵生成]
Index-AniSora 🇨🇳 Bilibili (B站) 二次元特化。B 站開源的 SOTA 動畫影片生成模型,對動漫風格的掌握度目前無人能出其右。 動畫製作輔助、二次元創作
[動漫風格] [SOTA模型]

AnomalyDetection

🏭 Anomaly Detection (工業異常檢測與 AOI)

傳統 AOI (自動光學檢測) 高度依賴大量瑕疵樣本來訓練模型。但在真實工業場景中,收集數千張「特定種類」的瑕疵圖往往不切實際。近年來,異常檢測技術已轉向少樣本 (Few-shot)零樣本 (Zero-shot) 學習。以下為 2025-2026 年最具代表性的開源方案:

1. 結合 LLM 與多模態的零樣本檢測 (Zero-shot AD)

利用大語言模型或 CLIP 龐大的常識庫,在「沒看過瑕疵樣本」的情況下,直接透過文字描述或視覺特徵揪出異常。

2. 少樣本與無監督學習前沿突破 (Few-shot & Unsupervised)

解決現場只能取得「正常良品圖」或極少量瑕疵圖的痛點。

3. 架構融合與跨模態對齊 (Cross-Architecture Alignment)


ObjectDetection

🎯 Object Detection (目標偵測)

目標偵測不僅是畫出邊界框 (Bounding Box),目前的趨勢是結合語言模型與強化學習,實現「開放詞彙 (Open-Vocabulary)」與「極端場景特化」。


Segmentation

✂️ Segmentation (圖像分割)

自從 Meta 推出 Segment Anything (SAM) 以來,圖像分割已經進入「提示即分割 (Promptable Segmentation)」的時代。

1. SAM 家族與通用分割基石

2. 領域特化與多模態分割模型


OCR

📖 OCR (Optical Character Recognition 光學文字識別) 針對物件或場景影像進行分析與偵測

隨著大模型技術下放,OCR 已經從單純的「字元辨識」進化為「複雜版面理解 (Document Understanding)」。

👉 延伸閱讀:針對物件或場景影像進行分析與偵測 (觀念總結) 12個流行的開源免費OCR項目

1. 基於視覺大模型 (VLM) 的高精度 OCR

處理手寫字跡、模糊掃描檔與不規則表單的最佳解法。

2. PDF 解析與 RAG 資料清洗神器

將複雜排版的文件完美轉換為適合大語言模型閱讀的 Markdown 格式。

3. 輕量化與傳統開源 OCR 生態


Diffusion Model

🎨 Diffusion Model (擴散模型與影像生成)

擴散模型已經從單純的「文字生圖」,進化到「長影片生成」、「精準控制」與「一體化生成」。以下精選 2025-2026 年最具影響力的開源專案:

1. 影片生成大模型 (Video Generation)

突破硬體極限與時長限制,帶來電影級的視覺理解。

2. 極速生成與大一統架構 (Speed & Unified Models)

3. ComfyUI 實用工具與精準控制

專注於解決 AI 生成過程中的臉部崩壞、手部變形與硬體限制。


Digital Human

🧑‍💻 Digital Human (虛擬數字人)

虛擬數字人技術結合了語音驅動 (Audio-Driven)、唇形對齊 (Lip-Sync) 與 3D 渲染,是目前 AI 客服與虛擬直播的技術核心。

1. 語音驅動與動態頭像生成 (Audio-Driven Avatar)

2. 完整互動系統與 3D 建模 (Interactive System & 3D)


🖼️ Image Recognition (基礎圖像識別)

在追求酷炫的生成式 AI 之前,理解圖像分類的底層架構仍然是電腦視覺的必修課。以下是從 CNN 時代走向 Transformer 時代的三大奠基之作:


Document AI

📄 Document AI (文檔理解與複雜排版解析)

傳統 OCR 只能單純提取文字,但真實世界的文檔(如財報、發票、學術論文)充滿了複雜的表格與版面設計。本區塊收錄了從「版面分析」到「端對端解析」的核心基礎模型:

1. 端對端與無 OCR 解析框架 (End-to-End & OCR-Free)

跳過傳統的文字檢測與辨識步驟,直接將圖片轉化為結構化文本。

2. 版面分析與視覺預訓練模型 (Layout Analysis & Pre-training)

📚 經典 LayoutLM 家族系列 (點擊展開) 由微軟亞研院 (MSRA) 提出,開啟了圖文多模態文檔理解的新紀元。

3. 場景文字辨識 (Scene Text Recognition)

專門對付自然場景中形狀扭曲、光影複雜的文字辨識。


DeepFake Detection

🕵️‍♂️ DeepFake Detection (深度偽造與換臉偵測)

隨著生成式 AI (AIGC) 的爆發,如何防範惡意的 AI 換臉與造假成為資安重頭戲。以下收錄 CVPR 2021 針對深度偽造偵測的三大經典防禦架構: