Deep Learning 101

Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷，是為了普及與分享深度學習及AI領域的尖端知識，深信AI的價值在於解決真實世界的商業問題。

大語言模型	語音處理	自然語言處理	電腦視覺
Large Language Model	Speech Processing	Natural Language Processing, NLP	Computer Vision

AIxCC 參賽隊伍關鍵技術與作法分析

美國 DARPA 透過 AIxCC 比賽，旨在將漏洞「找洞＋修補」轉為 AI 驅動自動化，解放關鍵基礎設施 (醫療、供水、能源等) 免於技術債拖累。這延續 Cyber Grand Challenge (CGC) 和 CHESS 計畫，但本次成果全面開源，比賽結束當天 4/7 系統釋出，其餘數週內跟進，藉國家資源活絡資安生態。

🎵 不聽可惜的 NotebookLM Podcast @ Google 🎵

冠軍：亞特蘭大團隊 (Team-Atlanta/aixcc-afc-atlantis)

系統名稱： Team-Atlanta/aixcc-afc-atlantis，被稱為「PCB 智慧化代碼漏洞檢測平台」[2-5]。

關鍵技術

強化學習 (Reinforcement Learning, RL)： 核心採用 GRPO (Gradient-based Reinforcement Policy Optimization) 訓練框架，用於訓練 AI 代理以自主發現漏洞 [2, 4, 6-8]。
課程學習 (Curriculum Learning)： 實作複雜的課程學習訓練器，能根據學習進度自動調整訓練難度和資料集，提高學習效率和泛化能力 [2, 4, 6-8]。
模糊測試 (Fuzzing)： 結合模糊測試技術，能生成結構化測試輸入並監控程式行為，針對網路協議、檔案格式和 API 介面進行優化 [6, 7, 9, 10]。
神經網路處理： 整合 Hugging Face Transformers 和 VLLM 加速引擎，優化長序列提示處理 [3, 7, 9-12]。

作法分析

融合傳統與 AI： 冠軍團隊的金泰洙教授明確指出，其系統將「傳統威脅搜尋工具」與人工智慧結合，而非完全依賴 AI。他們認為過去十年使用的傳統軟體分析工具仍具巨大價值，AI 可以利用這些工具來導航原始碼 [13-17]。
整合開源工具： 深度整合多個成熟的開源工具作為其訓練目標和分析組件，包括 Mongoose (網路庫)、Wireshark (網路協議分析)、GNU Binutils (含 GDB 調試器)、Mosquitto (MQTT 代理) 和 SleuthKit (數位鑑識工具) [2, 4, 18-21]。AI 代理透過 Python 或 Lua 腳本與這些工具互動，執行複雜的分析任務 [22-24]。
模組化微服務架構： 系統分為訓練層、環境層、政策層和資料層，各層協同運作以實現強化學習和自動化漏洞發現 [5, 19, 25, 26]。
多輪對話訓練模式： GRPO 演算法採用多輪對話模式，AI 代理根據觀察生成提示、執行環境行動並收集回報，不斷優化其漏洞發現策略 [6-8, 27]。

成效與限制

競賽表現： 在漏洞發現、驗證、產生修補程式及漏洞與修補程式匹配方面表現最佳，獲得最高的提交準確率和高品質提交率 [16, 28]。
效率： 能夠以傳統方法一小部分成本創建有價值的漏洞報告和補丁，平均每項競賽任務成本約 152 美元 [14, 15, 29, 30]。
挑戰： 專案中整合的開源工具（如 Mosquitto 和 GDB）存在已知安全漏洞和性能限制，AI 模型訓練需大量 GPU 資源和 API 認證 [9, 11, 12, 31-36]。

Introduction

分散式自動化漏洞發現系統，解決大規模程式碼安全分析的部署與管理問題。
整合傳統工具 (如 GDB、Wireshark、Mosquitto MQTT、SleuthKit) 和 LLM，平均 45 分鐘提交補丁，成本約 152 美元/任務。
部署複雜性高，但支援動態資源調整；在尋找和驗證漏洞、生成修補程式以最高的提交準確率和高品質提交率獲得冠軍。

Solution

模糊測試 (Fuzzing) 技術、靜態分析與動態模糊測試結合、大型語言模型輔助篩選與深度分析。
具備模組化架構，能支援用戶程式、Linux 內核及 Java 專案的漏洞分析，將傳統威脅搜尋工具與 LLM 結合運用，實現了高效且穩定的自動化漏洞修復。
LLM 分三層：增強傳統工具、提供建議提示和全自主導航。

Value

透過其分層架構模式與事件驅動設計，以及插件系統、工廠模式、觀察者模式等多種設計模式，確保系統的模組化、可擴展性及可維護性，間接提升了系統的魯棒性。
採用的多階段安全分析工作流程，結合了原始碼靜態分析、動態模糊測試及行為模式識別，能夠有效發現並驗證漏洞，並生成針對性測試案例。這使其具備應用於真實關鍵基礎設施安全分析的潛力。

Reinforcement Learning Curriculum Learning Fuzzing GRPO Hugging Face VLLM Microservices

亞軍：Trail of Bits (AFC-Buttercup)

系統名稱： AFC-Buttercup，是一個端到端的 AI 驅動安全工具鏈 [37-41]。

關鍵技術

多代理 AI 架構： 包含 RootCauseAgent, ContextRetrieverAgent, SWEAgent, QEAgent 和 ReflectionAgent 等專門 AI 代理 [37, 38, 40, 42-51]。
大型語言模型 (LLM) 整合： 支援 GPT-4、Claude-3.5-Sonnet 等多個 LLM [38, 42, 45, 48]。使用 LiteLLM 作為代理層整合多種 LLM API [52-54]。
LangGraph 狀態機架構： 用於實現複雜的多代理協作流程，透過定義代理間的狀態轉換和互動來完成漏洞修補 [43, 44, 46, 49, 51, 52, 55, 56]。
模糊測試與程式分析： 整合模糊測試基礎設施和程式結構分析，將程式索引到 JanusGraph 圖資料庫中 [42, 45, 54, 57-62]。

作法分析

端到端自動化： 從漏洞發現、智能生成補丁到自動驗證的完整流程 [37, 38, 40, 45, 48]。
智能反思機制： ReflectionAgent 能從失敗中學習並調整策略，分析補丁失敗原因、檢測循環並指導下一步行動 [38, 42-45, 47, 48, 51, 55, 63]。
微服務與消息隊列： 採用微服務架構，透過 Redis 消息隊列實現服務間的鬆耦合通信，確保高可擴展性 [42, 44, 54, 56-62, 64]。
狀態管理： 使用 PatcherAgentState 追蹤整個修補過程中的上下文、相關代碼片段、補丁嘗試歷史和執行信息 [51, 52, 56, 63, 65]。

成效與限制

競賽表現： 獲得亞軍，系統具備「競賽級性能」[16, 28, 38, 42, 48]。
效率： 能夠快速生成補丁和報告 [14, 15, 29, 30]。
限制： ReflectionAgent 的循環檢測邏輯可能過於簡單，依賴硬編碼閾值，狀態記憶有限 [66-69]。高度依賴外部 LLM 服務，受 API 限制、成本和離線能力影響 [66-69]。CodeQuery 系統僅支援 C/C++ 和 Java，語言支持有限 [66-69]。

Introduction

端到端的混合 AI 驅動自動化漏洞修補系統，結合傳統安全技術解決大規模漏洞發現和修補問題。
整合模糊測試、靜態分析和 LiteLLM 網關，支持多 LLM。
容器化微服務架構。

Solution

採用多代理 AI 架構 (包含根因分析、軟體工程和反思代理等 7 個代理)，透過 LangGraph 狀態機協同工作，並整合基於 OSS-Fuzz 的模糊測試、tree-sitter 靜態分析工具以及 SigNoz 遙測監控。
此系統獨特的智能反思機制使其能從失敗中學習並調整策略，提升修補成功率。

Value

展示 AI 從錯誤學習的潛力，提升整體修補準確率。
系統已開源，適用於企業級漏洞管理。
團隊強調計分機制的遊戲化元素，未來可擴展到更廣泛的軟體安全自動化，如支援多語言和分佈式部署。

Multi-agent LLM GPT-4 LangGraph Fuzzing JanusGraph Redis

季軍：Theori (Robo Duck CRS)

系統名稱： Robo Duck CRS (Cyber Reasoning System)，用於自動分析、利用和修補軟體中的安全漏洞 [70-73]。

關鍵技術

多代理協作架構： 包含 15+ 個專門化 AI 代理，如漏洞分析、程式碼修補、調試分析等代理 [70-72, 74, 75]。
LLM 整合與靈活配置： 支援多種語言模型配置，可根據成本和性能需求靈活調整，包括 Anthropic 和 OpenAI 模型 [70, 75-82]。
Python FastAPI 與 Rust Core： 使用 Python FastAPI 作為核心 REST API 服務器，並整合 Rust Core 模組處理高效能任務 [70, 75, 77, 83-85]。
外部工具整合： 整合 Infer 靜態分析、LLVM 編譯器工具鏈和 Kaitai 解析器 [70, 77, 79, 83, 84, 86]。

作法分析

任務驅動異步處理： 核心是基於多代理協作的工作流編排系統，採用任務驅動的異步處理架構 [87-89]。
端到端自動化： 實現漏洞發現、漏洞利用 (生成 PoV) 和漏洞修補的自動化全流程 [70-73, 82]。
多模式分析： 支援完整模式 (分析整個程式碼庫) 和增量模式 (僅分析程式碼變更) [70-72, 90, 91]。
容器化微服務架構： 透過 Docker 容器化部署，支援本地開發和 Azure 雲端擴展 [70, 76, 84, 85]。

成效與限制

競賽表現： 獲得季軍 [16, 28]。系統能夠以傳統方法一小部分成本創建有價值的漏洞報告和補丁 [14, 15, 29, 30]。
高成本運行： 系統專為大預算競賽環境設計，運行成本極高（每小時可能超過 1,000 美元的 API 費用）[79, 92-95]。
存檔狀態： 儲存庫僅用於存檔，不提供持續支持或更新 [79, 92-95]。
已知限制： 存在多個 TODO 和未完成功能，如分析模組限制、項目格式支持不完整、漏洞分析器失敗等問題 [36, 92, 93]。

Introduction

多代理協作架構，包含 15+ 專業化 AI 代理 (如漏洞分析、修補和調試代理)；如「自動化的網絡安全專家團隊」般協同工作，各司其職。
整合 Infer 靜態分析、模糊測試和 LLVM 工具鏈，支持 Anthropic 和 OpenAI LLM，但運行成本較高。

Solution

自動分析、利用和修補軟體中的安全漏洞。
運行成本較高 (每小時可能超過 $1,000 美元 API 費用)，官方不提供持續支援或更新，但作為開源系統，可透過社區貢獻提供持續更新和支援。
其核心優勢在於多代理協作架構，強調靜態分析導向方法，能生成修補而不需運行驗證，提升效率。

Value

證明 LLM 能理解程式碼語義，生成正確修補而不需運行驗證。
成本高，展示 AI 「自動化駭客」的潛力。
公開代理人追蹤日誌有助研究，系統適用於高價值基礎設施的安全分析，並可擴展到企業級自動化安全測試。

Multi-agent LLM FastAPI Rust LLVM Docker Azure

其他參賽隊伍

Shellphish： 在 2016 年的 CGC 比賽中獲得第三名 (Mechanical Phish)，參與了 AIxCC 的小型企業賽道 [96, 97]。CGC 啟發了模糊測試等自動化測試技術的興起 [98, 99]。
Zellic： 由前全球頂級 CTF 戰隊 Perfect Blue 成員創辦，專注於漏洞發現 [97]。
LACROSSE (Smart Information Flow Technologies, SIFT)： 在人工智慧、軟體工程、控制理論、網路安全等領域有專業知識 [100]。
42-b3yond-6ug (Net Shield LLC)： 公開訊息顯示有多個美國高校研究人員參與 [100]。
VERSATIL (GrammaTech, Inc.)： 康乃爾大學孵化的公司，其產品 Proteus 聲稱能自動發現並修復漏洞，深耕此領域三十餘年 [100]。
all_you_need_is_a_fuzzing_brain： 隊伍名稱暗示其可能專注於模糊測試技術 [28]。

這些小型企業賽道的隊伍也為競賽注入了創新活力，雖然具體技術細節在資料中未詳述，但其參與凸顯了 DARPA 鼓勵多樣化技術方案的策略 [96, 101, 102]。

Small Business Fuzzing CTF Innovation DARPA