Deep Learning 101

Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。

去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心

大語言模型 語音處理 自然語言處理 電腦視覺
Large Language Model Speech Processing Natural Language Processing, NLP Computer Vision

AIxCC 參賽隊伍關鍵技術與作法分析

美國 DARPA 透過 AIxCC 比賽,旨在將漏洞「找洞+修補」轉為 AI 驅動自動化,解放關鍵基礎設施 (醫療、供水、能源等) 免於技術債拖累。這延續 Cyber Grand Challenge (CGC) 和 CHESS 計畫,但本次成果全面開源,比賽結束當天 4/7 系統釋出,其餘數週內跟進,藉國家資源活絡資安生態。
🎵 不聽可惜的 NotebookLM Podcast @ Google 🎵

冠軍:亞特蘭大團隊 (Team-Atlanta/aixcc-afc-atlantis)

系統名稱: Team-Atlanta/aixcc-afc-atlantis,被稱為「PCB 智慧化代碼漏洞檢測平台」[2-5]。

關鍵技術

  • 強化學習 (Reinforcement Learning, RL): 核心採用 GRPO (Gradient-based Reinforcement Policy Optimization) 訓練框架,用於訓練 AI 代理以自主發現漏洞 [2, 4, 6-8]。
  • 課程學習 (Curriculum Learning): 實作複雜的課程學習訓練器,能根據學習進度自動調整訓練難度和資料集,提高學習效率和泛化能力 [2, 4, 6-8]。
  • 模糊測試 (Fuzzing): 結合模糊測試技術,能生成結構化測試輸入並監控程式行為,針對網路協議、檔案格式和 API 介面進行優化 [6, 7, 9, 10]。
  • 神經網路處理: 整合 Hugging Face Transformers 和 VLLM 加速引擎,優化長序列提示處理 [3, 7, 9-12]。

作法分析

  • 融合傳統與 AI: 冠軍團隊的金泰洙教授明確指出,其系統將「傳統威脅搜尋工具」與人工智慧結合,而非完全依賴 AI。他們認為過去十年使用的傳統軟體分析工具仍具巨大價值,AI 可以利用這些工具來導航原始碼 [13-17]。
  • 整合開源工具: 深度整合多個成熟的開源工具作為其訓練目標和分析組件,包括 Mongoose (網路庫)、Wireshark (網路協議分析)、GNU Binutils (含 GDB 調試器)、Mosquitto (MQTT 代理) 和 SleuthKit (數位鑑識工具) [2, 4, 18-21]。AI 代理透過 Python 或 Lua 腳本與這些工具互動,執行複雜的分析任務 [22-24]。
  • 模組化微服務架構: 系統分為訓練層、環境層、政策層和資料層,各層協同運作以實現強化學習和自動化漏洞發現 [5, 19, 25, 26]。
  • 多輪對話訓練模式: GRPO 演算法採用多輪對話模式,AI 代理根據觀察生成提示、執行環境行動並收集回報,不斷優化其漏洞發現策略 [6-8, 27]。

成效與限制

  • 競賽表現: 在漏洞發現、驗證、產生修補程式及漏洞與修補程式匹配方面表現最佳,獲得最高的提交準確率和高品質提交率 [16, 28]。
  • 效率: 能夠以傳統方法一小部分成本創建有價值的漏洞報告和補丁,平均每項競賽任務成本約 152 美元 [14, 15, 29, 30]。
  • 挑戰: 專案中整合的開源工具(如 Mosquitto 和 GDB)存在已知安全漏洞和性能限制,AI 模型訓練需大量 GPU 資源和 API 認證 [9, 11, 12, 31-36]。

Introduction

  • 分散式自動化漏洞發現系統,解決大規模程式碼安全分析的部署與管理問題。
  • 整合傳統工具 (如 GDB、Wireshark、Mosquitto MQTT、SleuthKit) 和 LLM,平均 45 分鐘提交補丁,成本約 152 美元/任務。
  • 部署複雜性高,但支援動態資源調整;在尋找和驗證漏洞、生成修補程式以最高的提交準確率和高品質提交率獲得冠軍。

Solution

  • 模糊測試 (Fuzzing) 技術、靜態分析與動態模糊測試結合、大型語言模型 輔助篩選與深度分析。
  • 具備模組化架構,能支援用戶程式、Linux 內核及 Java 專案的漏洞分析,將傳統威脅搜尋工具與 LLM 結合運用,實現了高效且穩定的自動化漏洞修復。
  • LLM 分三層:增強傳統工具、提供建議提示 和 全自主導航。

Value

  • 透過其分層架構模式與事件驅動設計,以及插件系統、工廠模式、觀察者模式等多種設計模式,確保系統的模組化、可擴展性及可維護性,間接提升了系統的魯棒性。
  • 採用的多階段安全分析工作流程,結合了原始碼靜態分析、動態模糊測試及行為模式識別,能夠有效發現並驗證漏洞,並生成針對性測試案例。這使其具備應用於真實關鍵基礎設施安全分析的潛力。
Reinforcement Learning Curriculum Learning Fuzzing GRPO Hugging Face VLLM Microservices

亞軍:Trail of Bits (AFC-Buttercup)

系統名稱: AFC-Buttercup,是一個端到端的 AI 驅動安全工具鏈 [37-41]。

關鍵技術

  • 多代理 AI 架構: 包含 RootCauseAgent, ContextRetrieverAgent, SWEAgent, QEAgent 和 ReflectionAgent 等專門 AI 代理 [37, 38, 40, 42-51]。
  • 大型語言模型 (LLM) 整合: 支援 GPT-4、Claude-3.5-Sonnet 等多個 LLM [38, 42, 45, 48]。使用 LiteLLM 作為代理層整合多種 LLM API [52-54]。
  • LangGraph 狀態機架構: 用於實現複雜的多代理協作流程,透過定義代理間的狀態轉換和互動來完成漏洞修補 [43, 44, 46, 49, 51, 52, 55, 56]。
  • 模糊測試與程式分析: 整合模糊測試基礎設施和程式結構分析,將程式索引到 JanusGraph 圖資料庫中 [42, 45, 54, 57-62]。

作法分析

  • 端到端自動化: 從漏洞發現、智能生成補丁到自動驗證的完整流程 [37, 38, 40, 45, 48]。
  • 智能反思機制: ReflectionAgent 能從失敗中學習並調整策略,分析補丁失敗原因、檢測循環並指導下一步行動 [38, 42-45, 47, 48, 51, 55, 63]。
  • 微服務與消息隊列: 採用微服務架構,透過 Redis 消息隊列實現服務間的鬆耦合通信,確保高可擴展性 [42, 44, 54, 56-62, 64]。
  • 狀態管理: 使用 PatcherAgentState 追蹤整個修補過程中的上下文、相關代碼片段、補丁嘗試歷史和執行信息 [51, 52, 56, 63, 65]。

成效與限制

  • 競賽表現: 獲得亞軍,系統具備「競賽級性能」[16, 28, 38, 42, 48]。
  • 效率: 能夠快速生成補丁和報告 [14, 15, 29, 30]。
  • 限制: ReflectionAgent 的循環檢測邏輯可能過於簡單,依賴硬編碼閾值,狀態記憶有限 [66-69]。高度依賴外部 LLM 服務,受 API 限制、成本和離線能力影響 [66-69]。CodeQuery 系統僅支援 C/C++ 和 Java,語言支持有限 [66-69]。

Introduction

  • 端到端的混合 AI 驅動自動化漏洞修補系統,結合傳統安全技術解決大規模漏洞發現和修補問題。
  • 整合模糊測試、靜態分析和 LiteLLM 網關,支持多 LLM。
  • 容器化微服務架構。

Solution

  • 採用多代理 AI 架構 (包含根因分析、軟體工程和反思代理等 7 個代理),透過 LangGraph 狀態機協同工作,並整合基於 OSS-Fuzz 的模糊測試、tree-sitter 靜態分析工具以及 SigNoz 遙測監控。
  • 此系統獨特的智能反思機制使其能從失敗中學習並調整策略,提升修補成功率。

Value

  • 展示 AI 從錯誤學習的潛力,提升整體修補準確率。
  • 系統已開源,適用於企業級漏洞管理。
  • 團隊強調計分機制的遊戲化元素,未來可擴展到更廣泛的軟體安全自動化,如支援多語言和分佈式部署。
Multi-agent LLM GPT-4 LangGraph Fuzzing JanusGraph Redis

季軍:Theori (Robo Duck CRS)

系統名稱: Robo Duck CRS (Cyber Reasoning System),用於自動分析、利用和修補軟體中的安全漏洞 [70-73]。

關鍵技術

  • 多代理協作架構: 包含 15+ 個專門化 AI 代理,如漏洞分析、程式碼修補、調試分析等代理 [70-72, 74, 75]。
  • LLM 整合與靈活配置: 支援多種語言模型配置,可根據成本和性能需求靈活調整,包括 Anthropic 和 OpenAI 模型 [70, 75-82]。
  • Python FastAPI 與 Rust Core: 使用 Python FastAPI 作為核心 REST API 服務器,並整合 Rust Core 模組處理高效能任務 [70, 75, 77, 83-85]。
  • 外部工具整合: 整合 Infer 靜態分析、LLVM 編譯器工具鏈和 Kaitai 解析器 [70, 77, 79, 83, 84, 86]。

作法分析

  • 任務驅動異步處理: 核心是基於多代理協作的工作流編排系統,採用任務驅動的異步處理架構 [87-89]。
  • 端到端自動化: 實現漏洞發現、漏洞利用 (生成 PoV) 和漏洞修補的自動化全流程 [70-73, 82]。
  • 多模式分析: 支援完整模式 (分析整個程式碼庫) 和增量模式 (僅分析程式碼變更) [70-72, 90, 91]。
  • 容器化微服務架構: 透過 Docker 容器化部署,支援本地開發和 Azure 雲端擴展 [70, 76, 84, 85]。

成效與限制

  • 競賽表現: 獲得季軍 [16, 28]。系統能夠以傳統方法一小部分成本創建有價值的漏洞報告和補丁 [14, 15, 29, 30]。
  • 高成本運行: 系統專為大預算競賽環境設計,運行成本極高(每小時可能超過 1,000 美元的 API 費用)[79, 92-95]。
  • 存檔狀態: 儲存庫僅用於存檔,不提供持續支持或更新 [79, 92-95]。
  • 已知限制: 存在多個 TODO 和未完成功能,如分析模組限制、項目格式支持不完整、漏洞分析器失敗等問題 [36, 92, 93]。

Introduction

  • 多代理協作架構,包含 15+ 專業化 AI 代理 (如漏洞分析、修補和調試代理);如「自動化的網絡安全專家團隊」般協同工作,各司其職。
  • 整合 Infer 靜態分析、模糊測試和 LLVM 工具鏈,支持 Anthropic 和 OpenAI LLM,但運行成本較高。

Solution

  • 自動分析、利用和修補軟體中的安全漏洞。
  • 運行成本較高 (每小時可能超過 $1,000 美元 API 費用),官方不提供持續支援或更新,但作為開源系統,可透過社區貢獻提供持續更新和支援。
  • 其核心優勢在於多代理協作架構,強調靜態分析導向方法,能生成修補而不需運行驗證,提升效率。

Value

  • 證明 LLM 能理解程式碼語義,生成正確修補而不需運行驗證。
  • 成本高,展示 AI 「自動化駭客」的潛力。
  • 公開代理人追蹤日誌有助研究,系統適用於高價值基礎設施的安全分析,並可擴展到企業級自動化安全測試。
Multi-agent LLM FastAPI Rust LLVM Docker Azure

其他參賽隊伍

  • Shellphish: 在 2016 年的 CGC 比賽中獲得第三名 (Mechanical Phish),參與了 AIxCC 的小型企業賽道 [96, 97]。CGC 啟發了模糊測試等自動化測試技術的興起 [98, 99]。
  • Zellic: 由前全球頂級 CTF 戰隊 Perfect Blue 成員創辦,專注於漏洞發現 [97]。
  • LACROSSE (Smart Information Flow Technologies, SIFT): 在人工智慧、軟體工程、控制理論、網路安全等領域有專業知識 [100]。
  • 42-b3yond-6ug (Net Shield LLC): 公開訊息顯示有多個美國高校研究人員參與 [100]。
  • VERSATIL (GrammaTech, Inc.): 康乃爾大學孵化的公司,其產品 Proteus 聲稱能自動發現並修復漏洞,深耕此領域三十餘年 [100]。
  • all_you_need_is_a_fuzzing_brain: 隊伍名稱暗示其可能專注於模糊測試技術 [28]。

這些小型企業賽道的隊伍也為競賽注入了創新活力,雖然具體技術細節在資料中未詳述,但其參與凸顯了 DARPA 鼓勵多樣化技術方案的策略 [96, 101, 102]。

Small Business Fuzzing CTF Innovation DARPA