Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。

Deep Learning 101

去 YouTube 訂閱 | Facebook | 回 GitHub Pages 首頁 | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心


大語言模型 語音處理 自然語言處理 電腦視覺
Large Language Model Speech Processing Natural Language Processing, NLP Computer Vision

用 AI 懂 AI

AI 技術 體驗/分享

手把手帶你一起踩 AI 坑https://www.twman.org/AI


手把手AI 技術深度實戰教學/開源/試用

AI x Cyber-Security

作者TonTon Huang Ph.D.


大型語言模型與Agent安全工具比較 ~ 2025年08月08日

工具/資源名稱 開發者/來源 核心本質 主要用途/功能 運作方式 適用情境
agentic-radar splx-ai 綜合性安全套件
(靜態+動態)
分析代理 (Agent) 的工作流程、組件,並進行動態測試與提示詞強化。 靜態掃描原始碼以繪製工作流程圖;動態測試則實際運行代理以測試其行為。 開發早期進行架構審查,並在同一個工具中完成初步的動態測試。
agentic_security msoedov 動態模糊測試工具
(Dynamic Fuzzer)
攻擊運作中的 LLM API,以發現提示詞注入等運行時漏洞。 向指定的 HTTP 端點發送大量預設的攻擊提示詞。 對任何 LLM API 進行快速、靈活的黑箱滲透測試。
garak NVIDIA 自動化紅隊演練工具
(Automated Red Teaming)
系統性地、全面地掃描 LLM 的各種漏洞(偏見、洩漏、注入等)。 使用「探針 (Probes)」發動攻擊,並用「偵測器 (Detectors)」評估結果。 模型部署前的全面安全評估、基準測試、以及定期的安全審計。
llm-guard protectai 防禦性函式庫/防火牆
(Defensive Firewall)
作為應用程式的安全層,過濾和淨化進出 LLM 的數據。 使用可插拔的「掃描器 (Scanners)」管道來檢查和修改輸入/輸出內容(如匿名化個資)。 在應用程式程式碼中建立即時的、可客製化的執行時期安全防護。
ShieldGemma 2 Google DeepMind 專家級安全分類模型
(Specialist Safety Model)
判斷文字內容是否違反多項安全策略(如仇恨言論、騷擾等)。 一個經過微調的 LLM,對輸入文字進行深度語意理解並輸出安全標籤。 作為一個強大的分類器,對需要精準語意判斷的內容進行安全審核。
JailBreakV-28k Hugging Face 資料集 (Dataset) 提供大量用於測試和研究 LLM 越獄漏洞的「提示詞-圖片-模型-回應」數據。 一個包含 28,000+ 筆紀錄的資料庫,用於訓練和評估安全模型。 學術研究、訓練自訂的攻擊檢測模型、或評估模型的安全性。

這是重新整理和深度分析後的報告,包含了攻擊實戰繞過技術防禦框架安全模型測試方法五個維度。


大型語言模型(LLM)安全攻防策略深度解析(整合版)

目錄


一、 核心威脅:提示註入與滲透風險

隨著 LLM 從單純的聊天機器人演變為集成業務係統的「AI 代理」,其安全威脅也隨之升級。提示詞註入攻擊(Prompt Injection)被公認為首要威脅(OWASP LLM Top 10)。

1.1 威脅本質:間接提示註入 (Indirect Prompt Injection)

傳統攻擊是「直接註入」,而「間接註入」是更隱蔽、更危險的模式:

1.2 五大核心風險類別

LLM 的漏洞可被歸納為五大核心風險:

  1. 人工智慧倫理風險:涉及偏見、歧視、毒性內容等。
  2. 非法活動風險:模型被誘導用於討論或促進暴力、網絡犯罪等。
  3. 品牌形象風險:產生錯誤信息或不當內容,損害組織聲譽。
  4. 數據隱私風險:意外洩露訓練數據中的敏感信息(PII)。
  5. 未授權訪問風險:模型輸出被用於觸發後端係統漏洞,如 SQL 註入、CSRF 等。

二、 深度攻擊手法與越獄技術(攻擊方視角)

滲透測試人員(安服測試人員)在評估 AI 係統時,會重點關註以下攻擊手法:

2.1 提示詞洩露 (Prompt Leaking)

2.2 六大越獄攻擊 (Jailbreak)

2.3 不安全輸出 (Insecure Output)

2.4 拒絕服務攻擊 (Denial of Service)

2.5 框架級漏洞 (Framework Vulnerabilities)

三、 攻擊增強與繞過技術(Payload 實例)

為了繞過日益嚴格的防禦機製,攻擊者會組合使用多種增強技術。

3.1 編碼與字符層繞過

3.2 策略層增強

四、 縱深防禦框架與前沿技術(防禦方視角)

麵對複雜的攻擊,業界提出了兩種主流的防禦思路:一是構建「防禦體係」,二是訓練「安全模型」。

4.1 微軟三層縱深防禦體係

微軟強調,AI 安全的範式已從「過濾惡意輸入」轉嚮「控製模型行為」。其框架包含三層:

4.2 Meta SecAlign++ 防禦方法

Meta 的思路是從根本上訓練一個「天生安全」的模型,其核心是教會 LLM 嚴格區分「指令」(prompt) 和「數據」(data)。

五、 AI 紅隊測試與自動化工具(驗證方視角)

建立了防禦後,如何驗證其有效性?這就需要「AI 紅隊測試」。

5.1 什麼是 LLM 紅隊測試?

5.2 自動化測試框架:PyRIT 與 DeepTeam

手動測試效率低下,自動化框架應運而生。

六、 結論與未來趨勢

綜合所有文章,我們可以得出以下關鍵結論:

  1. 防禦範式轉變:AI 安全的核心已從「過濾惡意輸入」轉嚮「控製模型行為」。微軟的「聚光燈」技術和 Meta 的「SecAlign++」都是這一轉變的體現,核心都是在模型內部建立「指令」與「數據」的語義沙箱。
  2. AI vs AI 攻防:未來的安全對抗將是「自動化」的。攻擊者使用 AI 生成攻擊腳本,防禦者則使用 PyRIT 這樣的 AI 工具進行自動化紅隊測試,雙方進入動態的軍備競賽。
  3. 開源推動安全:Meta-SecAlign-70B 的開源,證明了開源模型在安全性上完全有能力超越閉源方案,這將極大推動社區協作,共同叠代 AI 安全防護。
  4. 安全成為生命週期(AI SDL):紅隊測試(如 DeepTeam)和安全框架(如微軟三層防護)必須被嵌入到 AI 的開發生命週期(SDL)中,從設計階段就考慮安全,而不是事後補救。