Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

Logo TonTon
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,特別感謝時任職公司台灣雪豹科技無償贊助場地及茶水點心。
這裡不僅匯集了我們歷年的 Meetup 紀錄,更是 AI 演算法與開源資源匯整中心。
👉 查看 Deep Learning 101 歷年所有實體 Meetup 影像與逐字稿 📺

🔥 嚴選 (必讀)
🛠️ 工具、論文、趨勢、科普、踩坑
🛠️ 實戰工具 & Agent 框架
📝 論文快遞
📝 產業趨勢
🚧 踩坑指南 & 科普入門
🛡️ AIxCC 競賽

作者TonTon Huang Ph.D.


⚔️ 大型語言模型 (LLM) 安全攻防策略深度解析 (整合版)

編者按: 隨著 LLM 從單純的對話機器人演進為具備自主執行能力的 Agent,安全威脅已從單一的內容風險,升級為系統級的滲透危機。本篇為「攻擊與紅隊視角」的實戰指南,彙整最新的越獄技術 (Jailbreak)、繞過手法 (Bypass)、自動化紅隊工具,以及業界頂尖的防禦框架。

文章目錄


🗺️ 攻防工具總覽:LLM 與 Agent 測試套件

知己知彼,百戰不殆。在進行安全攻防前,以下彙整 2026 年度最具代表性的紅隊測試(矛)與防禦套件(盾),幫助您快速選型:

模型/工具名稱 開發團隊/生態 💡 核心優勢與解決痛點 🚀 推薦適用場景 & 規格標籤
agentic-radar splx-ai 綜合性安全套件 (靜態+動態)。靜態掃描原始碼繪製工作流,並動態測試運行行為。 開發早期架構審查、Agent 測試
[綜合掃描] [流程可視化]
agentic_security msoedov 動態模糊測試 (Dynamic Fuzzer)。向 LLM API 端點發送大量攻擊提示詞,快速發現注入漏洞。 API 黑箱滲透、快速壓力測試
[模糊測試] [動態攻擊]
garak NVIDIA 自動化紅隊演練掃描器。全面掃描偏見、洩漏與注入等漏洞,具備探針與偵測器機制。 部署前全面安全評估、基準審計
[紅隊演練] [系統性掃描]
llm-guard protectai 防禦性函式庫/防火牆。作為應用層安全層,透過可插拔掃描器即時淨化進出數據。 執行期即時防護、個資去識別化
[應用層防禦] [資料過濾]
ShieldGemma 2 Google DeepMind 專家級安全分類模型。經微調專門判斷文字是否違反安全策略,深度語意理解。 內容安全審核、精準語意過濾
[分類器] [LLM-as-a-Judge]
JailBreakV-28k Hugging Face 專屬越獄資料集。提供 28,000+ 筆用於研究 LLM 越獄的「提示詞-圖片-模型-回應」數據。 學術研究、自訓練安全防禦模型
[安全資料集] [多模態越獄]
MSB (MCP Security Bench) [2026-04] BUPT / UCSB [針對 MCP 標準的精準打擊]。鎖定模型上下文協定,利用惡意工具描述進行提示注入,成功率峰值達 75.83%。解決了傳統函數呼叫測試無法覆蓋「工具鏈式轉移」與「檢索注入」的缺口。 [Agent 紅隊滲透測試]、[MCP 協定漏洞挖掘]
[12種攻擊向量] [越權參數攻擊]

🎯 一、 核心威脅:提示詞注入與滲透風險

隨著 LLM 從單純的聊天機器人演變為集成業務系統的「AI 代理」,其安全威脅也隨之升級。提示詞注入攻擊(Prompt Injection)被公認為首要威脅(OWASP LLM Top 10)。

1.1 威脅本質:間接提示詞注入 (Indirect Prompt Injection)

傳統攻擊是「直接注入」,而「間接注入」是更隱蔽、更危險的模式:

1.2 五大核心風險類別

LLM 的漏洞可被歸納為五大核心風險:

  1. 人工智慧倫理風險:涉及偏見、歧視、毒性內容等。
  2. 非法活動風險:模型被誘導用於討論或促進暴力、網絡犯罪等。
  3. 品牌形象風險:產生錯誤信息或不當內容,損害組織聲譽。
  4. 數據隱私風險:意外洩露訓練數據中的敏感信息(PII)。
  5. 未授權訪問風險:模型輸出被用於觸發後端系統漏洞,如 SQL 注入、CSRF 等。

🔓 二、 深度攻擊手法與越獄技術 (攻擊方視角)

滲透測試人員(安服測試人員)在評估 AI 系統時,會重點關注以下攻擊手法:

2.1 提示詞洩露 (Prompt Leaking)

2.2 六大越獄攻擊 (Jailbreak)

2.3 前沿越獄技術 (Advanced Jailbreak)

2.3 不安全輸出 (Insecure Output)

2.4 拒絕服務攻擊 (Denial of Service)

2.5 框架級漏洞 (Framework Vulnerabilities)


🥷 三、 攻擊增強與繞過技術 (Payload 實例)

為了繞過日益嚴格的防禦機制,攻擊者會組合使用多種增強技術。

3.1 編碼與字符層繞過

3.2 策略層增強


🛡️ 四、 縱深防禦框架與前沿技術 (防禦方視角)

面對複雜的攻擊,業界提出了兩種主流的防禦思路:一是構建「防禦體系」,二是訓練「安全模型」。

4.1 微軟三層縱深防禦體系

微軟強調,AI 安全的範式已從「過濾惡意輸入」轉向「控制模型行為」。其框架包含三層:

4.2 Meta SecAlign++ 防禦方法

Meta 的思路是從根本上訓練一個「天生安全」的模型,其核心是教會 LLM 嚴格區分「指令」(prompt) 和「數據」(data)。


🤖 五、 AI 紅隊測試與自動化工具 (驗證方視角)

建立了防禦後,如何驗證其有效性?這就需要「AI 紅隊測試」。自動化框架應運而生,解決手動測試效率低下的問題:


綜合所有文章,我們可以得出以下關鍵結論:

  1. 防禦範式轉變:AI 安全的核心已從「過濾惡意輸入」轉向「控制模型行為」。微軟的「聚光燈」技術和 Meta 的「SecAlign++」都是這一轉變的體現,核心都是在模型內部建立「指令」與「數據」的語義沙箱。
  2. AI vs AI 攻防:未來的安全對抗將是「自動化」的。攻擊者使用 AI 生成攻擊腳本,防禦者則使用 PyRIT 這樣的 AI 工具進行自動化紅隊測試,雙方進入動態的軍備競賽。
  3. 開源推動安全:Meta-SecAlign-70B 的開源,證明了開源模型在安全性上完全有能力超越閉源方案,這將極大推動社區協作,共同迭代 AI 安全防護。
  4. 安全成為生命週期 (AI SDL):紅隊測試(如 DeepTeam)和安全框架(如微軟三層防護)必須被嵌入到 AI 的開發生命週期(SDL)中,從設計階段就考慮安全,而不是事後補救。
🤖
Deep Learning 101 小助手