Compliance-Agent

Cyber Compliance & Threat Intelligence Center (Agentic AI 驅動的資安合規與威脅情資戰情中心)

https://github.com/Deep-Learning-101/Compliance-Agent

architectureX

這是一個具備 Agentic Workflow (代理人工作流) 特性的全方位資安監控系統。本系統整合了 Google Gemini (LLM)、無頭瀏覽器 與 自動化排程，打造出獨特的「雙核心」引擎：

Compliance Engine: 像法規顧問一樣，自動爬找、解讀、比對全球資安法規。
Threat Intelligence Engine: 像資安分析師一樣，全天候監控駭客論壇與新聞，自動分析威脅趨勢。

🏗️ 系統架構 (System Architecture)

本專案採用模組化微服務架構設計，核心由 Google Gemini 模型驅動：

Frontend: Streamlit (提供直觀的互動介面 & 監控儀表板)
Core Agents:
- Crawler Agent: 負責法規與政策的智慧搜尋。
- News Collector: 負責從 RSS、API 與網站蒐集最新資安威脅 (Ransomware, Zero-day)。
- Threat Analyzer: 專門分析新聞內容，判斷威脅等級 (High/Medium/Low) 並擷取 IOCs。
- Auditor Agent: 模擬 ISO 27001 主導稽核員，執行差異分析。
- Scheduler Bot: 統一管理「法規巡邏」與「新聞監控」的背景排程器。
Data Layer:
- Regulations DB: 儲存法規條文與版本歷史。
- CyberNews DB: 儲存威脅情資與分析報告。

🚀 主要功能與技術亮點

1. 法規爬查 (Regulation Crawler)

Agentic Search Strategy:
- 系統首先分析使用者指令（如「找日本資安法規」），自動推斷目標領域、國家、語言及權威機構。
- 多語言自動轉換：自動將搜尋關鍵字轉換為當地官方語言（如日文、越南文），確保搜尋到最原始的官方文件。
Hybrid Fetching Engine:
- API 模式: 整合 Google Custom Search API 與 DuckDuckGo。
- Browser 模式: 內建 Playwright 無頭瀏覽器，模擬真實使用者行為 (User-Agent, Viewport)，有效繞過政府網站或 Google 的反爬蟲驗證。

2. 法規解析 (Regulation Parser)

結構化轉換: 將 PDF/HTML 文件強制轉換為標準化的 JSON 格式，包含條號、原文、分類等欄位。
AI 摘要與翻譯: 針對每一條文自動生成：
- Summary: 專業的法規摘要。
- Plain Language: 適合非技術人員閱讀的白話文解釋（繁體中文）。

3. 差異分析 (Gap Analysis)

Context-Aware Analysis: 將企業內部規範與法規條文同時納入 LLM 上下文，精準識別落差。
Actionable Insights: 自動產出合規分數、風險等級（High/Medium/Low）及具體的改善建議。

4. 主動監控 (Active Monitoring)

全自動變更追蹤: 內建背景排程機器人，每日定時巡邏已納管的法規網頁。
數位指紋技術 (Digital Fingerprinting): 計算網頁內容的 Hash 值，精準偵測細微變更（如修訂版發布）。
主動預警: 一旦偵測到變更，立即發送 Email 通知，並於「監控儀表板」顯示變更歷史日誌。

5. 稽核模擬與報告 (Audit & Reporting)

Audit Simulator: 模擬不同風格（嚴格、引導式、技術專家）的稽核員進行攻防演練。
Report Generator: 支援一鍵生成 PDF 與 PowerPoint 格式的合規評估報告。

6. 威脅情資中心 (Threat Intelligence Center)

全自動情資蒐集: 24/7 監控主流資安新聞源 (The Hacker News, BleepingComputer, CISA)。
AI 威脅分析: LLM 自動閱讀新聞，過濾雜訊，僅保留具備實質威脅的情報 (如新漏洞 CVE、勒索軟體活動)。
關聯分析: 未來可將「新發現的威脅 (News)」與「內部合規缺口 (Gaps)」進行交叉比對，實現風險預警。

7. 進階合規工具箱 (Advanced Compliance Toolkit) [NEW]

這是專為資安稽核員與合規官設計的生產力工具：

法規底稿自動生成 (Audit Checklist Generator):
- 技術: 使用 Regex 智慧解析 PDF 結構，結合 Gemini 2.5 Pro 的邏輯推理。
- 輸出: 自動產出包含「稽核問項」、「查核方式」、「應徵提證據」的 Excel 底稿，大幅縮短人工準備時間。
法規與 SOP 差異分析 (Vector-based Gap Analysis):
- 技術: 採用 RAG (Retrieval-Augmented Generation) 架構。
- 流程: 將內部 SOP 進行 Embedding (向量化)，針對每一條外部法規，系統會自動在 SOP 中「搜索」出最相關的條款進行比對。
- 優勢: 即使法規與 SOP 用詞不同（例如 “存取控制” vs “帳號管理”），透過語意向量也能精準對應，解決傳統關鍵字比對的盲點。

Infographic

🛡️ Agentic AI 系統架構：核心能力象限

1. 推理與規劃 (Reasoning) 🧠	2. 工具使用 (Tool Use) 🛠️
• Thinking before Acting 思考勝於直覺，透過 CoT (思維鏈) 分析意圖。 • 實例用戶輸入「找日本資安法規」→ AI 自動推論： 1. 鎖定 FSA (金融廳) 機構 2. 轉譯日文關鍵字 3. 制定多階段搜尋策略	• Extending Boundaries 突破模型邊界，主動呼叫工具解決聯網限制。 • 實例 1. Hybrid Crawler：自動切換 API / 瀏覽器模式。 2. Parser Agent：自動將非結構化 PDF 轉為 JSON。
3. 環境感知 (Perception) 👁️	4. 行動與自主性 (Autonomy) ⚡
• Sensing the World 數位感官延伸，具備感知外部環境變化的能力。 • 實例 1. Digital Fingerprinting：計算網頁 Hash 偵測變更。 2. Context-Aware：同時解讀內規與外規的語意落差。	• Proactive Execution 從被動到主動，具備自主時間表，無需持續指令。 • 實例 1. Scheduler Bot：每日 09:00 自動巡邏。 2. Proactive Alert：發現變更 → 主動發信預警。

🛡️ Agentic AI 系統能力驗證與層級對應 (System Capabilities & Levels)本系統經由實作驗證，已超越傳統對話機器人 (L1) 與單純工具呼叫 (L2)，具備 Level 3 General Agent (通用代理人) 的核心特徵，並在特定模組展現 Level 4 Autonomous (自主代理人) 的雛形。本系統採用「合規 (Compliance)」與「情資 (Intelligence)」雙核心引擎設計，以下為詳細對應分析：

1. 推理與規劃 (Reasoning & Planning)> 對應層級：Level 3 (General Agent)

L3 特徵：具備目標導向 (Goal-oriented)，能拆解複雜任務並規劃多步驟流程。

理論定義：AI 不再是「輸入 A 輸出 B」的反射動作，而是能理解模糊意圖，並透過 Chain-of-Thought (CoT) 在執行前先制定計畫。

🔹 系統功能：

[合規] 法規爬查 (Regulation Crawler)：內建 Crawler Agent 具備「思考」能力。系統不會直接拿使用者的話去搜尋，而是先進行意圖分析，推斷目標領域、國家、語言及權威機構。
[情資] 威脅分析 (Threat Analyzer)：AI 不僅是閱讀新聞，還會進行 「相關性推理」。它能從海量資訊中過濾雜訊，自動判斷該新聞是否為「高風險威脅」（如 0-day 漏洞、勒索軟體），並決定是否需要發出警報。

🔹 使用流程驗證：

User Action：輸入模糊指令 幫我找新加坡的個人資料保護法。
Agent Reasoning：AI 內部推理：「新加坡(地區) + 個資法(領域) = 目標是 PDPA 法案，權威機構是 PDPC，網域應鎖定 pdpc.gov.sg」。
Result：系統自動產生精準的搜尋策略，而非盲目搜尋關鍵字。

2. 工具使用 (Tool Use)> 對應層級：Level 2 (Tool User)

L2 特徵：能理解意圖並主動呼叫外部工具 (API, Browser) 來解決 LLM 本身的限制。

理論定義：AI 知道自己的侷限（例如無法上網、無法讀 PDF），因此會主動呼叫外部工具（API, Browser, Parser）來完成任務。

🔹 系統功能：

[合規] Hybrid Fetching Engine：當 AI 判斷目標是靜態網頁時，呼叫 Google API；當判斷有反爬蟲機制時，自主切換使用 Playwright (Browser 模式) 模擬真實瀏覽器。
[情資] News Collector：AI 主動操作 RSS Feed Parser 與 News API 工具，並呼叫 HTML 清洗工具來提取新聞正文。
[報告] Report Generator：AI 呼叫 WeasyPrint 或 python-pptx 函式庫來產出實體報告。

🔹 使用流程驗證：

Agent Action：使用者點擊「解析」後，Agent 操作瀏覽器 下載 PDF，接著 操作解析器 提取條文，最後 操作翻譯引擎 生成中文摘要。這整個過程是 AI 在指揮工具。

3. 感知 (Perception)> 對應層級：Level 3 (General Agent)

L3 特徵：具備環境感知能力，能讀取複雜情境並偵測環境變化。

理論定義：AI 的感官延伸到了數位環境。它不僅能讀文字，還能「看見」網頁結構、「讀取」檔案內容，甚至「感知」環境的細微變遷。

🔹 系統功能：

[合規] 主動監控 (Active Monitoring)：系統透過計算 數位指紋 (Hash)，具備了感知網頁內容變更的能力。它不只看網址，而是看「內容指紋」來偵測修訂。
[情資] 威脅感知 (Threat Landscape)：AI 透過持續閱讀新聞，「感知」外部威脅情勢的變化（例如某個 CVE 漏洞被利用的頻率突然升高）。
[分析] Context-Aware Analysis：在差異分析中，AI 同時「閱讀」並感知兩份文件（外部法規 vs 內部政策）的語意脈絡。

🔹 使用流程驗證：

Agent Action：當新加坡個資法修訂時，監控模組 感知 (Detect) 到了網頁 Hash 的變化，確認這不是誤報，而是實質內容的變動。

4. 行動與自主性 (Action & Autonomy)> 對應層級：邁向 Level 4 (Autonomous Agent)

L4 特徵：從被動指令轉為主動執行，具備長期運行的自主時間表與主動性。

理論定義：AI 從「被動等待指令」進化為「主動執行任務」。它擁有自己的時間表，能長期運行並主動發起互動。

🔹 系統功能：

[核心] Scheduler Bot：全系統共用的排程大腦，不需要人類每天下指令，而是每天定時自動醒來巡邏法規與新聞。
[情資] 主動預警 (Proactive Alerting)：當 AI 發現「高風險」新聞時，會自主決定立即發送通知給管理員，而不需要等待使用者登入查看。
[模擬] Audit Simulator：稽核代理人能主動發起攻防演練，模擬稽核員的行為模式來挑戰企業政策。

🔹 使用流程驗證：

User Action：開啟系統並設定一次監控。
Agent Autonomy：從此刻起，Agent 接手了守護工作 (24/7)。
Outcome：未來某天，使用者還沒上班，Agent 已經發現變更或重大漏洞新聞，並 主動發送 (Proactive Alert) Email 通知，並在儀表板更新日誌。

🏆 總結：

系統面向	能力描述	Agent Level
工具使用	Crawler / Parser / News Collector	L2
推理與分析	Threat Correlation / Search Strategy	L3
環境感知	Digital Fingerprinting / Landscape Mapping	L2+
自動化執行	Scheduler / Rule-based Alerts	L2.5
自主行動（尚未實現）	Task Generation / Strategy Selection	Pre-L4（未達）

📖 使用流程範例 (Usage Workflow)

自主搜尋: 在「法規管理」輸入 幫我找新加坡的個人資料保護法。
- AI 將自動判斷需搜尋 “PDPA” 並鎖定 “pdpc.gov.sg” 網域。
爬取解析: 選擇搜尋結果，點擊「解析」。
- 系統自動下載 PDF，提取條文並翻譯為中文。
加入監控: 在解析結果頁面，點擊 「🔔 加入監控 (Monitor)」 按鈕。
- 系統將此法規納入排程，每日自動檢查官網是否有更新版本。
威脅情資: 切換至「威脅情資中心」，查看 AI 自動彙整的今日高風險漏洞。
- AI 已自動過濾掉無關新聞，並標註 CVE-2025-xxxx 為「高風險」。
差異分析: 上傳貴公司的「資訊安全政策」文件。
- 系統比對 PDPA 與貴公司政策，列出 “Cookie 同意機制” 為高風險落差。
產出報告: 下載 PDF 版本的「合規評估報告」或「威脅情資週報」提交給管理層。
接收預警: (未來情境) 當法規修訂或爆發重大勒索軟體疫情時，系統偵測到異常，主動發送通知 並在儀表板顯示警告。

🛠️ 安裝與啟動

1. 環境準備

Python 3.8+
Windows / Linux / WSL

2. 安裝依賴

pip install -r requirements.txt

(系統將自動安裝 playwright, apscheduler, google-generativeai 等核心套件)

3. 初始化瀏覽器核心

首次使用需安裝 Playwright 瀏覽器核心：

playwright install chromium

4. 設定環境變數

請複製 .env.example 為 .env 並填入以下資訊：

# [必要] Google Gemini API Key
GOOGLE_API_KEY=your_gemini_api_key

# [推薦] Google Custom Search API (大幅提升搜尋精準度)
GOOGLE_SEARCH_API_KEY=your_google_search_api_key
GOOGLE_SEARCH_ENGINE_ID=your_search_engine_id

# [選填] Email 通知設定 (用於主動監控)
SMTP_SERVER=smtp.gmail.com
SMTP_PORT=587
SMTP_USER=your_email@gmail.com
SMTP_PASSWORD=your_app_password
RECIPIENT_EMAIL=alert_receiver@example.com

5. 啟動系統

python -m streamlit run app/main.py

python -m streamlit run app/main.py --server.port 7000 --server.address 0.0.0.0

💡 常見問題與設計理念 (Q\&A)

一、關於搜尋完整性

Q: 無法規清單時，如何確保完整性？
- A: 採用 混合式搜尋策略 (Hybrid Search Strategy)。AI 負責廣泛的探索性搜尋以發現新法規，並提供 Human-in-the-loop (人工補登) 介面讓專家補充特定來源，確保涵蓋無死角。
Q: 新法規發布有 Google 索引延遲怎麼辦？
- A: 系統採取 雙軌監控機制。針對廣泛資訊使用 Google API；針對關鍵機關（如金管會）則利用 Playwright 瀏覽器模擬技術直接進行「定點巡邏」，不依賴搜尋引擎索引。

二、關於結果驗證

Q: 如何驗證搜尋結果的正確性？
- A: 系統內建 來源白名單機制 (優先採信 .gov/.org) 與 信譽評分。AI 初步篩選後，由人工進行最終覆核 (Review)，並完整記錄操作日誌 (Audit Trail)。
Q: 為何不直接買資料庫，要用網路搜尋？
- A: 本系統定位為 高性價比的替代方案。利用 GenAI 將公開網路上的非結構化資訊轉化為結構化數據，為尚未訂閱昂貴法規資料庫的企業提供自動化且具彈性的解決方案。

三、關於實務運作

Q: 各國法規更新頻率不一，如何維護？
- A: 透過 主動變更監控 (Active Monitoring) 模組。系統利用數位指紋技術定期比對目標網頁，一旦偵測到微小變動即透過 Email/IM 推播通知，從「被動查詢」轉型為「主動預警」。
Q: 多語言法規如何處理？
- A: 搜尋引擎具備 雙語交叉搜尋 能力，自動生成「當地官方語 + 英文」關鍵字，確保取得最權威原始檔，並利用 LLM 翻譯生成繁體中文摘要。

四、關於進階分析技術

Q: 系統如何處理長篇法規的比對？
- A: 我們採用 分塊向量化 (Chunking & Embedding) 技術。系統不會一次把整本 SOP 丟給 AI，而是先將 SOP 拆解並向量化。當分析某一條法規時，只會調閱出 SOP 中最相關的片段給 LLM 進行比對，確保精準度並突破 Token 限制。
Q: 英文法規可以生成中文底稿嗎？
- A: 可以。系統內建 Translate-First Strategy，遇到英文法規（如 GDPR, NIST）時，會先透過 AI 進行專業術語的繁體中文翻譯，再進行底稿生成，確保產出結果符合台灣使用者需求。

📄 License

This project is licensed under the MIT License.

Compliance-Agent

Cyber Compliance & Threat Intelligence Center (Agentic AI 驅動的資安合規與威脅情資戰情中心)

🏗️ 系統架構 (System Architecture)

🚀 主要功能與技術亮點

1. 法規爬查 (Regulation Crawler)

2. 法規解析 (Regulation Parser)

3. 差異分析 (Gap Analysis)

4. 主動監控 (Active Monitoring)

5. 稽核模擬與報告 (Audit & Reporting)

6. 威脅情資中心 (Threat Intelligence Center)

7. 進階合規工具箱 (Advanced Compliance Toolkit) [NEW]

🛡️ Agentic AI 系統架構：核心能力象限

1. 推理與規劃 (Reasoning & Planning)> 對應層級：Level 3 (General Agent)

🔹 系統功能：

🔹 使用流程驗證：

2. 工具使用 (Tool Use)> 對應層級：Level 2 (Tool User)

🔹 系統功能：

🔹 使用流程驗證：

3. 感知 (Perception)> 對應層級：Level 3 (General Agent)

🔹 系統功能：

🔹 使用流程驗證：

4. 行動與自主性 (Action & Autonomy)> 對應層級：邁向 Level 4 (Autonomous Agent)

🔹 系統功能：

🔹 使用流程驗證：

🏆 總結：

📖 使用流程範例 (Usage Workflow)

🛠️ 安裝與啟動

1. 環境準備

2. 安裝依賴

3. 初始化瀏覽器核心

4. 設定環境變數

5. 啟動系統

💡 常見問題與設計理念 (Q\&A)

一、關於搜尋完整性

二、關於結果驗證

三、關於實務運作

四、關於進階分析技術

A: 可以。系統內建 Translate-First Strategy，遇到英文法規（如 GDPR, NIST）時，會先透過 AI 進行專業術語的繁體中文翻譯，再進行底稿生成，確保產出結果符合台灣使用者需求。

📄 License