Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，特別感謝時任職公司台灣雪豹科技無償贊助場地及茶水點心。
這裡不僅匯集了我們歷年的 Meetup 紀錄，更是 AI 演算法與開源資源匯整中心。

👉 查看 Deep Learning 101 歷年所有實體 Meetup 影像與逐字稿 📺

📅 2026-06-20 更新快訊

LLM-Offense：
- 新增 SecSkills 自動化滲透測試技能包，提升資安測試效率。
LLM-Guard：
- Nemotron 3.5 Content Safety (多模態安全護欄)
Computer-Vision：
- 新增 Uni-RCM 跨模態多類別統一異常檢測框架與 CaptionFormer 統一架構，強調其核心優勢與解決痛點，並更新 PP-OCRv6 及 PaddleOCR-VL-1.6 的詳細介紹，提升使用者體驗。
Speech-Processing：
- 新增 Nemotron 3.5 ASR 模型資訊，強調其低延遲與多語種支援，並更新 Voxtral Realtime 模型的核心優勢與推薦場景。
Large-Language-Model
- 新增多模態安全護欄與自動化滲透測試技能包，強化 AI 安全防護與紅隊演練能力。
- 新增 Remotion Skills 代碼驅動影片框架，強化影片生成與自動化剪輯功能。
- 新增 Google Colab CLI 和 OpenMontage 於 LLM 資源中，強化雲端計算與影片製作自動化功能

📅 2026-06-03 更新快訊

Computer-Vision：
- MeDS
- DINO-CLIP-SAM、Anti-Forgetting Sampling Strategy、CAFe-DINO、ConceptSeg-R1、ViCrop-Det、OneNIP、JUDO
- PaddleOCR-VL-1.6、Boxes2Pixels、SceneScribe-1M、FT-FSOD、Duix Avatar、FrequencyCM × C3k2、BCSI、AVA-DINO
- DetAny4D、FoundAD、LocateAnything-3B及SANA
Speech-Processing：
- Mega-ASR、OmniVoice Studio
Large-Language-Model
- Infinity-Doc2-5M

📅 2026-05-18 更新快訊

Speech-Processing：
- Speaker-Reasoner：(ASLP-lab) 打破多說話人重疊語音與身份漂移的魔咒，首創「智慧體多輪時序推理」的端到端語音大模型神作！
- OpenAI Realtime API 低延遲語音架構解析：揭開 ChatGPT Voice 不到 0.3 秒極速對話的底層秘密！
- WhisperPipe：打破 Whisper 串流「越跑越卡、記憶體爆炸」的魔咒，首創資源恆定的極低延遲（89ms）即時語音轉寫管線！
- OmniVoice Studio：打爆 ElevenLabs 的全能型本地語音工作室，3秒極速克隆 646 種語言！
- Moonshine Voice：樹莓派也能流暢運行的即時 ASR 神作，實時處理速度輾壓 Whisper 100 倍！
- Supertonic 3：終結雲端 API 依賴的邊緣運算霸主，僅約 99M 參數在純 CPU 上最高實現 0.006× 實時因子的極速 TTS！
LLM-Offense：
- DeepAudit (自動化深度程式碼安全稽核大腦)：首創「大膽假設，沙箱求證」的 Multi-Agent 自動化漏洞挖掘與 PoC 驗證平台
Large-Language-Model：
- Vercel Agent Browser (AI 原生瀏覽器自動化引擎)：專為 AI Agent 量身打造的革命性瀏覽器自動化工具，上下文 Token 消耗暴力銳減 93%！
- CLI-Anything (Agent 專屬軟體 CLI 生成器)
- Skyvern (視覺化網頁自動化 Agent)、DeepXiv (科研 Agent 的文獻基建)
- Academic-Search (科研智能體專屬文獻檢索技能)
- ai-website-cloner-template (AI 網頁逆向與生成神器)
- Gemma-4-31B-CRACK (資安紅隊越獄專武)
- Anthropic-Cybersecurity-Skills (資安 Agent 終極技能庫)
- Awesome-Design-MD (AI 視覺設計說明書)
- HyperFrames (HeyGen 代碼驅動影片渲染框架)
- Hyper-Extract：首創「八大強類型結構」與「知識增量演進」的 Graph-RAG 前處理終極神作。
- OpenCLI (網頁與私域數據 CLI 化神器)：終結 Agent 視覺解析的高昂成本，將全網與本地應用直接化為 AI 專屬的「命令行 API」神作！
- DCI-Agent-Lite (Direct Corpus Interaction)：拋棄 Embedding 與向量庫，讓 Agent 直接用 Bash 指令「裸搜」語料的 RAG 顛覆神作！
- Universal Data Tool：打破商業標註平台高昂成本，一站式搞定圖、文、音、影全模態標註的開源協作神作！
- Phi-Ground-Any-4B (微軟)：專為 AI Agent 打造的「精準點擊」視覺定位神作，徹底打通電腦控制的最後一哩路！
- Hugging Face ml-intern：重新定義「AI 幫我做研究」！能自主讀論文、找資料、寫腳本並提交 GPU 訓練的開源 ML 實習生。
- EssenceBench：終結海量題海戰術的評測革命，用 1/200 的題量精準還原 95% 的大模型榜單排名！
- LLM Wiki：將 Andrej Karpathy 的 AI 知識庫理念完美落地的神作！從被動 RAG 檢索進化為具備「深度研究 (Deep Research)」與「視覺化知識圖譜」的自主學習大腦。
- Jina Embeddings V5 Omni：打破模態孤島的全模態向量化霸主，真正實現圖、文、音、影「大一統」且完全相容舊有文字索引！
- Claude for Legal (Anthropic)：Anthropic 官方開源的法律業專屬 Agent 智慧體全家桶，無縫接入 20+ 專業系統的自動化法務大腦！
Computer-Vision：
- Stirling-PDF (全能隱私安全 PDF 處理基礎設施)
- PDFMathTranslate
- Remotion Skills (AI 代碼驅動影片框架)
- Infinity-Parser2：打破大廠閉源壟斷的文檔解析天花板，單一模型通吃六大任務的開源霸主！
- SAM3-LoRA：打破通用大模型在專業領域「水土不服」的魔咒，6GB 顯存即可實現 SAM3 的極速領域特化！
- EUPE: DINOv3 + SAM + CLIP 三模合一輕量檢測框架：打破大模型落地門檻的開箱即用神器，將 DINOv3、SAM 與 CLIP 的跨域超能力濃縮進極致輕量的檢測管線！
- LuoHuaLabel (基於 SAM 3 的智慧標註神器)：徹底解放雙手的資料標註黑科技，以 SAM 3 驅動的次世代視覺標註系統！
- DINO-AD：打破模型微調成本高牆的免訓練 (Training-Free) 異常檢測黑科技！

📅 2026-05-13 更新快訊

Large-Language-Model：何愷明團隊重磅推出 ELF (Embedded Language Flows)。
Speech-Processing：ControlAudio、SpeakerRPL V2、Voxtral-Mini-4B-Realtime。
Computer-Vision：SVOR (Stable Video Object Removal、SubspaceAD、SAM3-I、X2SAM、RNS (Retrieve and Segment)、RefineAnything、CyberVerse、InfiniteTalk