Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,特別感謝時任職公司台灣雪豹科技無償贊助場地及茶水點心。
這裡不僅匯集了我們歷年的 Meetup 紀錄,更是 AI 演算法與開源資源匯整中心。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,特別感謝時任職公司台灣雪豹科技無償贊助場地及茶水點心。
這裡不僅匯集了我們歷年的 Meetup 紀錄,更是 AI 演算法與開源資源匯整中心。
📅 2026-06-20 更新快訊
- LLM-Offense:
- 新增 SecSkills 自動化滲透測試技能包,提升資安測試效率。
- LLM-Guard:
- Nemotron 3.5 Content Safety (多模態安全護欄)
- Computer-Vision:
- 新增 Uni-RCM 跨模態多類別統一異常檢測框架與 CaptionFormer 統一架構,強調其核心優勢與解決痛點,並更新 PP-OCRv6 及 PaddleOCR-VL-1.6 的詳細介紹,提升使用者體驗。
- Speech-Processing:
- 新增 Nemotron 3.5 ASR 模型資訊,強調其低延遲與多語種支援,並更新 Voxtral Realtime 模型的核心優勢與推薦場景。
- Large-Language-Model
- 新增多模態安全護欄與自動化滲透測試技能包,強化 AI 安全防護與紅隊演練能力。
- 新增 Remotion Skills 代碼驅動影片框架,強化影片生成與自動化剪輯功能。
- 新增 Google Colab CLI 和 OpenMontage 於 LLM 資源中,強化雲端計算與影片製作自動化功能
📅 2026-06-03 更新快訊
- Computer-Vision:
- MeDS
- DINO-CLIP-SAM、Anti-Forgetting Sampling Strategy、CAFe-DINO、ConceptSeg-R1、ViCrop-Det、OneNIP、JUDO
- PaddleOCR-VL-1.6、Boxes2Pixels、SceneScribe-1M、FT-FSOD、Duix Avatar、FrequencyCM × C3k2、BCSI、AVA-DINO
- DetAny4D、FoundAD、LocateAnything-3B及SANA
- Speech-Processing:
- Mega-ASR、OmniVoice Studio
- Large-Language-Model
- Infinity-Doc2-5M
📅 2026-05-18 更新快訊
- Speech-Processing:
- Speaker-Reasoner:(ASLP-lab) 打破多說話人重疊語音與身份漂移的魔咒,首創「智慧體多輪時序推理」的端到端語音大模型神作!
- OpenAI Realtime API 低延遲語音架構解析:揭開 ChatGPT Voice 不到 0.3 秒極速對話的底層秘密!
- WhisperPipe:打破 Whisper 串流「越跑越卡、記憶體爆炸」的魔咒,首創資源恆定的極低延遲(89ms)即時語音轉寫管線!
- OmniVoice Studio:打爆 ElevenLabs 的全能型本地語音工作室,3秒極速克隆 646 種語言!
- Moonshine Voice:樹莓派也能流暢運行的即時 ASR 神作,實時處理速度輾壓 Whisper 100 倍!
- Supertonic 3:終結雲端 API 依賴的邊緣運算霸主,僅約 99M 參數在純 CPU 上最高實現 0.006× 實時因子的極速 TTS!
- LLM-Offense:
- DeepAudit (自動化深度程式碼安全稽核大腦):首創「大膽假設,沙箱求證」的 Multi-Agent 自動化漏洞挖掘與 PoC 驗證平台
- Large-Language-Model:
- Vercel Agent Browser (AI 原生瀏覽器自動化引擎):專為 AI Agent 量身打造的革命性瀏覽器自動化工具,上下文 Token 消耗暴力銳減 93%!
- CLI-Anything (Agent 專屬軟體 CLI 生成器)
- Skyvern (視覺化網頁自動化 Agent)、DeepXiv (科研 Agent 的文獻基建)
- Academic-Search (科研智能體專屬文獻檢索技能)
- ai-website-cloner-template (AI 網頁逆向與生成神器)
- Gemma-4-31B-CRACK (資安紅隊越獄專武)
- Anthropic-Cybersecurity-Skills (資安 Agent 終極技能庫)
- Awesome-Design-MD (AI 視覺設計說明書)
- HyperFrames (HeyGen 代碼驅動影片渲染框架)
- Hyper-Extract:首創「八大強類型結構」與「知識增量演進」的 Graph-RAG 前處理終極神作。
- OpenCLI (網頁與私域數據 CLI 化神器):終結 Agent 視覺解析的高昂成本,將全網與本地應用直接化為 AI 專屬的「命令行 API」神作!
- DCI-Agent-Lite (Direct Corpus Interaction):拋棄 Embedding 與向量庫,讓 Agent 直接用 Bash 指令「裸搜」語料的 RAG 顛覆神作!
- Universal Data Tool:打破商業標註平台高昂成本,一站式搞定圖、文、音、影全模態標註的開源協作神作!
- Phi-Ground-Any-4B (微軟):專為 AI Agent 打造的「精準點擊」視覺定位神作,徹底打通電腦控制的最後一哩路!
- Hugging Face ml-intern:重新定義「AI 幫我做研究」!能自主讀論文、找資料、寫腳本並提交 GPU 訓練的開源 ML 實習生。
- EssenceBench:終結海量題海戰術的評測革命,用 1/200 的題量精準還原 95% 的大模型榜單排名!
- LLM Wiki:將 Andrej Karpathy 的 AI 知識庫理念完美落地的神作!從被動 RAG 檢索進化為具備「深度研究 (Deep Research)」與「視覺化知識圖譜」的自主學習大腦。
- Jina Embeddings V5 Omni:打破模態孤島的全模態向量化霸主,真正實現圖、文、音、影「大一統」且完全相容舊有文字索引!
- Claude for Legal (Anthropic):Anthropic 官方開源的法律業專屬 Agent 智慧體全家桶,無縫接入 20+ 專業系統的自動化法務大腦!
- Computer-Vision:
- Stirling-PDF (全能隱私安全 PDF 處理基礎設施)
- PDFMathTranslate
- Remotion Skills (AI 代碼驅動影片框架)
- Infinity-Parser2:打破大廠閉源壟斷的文檔解析天花板,單一模型通吃六大任務的開源霸主!
- SAM3-LoRA:打破通用大模型在專業領域「水土不服」的魔咒,6GB 顯存即可實現 SAM3 的極速領域特化!
- EUPE: DINOv3 + SAM + CLIP 三模合一輕量檢測框架:打破大模型落地門檻的開箱即用神器,將 DINOv3、SAM 與 CLIP 的跨域超能力濃縮進極致輕量的檢測管線!
- LuoHuaLabel (基於 SAM 3 的智慧標註神器):徹底解放雙手的資料標註黑科技,以 SAM 3 驅動的次世代視覺標註系統!
- DINO-AD:打破模型微調成本高牆的免訓練 (Training-Free) 異常檢測黑科技!
📅 2026-05-13 更新快訊
- Large-Language-Model:何愷明團隊重磅推出 ELF (Embedded Language Flows)。
- Speech-Processing:ControlAudio、SpeakerRPL V2、Voxtral-Mini-4B-Realtime。
- Computer-Vision:SVOR (Stable Video Object Removal、SubspaceAD、SAM3-I、X2SAM、RNS (Retrieve and Segment)、RefineAnything、CyberVerse、InfiniteTalk

