Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。
📚 LLM 大語言模型・必讀資源總整理
編者按: 本頁面彙整目前最主流的 LLM 排行榜、開源模型、推論與微調工具,以及相關學術論文。
如果您想尋找更詳細的筆記,歡迎訪問 GitHub Repository: 👉 GitHub: Natural-Language-Processing-Paper (歡迎 Star ⭐)
✨LLM API Platform Price Comparison
大型語言模型API平台價格比較
| 平台 | 模型 | 輸入費用 (USD/1M Tokens) | 輸出費用 (USD/1M Tokens) | 上下文窗口 | 免費層級 | 最大速率限制 (RPM / TPM) | 多模態能力 | 特點 / 說明 | 定價連結 |
|---|---|---|---|---|---|---|---|---|---|
| OpenAI | OpenAI o1 | $15.00 | $60.00 | 200k | ❌ | 不公開 | ✅(文字+圖像) | Frontier 模型,支援 Vision/Tools/結構化輸出 | OpenAI Pricing |
| OpenAI | OpenAI o3-mini | $1.10 | $4.40 | 200k | ❌ | 不公開 | ❌ | 成本效益模型,適合編碼與數學 | 同上 |
| Gemini 2.5 Pro (Preview) | $1.25(≤200k),$2.50(>200k) | $10.00(≤200k),$15.00(>200k) | >200k | ✅(指定模型) | 150 RPM / 2M TPM(Tier 1) | ✅(文字+圖像) | 高階推理力,企業級用途 | Gemini API / Gemini 網站 | |
| Gemini 2.0 Flash | $0.10(圖文影),$0.70(音訊) | $0.40 | 1M | ✅(15 RPM) | 2,000 RPM / 4M TPM | ✅(文字+圖+影+音) | 多模態支援,企業級速率與穩定性 | 同上 | |
| Gemini 2.0 Flash Lite | $0.075(全模態) | $0.30 | 1M | ✅(30 RPM) | 4,000 RPM / 4M TPM | ✅(全模態) | 超高速率、經濟型多模態模型 | 同上 | |
| DeepSeek | deepseek-chat (V3) | $0.27 | $1.10 | 64K | ❌ | 不公開 | ❌ | 標準價,推理速度佳 | DeepSeek Pricing / DeepSeek Chat |
| DeepSeek | deepseek-reasoner (R1) | $0.55 | $2.19 | 64K | ❌ | 不公開 | ❌ | 高階邏輯推理與數據分析能力 | 同上 |
| Qwen | Qwen-Max | $1.60 | $6.40 | ~32K | ❌ | 不公開 | ❌ | 強推理型,偏向高品質產出 | Qwen Chat |
| Qwen | Qwen-Plus | $0.40 | $1.20 | ~131K | ❌ | 不公開 | ❌ | 均衡型模型,支援較長上下文 | 同上 |
| Grok | grok-3 | $3.00 | $15.00 | 131k | ✅ | 不公開 | ❌ | 支援思考模式、有限搜尋功能 | Grok 官網 |
| 百度 | 文心一言(ERNIE Bot) | 不公開(免費使用) | 不公開(免費使用) | 不公開 | ✅ | 不公開 | ✅(圖像/語音) | 支援中文語境與多模態任務 | 文心一言 |
文章目錄
- 🏆 排行榜 (Leaderboards)
- 🖥️ NVIDIA Nemotron
- 🛠️ 微調技術與資源 (Fine-tuning)
- 🧩 AI Agent 開源框架
- 🛠️ 開發工具 (Tools & Protocols)
- 🌍 World Models (世界模型)
- 🧠 MoE (混合專家模型)
- 📱 Small Language Models (小型語言模型)
- 🤔 Reasoning Models (推理模型)
- 🏛️ Large Language Models (大型語言模型)
- 🔎 Embedding & Reranker
- 🔊 Speech-to-Speech LLM (語音大模型)
- 👁️ Vision-Language Model (視覺大語言模型)
- 🌌 Multimodal LLM (多模態大語言模型)
Leaderboards
🏆 排行榜 (Leaderboards)
NVIDIA Nemotron
-
2026-03-11 NVIDIA Nemotron 3 Super -
2026-02-04 使用Nemotron 為RAG 建立文件處理流程 - NVIDIA技術部落格
- 實戰操作:如何用最新的 Nemotron 模型處理 PDF、表格和圖表,這是企業最常見的需求。
-
2026-02-04 AI 智能體如何將文件轉化為即時商業智能 - NVIDIA技術部落格
- 概念與案例:為什麼要用 AI 處理文檔 (IDP),以及 Docusign、Justt 等公司是怎麼用的;理解應用場景,適合寫提案或規劃架構時參考。
-
2026-01-05 如何使用 RAG 和安全護欄建立語音智能體 - NVIDIA技術部落格
- 語音與安全:展示如何將 Nemotron 結合語音技術,並且加上 Guardrails 防止 AI 亂說話。
- 2025-12-20|NVIDIA Nemotron-3-Nano
-
2025-12-15 深入解析 NVIDIA Nemotron 3 - NVIDIA技術部落格
- 了解 Nemotron-3 (Mamba-Transformer 混合架構) 內部原理
-
2025-12-15 使用Unsloth 微調大語言模型(LLM) - NVIDIA技術部落格
- 低成本微調:如何在本地端 (如 RTX 4090) 使用 Unsloth 工具快速微調模型;如果沒有龐大的算力資源,這篇是首選。
-
2025-10-28 利用NVIDIA Nemotron Vision、RAG 和Guardrail 新模型開發專用AI 智能體 - NVIDIA技術部落格
- 介紹 Nemotron-4 / Llama-Nemotron 時期的視覺與 Guardrail 能力;日期稍早於 Nemotron-3,但其中的 Guardrail (安全護欄) 和 Vision (視覺) 概念依然沿用至今,仍具參考價值。
-
2025-07-22 用NVIDIA NeMo 在一個週末內訓練一個具備推理能力的LLM - NVIDIA技術部落格
- 如何用 SFT (監督微調) 讓模型學會「思考鏈 (Chain of Thought)」;方法論極佳。雖然當時可能用的是 Llama 模型,但它教的「數據準備邏輯」和「訓練策略」完全可以套用到現在的 Nemotron-3 上。
Fine-tuning
🛠️ 微調技術與資源 (Fine-tuning)
顯存估算 (VRAM)
- 大模型所需 GPU 記憶體筆記
- 資源:📝 微信公眾號
- 不同參數規模在微調方法下所需的顯存總結
微調/蒸餾技術教學
- 微調技術全解
- 說明:SFT、LoRA、P-tuning v2、Freeze 監督微調方法
- 資源:📝 知乎專欄
- LoRA vs 完全微調
- 說明:MIT 21頁論文講懂了
- 資源:📝 機器之心
- 大模型微調 (Fine-tuning) 全解
- 資源:📝 53AI
- Unsloth 官方微調技巧
- 說明:初學者必看指南
- 資源:📝 微信公眾號
- 零代碼一站式微調 / DeepSeek-R1 微調指南
- EasyDistill
- 說明:解決大模型落地時「算力成本過高」的致命痛點。阿里開源的這套知識蒸餾管線,能將千億參數巨獸的能力,無損轉移到能在手機或邊緣設備 (Edge AI) 運行的微型模型上,是企業大幅壓縮雲端推論成本、實現端側 AI 部署的必備開源工具。
-
資源:🐙 GitHub 📄 AlphaXiv
微調框架 (Frameworks)
- Unsloth Studio
- Twinkle
- LLaMA Factory
- 說明:目前地表最強大、最易用的開源大模型微調大殺器。提供直覺的 WebUI 介面,讓開發者甚至企業業務人員都能透過「零程式碼」操作,輕鬆完成 LoRA、SFT 與 RLHF 微調。支援海量開源模型與多卡平行運算,是企業打造領域專屬大模型的標配工具。
-
資源:🐙 GitHub 🤗 Demo -
延伸:📝 中文文檔 📝 架構解析 (2024-09-13) 📝 單卡訓練 Agent 實戰
- Torchtune
-
資源:🐙 GitHub 📖 官方文件 - 延伸:📝 Llama3.1 知識蒸餾實戰
-
資料集準備 (Datasets)
- 微調資料集實戰
- Easy Dataset
- 說明:大模型微調資料集生產工具
- 資源:📝 知乎專欄
- OpenDeepWiki
- 說明:根據現有檔案產生微調資料集
- 資源:📝 知乎專欄
- COIG-CQIA
- 說明:零一萬物發布高品質中文指令微調數據
- 資源:📝 知乎專欄
AI-Agent
🧩 AI Agent 開源框架
核心概念與必讀文章
- AI Search Has A Citation Problem
- 資源:📝 CJR
- Agentic AI vs AI Agents
- 說明:A Conceptual Taxonomy, Applications and Challenges
- 資源:📄 AlphaXiv
- OWASP Agentic AI
- 說明:Threats and Mitigations
- 資源:🛡️ OWASP
- Agent 工作流入門
- FinRobot
-
資源:📄 AlphaXiv 📚 DeepWiki (支援 Gemini 2.5)
-
- Jupyter-AI
- 資源:📚 DeepWiki (支援 Gemini 2.5)
Agent 框架列表 (按時間排序)
-
2026-02-22 ZeroClaw -
2026-01-20 OpenClaw(MoltBot/Clawdbot) -
說明:一個跑在你自己電腦上的 AI 助手平台。 👉 點此看深度技術分析 👉 點此看白話文分析 -
資源: 🌐 官網 🐙 GitHub 官方簡體中文文件 官方文件 📝 DeepWiki [📝 Zread 📝 公眾號解讀 📝 公眾號解讀 📝 公眾號解讀 📝 知乎解讀 📝 2026年OpenClaw Skills排行榜:Top 20必裝清單
-
- 2025-11-15|Agno
- 2025-10-28|Tongyi DeepResearch
- 說明:通義全面開源,超越 OpenAI 閉源框架
-
資源:📝 DeepResearch 📝 中文解讀
- 2025-10-28|DeepAgent
- 說明:首個全自主深度推理智能體
-
資源:📝 RUC-NLPIR 📝 中文解讀
- 2025-10-19|Gemini Computer Use
- 說明:Google 推出讓 AI 代理操作網頁介面
-
資源:📖 官方文件 📝 iThome 報導 🐙 GitHub
- 2025-10-10|SurfSense
- 說明:GitHub 萬星王炸,整合 Slack/Notion/Jira
-
資源:📝 MODSetter 📝 中文解讀
- 2025-08-29|Microsoft Agent Framework
- 2025-08-29|MiroThinker
- 2025-07-03|multi-modal-researcher
- 資源:🐙 GitHub
- 2025-06-25|Gemini CLI
- 說明:你的開源 AI 代理
-
資源:🐙 GitHub 📝 Google Blog
- 2025-06-06|PandaWiki
- 2025-06-03|Gemini Fullstack LangGraph
- 說明:開源版 Perplexity
-
資源:📚 DeepWiki 🌐 DEMO 📝 53AI 報導
- 2025-06-03|Perplexica
- 2025-06-02|Paper2Poster
- 2025-06-01|Agent Zero
- 2025-05-30|WebDancer
- 說明:Alibaba 開源 WebAgent
-
資源:📄 AlphaXiv 📚 DeepWiki
- 2025-05-28|Lemon AI
- 2025-05-25|OpenHands
- 2025-05-18|Agent-Squad
- 說明:輕量級開源 AI 多智能體框架 (AWS Labs)
-
資源:📚 DeepWiki 📝 中文解讀
- 2025-05-10|FlowGram (ByteDance)
- 說明:字節跳動開源 Coze 核心工作流引擎
-
資源:🐙 GitHub 📝 公眾號解讀 📚 DeepWiki
- 2025-05-10|DeerFlow
- 說明:字節跳動 DeerFlow 解析
-
資源:🐙 GitHub 📝 深度解析 📚 DeepWiki
- 2025-05-09|OpenDeepWiki
- 2025-05-07|AI Manus
- 資源:📚 DeepWiki
- 2025-04-24|suna
- 2025-04-22|釦子空間 (Coze Space)
- 2025-04-03|AutoAgent
- 2025-04-03|Agent Development Kit (ADK)
- 2025-04-03|Deepsite
- 2025-03-30|DeepGemini
- 2025-03-24|AgenticSeek
- 2025-03-20|DeepSearcher
- 說明:私有資料 + Deepseek 打造本地 Deep Research
-
資源:📝 DeepSearcher 📝 知乎解讀
- 2025-03-11|autoMate
- 2025-03-10|OpenManus
- 2025-02-28|MoneyPrinterTurbo
- 2024-02-01|MobileAgent
- 2025-01-03|smolagents
- 2024-10-26|OmniParser
Tools
🛠️ 開發工具 (Tools & Protocols)
RAG (Retrieval Augmented Generation)
-
2026-03-14 KohakuRAG Apache-2.0 -
2026-03-01 PageIndex MIT License - 2025-11-20|LinearRAG
-
2025-07-02 RAG-Anything - 說明:解決傳統 RAG 無法處理複雜文檔的終極痛點!由港大 HKUDS 團隊(LightRAG 原班人馬)開源的「全能多模態 RAG 系統」。它能一鍵自動解析 PDF、Word、PPT 中的文字、圖片、複雜表格與數學公式,並將這些異構內容無縫映射到統一的知識圖譜(Knowledge Graph)中。結合強大的跨模態關係映射與雙層檢索機制,極度適合用於金融財報分析、醫療病歷比對,或是科研文獻的深度推理問答場景。
- RAG-Anything: All-in-One RAG Framework
-
資源:🐙 GitHub 📝 36Kr 深度解讀 📝 架構與資料庫實戰解析
- 2024-12-19|LightRAG
- 說明:解決傳統 RAG 檢索碎片化與缺乏全局語意理解的痛點。結合圖結構 (Graph) 與雙層檢索機制,能精準提取文件中的實體關聯。極度適合用於建構企業級法律合規知識庫、醫療文獻問答系統等需要高度準確性與防幻覺 (Hallucination) 的場景。
- EMNLP2025 “LightRAG: Simple and Fast Retrieval-Augmented Generation”
- Beijing University of Posts and Telecommunications、University of Hong Kong
-
資源:🐙 GitHub 📝 技術框架解讀
MCP (Model Context Protocol)
- 2025-08-20|FastAPI-MCP
- 2025-04-15|automcp
- 2025-04-10|line-bot-mcp-server
- 資源:🐙 GitHub
- 2025-04-05|GitMCP
- 2025-03-14|playwright-mcp
Browser Automation (瀏覽器自動化 / Manus / RPA 開源替代品)
| 框架/工具名稱 | 開發團隊/生態 | 💡 解決什麼痛點? (核心優勢) | 🚀 推薦適用場景 & 規格標籤 |
|---|---|---|---|
| OpenClaw | 🌐 開源社群 | 跑在本地的 AI 助手。強調在地端環境運行,保障隱私與資料安全。 | 本地端資料處理、隱私優先企業[本地部署] [隱私安全] |
| Browser-use | 🌐 國際開源社群 | 讓 AI 像人一樣上網。支援錄製工作流,一次錄製永久自動操作網頁。 | 網頁自動化測試、動態網頁爬蟲[瀏覽器自動化] [可錄製] |
| Gemini Computer Use | 直接操控作業系統。Google 官方推出的代理工具,讓 AI 能直接理解並操作你的電腦介面。 | 跨 APP 自動化操作、系統級 RPA[Google生態] [系統控制] |
|
| OmniParser | 🇺🇸 Microsoft | 精準解析 UI 元素。微軟開源的強大視覺智能體,能看懂手機與電腦畫面的按鈕與架構。 | UI 自動化測試、多模態輸入[微軟開源] [UI解析] |
| OpenManus / suna | 🇨🇳/🌐 開源社群 | Manus 的開源平替。解決商用 Agent 昂貴的問題,提供高度相似的任務執行能力。 | 個人開發者、快速概念驗證[Manus平替] [低成本] |
- Browser-use
- 資源:🐙 GitHub
- 2025-06-04:workflow-use (一次錄製,永久使用)
-
2025-04-16:web-ui 📚 如何使用 - 2025-03-28:browser-use-webui
- 2025-02-16:webui 部署教學
- 2025-01-23:讓 AI 像人類一樣使用瀏覽器
深度研究 (Deep Research) 與多智能體工作流
| 框架/工具名稱 | 開發團隊/生態 | 💡 解決什麼痛點? (核心優勢) | 🚀 推薦適用場景 & 規格標籤 |
|---|---|---|---|
| Tongyi DeepResearch | 🇨🇳 阿里巴巴 | 開源版深度研究。通義全面開源,標榜效能超越 OpenAI 的閉源研究框架。 | 學術文獻統整、深度產業報告生成[大廠開源] [深度研究] |
| Agno | 🌐 開源社群 | 高效能 Multi-agent。專注於多個 AI 智能體之間的協作與任務分發。 | 複雜專案拆解、軟體開發協作[多智能體] [高效能] |
| FlowGram | 🇨🇳 字節跳動 | Coze 核心引擎開源。強大的視覺化工作流引擎,適合構建複雜的邏輯鏈。 | 企業級 AI 服務編排、Chatbot 後台[工作流引擎] [可視化] |
| AutoAgent | 🇭🇰 香港大學 | 學術界最強大腦。港大打造的開源 Deep Research 工具,學術底蘊深厚。 | 大學研究室、論文自動化分析[學術開源] [文獻分析] |
效率工具 (Efficiency Tools)
-
2026-02-24 PaperBanana - 2025-11-26|Crawl4AI
- 2025-11-20|LinearRAG
- 2025-09-11|DeepMCPAgent
- 2025-07-30|LangExtract
- 說明:Gemini 驅動的資訊擷取庫
-
資源:🐙 GitHub 📝 Google Developers
- 2025-07-30|EasySpider
- 2025-06-28|docext
- 2025-06-10|Agentic-Doc
- 2025-06-06|daily-arXiv-ai-enhanced
- 說明:每日爬取 arXiv 並用 LLM 產生中文摘要
- 資源:🐙 GitHub
- 2025-05-22|AingDesk
- 說明:零門檻本地 AI 部署
-
資源:📚 DeepWiki 📝 知乎解讀
- 2025-05-20|news-agents
- 資源:📚 DeepWiki
- 2025-05-16|Follow
- 說明:資訊聚合神器
-
資源:📚 DeepWiki 📝 知乎推薦
- 2025-05-11|SurfSense
- 2025-04-28|PaperCoder (Paper2Code)
- 說明:Automating Code Generation from Scientific Papers
-
資源:📚 DeepWiki 📄 AlphaXiv
- 2025-04-16|OneFileLLM
- 2025-04-16|ScrapeGraphAI
- 2025-04-11|nanobrowser
- 2025-04-06|sqlchat
- 2025-03-26|pdf-craft
- 2025-03-25|OCRmyPDF
- 2025-03-12|AingDesk
-
資源:📚 DeepWiki 📝 知乎解讀
-
- 2025-02-25|PySpur
- 2025-01-13|DocAligner
- 2024-12-15|markitdown
- 資源:🐙 GitHub
AI PTT
🌍 AI PPT (用AI做PPT)
- 2026-03-03|PPTAgent V2
- 說明:重磅更新:從套模板到無模板自由生成;DeepPresenter 刷新產業榜單,渲染後即時糾錯改程式碼
- 2025-01-13,中科院開源 AI 工具,在EMNLP 2025 發表,文件轉高品質 PPT
- 資源:📝 知乎推薦
-
資源:🐙 GitHub 📝 公眾號推薦 -
2026-02-23 Edit-Banana - 說明:北京理工大學與亞利桑那大學團隊出手,憑藉著像素級逆向還原能力,打通了AIGC 繪圖落地的最後一公里。
- 資源:🐙 GitHub
-
2026-01-04 LangChat Slides -
2025-12-13 banana-slides - 2025-07-26|presenton
- 2025-07-03|MultiAgentPPT
🌍 知識管理革命:開源 AI PPT 與 NotebookLM 替代方案
| 專案名稱 | 分類 | 💡 解決什麼痛點? (核心優勢) | 🚀 推薦適用場景 & 規格標籤 |
|---|---|---|---|
| notebooklm-py / Notex | NotebookLM 平替 | 隱私優先的知識庫。提供類似 NotebookLM 的互動體驗,但支援命令列操作與本地部署。 | 企業內部文件庫、個人離線筆記本[開源平替] [重視隱私] |
| PageLM | NotebookLM 平替 | 互動式學習神器。把學習材料丟進去,自動生成互動式學習內容。 | 教育培訓、長篇報告快速消化[互動學習] [文件分析] |
| Edit-Banana | AI PPT | 像素級逆向還原。不直接生圖,而是理解、規劃再優化,打通 AI 簡報落地的最後一哩路。 | 專業商業簡報、學術海報生成[高質感排版] [學術開源] |
| MultiAgentPPT | AI PPT | 多智能體協作生 PPT。利用多個 Agent 並發處理大綱、文案與排版,速度極快。 | 急件簡報製作、大綱快速展開[多智能體] [自動排版] |
NotebookLM 平替
🌍 NotebookLM 平替
-
2026-01-20 notebooklm-py -
2026-01-04 Notex -
2025-12-12 PageLM -
2025-12-06 Open NoteBook -
2025-12-06 Auto-Slides
World Models
🌍 World Models (世界模型)
- 2025-09-25|Code World Model
- 說明:Yann LeCun 攜 320 億參數開源世界模型
-
資源:📝 Meta Research 📝 新浪報導
MoE
🧠 MoE (混合專家模型)
- 2024-12-13|DeepSeek-VL2
- 騰訊混元 (Hunyuan-Large)
SLM
📱 Small Language Models (小型語言模型)
- 2024-12-13|Phi-4
- 說明:微軟 Phi-4 正式發表,以小博大
-
資源:🤗 HuggingFace 📝 公眾號
- 2024-11-04|SmolLM2
- 說明:手機執行的小型語言模型
-
資源:🤗 HuggingFace 📝 iThome
- 2024-09-25|Llama 3.2
- 說明:1B/3B 端側模型 (Edge AI)
- 資源:📝 Meta Blog
Reasoning
🤔 Reasoning Models (推理模型)
🧠 次世代 LLM:推理模型 (Reasoning) 與 小型語言模型 (SLM)
| 模型名稱 | 開發團隊 | 💡 核心優勢與突破點 | 🚀 推薦適用場景 & 規格標籤 |
|---|---|---|---|
| gpt-oss (120B) | 🇺🇸 OpenAI | o4-mini 級別的開源震撼彈。OpenAI 重新擁抱開源,提供極強的邏輯推理能力。 | 複雜程式碼生成、高階數學解題[頂級推理] [OpenAI] |
| Llama Nemotron Super v1.5 | 🇺🇸 NVIDIA (輝達) | 三倍吞吐,單卡可跑。49B 的參數兼顧了極高的效能與相對親民的硬體需求。 | 企業內部知識庫、高併發 API 服務[NVIDIA特化] [單卡部署] |
| OpenReasoning-Nemotron | 🇺🇸 NVIDIA (輝達) | 1.5B 參數秒殺 o3。極小參數卻擁有恐怖的數學運算與邏輯推理能力。 | 邊緣設備即時運算、專精型任務[極端輕量] [數學核武] |
🧠 邊緣運算首選:Small Language Models (SLM)
| 模型名稱 | 開發團隊 | 💡 核心優勢與突破點 | 🚀 推薦適用場景 & 規格標籤 |
|---|---|---|---|
| Phi-4 | 🇺🇸 Microsoft | 以小博大的教科書。微軟 Phi 家族最新力作,在各項 Benchmark 上經常越級打怪。 | 本地筆電開發、離線文件摘要[微軟生態] [高CP值] |
| Llama 3.2 (1B/3B) | 🇺🇸 Meta | 專為端側與手機設計。Meta 官方釋出的輕量版本,完美適配行動裝置。 | iOS/Android APP 內建 AI、物聯網設備[Edge AI] [手機可跑] |
| SmolLM2 | 🇺🇸/🇪🇺 Hugging Face | 專為手機執行的極小模型。極致壓縮體積,適合資源極度受限的環境。 | 穿戴式裝置、超低功耗設備[極小體積] [HuggingFace] |
- 2025-08-05|gpt-oss
- 說明:OpenAI 重新開源,o4-mini 水平
-
資源:🤗 HuggingFace 📝 OpenAI Blog 📝 機器之心
- 2025-07-29|Llama Nemotron Super v1.5
- 說明:英偉達開源,三倍吞吐、單卡可跑
-
資源:🤗 HuggingFace 📝 知乎解讀
- 2025-07-27|OpenReasoning-Nemotron
- 說明:英偉達數學核武,1.5B 參數秒殺 o3
-
資源:🤗 HuggingFace 📝 公眾號解讀
- 2025-05-06|Llama-Nemotron
- 說明:英偉達高效推理系列
-
資源:📄 AlphaXiv 📚 DeepWiki 📝 知乎解讀
- 2025-04-16|Video-R1
- 說明:Reinforcing Video Reasoning in MLLMs
-
資源:📄 AlphaXiv 🐙 GitHub 📝 36Kr 報導
LLM
🏛️ Large Language Models (大型語言模型)
-
2026-02-19 Gemini 3.1 - 資源:🌐 官網
- 2025-08-05|Claude Opus 4.1
- 資源:📝 機器之心
- 2024-11-23|Ai2 Tülu 3
- 說明:真・開源模型,公開「後訓練」一切
-
資源:🐙 GitHub 🌐 Playground 🤗 Model 📝 機器之心
- 2024-09-25|Llama 3.2 90b/11b
- 資源:📝 Meta Blog
Embedding
🔎 Embedding & Reranker
-
2026-02-28 pplx-embed-v1 and pplx-embed-context-v1 - 說明:一系列尖端的文本嵌入模型,針對真實世界的 Web 規模檢索任務進行了優化,例如語義搜索和 RAG 系統
-
資源:📝 Perplexity Research 🤗 HuggingFace
- 2025-07-14|Gemini Embedding 001
- 2025-06-05|Qwen3 Embedding
- 說明:新一代文本表徵與排序模型
-
資源:📝 Qwen Blog 🤗 Embedding 🤗 Reranker
Speech
🔊 Speech-to-Speech LLM (語音大模型)
- TEN Agent
- pipecat
-
2026-01-24 FlashLabs-Chroma - 說明:Speech-to-Speech, S2S
- 資源:🤗 HuggingFace
-
2026-01-15 PersonaPlex-7B-V1 -
說明:重塑實時語音交互的 “全雙工” 黑科技 👉 點此看深度技術分析 -
資源:🤗 HuggingFace 🐙 GitHub 🌐 Project 論文 📝 公眾號解讀
-
- 2025-12-24|Fun-Audio-Chat-8B
- 2025-11-03|LongCat-Flash-Omni
- 說明:開啟全模態即時互動時代
-
資源:🤗 HuggingFace 📝 知乎解讀
-
2025-09-19 Xiaomi-MiMo-Audio - 說明:小米開源首個原生端對端語音大模式
-
資源:🤗 HuggingFace 📝 知乎解讀
- 2025-07-21|Audio Flamingo 3
- 2025-05-08|Voila
- HuggingFace Speech-to-Speech
- 資源:🐙 GitHub
Vision
👁️ Vision-Language Model (視覺大語言模型)
- 2025-05-20|Seed1.5-VL
- 說明:具有視覺增強多模態能力的高階語言模型
-
資源:🐙 GitHub 📄 AlphaXiv 📝 知乎解讀
- 2025-05-12|nanoVLM
- 資源:📚 DeepWiki
Multimodal
🌌 Multimodal LLM (多模態大語言模型)
- InternVL
- 說明:刷新開源多模態大模型效能新紀錄
-
資源:🐙 GitHub 📄 AlphaXiv 📚 DeepWiki 📝 知乎解讀
-
2025-12-20 T5Gemma 2 - 說明:首個140語言+多模態+超長上下文,Google開源重磅模型
-
資源:🤗 HuggingFace 📝 公眾號解讀
- 2025-05-24|Dolphin
- 說明:開源多模態複雜文件解析模型
-
資源:📄 AlphaXiv 📚 DeepWiki 📝 知乎解讀
- 2025-05-21|Gemma 3n
- 2025-03-18|Mistral Small 3.1
- 說明:128K 上下文,效能碾壓 GPT-4o Mini
-
資源:🤗 HuggingFace 📝 知乎解讀
- 2025-03-14|Vision-R1
- 2025-02-28|HumanOmni
- Phi Family (Microsoft)
-
資源:🤗 Collection 🤗 Phi-4 Multimodal -
2025-02-27:📝 56億參數秒殺 GPT-4o 📝 小身材大智慧 - 2024-09-12:📝 Phi 3.5 mini 發布
-
- MiniCPM
- 資源:🐙 GitHub
-
2025-01-16:📝 MiniCPM-o 2.6 發布 📖 文檔 - 2024-09-11:📝 升級 Ollama 支援
-
2024-09-06:📝 MiniCPM 3.0 開源 🐙 GitHub -
2024-09-05:📝 魔改 MiniCPM-V 🐙 GitHub
語音助手工具
- ESP-AI
- xiaozhi-esp32
- xiaozhi-esp32-server:為xiaozhi-esp32提供後台服務,協助您快速建置ESP32設備控制伺服器
- py-xiaozhi:python 版本小智ai,主要幫助那些沒有硬體的人體驗小智功能
- xiaozhi-web-client
- xiaozhi-android-client
- OpenVoiceOS
- fast-voice-assistant
- gptspeaker
相關論文
- UnIVAL: Unified Model for Image, Video, Audio and Language Tasks:https://arxiv.org/pdf/2307.16184.pdf
- https://unival-model.github.io
- Revisiting Relation Extraction in the era of Large Language Models:https://arxiv.org/abs/2305.05003
- A Survey on Language Models for Code
- Source Code Data Augmentation for Deep Learning: A Survey
相關連結
RAG
LangChain
- LangChain 入門:構建LLM 支持的應用程序的初學者指南
- LangChain中文入門教程
- 大語言模型集成工具LangChain
- LangChain-ChatGLM-Webui
- Langchain-Chatchat/Langchain-ChatGLM
- 基於本地知識的問答機器人langchain-ChatGLM
- LlamaIndex:輕鬆構建索引查詢本地文檔的神器
- LlamaIndex——与LangChain类似但更专注于数据处理的LLM框架
- langchain大模型外掛知識庫問答系統核心部件:如何更好地解析、分割複雜非結構化文本
- 一文詳解最熱的LLM 應用框架LangChain
- LangChain:打造自己的LLM 落地場景實作!
- langchain+xray,好玩起来了
- 利用LangSmith和Lilac微調你的大模型
LLM 部署開發相關
- AutoGen / AutoGen Studio
- https://microsoft.github.io/autogen/blog/2023/12/01/AutoGenStudio/
- 微軟Agent框架AutoGen論文及原理解讀
- AutoGen Studio 與本機Mistral AI 模型
- AutoGen Studio UI 2.0 : Step By Step Installation Guide
- 體驗AutoGen Studio - 微軟推出的友善多智能體協作框架
- 逐步掌握最佳Ai Agents框架-AutoGen:https://github.com/sugarforever/AutoGen-Tutorials
- 微軟AutoGen框架太火了,智能體聊聊天就把問題解決了
- autogen-ui:https://github.com/victordibia/autogen-ui
-
[我打通了Autogen和Bing搜尋 AutoGen系列第二篇](https://mp.weixin.qq.com/s/O8s_3K6yRB597i5swCV2Ew) - Streamlit + AutoGen = 基於LLM的多代理網頁應用開發
- 使用Streamlit建立AutoGen使用者介面
- AnythingLLM:https://github.com/Mintplex-Labs/anything-llm
- ollama:https://ollama.ai
- Flowise ——通過拖放界面構建定制的LLM流程
- QAnything, Question and Answer based on Anything:https://github.com/netease-youdao/QAnything
- CrewAI:CrewAI與AutoGen相比
- Phidata:Phidata補齊大模型短板,輕鬆建構RAG AI助理!
- NVIDIA AI Foundation Models
- TensorRT-LLM
- FastGPT
- https://doc.fastgpt.run/docs/intro/
- 利用Docker Compose快速部署FastGPT知识库问答
- XAgent:https://github.com/OpenBMB/XAgent
- Dify
- https://github.com/langgenius/dify
- https://docs.dify.ai/v/zh-hans/
- 這支十餘人的年輕創業團隊如何在2 個月做出一個 LLMOps 平台
- HuggingChat:Powered by Open Assistant’s latest model – the best open source chat model right now – and Hugging Face Inference API.
- JittorLLMs:計圖大模型推理庫-沒有顯示卡也能跑大模型:https://github.com/Jittor/JittorLLMs
- PromptFlow — 微軟最新開源的基於LLM的開發工具集:https://github.com/microsoft/promptflow
- 用bitsandbytes、4 位元量化和QLoRA 打造親民的LLM
- 用LLaMA 2.0, FAISS and LangChain實現基於知識問答
- LMDeploy:使用LMDeploy 輕鬆部署Llama-2 系列模型!
- LLMStack:一個用於構建生成式AI 應用、聊天機器人、智能體的無代碼平台
- https://github.com/trypromptly/LLMStack
- LLaMA2-Accessory
- AutoChain : LangChain 的替代品
- LangFlow:一款可輕鬆實驗和原型化 LangChain 模擬的 AI 項目
LLM 模型匯整
- 大型語言模型綜述全新出爐:從T5到GPT-4最全盤點!
- 現有開源中文LLM整理
- 大模型LLM-微調經驗分享&總結
- Hugging Face 的文本生成和大語言模型的開源生態
- 構建能夠使用CPU 運行的MetaAI LLaMA2 中文大模型
- 復旦NLP團隊發表80頁大模型Agent綜述,一文綜觀AI智能體的現況與未來
Code LLM 代碼大模型介紹
- 個人程式設計助理: 訓練你自己的編碼助手
- Code Llama:https://github.com/facebookresearch/codellama
- DeepSeek Coder:https://huggingface.co/deepseek-ai
- CodeShell:https://huggingface.co/WisdomShell
LLM 模型介紹
- Gemma: Google 最新推出開放大語言模型
- Mistral
- Xwin-LM
- Zephyr
- 最好7B模型再易主!打敗700億LLaMA2,蘋果電腦就能跑,還開源免費
- 實戰|如何低成本訓練一個可以超越70B Llama2 的模型Zephyr-7B
- 使用者意圖對齊,無需人工標註,Zephyr-7B 超越Llama2-Chat-70B
- Zephyr-7B-β:類GPT高性能LLM大模型:https://huggingface.co/spaces/HuggingFaceH4/zephyr-chat
- neural-chat-7b-v3@INTEL
- Baichuan:https://huggingface.co/baichuan-inc
- https://huggingface.co/baichuan-inc/Baichuan-13B-Base
- https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
- 實戰!私有化部署RAG大模型,ChatGLM2-6B還是Baichuan2-13B
- Baichuan2-13B 量化及 API 部署
- 百川智能發表Baichuan2大模型:全面領先Llama2,訓練切片也開源了
- 01-ai/Yi
- Fengshenbang-LM(封神榜大模型):https://huggingface.co/IDEA-CCNL
- Ziya2: Data-centric Learning is All LLMs Need
- Ziya2-13B-Base
-
[社群動態 封神榜團隊揭秘大模型訓練秘密:以資料為中心](https://hub.baai.ac.cn/view/32516) - IDEA研究院Ziya2-13B首发魔搭社区(含社区推理微调最佳实践教程)
- Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering
- 多項長篇文本任務第一,揭秘Ziya-Reader 訓練技術:注意力增強
- Chat GLM
- Falcon 180B Demo
- 天工@崑崙萬維
- Meta Llama 2:https://github.com/facebookresearch/llama
- MOSS
- https://txsun1997.github.io/blogs/moss.html
- Bloom:
- https://huggingface.co/spaces/sambanovasystems/BLOOMChat
- 176B竟然可以辣麼快,效果直逼chatgpt-4直接hf在線體驗,還可以商用
- 逼近GPT-4!BLOOMChat: 开源可商用支持多语言的大语言模型
- Dolly
- XVERSE
- MPT-7B:A New Standard for Open-Source, Commercially Usable LLMs
- https://huggingface.co/mosaicml/mpt-7b
- https://huggingface.co/spaces/mosaicml/mpt-7b-instruct
- MosaicML 推出70 億參數模型MPT-7B-8,號稱一次處理8000 字長文本、可商用
- 最新發布!截止目前最強大的最高支持65k輸入的開源可商用AI大模型:MPT-7B!
- [OpenBMB]
- 清華係發布國產Mistral僅2B,老手機都帶得動,GitHub一天斬獲300+星:https://github.com/OpenBMB/MiniCPM
- CPM-Bee
- VisCPM:SOTA 開源中文多模態大模型
- Open Assistant
- Cerebras-GPT
- OpenBuddy
- h2oGPT:https://github.com/h2oai/h2ogpt
- 文心@百度:
- https://wenxin.baidu.com
- 混元@騰訊:
- https://cloud.tencent.com/product/hunyuan
- 通義千問(QWEN)@阿里:
- https://huggingface.co/Qwen/Qwen-72B
- https://github.com/QwenLM/Qwen-7B
- https://tongyi.aliyun.com/
- 720億參數大模型都拿來開源了!通義千問開源全家桶,最小18億模型端側都能跑
- 免費、可商用,阿里雲開源70億參數通義千問大模型
- 開源語音大語言模型來了!阿里基於Qwen-Chat提出Qwen-Audio!
</details>