https://github.com/Deep-Learning-101/Natural-Language-Processing-Paper
https://huggingface.co/DeepLearning101
https://deep-learning-101.github.io/
手把手帶你一起踩 AI 坑
手把手帶你一起踩 AI 坑:https://www.twman.org/AI
- 避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案:探討多種 AI 代理人工具的應用經驗與挑戰,分享實用經驗與工具推薦。
- 白話文手把手帶你科普 GenAI:淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性。
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 什麼是大語言模型,它是什麼?想要嗎?(Large Language Model,LLM):探討 LLM 的發展與應用,強調硬體資源在開發中的關鍵作用。
- Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成);深入探討影像生成與分割技術的應用,強調硬體資源的重要性。
- ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策:探討 ASR 和 TTS 技術應用中的問題,強調數據質量的重要性。
- 那些 NLP 踩的坑:分享 NLP 領域的實踐經驗,強調數據質量對模型效果的影響。
- 那些語音處理踩的坑:分享語音處理領域的實務經驗,強調資料品質對模型效果的影響。
- 手把手學深度學習安裝環境:詳細介紹在 Ubuntu 上安裝深度學習環境的步驟,分享實際操作經驗。
LLM
大語言模型 (Large Language Model)
✨LLM API Platform Price Comparison
大型語言模型API平台價格比較
平台 | 模型 | 輸入費用 (USD/1M Tokens) | 輸出費用 (USD/1M Tokens) | 上下文窗口 | 免費層級 | 最大速率限制 (RPM / TPM) | 多模態能力 | 特點 / 說明 | 定價連結 |
---|---|---|---|---|---|---|---|---|---|
OpenAI | OpenAI o1 | $15.00 | $60.00 | 200k | ❌ | 不公開 | ✅(文字+圖像) | Frontier 模型,支援 Vision/Tools/結構化輸出 | OpenAI Pricing |
OpenAI | OpenAI o3-mini | $1.10 | $4.40 | 200k | ❌ | 不公開 | ❌ | 成本效益模型,適合編碼與數學 | 同上 |
Gemini 2.5 Pro (Preview) | $1.25(≤200k),$2.50(>200k) | $10.00(≤200k),$15.00(>200k) | >200k | ✅(指定模型) | 150 RPM / 2M TPM(Tier 1) | ✅(文字+圖像) | 高階推理力,企業級用途 | Gemini API / Gemini 網站 | |
Gemini 2.0 Flash | $0.10(圖文影),$0.70(音訊) | $0.40 | 1M | ✅(15 RPM) | 2,000 RPM / 4M TPM | ✅(文字+圖+影+音) | 多模態支援,企業級速率與穩定性 | 同上 | |
Gemini 2.0 Flash Lite | $0.075(全模態) | $0.30 | 1M | ✅(30 RPM) | 4,000 RPM / 4M TPM | ✅(全模態) | 超高速率、經濟型多模態模型 | 同上 | |
DeepSeek | deepseek-chat (V3) | $0.27 | $1.10 | 64K | ❌ | 不公開 | ❌ | 標準價,推理速度佳 | DeepSeek Pricing / DeepSeek Chat |
DeepSeek | deepseek-reasoner (R1) | $0.55 | $2.19 | 64K | ❌ | 不公開 | ❌ | 高階邏輯推理與數據分析能力 | 同上 |
Qwen | Qwen-Max | $1.60 | $6.40 | ~32K | ❌ | 不公開 | ❌ | 強推理型,偏向高品質產出 | Qwen Chat |
Qwen | Qwen-Plus | $0.40 | $1.20 | ~131K | ❌ | 不公開 | ❌ | 均衡型模型,支援較長上下文 | 同上 |
Grok | grok-3 | $3.00 | $15.00 | 131k | ✅ | 不公開 | ❌ | 支援思考模式、有限搜尋功能 | Grok 官網 |
百度 | 文心一言(ERNIE Bot) | 不公開(免費使用) | 不公開(免費使用) | 不公開 | ✅ | 不公開 | ✅(圖像/語音) | 支援中文語境與多模態任務 | 文心一言 |
人工智慧大語言模型微調技術:SFT 監督微調、LoRA 微調方法、P-tuning v2 微調方法、Freeze 監督微調方法
Tool 名稱 | 功能範疇 | 集成能力 | 適用場景 | 建議選擇 | 知識庫技術 |
---|---|---|---|---|---|
Flowise | 簡單可視化流程建構 | 支持 LangChain 和 GPT,多平台部署 | 快速構建簡單 LLM 流程應用 | 適合需要快速構建和部署 LLM 應用的用戶 | |
Langflow | 多智能體與 RAG 應用構建 | 外部工具、API 與資料庫集成 | 複雜任務鏈與多智能體應用開發 | 適合構建複雜任務鏈的技術型開發者 | |
Dify | 全面應用開發與管理 | 多模型支持,全面工作流與模型管理 | 全生命周期管理與複雜應用開發 | 適合需要全面管理 LLM 應用的開發者或企業 | 基於 Pinecone 的向量數據庫、Notion API 同步(增量更新)、支持 Rerank 模型(bge-reranker-base)、提供行業模板庫 |
n8n | 通用自動化與流程編排平台 | 支持超過 350 種服務與 API 集成,可視化流程編輯 | 應用整合、自動化工作流程構建、自動回應觸發器 | 適合需要自動處理非 AI 任務或整合各類 SaaS 工具的用戶與開發者 | 可與向量資料庫結合使用,但非內建 |
RAGFlow | 模組化 RAG 管線與知識應用框架 | 支持 LangChain、Chroma、FAISS 等,可用於構建完整 RAG 工作流 | 知識問答、文件檢索、RAG 多階段優化 | 適合需要建構可定製、模組化 RAG 系統的開發者 | 支持多向量資料庫(Chroma、FAISS)、可結合自定義資料源與檢索策略 |
New API | 模型接口統一與分發 | OpenAI 格式統一,支持多支付協議與分發管理 | 多模型接口管理與分發 | 適合需要統一管理多種 AI 模型接口的用戶 | |
XORBITS Inference | 分散式推理與部署 | 與 Hugging Face 等模型相容,支援雲端及本地等多種部署環境 | 大規模模型推理與雲端部署,需快速搭建可擴展的推理服務時 | 適合需要高效擴展能力、進行大規模模型推理的團隊或企業 | |
Ollama | 本地模型推理與管理 | 提供命令列介面,支援多種 Llama 模型於本地運行 | 在有隱私或離線需求的場景下進行本地推理 | 適合想在本地快速配置 Llama 系列模型的個人或中小型團隊 | |
FastGPT | 知識庫問答系統與工作流編排 | 提供開箱即用的數據處理、模型調用,支持可視化工作流編排 | 快速構建智能問答系統與複雜問答場景 | 適合需要快速部署知識庫問答系統的用戶 | 混合索引(Elasticsearch + FAISS)、支援 PDF 表格解析(PyMuPDF 集成)、BM25 權重可調、需人工標註種子數據 |
Coze | AI 智能體開發平台 | 整合插件、長短期記憶、工作流、卡片等功能,支持多平台發布 | 低門檻快速搭建個性化或具備商業價值的智能體 | 適合無需編程即可創建智能體的用戶 | 自研分佈式索引、電商數據結構 |
工具
- LoRA、完全微調到底有何不同? MIT 21頁論文講懂了
- torchtune:https://github.com/pytorch/torchtune
- LLaMA Factory:https://huggingface.co/spaces/hiyouga/LLaMA-Board
- PyMuPDF :PyMuPDF的安裝與使用
- MCP
- 2025-04-15:automcp:將任何代理、工具或編排器秒設定 MCP 伺服器
- 2025-04-10:line-bot-mcp-server
- 2025-04-05:GitMCP:GitMCP 太神了!一行URL 讓AI 秒懂你的GitHub 項目
- 2025-03-14:playwright-mcp:MCP-Playwright:AI自動化神器
- browser-use
- 2025-04-16:browser-use/web-ui;如何使用
- 2025-03-28:browser-use-webui
- 2025-02-16:browser use webui部署(實現瀏覽器自動化)
- 2025-01-23:Browser Use – 讓AI 像人類一樣使用瀏覽器
- 2025-05-11:SurfSense:GitHub 開源專案 打通Notion、GitHub、搜尋引擎的AI超腦,如何使用
- 2025-04-16:OneFileLLM:這個開源神器終結了AI資料整合的惡夢!一鍵聚合網頁、程式碼、論文到剪貼簿!
- 2025-04-16:ScrapeGraphAI:ScrapeGraphAI -自然語言驅動的智慧爬蟲革命!
- 2025-04-15:stagehand:Stagehand:AI驅動的下一代瀏覽器自動化框架
- 2025-04-11:nanobrowser:AI 驅動的瀏覽器自動化神器
- 2025-04-10:DevDocs:開發者的文檔收割機來了!這個開源工具讓你一小時幹完一週的活!
- 2025-04-06:sqlchat:這款開源神器讓資料庫管理像聊天一樣簡單!
- 2025-03-26:pdf-craft:PDF秒轉Markdown/EPUB
- 2025-03-08:composio:AI助理效率神器! Composio幫你輕鬆整合200+工具
- 2025-02-25:PySpur:拖曳式開發AI工作流程!這款開源神器,讓LangChain也黯然失色!
- 2025-01-13:DocAligner:拍照文件復原:校正扭曲、光照陰暗、版面定位
- 2025-01-07:activepieces:一個開源的AI自動化工作流程工具
- 2024-12-15:markitdown
- 2024-11-21: IBM開源一站式文件解析工具!輕鬆解析PDF、PPT、圖片及網頁等多種格式文檔
Agent 名稱 | 功能範疇 | 集成能力 | 適用場景 | 建議選擇 |
---|---|---|---|---|
AutoGPT | 自主 AI 代理構建與運行 | 使用 OpenAI 的 GPT-4 和 GPT-3.5 大型語言模型,允許為各種個人和商業項目構建代理 | 適合需要自動化完成多目標複雜任務的用戶 | 適合希望利用 GPT 模型自動執行任務的開發者 |
MetaGPT | 多智能體協作框架,專注於軟體開發 | 採用多智能體框架,模擬人類軟體開發團隊,包括產品經理、架構師、項目經理、工程師等角色 | 適合需要模擬軟體開發流程,提高開發效率和質量的場景 | 適合希望利用 AI 模擬軟體開發流程的團隊或企業 |
AgentGPT | 基於網頁的自主 AI 代理配置與部署 | 支持在瀏覽器中配置和部署自主 AI 代理,並讓其完成任何目標 | 適合需要快速構建和部署自主 AI 代理的用戶 | 適合希望在瀏覽器中快速配置 AI 代理的開發者 |
HuggingGPT | 多模型協作的 AI 系統 | 包含一個大型語言模型作為控制器和許多專家模型作為協作執行者 | 適合需要多模型協作處理複雜任務的場景 | 適合希望利用多模型協作提高任務處理能力的團隊或企業 |
- 從AI Agent到Agent工作流程,一文詳細了解代理程式工作流程
- 萬字長文,帶你綜觀大模型Agent,涉及研究痛點、應用場景、發展方向
- 什麼是「Agentic 工作流程」?
- 什麼是Agentic AI?什麼是Agentic Workflow?與AI Agent有什麼區別和關聯?
- 2025-05-10:FlowGram:字節跳動把Coze 核心開源了!視覺化工作流程引擎FlowGram 上線;如何使用
- 2025-05-10:DeerFlow:字節跳動開源DeerFlow - Gemini深度研究的開源平替;如何使用
- 2025-05-09:OpenDeepWiki:開源的DeekWiki加入MCP,輕鬆讓AI掌握開源專案使用文件!;如何使用
- 2025-04-24:suna:3週時間,就打造出Manus開源平替!貢獻原始碼,免費用
- 2025-04-2:釦子空間 (Coze Space):字節版Manus 釦子空間來了!實測效果絕佳,但還有3 個問題
- 2025-04-14:DroidRun:AI也能操作手機了! DroidRun 讓Agent 實現智慧型手機自動化操作!
- 2025-04-14:MDocAgent:Adobe首發多Agent、跨模態框架MDocAgent:複雜文件理解效能爆炸12%,錯誤率直降21%
- 2025-04-08:CortexON:CortexON:開源通用AI Agent,另一個取代Manus產品 (只支援 Anthropic ?)
- 2025-04-08:oliva:Oliva:一個多智能體,開源語音RAG 助手
- 2025-04-03:AutoAgent:一句話全自動創建AI智能體,港大AutoAgent打造開源最強Deep Research
- 2025-04-03:Agent Development Kit (ADK):谷歌發表「智能體開發工具包」ADK,來嚐個鮮
- 2025-04-03:deepsite
- 2025-03-30:DeepGemini:AI界的’搭積木’神器,10分鐘打造你的專屬智慧團隊!
- 2025-03-24:agenticSeek:又一個“Manus”開源,完全本地化替代品AgenticSeek
- 2025-03-11:autoMate:autoMate:基於OmniParser 所建構的革命性AI自動化助手
- 2025-03-10:OWL:另一個開源版本的“Manus”
- 2025-03-10:OpenManus:一文讀懂:OpenManus
- 2024-02-01:MobileAgent:一句指示幫你操作手機,最新多模態手機助理Mobile-Agent來了!
- 2025-01-23:Upsonic:5.9K Star!全能高效的AI代理框架,打造企業級AI電腦助手,辦公任務一鍵完成!
- 2025-01-21:UI-TARS:端對端GUI Agent:UI-TARS 如何以純視覺驅動GUI 自動化
- 2025-01-03:smolagents:新年禮物,Huggingface捲了一個Agent專案開源
- 2024-09-23:STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking
- 2024-10-26:OmniParser;控制電腦手機的智慧體人人都能造,微軟開源OmniParser
語音到語音大模型
- 開源不限學術用,ten-agent
- 開源不限學術用,pipecat:OpenAI工程師親自修訂:用ChatGPT即時語音API建立應用
- 開源不限學術用,HuggingFace Speech-to-Speech
- 開源不限學術用,bailing
- 開源不限學術用,OmAgent:OmAgent框架強勢開源!業界應用已全面開花
- 開源不限學術用,2024-12-11:Ultravox
- 開源學術用,商用需申請,GLM-4-Voice:嚐鮮評量:智譜AI語音大模型GLM-4-Voice好用不
- 開源限學術用,2024-12-06:Freeze-Omni
- 開源不限學術用,weebo
- 開源不限學術用,OpenVoiceChat
混合專家(Mixture of Experts, MoE)模型
- 2024-12-13:DeepSeek-VL2:DeepSeek-VL2開源,VLM邁入MoE時代,DeepSeek-VL2 先進視覺語言模型,在多模態理解方面取得了顯著進展
- 騰訊混元:騰訊混元又來開源,一出手就是最大MoE大模型
小型語言模型
- 2025-01-07:Smolagents:Hugging Face開源全新AI智能體框架支援工具呼叫與程式碼執行!
- 2024-12-13:Phi-4:以小博大,微軟Phi-4正式發表~
- 2024-11-18:MobileLLM-1.5B:Meta MobileLLM:深度架構與最佳化技術打造的行動裝置超強語言模型
- 2024-11-04:SmolLM2:https://github.com/hiyouga/LLaMA-Factory
- 2024-09-25:Llama 3.2 90b, 11b, 3b, 1b: Revolutionizing edge AI and vision with open, customizable models
大型語言模型
- 2024-12-05:InternVL2.5
- 2024-11-23:Ai2 Tülu 3:這才是真・開源模型!公開「後訓練」一切,性能超越Llama 3.1 Instruct
- 2024-11-9:Ai2 OpenScholar:https://openscholar.allen.ai/
- 2024-09-25:Llama 3.2 90b, 11b, 3b, 1b: Revolutionizing edge AI and vision with open, customizable models
- 2024-09-19:阿里國際發表最新開源多模態模型Ovis,多模態能力再升級:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
- 2024-09-20:Reader-LM:用於清理和將 HTML 轉換為 Markdown 的小型語言模型
- 2024-06-28:谷歌最新Gemma 2 模型來了
多模態大語言模型 (Multimodal)
- 2025-03-18:Mistral Small 3.1:Mistral開源多模態小模型3.1:128K上下文+超低延遲,效能碾壓GPT-4o Mini
- 2025-03-14:Vision-R1:Vision-R1:激發多模態大模型的推理能力
- 2025-02-28:HumanOmni
- Phi
- 2025-02-21:Magma:微軟發表Magma多模態AI代理基礎模型,單一模型就具UI與機器人操作能力
- 2024-04-11:視覺語言模型詳解
- 2024-09-26:Llama 3.2:開源可自訂視覺模型:Ollama
- 2024-09-20:LLaMA-Omni:Llama 3.1 Omni:顛覆性的文字與語音雙輸出模型
- Mistral AI Pixtral
- 2024-09-14:Pixtral 12B / DEMO:本地部署、映像分析和OCR功能全解析
- 2024-09-12:Mistral AI推出多模態模型Pixtral 12B
- 2024-12-12:InternLM-XComposer-2.5
- MiniCPM
- 2024-09-12:LLaVA-OneVision 震撼登場!字節跳動:https://cloud.tencent.com/developer/article/2444463
- 2024-06-24:微調Florence-2 - 微軟的尖端視覺語言模型
語音助手工具
- ESP-AI
- xiaozhi-esp32
- xiaozhi-esp32-server:為xiaozhi-esp32提供後台服務,協助您快速建置ESP32設備控制伺服器
- py-xiaozhi:python 版本小智ai,主要幫助那些沒有硬體的人體驗小智功能
- xiaozhi-web-client
- xiaozhi-android-client
- OpenVoiceOS
- fast-voice-assistant
- gptspeaker