Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心
大語言模型 | 語音處理 | 自然語言處理 | 電腦視覺 |
Large Language Model | Speech Processing | Natural Language Processing, NLP | Computer Vision |
用 AI 懂 AI
- Chain-of-Thought is not explainability
- arXiv 2506.21521 (Potemkin Understanding in Large Language Models)
- arXiv 2502.04644 (Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research)
- AI新賽局:企業的入門策略指南
- 臺灣大型語言模型性能評測與在地化策略分析報告
- GenAI 與 LLM 在金融產業的應用分析:金融服務中 GenAI 與 LLM 的變革潛力。
- AI Robot 陪伴型機器人:2025 趨勢分析技術突破、市場潛力與未來展望。
- 避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案:探討多種 AI 代理人工具的應用經驗與挑戰,分享實用經驗與工具推薦。
AI 技術 體驗/分享
手把手帶你一起踩 AI 坑:https://www.twman.org/AI
- 白話文手把手帶你科普 GenAI:淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性。
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算:探討 LLM 的發展與應用,硬體資源在開發中的作用。
- Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成);深入探討影像生成與分割技術的應用,強調硬體資源的重要性。
- ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策:探討 ASR 和 TTS 技術應用中的問題,強調數據質量的重要性。
- 那些 NLP 踩的坑:分享 NLP 領域的實踐經驗,強調數據質量對模型效果的影響。
- 那些語音處理踩的坑:分享語音處理領域的實務經驗,強調資料品質對模型效果的影響。
- 手把手學深度學習安裝環境:詳細介紹在 Ubuntu 上安裝深度學習環境的步驟,分享實際操作經驗。
AI 技術 開源/試用
LLM
大語言模型 (Large Language Model)
✨LLM API Platform Price Comparison
總體戰略比較:三大公有雲 AI 平台
特性 | Google Cloud (GCP) | Microsoft Azure | Amazon Web Services (AWS) |
---|---|---|---|
主要 GenAI 平台 | Vertex AI | Azure OpenAI Service | Amazon Bedrock |
平台核心理念 | AI 技術創新者 | 企業服務整合者 | 中立的雲端市集 |
旗艦/代表性模型 | Gemini 系列 (2.5 Pro) | OpenAI 模型系列 (GPT-4o) | Anthropic Claude 系列 |
“私有通道”安全技術 | VPC Service Controls | Private Endpoint | Interface VPC Endpoint |
計費模式 (安全性) | 服務啟用免費 | 端點按小時計費 + 數據按 GB 計費 | 端點按小時計費 + 數據按 GB 計費 |
個人體驗 | Gemin無敵+Cloude等模型 | 只有Open AI | 就是少了 Gemini |
自行架設 GPU VM 每小時預估費用
- 台灣計價: (美元費用 x 當期匯率) + 5% 營業稅
- 基準: 以下價格均以美國東部 (US East) 或美國中部 (US Central) 的主要資料中心為基準,這是行業內最常用於比較定價的區域。
- 定價模式: 均採用 「按需 (On-Demand)」 定價,不包含任何預留或長期承諾折扣。
- 幣別: 均為美元 (USD, $)。
GPU 型號 | Google Cloud (GCP) | Microsoft Azure | Amazon Web Services (AWS) |
---|---|---|---|
NVIDIA T4 | 每小時: $0.35 每個月: $255.5 承諾1年:$0.22/$160.60 |
||
NVIDIA P4 | 每小時: $0.60 每個月: $438.00 承諾1年:$0.378/$275.94 |
||
NVIDIA V100 | 每小時: $2.48 每個月: $1810.40 承諾1年:$1.562/$1140.26 |
每小時: ~$3.07 | 每小時: ~$3.06 |
NVIDIA A100 | 實例: a2-highgpu-1g (1x A100)每小時: ~$4.45 |
實例: Standard_ND96asr_v4 (8x A100)每小時/每顆: ~$4.21 (整機 ~$33.68/hr) |
實例: p4d.24xlarge (8x A100)每小時/每顆: ~$4.09 (整機 ~$32.77/hr) |
NVIDIA H100 | 實例: a3-highgpu-8g (8x H100)每小時/每顆: ~$8.37 (整機 ~$66.95/hr) |
實例: Standard_ND H100 v5 (8x H100)每小時/每顆: ~$8.59 (整機 ~$68.75/hr) |
實例: p5.48xlarge (8x H100)每小時/每顆: ~$12.26 (整機 ~$98.08/hr) |
大型語言模型API平台價格比較 ~2025/07
平台 | 模型 | 存取平台 | 輸入費用 (USD/1M Tokens) |
輸出費用 (USD/1M Tokens) |
上下文窗口 | 免費層級 | 最大速率限制 (RPM / TPM) | 多模態能力 | 特點 / 說明 | 定價連結 |
---|---|---|---|---|---|---|---|---|---|---|
Gemini 2.5 Pro | Vertex AI | $1.25 (≤200k) $2.50 (>200k) |
$10.00 (≤200k) $15.00 (>200k) |
1M | ✅ (適用 GCP 免費額度) | 高,可申請提高 | ✅ (文/圖/影/音) | 企業生產級,整合 GCP 安全與 MLOps 工具鏈 | Vertex AI Pricing | |
Gemini 2.5 Pro | Google AI Studio | 免費 (在限制內) 或 Pay-as-you-go |
免費 (在限制內) 或 Pay-as-you-go |
1M | ✅ (60 RPM) | 固定速率限制 (60 RPM) | ✅ (文/圖/影/音) | 開發者優先,適合快速原型驗證,免費層級慷慨 | Google AI Studio Pricing | |
Anthropic | Claude 4 Opus | Amazon Bedrock, Vertex AI | $15.00 | $75.00 | 200K | 依附於雲端平台免費額度 | 依帳戶等級 (可申請提高) | ✅ (文/圖) | 最新頂級旗艦,專為最複雜任務設計,推理能力極強 | Anthropic Pricing |
Anthropic | Claude 4 Sonnet | Amazon Bedrock, Vertex AI | $3.00 | $15.00 | 200K | 依附於雲端平台免費額度 | 依帳戶等級 (可申請提高) | ✅ (文/圖) | 最新主力模型,在智慧與速度間取得最佳平衡 | 同上 |
Anthropic | Claude 3.7 Sonnet | Amazon Bedrock, Vertex AI | $3.00 | $15.00 | 200K | 依附於雲端平台免費額度 | 依帳戶等級 (可申請提高) | ✅ (文/圖) | 具備「擴展思維」模式,適合深度分析與程式碼生成 | 同上 |
OpenAI | GPT-4o | Azure OpenAI, OpenAI API | $5.00 | $15.00 | 128K | ✅ (新戶免費額度) | 依帳戶等級 (可申請提高) | ✅ (文/圖/音) | Frontier 模型,支援 Vision/Tools/結構化輸出 | OpenAI Pricing |
Meta | Llama 3 (70B) | Amazon Bedrock, Vertex AI | ~$0.79 | ~$2.70 | 8K | 依附於雲端平台免費額度 | 依帳戶等級 (可申請提高) | ❌ | 最強大的開源模型之一,適合通用對話與內容生成 | Bedrock Pricing |
xAI | Grok-3 | Grok API, X Premium+ | $3.00 | $15.00 | 128K | ✅ (新戶免費額度) | 不公開 (受邀制) | ✅ (文字) | 即時資訊存取,具備獨特風格。Grok-4 即將推出 | xAI API |
DeepSeek | deepseek-chat (V2) | DeepSeek API | $0.14 | $0.28 | 128K | ✅ (新戶 5M Tokens) | 不公開 | ❌ | 高性价比,編碼與數學能力強 | DeepSeek Pricing |
Qwen | qwen-turbo | 阿里雲, Qwen API | ~$0.0011 | ~$0.0022 | 32K | ✅ (新戶免費額度) | 不公開 | ✅ (文/圖) | 阿里通義千問,經濟高效型 | Qwen Pricing |
百度 | ERNIE 4.0 | 百度千帆大模型平台 | ~$16.50 | ~$16.50 | ~128K | ✅ (新戶免費額度) | 不公開 | ✅ (文/圖) | 中文原生,支援多種中國特色應用與知識 | Baidu Pricing |
大型語言模型與Agent安全工具比較 ~2025/07
工具/資源名稱 | 開發者/來源 | 核心本質 | 主要用途/功能 | 運作方式 | 適用情境 |
---|---|---|---|---|---|
agentic-radar | splx-ai |
綜合性安全套件 (靜態+動態) |
分析代理 (Agent) 的工作流程、組件,並進行動態測試與提示詞強化。 | 靜態掃描原始碼以繪製工作流程圖;動態測試則實際運行代理以測試其行為。 | 開發早期進行架構審查,並在同一個工具中完成初步的動態測試。 |
agentic_security | msoedov |
動態模糊測試工具 (Dynamic Fuzzer) |
攻擊運作中的 LLM API,以發現提示詞注入等運行時漏洞。 | 向指定的 HTTP 端點發送大量預設的攻擊提示詞。 | 對任何 LLM API 進行快速、靈活的黑箱滲透測試。 |
garak | NVIDIA | 自動化紅隊演練工具 (Automated Red Teaming) |
系統性地、全面地掃描 LLM 的各種漏洞(偏見、洩漏、注入等)。 | 使用「探針 (Probes)」發動攻擊,並用「偵測器 (Detectors)」評估結果。 | 模型部署前的全面安全評估、基準測試、以及定期的安全審計。 |
llm-guard | protectai |
防禦性函式庫/防火牆 (Defensive Firewall) |
作為應用程式的安全層,過濾和淨化進出 LLM 的數據。 | 使用可插拔的「掃描器 (Scanners)」管道來檢查和修改輸入/輸出內容(如匿名化個資)。 | 在應用程式程式碼中建立即時的、可客製化的執行時期安全防護。 |
ShieldGemma 2 | Google DeepMind | 專家級安全分類模型 (Specialist Safety Model) |
判斷文字內容是否違反多項安全策略(如仇恨言論、騷擾等)。 | 一個經過微調的 LLM,對輸入文字進行深度語意理解並輸出安全標籤。 | 作為一個強大的分類器,對需要精準語意判斷的內容進行安全審核。 |
JailBreakV-28k | Hugging Face | 資料集 (Dataset) | 提供大量用於測試和研究 LLM 越獄漏洞的「提示詞-圖片-模型-回應」數據。 | 一個包含 28,000+ 筆紀錄的資料庫,用於訓練和評估安全模型。 | 學術研究、訓練自訂的攻擊檢測模型、或評估模型的安全性。 |
- 攻擊方 (矛):
garak
和agentic_security
是主動的攻擊工具,用來在部署前後找出系統的弱點。garak
更像一個全面、系統化的掃描器,而agentic_security
則像一個靈活的模糊測試工具。 - 防守方 (盾):
llm-guard
和ShieldGemma
是被動的防禦工具,用來在應用程式運行時即時阻擋攻擊和過濾內容。llm-guard
是一個高度客製化的「工具箱」,而ShieldGemma
則是一個專注於語意理解的「專家」。 - 綜合與特定框架工具:
agentic-radar
是一個結合了靜態分析(看藍圖)和動態分析(實地測試)的綜合性工具,特別適合審查使用特定代理框架的專案。
- 人工智慧大語言模型微調技術:SFT 監督微調、LoRA 微調方法、P-tuning v2 微調方法、Freeze 監督微調方法
- LoRA、完全微調到底有何不同? MIT 21頁論文講懂了
- 大模型微調(Fine-tuning)全解,需要了解的都在這裡
- 初學者必看大模型微調指南:Unsloth官方微調技巧大公開!
- 零代碼!一站式完整資料集準備到模型微調全流程!
- 把你的DeePseek-R1 微調為某個領域的專家?
- 使用 NVIDIA NeMo 框架進行 LLM 模型剪枝和知識蒸餾
- LLaMA Factory:https://huggingface.co/spaces/hiyouga/LLaMA-Board
- torchtune:https://github.com/pytorch/torchtune
- 微調特定領域的大模型,資料集究竟要怎麼搞?
- LLaMA Factory 微調教學:如何建立高品質資料集
- 大模型微調資料集生產工具 Easy Dataset
- 開源DeepWiki版支援根據現有檔案產生微調資料集
- 零一萬物發布COIG-CQIA:高品質且符合人類互動行為的中文指令微調數據
- AI Search Has A Citation Problem
- AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges
- OWASP Agentic AI – Threats and Mitigations
Tool 名稱 | 功能範疇 | 集成能力 | 適用場景 | 建議選擇 | 知識庫技術 |
---|---|---|---|---|---|
Flowise | 簡單可視化流程建構 | 支持 LangChain 和 GPT,多平台部署 | 快速構建簡單 LLM 流程應用 | 適合需要快速構建和部署 LLM 應用的用戶 | |
Langflow | 多智能體與 RAG 應用構建 | 外部工具、API 與資料庫集成 | 複雜任務鏈與多智能體應用開發 | 適合構建複雜任務鏈的技術型開發者 | |
Dify | 全面應用開發與管理 | 多模型支持,全面工作流與模型管理 | 全生命周期管理與複雜應用開發 | 適合需要全面管理 LLM 應用的開發者或企業 | 基於 Pinecone 的向量數據庫、Notion API 同步(增量更新)、支持 Rerank 模型(bge-reranker-base)、提供行業模板庫 |
n8n | 通用自動化與流程編排平台 | 支持超過 350 種服務與 API 集成,可視化流程編輯 | 應用整合、自動化工作流程構建、自動回應觸發器 | 適合需要自動處理非 AI 任務或整合各類 SaaS 工具的用戶與開發者 | 可與向量資料庫結合使用,但非內建 |
RAGFlow | 模組化 RAG 管線與知識應用框架 | 支持 LangChain、Chroma、FAISS 等,可用於構建完整 RAG 工作流 | 知識問答、文件檢索、RAG 多階段優化 | 適合需要建構可定製、模組化 RAG 系統的開發者 | 支持多向量資料庫(Chroma、FAISS)、可結合自定義資料源與檢索策略 |
New API | 模型接口統一與分發 | OpenAI 格式統一,支持多支付協議與分發管理 | 多模型接口管理與分發 | 適合需要統一管理多種 AI 模型接口的用戶 | |
XORBITS Inference | 分散式推理與部署 | 與 Hugging Face 等模型相容,支援雲端及本地等多種部署環境 | 大規模模型推理與雲端部署,需快速搭建可擴展的推理服務時 | 適合需要高效擴展能力、進行大規模模型推理的團隊或企業 | |
Ollama | 本地模型推理與管理 | 提供命令列介面,支援多種 Llama 模型於本地運行 | 在有隱私或離線需求的場景下進行本地推理 | 適合想在本地快速配置 Llama 系列模型的個人或中小型團隊 | |
FastGPT | 知識庫問答系統與工作流編排 | 提供開箱即用的數據處理、模型調用,支持可視化工作流編排 | 快速構建智能問答系統與複雜問答場景 | 適合需要快速部署知識庫問答系統的用戶 | 混合索引(Elasticsearch + FAISS)、支援 PDF 表格解析(PyMuPDF 集成)、BM25 權重可調、需人工標註種子數據 |
Coze | AI 智能體開發平台 | 整合插件、長短期記憶、工作流、卡片等功能,支持多平台發布 | 低門檻快速搭建個性化或具備商業價值的智能體 | 適合無需編程即可創建智能體的用戶 | 自研分佈式索引、電商數據結構 |
工具
- MCP
- 2025-04-15:automcp:將任何代理、工具或編排器秒設定 MCP 伺服器
- 2025-04-10:line-bot-mcp-server
- 2025-04-05:GitMCP:GitMCP 太神了!一行URL 讓AI 秒懂你的GitHub 項目
- 2025-03-14:playwright-mcp:MCP-Playwright:AI自動化神器
- Browser-use
- 2025-06-04:workflow-use:基於AI 的瀏覽器自動化工具:一次錄製,永久重複使用
- 2025-04-16:browser-use/web-ui;如何使用
- 2025-03-28:browser-use-webui
- 2025-02-16:browser use webui部署(實現瀏覽器自動化)
- 2025-01-23:Browser Use – 讓AI 像人類一樣使用瀏覽器
- 2025-06-10:Agentic-Doc;LandingAI開源神器,這個Python庫讓百頁文檔秒變結構化資料!
- 2025-06-06:daily-arXiv-ai-enhanced:每日自動爬取arXiv論文並以LLM產生中文摘要
- 2025-05-22:AingDesk;AingDesk:零门槛本地 AI 部署
- 2025-05-20:news-agents
- 2025-05-16:Follow;連續登頂GitHub 的資訊聚合神器:Follow,讓你不再錯過任何重要資訊!
- 2025-05-11:SurfSense:GitHub 開源專案 打通Notion、GitHub、搜尋引擎的AI超腦,如何使用
- 2025-04-28:PaperCoder;Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning;PaperCoder:利用大型語言模型自動產生機器學習論文程式碼的框架
- 2025-04-16:OneFileLLM:這個開源神器終結了AI資料整合的惡夢!一鍵聚合網頁、程式碼、論文到剪貼簿!
- 2025-04-16:ScrapeGraphAI:ScrapeGraphAI -自然語言驅動的智慧爬蟲革命!
- 2025-04-15:stagehand:Stagehand:AI驅動的下一代瀏覽器自動化框架
- 2025-04-11:nanobrowser:AI 驅動的瀏覽器自動化神器
- 2025-04-10:DevDocs:開發者的文檔收割機來了!這個開源工具讓你一小時幹完一週的活!
- 2025-04-06:sqlchat:這款開源神器讓資料庫管理像聊天一樣簡單!
- 2025-03-26:pdf-craft:PDF秒轉Markdown/EPUB
- 2025-03-12:AingDesk;零門檻本地AI 部署,DeepSeek、Llama 一鍵直達!
- 2025-03-08:composio:AI助理效率神器! Composio幫你輕鬆整合200+工具
- 2025-02-25:PySpur:拖曳式開發AI工作流程!這款開源神器,讓LangChain也黯然失色!
- 2025-01-13:DocAligner:拍照文件復原:校正扭曲、光照陰暗、版面定位
- 2025-01-07:activepieces:一個開源的AI自動化工作流程工具
- 2024-12-15:markitdown
AI Agent 開源框架
- 從AI Agent到Agent工作流程,一文詳細了解代理程式工作流程
- 萬字長文,帶你綜觀大模型Agent,涉及研究痛點、應用場景、發展方向
- 什麼是「Agentic 工作流程」?
- 什麼是Agentic AI?什麼是Agentic Workflow?與AI Agent有什麼區別和關聯?
- FinRobot;DeepWiki;可支援 Gemini-2.5-Pro-preview-05-06,基於 AutoGen
- Jupyter-AI;可支援 Gemini-2.5-Pro-preview-05-06
- 2025-07-03:multi-modal-researcher
- 2025-07-03:MultiAgentPPT;A2A+ADK+MCP多智能體並發系統產生(可線上編輯)的PPT(含原始碼)
- 2025-06-25:Gemini CLI:Gemini CLI:你的開源 AI 代理
- 2025-06-23:MultiAgentPPT:整合了 A2A+MCP+ADK架構的動畫簡報產生系統,支援多智能體協作和串流運行機制
- 2025-06-06:PandaWiki;新一代AI 大模型驅動的開源知識庫建立系統
- 2025-06-03:Gemini Fullstack LangGraph;DEMO;以為Google只是簡單放個Demo,哪想到是」開源版”Perplexity!
- 2025-06-03:Perplexica;Perplexity AI,開源替代品
- 2025-06-01:Agent Zero;官網;這個自動AI代理可以做任何事! (產生APP、程式碼、RAG 等)
- 2025-05-30:WebDancer @ Alibaba;DeepWiki
- 2025-05-28:Lemon AI;全球首款全端開源通用AI Agent,讓人可以單機部署超級智慧體
- 2025-05-25:OpenHands;Demo
- 2025-05-18:Agent-Squad;輕量級開源AI多智能體框架!智慧路由+上下文管理,前後端介面支援!
- 2025-05-10:FlowGram:字節跳動把Coze 核心開源了!視覺化工作流程引擎FlowGram 上線;如何使用
- 2025-05-10:DeerFlow:字節跳動DeerFlow深度解析;如何使用
- 2025-05-09:OpenDeepWiki:開源的DeekWiki加入MCP,輕鬆讓AI掌握開源專案使用文件!;如何使用
- 2025-05-07:AI Manus
- 2025-04-24:suna:3週時間,就打造出Manus開源平替!貢獻原始碼,免費用
- 2025-04-22:釦子空間 (Coze Space):字節版Manus 釦子空間來了!實測效果絕佳,但還有3 個問題
- 2025-04-03:AutoAgent:一句話全自動創建AI智能體,港大AutoAgent打造開源最強Deep Research
- 2025-04-03:Agent Development Kit (ADK):谷歌發表「智能體開發工具包」ADK,來嚐個鮮
- 2025-04-03:Deepsite;DeepSite基於DeepSeek的網頁開發智能體,效果非常不錯
- 2025-03-30:DeepGemini:AI界的’搭積木’神器,10分鐘打造你的專屬智慧團隊!
- 2025-03-24:AgenticSeek:又一個“Manus”開源,完全本地化替代品AgenticSeek
- 2025-03-11:autoMate:autoMate:基於OmniParser 所建構的革命性AI自動化助手
- 2025-03-10:OpenManus:一文讀懂:OpenManus
- 2025-02-28:MoneyPrinterTurbo;Al自動生成高清短視頻
- 2024-02-01:MobileAgent:一句指示幫你操作手機,最新多模態手機助理Mobile-Agent來了!
- 2025-01-03:smolagents:新年禮物,Huggingface捲了一個Agent專案開源
- 2024-09-23:STORM;STORM:一个基于LLM的知识整理系统
- 2024-10-26:OmniParser;控制電腦手機的智慧體人人都能造,微軟開源OmniParser
混合專家(Mixture of Experts, MoE)模型
- 2024-12-13:DeepSeek-VL2:DeepSeek-VL2開源,VLM邁入MoE時代,DeepSeek-VL2 先進視覺語言模型,在多模態理解方面取得了顯著進展
- 騰訊混元:騰訊混元又來開源,一出手就是最大MoE大模型
小型語言模型
- 2025-01-07:Smolagents:Hugging Face開源全新AI智能體框架支援工具呼叫與程式碼執行!
- 2024-12-13:Phi-4:以小博大,微軟Phi-4正式發表~
- 2024-11-18:MobileLLM-1.5B:Meta MobileLLM:深度架構與最佳化技術打造的行動裝置超強語言模型
- 2024-11-04:SmolLM2:https://github.com/hiyouga/LLaMA-Factory
- 2024-09-25:Llama 3.2 90b, 11b, 3b, 1b: Revolutionizing edge AI and vision with open, customizable models
推理模型
- 2025-05-06:Llama-Nemotron;DeepWiki;英偉達發布Llama-Nemotron系列大模型,實現高效推理
- 2025-04-16:Video-R1: Reinforcing Video Reasoning in MLLMs ;Github;影片推理R1時刻,7B模型反超GPT-4o,港中文清華推出首款Video-R1
大型語言模型
- 2024-11-23:Ai2 Tülu 3:這才是真・開源模型!公開「後訓練」一切,性能超越Llama 3.1 Instruct
- 2024-11-9:Ai2 OpenScholar:https://openscholar.allen.ai/
- 2024-09-25:Llama 3.2 90b, 11b, 3b, 1b: Revolutionizing edge AI and vision with open, customizable models
Embedding & Reranker
- 2025-07-14:gemini-embedding-001
- 2025-06-05:Qwen3 Embedding:新一代文本表徵與排序模型
- 2025-06-03:Qwen3-Embedding
- 2025-06-03:Qwen3-Reranker
語音到語音大模型及工具套件
- ten-agent
- pipecat:OpenAI工程師親自修訂:用ChatGPT即時語音API建立應用
- 2025-05-08:Voila;新型開源端對端AI 語音模型! Voila:195ms 超低延遲引領全雙工對話!
- HuggingFace Speech-to-Speech
視覺大語言模型 (Vision-Language model)
- 2025-05-20:Seed1.5-VL;Seed1.5-VL:具有視覺增強多模態能力的高階語言模型;字節跳動發布Seed1.5-VL視覺-語言多模態大模型,實測效果非常不錯
- 2025-05-12:nanoVLM
多模態大語言模型 (Multimodal)
- InternVL
- 2025-05-24:Dolphin:DeepWiki;開源多模態複雜文件解析模型! Dolphin
- 2025-05-21:Gemma 3n;Preview
- 2025-03-18:Mistral Small 3.1:Mistral開源多模態小模型3.1:128K上下文+超低延遲,效能碾壓GPT-4o Mini
- 2025-03-14:Vision-R1:Vision-R1:激發多模態大模型的推理能力
- 2025-02-28:HumanOmni
- Phi
- MiniCPM