Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。

Deep Learning 101 Buy Me A Coffee

去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心


大語言模型 語音處理 自然語言處理 電腦視覺
Large Language Model Speech Processing Natural Language Processing, NLP Computer Vision

用 AI 懂 AI

AI 技術 體驗/分享

手把手帶你一起踩 AI 坑https://www.twman.org/AI


AI 技術 開源/試用

臺灣大型語言模型及文字嵌入和重排序模型性能評測與在地化策略分析報告

Llama-3.1-Taiwan-8B-Instruct、Llama-3.1-Taiwan-8B、Llama-3-Taiwan-8B-Instruct-128k、Llama-3-Taiwan-8B-Instruct-DPO、Llama-3-Taiwan-8B-Instruct、Llama-3-Taiwan-70B-Instruct-128k、Llama-3.1-TAIDE-LX-8B-Chat、Llama-Breeze2-3B-Instruct、Llama-Breeze2-8B-Instruct、gemini-embedding-001、Qwen3-Embedding、Qwen3-Reranker

作者TonTon Huang Ph.D.
日期:2025年07月16日更新

相關文章參考


文章目錄


引言

隨著人工智慧技術的快速發展,專為臺灣本土文化與語言環境優化的大型語言模型(Large Language Models,LLMs)逐漸嶄露頭角。為了客觀評估這些模型的能力,研究人員建立了多種基準測試(benchmarks),特別針對繁體中文及臺灣特定知識領域的理解能力進行測試。本文將匯整臺灣本土模型以及國際知名模型(如Qwen和Llama系列)在這些基準測試上的表現結果。


🎵 不聽可惜的 NotebookLM Podcast @ Google 🎵



✨LLM API Platform Price Comparison

總體戰略比較:三大公有雲 AI 平台

特性 Google Cloud (GCP) Microsoft Azure Amazon Web Services (AWS)
主要 GenAI 平台 Vertex AI Azure OpenAI Service Amazon Bedrock
平台核心理念 AI 技術創新者 企業服務整合者 中立的雲端市集
旗艦/代表性模型 Gemini 系列 (2.5 Pro) OpenAI 模型系列 (GPT-4o) Anthropic Claude 系列
“私有通道”安全技術 VPC Service Controls Private Endpoint Interface VPC Endpoint
計費模式 (安全性) 服務啟用免費 端點按小時計費 + 數據按 GB 計費 端點按小時計費 + 數據按 GB 計費
個人體驗 Gemin無敵+Cloude等模型 只有Open AI 就是少了 Gemini

自行架設 GPU VM 每小時預估費用

GPU 型號 Google Cloud (GCP) Microsoft Azure Amazon Web Services (AWS)
NVIDIA T4 每小時: $0.35
每個月: $255.5
承諾1年:$0.22/$160.60
   
NVIDIA P4 每小時: $0.60
每個月: $438.00
承諾1年:$0.378/$275.94
   
NVIDIA V100 每小時: $2.48
每個月: $1810.40
承諾1年:$1.562/$1140.26
每小時: ~$3.07 每小時: ~$3.06
NVIDIA A100 實例: a2-highgpu-1g (1x A100)
每小時: ~$4.45
實例: Standard_ND96asr_v4 (8x A100)
每小時/每顆: ~$4.21
(整機 ~$33.68/hr)
實例: p4d.24xlarge (8x A100)
每小時/每顆: ~$4.09
(整機 ~$32.77/hr)
NVIDIA H100 實例: a3-highgpu-8g (8x H100)
每小時/每顆: ~$8.37
(整機 ~$66.95/hr)
實例: Standard_ND H100 v5 (8x H100)
每小時/每顆: ~$8.59
(整機 ~$68.75/hr)
實例: p5.48xlarge (8x H100)
每小時/每顆: ~$12.26
(整機 ~$98.08/hr)

大型語言模型API平台價格比較 ~2025/07

平台 模型 存取平台 輸入費用
(USD/1M Tokens)
輸出費用
(USD/1M Tokens)
上下文窗口 免費層級 最大速率限制 (RPM / TPM) 多模態能力 特點 / 說明 定價連結
Google Gemini 2.5 Pro Vertex AI $1.25 (≤200k)
$2.50 (>200k)
$10.00 (≤200k)
$15.00 (>200k)
1M ✅ (適用 GCP 免費額度) 高,可申請提高 ✅ (文/圖/影/音) 企業生產級,整合 GCP 安全與 MLOps 工具鏈 Vertex AI Pricing
Google Gemini 2.5 Pro Google AI Studio 免費 (在限制內)
或 Pay-as-you-go
免費 (在限制內)
或 Pay-as-you-go
1M (60 RPM) 固定速率限制 (60 RPM) ✅ (文/圖/影/音) 開發者優先,適合快速原型驗證,免費層級慷慨 Google AI Studio Pricing
Anthropic Claude 4 Opus Amazon Bedrock, Vertex AI $15.00 $75.00 200K 依附於雲端平台免費額度 依帳戶等級 (可申請提高) ✅ (文/圖) 最新頂級旗艦,專為最複雜任務設計,推理能力極強 Anthropic Pricing
Anthropic Claude 4 Sonnet Amazon Bedrock, Vertex AI $3.00 $15.00 200K 依附於雲端平台免費額度 依帳戶等級 (可申請提高) ✅ (文/圖) 最新主力模型,在智慧與速度間取得最佳平衡 同上
Anthropic Claude 3.7 Sonnet Amazon Bedrock, Vertex AI $3.00 $15.00 200K 依附於雲端平台免費額度 依帳戶等級 (可申請提高) ✅ (文/圖) 具備「擴展思維」模式,適合深度分析與程式碼生成 同上
OpenAI GPT-4o Azure OpenAI, OpenAI API $5.00 $15.00 128K ✅ (新戶免費額度) 依帳戶等級 (可申請提高) ✅ (文/圖/音) Frontier 模型,支援 Vision/Tools/結構化輸出 OpenAI Pricing
Meta Llama 3 (70B) Amazon Bedrock, Vertex AI ~$0.79 ~$2.70 8K 依附於雲端平台免費額度 依帳戶等級 (可申請提高) 最強大的開源模型之一,適合通用對話與內容生成 Bedrock Pricing
xAI Grok-3 Grok API, X Premium+ $3.00 $15.00 128K ✅ (新戶免費額度) 不公開 (受邀制) ✅ (文字) 即時資訊存取,具備獨特風格。Grok-4 即將推出 xAI API
DeepSeek deepseek-chat (V2) DeepSeek API $0.14 $0.28 128K ✅ (新戶 5M Tokens) 不公開 高性价比,編碼與數學能力強 DeepSeek Pricing
Qwen qwen-turbo 阿里雲, Qwen API ~$0.0011 ~$0.0022 32K ✅ (新戶免費額度) 不公開 ✅ (文/圖) 阿里通義千問,經濟高效型 Qwen Pricing
百度 ERNIE 4.0 百度千帆大模型平台 ~$16.50 ~$16.50 ~128K ✅ (新戶免費額度) 不公開 ✅ (文/圖) 中文原生,支援多種中國特色應用與知識 Baidu Pricing

大型語言模型與Agent安全工具比較 ~2025/07

工具/資源名稱 開發者/來源 核心本質 主要用途/功能 運作方式 適用情境
agentic-radar splx-ai 綜合性安全套件
(靜態+動態)
分析代理 (Agent) 的工作流程、組件,並進行動態測試與提示詞強化。 靜態掃描原始碼以繪製工作流程圖;動態測試則實際運行代理以測試其行為。 開發早期進行架構審查,並在同一個工具中完成初步的動態測試。
agentic_security msoedov 動態模糊測試工具
(Dynamic Fuzzer)
攻擊運作中的 LLM API,以發現提示詞注入等運行時漏洞。 向指定的 HTTP 端點發送大量預設的攻擊提示詞。 對任何 LLM API 進行快速、靈活的黑箱滲透測試。
garak NVIDIA 自動化紅隊演練工具
(Automated Red Teaming)
系統性地、全面地掃描 LLM 的各種漏洞(偏見、洩漏、注入等)。 使用「探針 (Probes)」發動攻擊,並用「偵測器 (Detectors)」評估結果。 模型部署前的全面安全評估、基準測試、以及定期的安全審計。
llm-guard protectai 防禦性函式庫/防火牆
(Defensive Firewall)
作為應用程式的安全層,過濾和淨化進出 LLM 的數據。 使用可插拔的「掃描器 (Scanners)」管道來檢查和修改輸入/輸出內容(如匿名化個資)。 在應用程式程式碼中建立即時的、可客製化的執行時期安全防護。
ShieldGemma 2 Google DeepMind 專家級安全分類模型
(Specialist Safety Model)
判斷文字內容是否違反多項安全策略(如仇恨言論、騷擾等)。 一個經過微調的 LLM,對輸入文字進行深度語意理解並輸出安全標籤。 作為一個強大的分類器,對需要精準語意判斷的內容進行安全審核。
JailBreakV-28k Hugging Face 資料集 (Dataset) 提供大量用於測試和研究 LLM 越獄漏洞的「提示詞-圖片-模型-回應」數據。 一個包含 28,000+ 筆紀錄的資料庫,用於訓練和評估安全模型。 學術研究、訓練自訂的攻擊檢測模型、或評估模型的安全性。

臺灣大型語言模型性能評測與在地化策略分析

I. 目的與核心發現

當前的 LLM 市場呈現出一個多元且競爭激烈的格局。一方面,全球開源巨頭(如 Meta 的 Llama 系列、阿里巴巴的 Qwen 系列)以及頂尖閉源模型(如 OpenAI 的 GPT-4 系列、Anthropic 的 Claude 系列)的激烈競爭,在通用知識與推理能力上設立了極高的性能標竿。另一方面,由臺灣本地團隊(如 TAME 計畫、國家級的 TAIDE 計畫、以及科技巨頭聯發科的 MediaTek-Research)所推動的在地化開源模型,正積極建立其在特定領域的領導地位;這些模型致力於彌補全球模型在繁體中文語境和臺灣文化理解上的不足,針對臺灣特定文化、法律及語境的評測項目上,展現出顯著且可量化的「在地化優勢」(Localization Premium)。此優勢在處理高度在地化的任務時尤為突出,證明了在地化微調的不可替代性。 在眾多模型中,yentinglin/Llama-3-Taiwan-70B-Instruct-DPO 在臺灣專屬評測項目中表現最為亮眼,成為處理在地化任務的首選。與此同時,Qwen/Qwen2-72B-Instruct 則在通用學科知識評測(如 MMLU 和 TMLU)中展現出卓越的實力,其強大的基礎能力使其在某些臺灣學術型評測中甚至超越了在地化模型,這一現象揭示了模型規模、預訓練資料品質與在地化微調之間複雜的交互關係。

II. 繁體中文大型語言模型評測基準深度解析

要客觀評估大型語言模型的真實能力,必須先深入理解所使用的評測基準(Benchmark)。每一個評測基準都有其獨特的設計哲學、評估維度與內在限制。因此需詳細解析評測所涵蓋的各項關鍵基準,為後續的性能數據分析提供必要的背景知識與批判性視角。

A. 評測基準的重要性與挑戰

大型語言模型評測基準是標準化的測試集,旨在衡量和比較不同語言模型在各種任務上的能力,例如語言理解、問答、數學解題和程式編寫等。透過在公開的基準上進行測試,研究人員和開發者可以相對客觀地比較不同模型的性能,並在排行榜上展示其成果。 然而,標準化評測也面臨諸多挑戰。其中最主要的是「資料污染」(Data Contamination)問題,即模型在預訓練階段可能已經「看過」評測集中的題目與答案,導致評測分數虛高,無法反映其真實的泛化能力。此外,許多評測基準的焦點較為狹隘,可能無法全面評估模型的綜合能力。隨著模型技術的飛速發展,現有評測基準也可能迅速飽和或失去挑戰性,無法有效地區分頂尖模型的優劣。因此,在解讀評測分數時,必須對這些潛在限制保持警覺。

B. 國際標準評測:MMLU

MMLU(Massive Multitask Language Understanding,大規模多任務語言理解)是一項廣泛使用的英文基準測試,評估模型在多種英語任務上的表現;目前頂尖模型如GPT-4在MMLU上的成績達到86.4%1

C. 臺灣特化評測:TMLU

TMLU是一個專門針對臺灣繁體中文環境設計的綜合性基準測試,涵蓋國中、高中、大學及國家考試等多個教育和專業領域的知識評估3

D. 臺灣特化評測:TMMLU+

TMMLU+是TMLU的增強版本,擁有更全面的臺灣繁體中文評估內容5

E. 專項能力評測

除了綜合知識評測外,針對特定能力的專項評測也至關重要。

III. 模型綜合性能評測分析

本章節將呈現本次研究的核心成果:對一系列臺灣在地化及國際主流大型語言模型在關鍵評測基準上的綜合性能數據,並進行深入的比較與剖析。透過將分散於各處的評測數據匯總於一處,我們得以進行橫向與縱向的對比,從而揭示不同模型之間的細微差異及其背後的策略意涵。為了更精準地評估頂尖模型的推理能力,本節的數據總表特別新增了更具挑戰性的 MMLU-Pro 評測項目。

A. 關鍵評測數據總表

為了提供一個清晰、全面的比較視角,下表匯總了本次研究涵蓋的主要模型在多個關鍵評測基準上的表現。數據主要來源於公開的 Open TW LLM Leaderboard 7、各模型的官方發布文件及相關學術論文。所有分數均以百分比(%)表示,除非另有說明。標示為「N/A」表示目前尚無公開的可靠數據。

臺灣本土與主流大型語言模型綜合評測結果(更新版)

模型名稱 TMLU TMMLU+ TW Truthful QA TW Legal Eval TW MT-Bench MMLU (5-shot) MMLU-Pro (CoT, 5-shot)
yentinglin/Llama-3-Taiwan-70B-Instruct 74.76% 9 67.53% 9 80.95% 9 68.42% 9 7.54 9 N/A N/A
yentinglin/Llama-3-Taiwan-70B-Instruct-DPO 74.60% 9 - 81.75% 9 70.33% 9 - N/A N/A
yentinglin/Llama-3-Taiwan-70B-Instruct-128k 73.01% 9 - 80.16% 9 63.64% 9 - N/A N/A
yentinglin/Llama-3-Taiwan-8B-Instruct 59.50% 9 52.28% 9 61.11% 9 53.11% 9 7.21 9 N/A N/A
yentinglin/Llama-3-Taiwan-8B-Instruct-DPO 59.88% 9 - 59.52% 9 52.63% 9 - N/A N/A
yentinglin/Llama-3-Taiwan-8B-Instruct-128k - - - - - N/A N/A
taide/Llama-3.1-TAIDE-LX-8B-Chat (Alpha1) 7 47.30% 7 39.03% 7 50.79% 7 37.80% 7 - N/A N/A
Breeze-7B-Instruct-v1_0 7 55.57% 7 41.77% 7 52.38% 7 39.23% 7 6.0 7 N/A N/A
Breexe-8x7B-Instruct-v0_1 7 - 48.92% 7 - - 7.2 7 N/A N/A
MediaTek-Research/Llama-Breeze2-8B-Instruct N/A N/A N/A N/A N/A N/A N/A
MediaTek-Research/Llama-Breeze2-3B-Instruct N/A N/A N/A N/A N/A N/A N/A
Qwen/Qwen3-235B-A22B N/A N/A N/A N/A N/A 87.8% 12 N/A
Qwen/Qwen2.5-72B-Instruct N/A N/A N/A N/A N/A 86.1% 12 71.6% 12
Qwen/Qwen2-72B-Instruct 80.43% 7 N/A 73.02% 7 58.85% 7 N/A 82.30% 13 N/A
Qwen1.5-110B-Chat 7 75.69% 7 65.81% 7 66.67% 7 49.28% 7 - N/A N/A
meta-llama/Llama-4-Maverick N/A N/A N/A N/A N/A 85.5% 14 80.5% 14
meta-llama/Llama-4-Scout N/A N/A N/A N/A N/A 79.6% 14 74.3% 14
meta-llama/Llama-3.3-70B-Instruct N/A N/A N/A N/A N/A N/A 68.9% 15
meta-llama/Llama-3.2-11B-Vision N/A N/A N/A N/A N/A 46.4% 6 N/A
meta-llama/Llama-3.2-3B-Instruct N/A N/A N/A N/A N/A 63.4% 6 N/A
meta-llama/Llama-3.1-70B-Instruct N/A N/A N/A N/A N/A 83.6% 14 66.4% 14
meta-llama/Llama-3.1-8B-Instruct N/A N/A N/A N/A N/A 69.4% 14 48.3% 14
meta-llama/Llama-3-70B-Instruct 70.95% 7 62.75% 7 65.08% 7 52.63% 7 - 82.0% 16 N/A
meta-llama/Llama-3-8B-Instruct 55.81% 7 43.38% 7 46.83% 7 35.89% 7 - 68.4% 16 N/A
openai/GPT-4o 69.88% (5-shot) 7 N/A 76.98% 7 53.59% 7 - 88.70% 16 77.9% 17
anthropic/Claude-3-Opus 73.59% (5-shot) 7 64.20% 18 69.84% 7 60.29% 7 - 86.80% 16 N/A

這張總表的建立本身即具備高度價值。它將散落在不同排行榜、論文和模型發布頁面上的數據整合在一起,首次提供了一個全面的、可直接進行並排比較的單一視圖。正是基於這張表,我們才能夠進行後續的深入分析,例如量化在地化微調的具體效益,或比較不同規模模型之間的性能差距。

B. 臺灣特化模型深度剖析

1. yentinglin/Llama-3-Taiwan 系列

Llama-3-Taiwan系列是由林彥廷(Yenting Lin)開發的模型,基於Meta的Llama-3架構,專為繁體中文使用者進行微調719。這些模型在臺灣本土基準測試上表現優異,尤其是70B參數版本7

Llama-3-Taiwan-70B-Instruct在TMLU測試中達到74.76%的成績,Taiwan Truthful QA達到80.95%,Legal Eval達到68.42%7。尤其值得注意的是,其DPO版本在Taiwan Truthful QA和Legal Eval測試中取得了最佳成績,分別為81.75%和70.33%7

8B參數版本雖然參數量較小,但仍達到了令人印象深刻的表現,TMLU為59.50%,Taiwan Truthful QA為61.11%,Legal Eval為53.11%7。這表明即使在較小的參數規模下,經過良好的本土化微調,模型也能取得不錯的理解能力819

2. taide/Llama-3.1-TAIDE-LX-8B-Chat

TAIDE(Trustworthy AI Dialogue Engine)是由臺灣國家科學及技術委員會推動的計畫,其推出的模型具有官方背景,備受關注。所開發的Llama3-TAIDE-LX-8B-Chat-Alpha1模型是另一個專為臺灣本土環境優化的模型20。根據數據,該模型在TMLU上達到47.30%,Taiwan Truthful QA為50.79%,Legal Eval為37.80%,TMMLU+為39.03%7

TAIDE模型特別強化了繁體中文處理能力,並針對長文本理解進行優化,從8K擴展到131K的上下文長度20。但是與其它以臺灣本土相關LLM系列相比還有差距,尚需深入優化改善,期許不要又跟往常一樣只是雷聲大雨點小的計畫7

3. MediaTek-Research/Llama-Breeze2 系列

由臺灣半導體巨頭聯發科(MediaTek)研究院推出的 Breeze2 系列,代表了臺灣產業界在大型語言模型領域的頂尖實力。包括Breeze-7B-Instruct-v1_0和Breexe-8x7B-Instruct-v0_12224。Breeze-7B-Instruct-v1_0在TMLU上達到55.57%,Taiwan Truthful QA為52.38%,Legal Eval為39.23%,TW MT-Bench為6.0,TMMLU+為41.77%7。 最新的Breeze2系列基於Llama 3.2架構,專為繁體中文進行優化,提供3B和8B兩種參數規模,除了語言理解能力外,還整合了視覺能力和函數呼叫功能24。Breeze2系列專為處理繁體中文知識進行了優化,包含台灣特定的文化和社會背景24

C. 與國際及中國大陸主流模型之比較分析

1. Llama 3 & 4 (Meta)

Meta 的 Llama 系列是全球開源模型的標竿,其官方公布的 MMLU 成績是我們評估模型通用知識能力的基準線。從 Llama 3 到 Llama 4,我們可以看到清晰的性能演進路徑。Llama-3.1-70B-Instruct 在 MMLU 上獲得 83.6% 的高分,而在更難的 MMLU-Pro 上得分為 66.4% 14。最新的 Llama-4-Maverick 則在 MMLU-Pro 上達到了 80.5%,展現了架構和訓練方法上的巨大進步 14。這些分數代表了未經特定在地化微調的「全球基準」水平。

Meta的Llama原版模型也在臺灣本土基準測試中有所表現7。Meta-Llama-3-70B-Instruct在TMLU上達到70.95%,Taiwan Truthful QA為65.08%,Legal Eval為52.63%,TMMLU+為62.75%7

Meta-Llama-3-8B-Instruct的表現則相對較弱,TMLU為55.81%,Taiwan Truthful QA為46.83%,Legal Eval為35.89%,TMMLU+為43.38%7。這與臺灣本土優化的yentinglin/Llama-3-Taiwan-8B-Instruct(TMLU 59.50%、TW Truthful QA 61.11%、Legal Eval 53.11%、TMMLU+ 52.28%)相比,明顯有差距7

最新的Llama 3.3系列繼續改進了多語言能力,但主要集中在英語、德語、西語、葡語、義語、法語、泰文和北印度語(Hindi),尚無專門針對繁體中文的優化15。在MMLU等基準測試上,Llama 3.3達到86.0分(0-shot, CoT),與Llama 3.1 70B持平15,但在更具挑戰性的MMLU PRO(5-shot, CoT)上達到68.9分,優於Llama 3.1 70B15

2. Qwen 2 & 3 (Alibaba)

阿里巴巴的 Qwen 系列是另一個極具競爭力的開源模型家族。Qwen2-72B-Instruct 不僅在 MMLU 上取得了 82.3% 的高分 13,更在臺灣的 TMLU 評測上取得了 80.43% 的驚人成績 7。其後繼者 Qwen2.5-72B-Instruct 在 MMLU 上提升至 86.1% 12,而最新的 Qwen3-235B 更是達到了 87.8% 12,持續刷新開源模型的性能上限。

Qwen(通義千問)系列模型,尤其是Qwen1.5-110B-Chat,在臺灣本土基準測試上表現出色9。在TMLU測試中,Qwen1.5-110B-Chat達到75.69%,是所有測試模型中的最高分713。在Taiwan Truthful QA上達到66.67%,Legal Eval為49.28%,TMMLU+為65.81%713

Qwen2和Qwen2.5系列進一步提升了多語言能力,在MMLU等國際基準測試上表現優異18。例如,Qwen2.5-72B在MMLU上達到86.1%,MMLU-Pro達到71.6%12。不過,目前尚無這些新版本在臺灣本土基準測試上的完整數據18

3. 可量化的「在地化優勢」

透過直接比較在地化模型與其基礎模型,我們可以精確地量化在地化微調所帶來的價值。以 yentinglin/Llama-3-Taiwan-8B-Instruct 與其基礎模型 meta-llama/Llama-3-8B-Instruct 為例,數據(源自 7, 9)顯示:

這一系列的數據提供了確鑿的證據:在地化微調並非錦上添花,而是能夠帶來實質性、大幅度性能提升的關鍵步驟。特別是當任務的文化、語言及專業領域的在地化程度越高時(如法律、事實性問答),這種性能提升就越加顯著。 然而,Qwen2-72B 在 TMLU 上的卓越表現(80.43%)7,甚至超越了頂尖的在地化模型 yentinglin/Llama-3-Taiwan-70B(74.76%)9,構成了一個值得深思的現象。這挑戰了「在地化模型永遠是最佳選擇」的簡單論述。 這種看似矛盾的結果背後,可能有多重原因。首先,TMLU 作為一個學術知識導向的評測,其內容(特別是 STEM 領域)在不同語言文化間具有高度的普適性,這部分題目更多地考驗模型的基礎推理與知識儲備,而非文化細節。一個像 Qwen2 這樣經過海量、高品質、多樣化資料(即使以簡體中文為主)預訓練的超大規模模型,可能已經發展出極其強大的底層通用推理能力,使其能夠在這些普適性問題上表現出色 [28]。其次,這也反過來印證了在地化微調的真正價值所在。在更需要文化細膩度和在地語境的評測上,例如 TW Truthful QA,yentinglin 的模型依然保持著明顯的領先優勢(80.95% vs. 73.02%)713。 結論是,在地化的價值並非一成不變,而是與任務特性緊密相關。對於涉及普適性知識的任務,模型的基礎規模與訓練品質可能佔據主導地位;而對於深度嵌入在地文化、語言習慣和專業領域(如法律、在地時事)的應用,經過精準微調的在地化模型則擁有不可替代的優勢。這為開發者在不同應用場景下選擇模型提供了更為細緻的決策依據。

IV. 核心洞察與策略意涵

在前一章節的數據分析基礎上,本章節旨在提煉出更深層次的洞察,並探討其對於臺灣 AI 產業發展的策略性意涵。這些洞察涵蓋了在地化的價值、模型規模的權衡,以及臺灣在當前全球開源生態系中所面臨的機遇與挑戰。

A. 在地化的絕對價值:何時與為何重要

綜合第三章的數據分析,尤其是在地化模型與其基礎模型的直接比較,我們可以得出一個明確的結論:在地化微調具有絕對且不可或缺的價值。這種價值並非均勻分佈在所有任務上,而是在特定場景下表現得尤為突出。 當應用場景高度依賴對臺灣的社會文化、時事動態、專業領域知識(如法律、醫療)以及獨特語言習慣的精準理解時,在地化模型不僅是「更好」的選擇,甚至是「唯一」可行的選擇。yentinglin/Llama-3-Taiwan 系列在 TW Legal Eval 和 TW Truthful QA 這兩項評測上相較於其 Llama-3 基礎模型所展現出的巨大性能差距(分別高出 17.22 和 14.28 個百分點),便是最有力的證明 7。 這背後的邏輯在於,全球模型(無論是來自美國還是中國大陸)的預訓練資料中,關於臺灣的內容佔比極低,導致它們在面對臺灣特有的概念、實體和事件時,容易產生「事實幻覺」(hallucination)或給出模糊、不確定的答案。在地化微調通過注入大量高品質的在地化資料,有效地彌補了這一「知識盲區」,從而顯著提升了模型在這些關鍵應用中的可靠性與準確性。因此,對於金融、法律、政府公共服務、在地化客服等高風險或高價值的應用,投資於在地化模型是確保服務品質與使用者信任的必要策略。

B. 模型規模的權衡:性能與成本的博弈

模型參數的規模是影響其性能的核心變數之一,但更大的模型也意味著更高的運算成本。我們的分析揭示了規模與性能之間的非線性關係,為開發者在性能與成本之間進行權衡提供了依據。 比較 yentinglin 系列的 8B 和 70B 模型,在 TMLU 評測上,後者比前者高出約 15 個百分點(74.76% vs. 59.50%)9。同樣,比較 Meta 官方的 Llama 3.1 8B 和 70B Instruct 模型,在 MMLU 上的差距也達到了 14.2 個百分點(83.6% vs. 69.4%)14。 這些數據表明,從 80 億(8B)參數規模躍升至 700 億(70B)參數規模,所帶來的性能提升是顯著的、階梯式的,而非微不足道的邊際改善。70B 級別的模型在知識的廣度、推理的深度和處理複雜指令的能力上,都遠超 8B 級別的模型。 然而,這種性能的飛躍伴隨著巨大的運算成本。70B 模型的推理(inference)對硬體資源的需求遠高於 8B 模型,這直接影響到應用的部署成本和回應延遲。這就形成了一個經典的權衡困境:

對於開發者而言,這意味著不存在一個普適的最佳選擇。決策的關鍵在於精準評估應用場景對模型能力的需求,並在可接受的成本範圍內,選擇能夠滿足該需求的最小、最高效的模型。

C. 開源生態系的現況:臺灣的機遇與挑戰

臺灣在大型語言模型領域的發展,展現出一個充滿活力且日漸成熟的開源生態系,這既是機遇,也伴隨著挑戰。

總而言之,臺灣的開源 LLM 生態系正處於一個關鍵的發展階段。未來的成功將取決於能否在利用全球先進基礎模型的同時,憑藉獨特的在地化數據和領域知識,打造出在全球競爭格局中具有明確比較優勢的產品。

V. 建議與展望

基於前述詳盡的數據分析與洞察,本章節將提供具體的模型選型建議,並對未來可能的研究方向與產業趨勢進行展望,以期為臺灣 AI 領域的開發者、研究人員及決策者提供前瞻性的參考。

A. 開發者選型建議

選擇合適的大型語言模型是成功開發 AI 應用的第一步。以下是針對不同應用需求的具體建議:

B. 未來研究方向

當前的評測結果也為未來的學術研究指明了幾個關鍵方向:

C. 產業展望

展望未來,臺灣的 LLM 產業將呈現「多模型共存」的格局。企業將不再尋求一個「萬能模型」,而是會根據不同業務需求,採用「多 LLM 策略」(multi-LLM strategy),為特定任務選擇最適合的工具。例如,法律部門可能採用在 TW Legal Eval 上表現最佳的模型,而行銷部門則可能選擇在創意寫作上更具優勢的模型。 在地化模型與全球模型的競爭將持續加劇,這將成為推動臺灣模型品質提升和成本下降的主要動力。臺灣 AI 生態系的長期成功,將取決於能否充分利用獨特、高品質的在地化資料(包括文字、圖像與聲音),並在金融、醫療、製造、法律等臺灣具有優勢的垂直領域進行深度耕耘,從而打造出全球模型難以複製的專業護城河。這場競賽不僅是技術的較量,更是數據、領域知識與生態系協作能力的綜合比拼。

VI. 結論與洞見

從收集的資料可以得出以下幾點洞見:

  1. 臺灣本土優化的模型在臺灣特定知識上表現優越:經過臺灣本土資料微調的模型,如Llama-3-Taiwan系列,在Taiwan Truthful QA和Legal Eval等臺灣特定知識測試上,表現優於原版的國際模型7。這凸顯了本土化微調對提升模型在特定文化和語言環境下理解能力的重要性39
  2. 大型參數模型普遍表現更佳:70B參數級別的模型通常優於8B級別的模型,但經過良好微調的小型模型也能達到不錯的效果7。例如,yentinglin/Llama-3-Taiwan-8B-Instruct在多項指標上優於原版Meta-Llama-3-8B-Instruct9
  3. 國際模型的強項與弱項:Qwen系列等國際模型在通用知識上表現優異,甚至在某些臺灣本土測試上也取得了良好成績9。然而,在深度結合臺灣文化、法律等特定領域知識的測試上,本土優化模型通常更勝一籌7
  4. 繼續改進的空間:即使是表現最好的模型,在某些測試上仍有提升空間39。特別是在法律評估(Legal Eval)上,最高分也僅為70.33%(yentinglin/Llama-3-Taiwan-70B-Instruct-DPO)9
  5. 本土化與通用能力的平衡:理想的模型應當在保持強大通用能力的同時,具備優秀的本土化理解能力319。臺灣本土模型的持續發展將致力於在這兩方面取得更好的平衡7

總體而言,臺灣本土大型語言模型在繁體中文和臺灣特定知識的理解上展現出了顯著優勢,證明了針對特定語言和文化背景進行模型優化的價值39。同時,國際頂尖模型也在不斷提升多語言能力,這種良性競爭將推動大型語言模型技術的整體進步121

Appendix (附錄):Embedding 與 Reranking 模型在 RAG 應用中的關鍵角色與評估

在大型語言模型(LLM)應用中,當涉及檢索增強生成(Retrieval-Augmented Generation, RAG)時,其核心目標是為 LLM 提供精準且具備上下文的資訊,從而生成高品質、具事實根據的回應。傳統的關鍵字搜尋方法已不足以應對複雜的語義理解需求。為此,RAG 系統引入了嵌入(Embedding)模型和重排序(Reranking)模型,它們直接影響到 RAG 系統檢索資訊的相關性與準確性。

A. Embedding 與 Reranking 的角色

RAG 流程引入了兩個關鍵階段:Embedding 向量檢索與 Reranking 重新排序,這兩者共同構成了高效能資訊檢索的基石。

B. 檢索階段:Embedding 模型效能深度剖析

評估嵌入模型品質的標準基準測試是 MTEB (Massive Text Embedding Benchmark)。

C. 主流 Embedding 模型分析與表現

多種嵌入模型被廣泛用於RAG系統。截至2025年中,此領域的競爭已進入白熱化階段,MTEB 全球排行榜的頂端由 Google 和阿里巴巴的最新模型佔據,過去的領先者如 BAAI 的 BGE 系列、Microsoft 的 E5 系列等則面臨激烈挑戰。

  1. Google Gemini Embedding (當前榜首):
    • gemini-embedding-001: Google 推出的此模型在發布後迅速登上 MTEB 排行榜首位,展現了其最先進(State-of-the-Art)的文本表徵能力。作為一個閉源商用模型,它在各項評測中(檢索、分類、聚類等)取得了極高的綜合平均分,使其成為追求極致性能、且在 Google Cloud 生態內的開發者的首選。
  2. Alibaba Qwen3 Embedding (開源領頭羊):
    • Qwen3-Embedding 系列 (0.6B, 4B, 8B): 這是由 Qwen 團隊基於強大的 Qwen3 基礎模型訓練的新一代 Embedding 系列。根據其官方報告,Qwen3-Embedding-8B 模型在發布時曾一度登頂 MTEB 多語言榜單,目前也以微弱差距緊隨 gemini-embedding-001 之後,位居第二,是開源模型中的 undisputed champion (無可爭議的冠軍)
    • 核心優勢:
      • 卓越性能與泛化性: 繼承了 Qwen3 的多語言理解能力(支援超過100種語言),在 MTEB 和 C-MTEB 上均表現頂尖。
      • 靈活架構: 提供從 0.6B 到 8B 的多種尺寸,並支援自訂輸出維度 (MRL Support)指令微調 (Instruction Aware),讓開發者能根據成本和效能需求進行客製化,極具彈性。
      • 先進的訓練方法: 採用了創新的三階段訓練範式,特別是利用 Qwen3 自身生成能力來建構大規模弱監督訓練資料,突破了傳統方法的限制。
  3. 昔日強者與現存勁旅:
    • BAAI/bge-m3 & JinaAI-v2-base-en: 這些模型曾經是 MTEB 排行榜上的佼佼者,但隨著新模型的推出,其排名已有所下滑。儘管如此,bge-m3 憑藉其獨特的多向量檢索能力和長文本支援,在特定場景下依然有其價值。它們的存在證明了這個領域技術迭代的速度之快。
    • Voyage AI & NV-Embed: 這些同樣是性能非常強勁的(商用)模型,雖然被最新的 Gemini 和 Qwen3 超越,但依然處於排行榜的頂級梯隊中,是特定需求下的可靠選項。
    • intfloat/multilingual-e5-large-instruct: 這是由 Microsoft Research 推出的 E5 系列中的重要多語言模型。E5 系列是推廣指令微調 (Instruction Tuning) 於 Embedding 領域的先驅之一,其設計理念對後續許多模型產生了深遠影響。雖然其性能已被新一代模型超越,但它仍然是一個非常穩固的開源基準模型,廣泛應用於學術研究和業界實踐中。

D. 對於文件檢索的策略性啟示

模型選擇的決策比以往任何時候都更加關鍵,需要綜合考量性能、成本、開源與否以及特定場景需求。

表 關鍵 Embedding 模型特性比較

模型名稱 主要語言 最大上下文長度 (Tokens) MTEB Score (Avg) C-MTEB Score 關鍵優勢與表現摘要
google/gemini-embedding-001 多語言 8192 68.61 71.04 閉源商用,性能頂尖,生態整合。MTEB 全球排行榜當前 #1
Alibaba-NLP/Qwen3-Embedding-8B 多語言 (100+) 32768 68.12 72.88 開源,性能頂尖,架構靈活,可調維度。MTEB 全球排行榜 #2,開源模型 #1
Alibaba-NLP/Qwen3-Embedding-4B 多語言 (100+) 32768 66.86 71.85 Qwen3 系列中型模型,高效能。MTEB 排名頂尖,具備成本效益。
voyage-ai/voyage-large-2-instruct 多語言 16384 66.08 68.32 閉源商用,檢索性能強勁。曾為 MTEB 榜首,現仍居頂級梯隊。
BAAI/bge-m3 多語言 (100+) 8192 64.63 68.31 多向量檢索,長文本處理,多功能。排名已下滑,但在特定功能上仍具優勢。
intfloat/multilingual-e5-large-instruct 多語言 512 62.13 62.91 開源,指令微調先驅,穩定的基準模型。經典模型,已被新模型超越。
JinaAI/jina-embeddings-v2-base-en 英文為主 8192 61.15 N/A 曾是強力的開源選項。排名已下滑,被新模型大幅超越。

(註:MTEB/C-MTEB 分數是浮動的,數據基於 2025 年 Q3 的 CSV 檔案。N/A 表示無適用的公開分數。)

E. 精煉階段:Reranker 模型效能的量化評估

在初步檢索之後,Reranker 模型是提升 RAG 系統回應品質的第二道關鍵防線。

Reranker 模型的核心是其 cross-encoder 架構。與 embedding 模型(bi-encoders)分別為查詢和文件生成獨立的向量不同,cross-encoder 將「查詢」和「單一候選文件」作為一個整體同時輸入模型進行處理。這種設計允許模型在內部對查詢和文件的每一個 token 之間進行深度、細粒度的注意力計算,從而給出一個極其精準的相關性分數。

這種高精準度的代價是計算量遠大於 bi-encoder,因此它不適合用於對整個龐大知識庫進行全面篩選,而是作為「精煉器」,僅對由 embedding 模型快速召回的前 k 個(例如前 20-50 個)最相關的候選文件進行重新排序。

常見的評估指標包括命中率(Hit Rate)和平均倒數排名(MRR, Mean Reciprocal Rank)。研究顯示,優秀的重排序模型能持續提升幾乎所有嵌入模型的這兩項指標。

根據現有研究,市場上主流的 Reranker 模型包括 BAAI/bge-reranker-v2-m3、Jina AI 的 jina-reranker-v2-base-multilingual 以及由阿里巴巴開發的 Qwen3-Reranker 系列。一份關鍵的評測報告對這些模型在多個檢索相關基準上的表現進行了比較,包括 MTEB-R(英文檢索)、CMTEB-R(中文檢索)、MMTEB-R(多語言檢索)和 MLDR(多語言長文件檢索)。

F. 常見 Reranker 模型及表現

在精煉階段,Reranker 模型的角色至關重要。近年來,Alibaba-NLP/Qwen3-Reranker 系列的發布,幾乎重新定義了 Reranker 模型的性能標竿

數據評測(如下表所示)清晰地揭示了 Qwen3-Reranker 的統治力。無論是在英文檢索(MTEB-R)、中文檢索(CMTEB-R)、多語言檢索(MMTEB-R),甚至是程式碼檢索(MTEB-Code)任務上,Qwen3-Reranker 的 4B 和 8B 版本都取得了遠超 BGE-reranker-v2-m3jina-reranker-v2-base-multilingual 等前代模型的成績。

Model Param MTEB-R CMTEB-R MMTEB-R MLDR MTEB-Code FollowIR
Qwen3-Embedding-0.6B 0.6B 61.82 71.02 64.64 50.26 75.41 5.09
jina-reranker-v2-base-multilingual 0.3B 58.22 63.37 63.73 39.66 58.98 -0.68
gte-multilingual-reranker-base 0.3B 59.51 74.08 59.44 66.33 54.18 -1.64
BGE-reranker-v2-m3 0.6B 57.03 72.16 58.36 59.51 41.38 -0.01
Qwen3-Reranker-0.6B 0.6B 65.80 71.31 66.36 67.28 73.42 5.41
Qwen3-Reranker-4B 4B 69.76 75.94 72.74 69.97 81.20 14.84
Qwen3-Reranker-8B 8B 69.02 77.45 72.94 70.19 81.22 8.05

(註:排序結果基於Qwen3-Embedding-0.6B的top-100向量召回結果進行排序)

G. 重排序的必要性與挑戰

數據明確顯示了重排序模型在優化搜索結果方面的顯著性。幾乎所有嵌入模型都透過重排序獲得了改進。重排序模型,特別是 CohereRerankbge-reranker-large (或其更新版本如 BGE-reranker-v2-m3),展現了將任何嵌入模型轉化為具有競爭力的模型的能力。

然而,引入重排序模型會增加延遲和系統複雜性。儘管開箱即用的重排序模型在某些推理任務上可能表現不佳,但透過微調可以實現最先進的性能。這也顯示了重排序模型在真實世界應用中,需要在模型大小、排名準確性以及延遲/吞吐量等系統要求之間取得平衡。

H. 臺灣本土模型與國際模型的嵌入/重排序評比

就臺灣本土大型語言模型(如 yentinglin/Llama-3-Taiwan 系列、taide/Llama-3.1-TAIDE-LX-8B-ChatMediaTek-Research/Llama-Breeze2 系列)以及國際知名模型(如 QwenLlama 3.x 系列)而言,現有資料主要針對這些 LLM 本身在如 TMLU、TMMLU 等語言理解基準測試上的表現進行評估。

關於這些特定模型在作為 RAG 系統中的嵌入模型重排序模型方面的獨立基準測試結果,目前提供的公開資料並未明確提供詳盡的數據。這可能歸因於以下幾點:

總結

嵌入模型和重排序模型是 RAG 系統中不可或缺的組成部分,它們共同確保了提供給 LLM 的資訊的相關性和準確性。雖然有通用的基準測試(如 MTEB、C-MTEB)和評估方法(如 NDCG@10、Hit Rate、MRR)來評估這些模型,且已證明它們對 RAG 系統性能的關鍵影響,但針對特定 LLM(如臺灣本土模型、Qwen、Llama 3.x 系列)作為獨立嵌入/重排序組件的詳細評比數據,在當前資料中尚不充分。這類數據通常會是更專門化的 RAG 系統組件性能評估研究的範疇,並且需要根據具體的應用場景、知識庫特性(如語言、長度)和系統資源限制(如延遲、計算成本)來進行細緻的選擇與優化。

嵌入模型和重排序模型是 RAG 系統中不可或缺的組成部分… 隨著 Qwen 3 系列 和 Google Gemini 等新一代模型的出現,MTEB 和相關評測的榜單正在被不斷刷新。這表明模型的能力邊界在持續擴展,但也對開發者提出了更高的要求。

最終,成功的 RAG 系統不再僅僅是選擇某個「最好」的模型,而是一個持續評估、測試和權衡的過程。開發者需要根據具體的應用場景、知識庫特性(語言、領域、長度)、以及系統資源限制(延遲、計算成本),動態地選擇最適合的 Embedding 和 Reranker 組合,才能在資訊檢索的「召回」與「精煉」兩個戰場上都取得勝利。

參考文獻