Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。

Deep Learning 101 Buy Me A Coffee

去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心


大語言模型 語音處理 自然語言處理 電腦視覺
Large Language Model Speech Processing Natural Language Processing, NLP Computer Vision

用 AI 懂 AI

AI 技術 體驗/分享

手把手帶你一起踩 AI 坑https://www.twman.org/AI


AI 技術 開源/試用

臺灣大型語言模型性能評測與在地化策略分析報告

Llama-3.1-Taiwan-8B-Instruct、Llama-3.1-Taiwan-8B、Llama-3-Taiwan-8B-Instruct-128k、Llama-3-Taiwan-8B-Instruct-DPO、Llama-3-Taiwan-8B-Instruct、Llama-3-Taiwan-70B-Instruct-128k、Llama-3.1-TAIDE-LX-8B-Chat、Llama-Breeze2-3B-Instruct、Llama-Breeze2-8B-Instruct

作者TonTon Huang Ph.D.
日期:2025年06月21日更新

相關文章參考


引言

隨著人工智慧技術的快速發展,專為臺灣本土文化與語言環境優化的大型語言模型(Large Language Models,LLMs)逐漸嶄露頭角。為了客觀評估這些模型的能力,研究人員建立了多種基準測試(benchmarks),特別針對繁體中文及臺灣特定知識領域的理解能力進行測試。本文將匯整臺灣本土模型以及國際知名模型(如Qwen和Llama系列)在這些基準測試上的表現結果。


🎵 不聽可惜的 NotebookLM Podcast @ Google 🎵



臺灣大型語言模型性能評測與在地化策略分析

I. 目的與核心發現

當前的 LLM 市場呈現出一個多元且競爭激烈的格局。一方面,全球開源巨頭(如 Meta 的 Llama 系列、阿里巴巴的 Qwen 系列)以及頂尖閉源模型(如 OpenAI 的 GPT-4 系列、Anthropic 的 Claude 系列)的激烈競爭,在通用知識與推理能力上設立了極高的性能標竿。另一方面,由臺灣本地團隊(如 TAME 計畫、國家級的 TAIDE 計畫、以及科技巨頭聯發科的 MediaTek-Research)所推動的在地化開源模型,正積極建立其在特定領域的領導地位;這些模型致力於彌補全球模型在繁體中文語境和臺灣文化理解上的不足,針對臺灣特定文化、法律及語境的評測項目上,展現出顯著且可量化的「在地化優勢」(Localization Premium)。此優勢在處理高度在地化的任務時尤為突出,證明了在地化微調的不可替代性。 在眾多模型中,yentinglin/Llama-3-Taiwan-70B-Instruct-DPO 在臺灣專屬評測項目中表現最為亮眼,成為處理在地化任務的首選。與此同時,Qwen/Qwen2-72B-Instruct 則在通用學科知識評測(如 MMLU 和 TMLU)中展現出卓越的實力,其強大的基礎能力使其在某些臺灣學術型評測中甚至超越了在地化模型,這一現象揭示了模型規模、預訓練資料品質與在地化微調之間複雜的交互關係。

II. 繁體中文大型語言模型評測基準深度解析

要客觀評估大型語言模型的真實能力,必須先深入理解所使用的評測基準(Benchmark)。每一個評測基準都有其獨特的設計哲學、評估維度與內在限制。因此需詳細解析評測所涵蓋的各項關鍵基準,為後續的性能數據分析提供必要的背景知識與批判性視角。

A. 評測基準的重要性與挑戰

大型語言模型評測基準是標準化的測試集,旨在衡量和比較不同語言模型在各種任務上的能力,例如語言理解、問答、數學解題和程式編寫等。透過在公開的基準上進行測試,研究人員和開發者可以相對客觀地比較不同模型的性能,並在排行榜上展示其成果。 然而,標準化評測也面臨諸多挑戰。其中最主要的是「資料污染」(Data Contamination)問題,即模型在預訓練階段可能已經「看過」評測集中的題目與答案,導致評測分數虛高,無法反映其真實的泛化能力。此外,許多評測基準的焦點較為狹隘,可能無法全面評估模型的綜合能力。隨著模型技術的飛速發展,現有評測基準也可能迅速飽和或失去挑戰性,無法有效地區分頂尖模型的優劣。因此,在解讀評測分數時,必須對這些潛在限制保持警覺。

B. 國際標準評測:MMLU

MMLU(Massive Multitask Language Understanding,大規模多任務語言理解)是一項廣泛使用的英文基準測試,評估模型在多種英語任務上的表現;目前頂尖模型如GPT-4在MMLU上的成績達到86.4%1

C. 臺灣特化評測:TMLU

TMLU是一個專門針對臺灣繁體中文環境設計的綜合性基準測試,涵蓋國中、高中、大學及國家考試等多個教育和專業領域的知識評估3

D. 臺灣特化評測:TMMLU+

TMMLU+是TMLU的增強版本,擁有更全面的臺灣繁體中文評估內容5

E. 專項能力評測

除了綜合知識評測外,針對特定能力的專項評測也至關重要。

III. 模型綜合性能評測分析

本章節將呈現本次研究的核心成果:對一系列臺灣在地化及國際主流大型語言模型在關鍵評測基準上的綜合性能數據,並進行深入的比較與剖析。透過將分散於各處的評測數據匯總於一處,我們得以進行橫向與縱向的對比,從而揭示不同模型之間的細微差異及其背後的策略意涵。為了更精準地評估頂尖模型的推理能力,本節的數據總表特別新增了更具挑戰性的 MMLU-Pro 評測項目。

A. 關鍵評測數據總表

為了提供一個清晰、全面的比較視角,下表匯總了本次研究涵蓋的主要模型在多個關鍵評測基準上的表現。數據主要來源於公開的 Open TW LLM Leaderboard 7、各模型的官方發布文件及相關學術論文。所有分數均以百分比(%)表示,除非另有說明。標示為「N/A」表示目前尚無公開的可靠數據。

臺灣本土與主流大型語言模型綜合評測結果(更新版)

模型名稱 TMLU TMMLU+ TW Truthful QA TW Legal Eval TW MT-Bench MMLU (5-shot) MMLU-Pro (CoT, 5-shot)
yentinglin/Llama-3-Taiwan-70B-Instruct 74.76% 9 67.53% 9 80.95% 9 68.42% 9 7.54 9 N/A N/A
yentinglin/Llama-3-Taiwan-70B-Instruct-DPO 74.60% 9 - 81.75% 9 70.33% 9 - N/A N/A
yentinglin/Llama-3-Taiwan-70B-Instruct-128k 73.01% 9 - 80.16% 9 63.64% 9 - N/A N/A
yentinglin/Llama-3-Taiwan-8B-Instruct 59.50% 9 52.28% 9 61.11% 9 53.11% 9 7.21 9 N/A N/A
yentinglin/Llama-3-Taiwan-8B-Instruct-DPO 59.88% 9 - 59.52% 9 52.63% 9 - N/A N/A
yentinglin/Llama-3-Taiwan-8B-Instruct-128k - - - - - N/A N/A
taide/Llama-3.1-TAIDE-LX-8B-Chat (Alpha1) 7 47.30% 7 39.03% 7 50.79% 7 37.80% 7 - N/A N/A
Breeze-7B-Instruct-v1_0 7 55.57% 7 41.77% 7 52.38% 7 39.23% 7 6.0 7 N/A N/A
Breexe-8x7B-Instruct-v0_1 7 - 48.92% 7 - - 7.2 7 N/A N/A
MediaTek-Research/Llama-Breeze2-8B-Instruct N/A N/A N/A N/A N/A N/A N/A
MediaTek-Research/Llama-Breeze2-3B-Instruct N/A N/A N/A N/A N/A N/A N/A
Qwen/Qwen3-235B-A22B N/A N/A N/A N/A N/A 87.8% 12 N/A
Qwen/Qwen2.5-72B-Instruct N/A N/A N/A N/A N/A 86.1% 12 71.6% 12
Qwen/Qwen2-72B-Instruct 80.43% 7 N/A 73.02% 7 58.85% 7 N/A 82.30% 13 N/A
Qwen1.5-110B-Chat 7 75.69% 7 65.81% 7 66.67% 7 49.28% 7 - N/A N/A
meta-llama/Llama-4-Maverick N/A N/A N/A N/A N/A 85.5% 14 80.5% 14
meta-llama/Llama-4-Scout N/A N/A N/A N/A N/A 79.6% 14 74.3% 14
meta-llama/Llama-3.3-70B-Instruct N/A N/A N/A N/A N/A N/A 68.9% 15
meta-llama/Llama-3.2-11B-Vision N/A N/A N/A N/A N/A 46.4% 6 N/A
meta-llama/Llama-3.2-3B-Instruct N/A N/A N/A N/A N/A 63.4% 6 N/A
meta-llama/Llama-3.1-70B-Instruct N/A N/A N/A N/A N/A 83.6% 14 66.4% 14
meta-llama/Llama-3.1-8B-Instruct N/A N/A N/A N/A N/A 69.4% 14 48.3% 14
meta-llama/Llama-3-70B-Instruct 70.95% 7 62.75% 7 65.08% 7 52.63% 7 - 82.0% 16 N/A
meta-llama/Llama-3-8B-Instruct 55.81% 7 43.38% 7 46.83% 7 35.89% 7 - 68.4% 16 N/A
openai/GPT-4o 69.88% (5-shot) 7 N/A 76.98% 7 53.59% 7 - 88.70% 16 77.9% 17
anthropic/Claude-3-Opus 73.59% (5-shot) 7 64.20% 18 69.84% 7 60.29% 7 - 86.80% 16 N/A

這張總表的建立本身即具備高度價值。它將散落在不同排行榜、論文和模型發布頁面上的數據整合在一起,首次提供了一個全面的、可直接進行並排比較的單一視圖。正是基於這張表,我們才能夠進行後續的深入分析,例如量化在地化微調的具體效益,或比較不同規模模型之間的性能差距。

B. 臺灣特化模型深度剖析

1. yentinglin/Llama-3-Taiwan 系列

Llama-3-Taiwan系列是由林彥廷(Yenting Lin)開發的模型,基於Meta的Llama-3架構,專為繁體中文使用者進行微調719。這些模型在臺灣本土基準測試上表現優異,尤其是70B參數版本7

Llama-3-Taiwan-70B-Instruct在TMLU測試中達到74.76%的成績,Taiwan Truthful QA達到80.95%,Legal Eval達到68.42%7。尤其值得注意的是,其DPO版本在Taiwan Truthful QA和Legal Eval測試中取得了最佳成績,分別為81.75%和70.33%7

8B參數版本雖然參數量較小,但仍達到了令人印象深刻的表現,TMLU為59.50%,Taiwan Truthful QA為61.11%,Legal Eval為53.11%7。這表明即使在較小的參數規模下,經過良好的本土化微調,模型也能取得不錯的理解能力819

2. taide/Llama-3.1-TAIDE-LX-8B-Chat

TAIDE(Trustworthy AI Dialogue Engine)是由臺灣國家科學及技術委員會推動的計畫,其推出的模型具有官方背景,備受關注。所開發的Llama3-TAIDE-LX-8B-Chat-Alpha1模型是另一個專為臺灣本土環境優化的模型20。根據數據,該模型在TMLU上達到47.30%,Taiwan Truthful QA為50.79%,Legal Eval為37.80%,TMMLU+為39.03%7

TAIDE模型特別強化了繁體中文處理能力,並針對長文本理解進行優化,從8K擴展到131K的上下文長度20。但是與其它以臺灣本土相關LLM系列相比還有差距,尚需深入優化改善,期許不要又跟往常一樣只是雷聲大雨點小的計畫7

3. MediaTek-Research/Llama-Breeze2 系列

由臺灣半導體巨頭聯發科(MediaTek)研究院推出的 Breeze2 系列,代表了臺灣產業界在大型語言模型領域的頂尖實力。包括Breeze-7B-Instruct-v1_0和Breexe-8x7B-Instruct-v0_12224。Breeze-7B-Instruct-v1_0在TMLU上達到55.57%,Taiwan Truthful QA為52.38%,Legal Eval為39.23%,TW MT-Bench為6.0,TMMLU+為41.77%7。 最新的Breeze2系列基於Llama 3.2架構,專為繁體中文進行優化,提供3B和8B兩種參數規模,除了語言理解能力外,還整合了視覺能力和函數呼叫功能24。Breeze2系列專為處理繁體中文知識進行了優化,包含台灣特定的文化和社會背景24

C. 與國際及中國大陸主流模型之比較分析

1. Llama 3 & 4 (Meta)

Meta 的 Llama 系列是全球開源模型的標竿,其官方公布的 MMLU 成績是我們評估模型通用知識能力的基準線。從 Llama 3 到 Llama 4,我們可以看到清晰的性能演進路徑。Llama-3.1-70B-Instruct 在 MMLU 上獲得 83.6% 的高分,而在更難的 MMLU-Pro 上得分為 66.4% 14。最新的 Llama-4-Maverick 則在 MMLU-Pro 上達到了 80.5%,展現了架構和訓練方法上的巨大進步 14。這些分數代表了未經特定在地化微調的「全球基準」水平。

Meta的Llama原版模型也在臺灣本土基準測試中有所表現7。Meta-Llama-3-70B-Instruct在TMLU上達到70.95%,Taiwan Truthful QA為65.08%,Legal Eval為52.63%,TMMLU+為62.75%7

Meta-Llama-3-8B-Instruct的表現則相對較弱,TMLU為55.81%,Taiwan Truthful QA為46.83%,Legal Eval為35.89%,TMMLU+為43.38%7。這與臺灣本土優化的yentinglin/Llama-3-Taiwan-8B-Instruct(TMLU 59.50%、TW Truthful QA 61.11%、Legal Eval 53.11%、TMMLU+ 52.28%)相比,明顯有差距7

最新的Llama 3.3系列繼續改進了多語言能力,但主要集中在英語、德語、西語、葡語、義語、法語、泰文和北印度語(Hindi),尚無專門針對繁體中文的優化15。在MMLU等基準測試上,Llama 3.3達到86.0分(0-shot, CoT),與Llama 3.1 70B持平15,但在更具挑戰性的MMLU PRO(5-shot, CoT)上達到68.9分,優於Llama 3.1 70B15

2. Qwen 2 & 3 (Alibaba)

阿里巴巴的 Qwen 系列是另一個極具競爭力的開源模型家族。Qwen2-72B-Instruct 不僅在 MMLU 上取得了 82.3% 的高分 13,更在臺灣的 TMLU 評測上取得了 80.43% 的驚人成績 7。其後繼者 Qwen2.5-72B-Instruct 在 MMLU 上提升至 86.1% 12,而最新的 Qwen3-235B 更是達到了 87.8% 12,持續刷新開源模型的性能上限。

Qwen(通義千問)系列模型,尤其是Qwen1.5-110B-Chat,在臺灣本土基準測試上表現出色9。在TMLU測試中,Qwen1.5-110B-Chat達到75.69%,是所有測試模型中的最高分713。在Taiwan Truthful QA上達到66.67%,Legal Eval為49.28%,TMMLU+為65.81%713

Qwen2和Qwen2.5系列進一步提升了多語言能力,在MMLU等國際基準測試上表現優異18。例如,Qwen2.5-72B在MMLU上達到86.1%,MMLU-Pro達到71.6%12。不過,目前尚無這些新版本在臺灣本土基準測試上的完整數據18

3. 可量化的「在地化優勢」

透過直接比較在地化模型與其基礎模型,我們可以精確地量化在地化微調所帶來的價值。以 yentinglin/Llama-3-Taiwan-8B-Instruct 與其基礎模型 meta-llama/Llama-3-8B-Instruct 為例,數據(源自 7, 9)顯示:

這一系列的數據提供了確鑿的證據:在地化微調並非錦上添花,而是能夠帶來實質性、大幅度性能提升的關鍵步驟。特別是當任務的文化、語言及專業領域的在地化程度越高時(如法律、事實性問答),這種性能提升就越加顯著。 然而,Qwen2-72B 在 TMLU 上的卓越表現(80.43%)7,甚至超越了頂尖的在地化模型 yentinglin/Llama-3-Taiwan-70B(74.76%)9,構成了一個值得深思的現象。這挑戰了「在地化模型永遠是最佳選擇」的簡單論述。 這種看似矛盾的結果背後,可能有多重原因。首先,TMLU 作為一個學術知識導向的評測,其內容(特別是 STEM 領域)在不同語言文化間具有高度的普適性,這部分題目更多地考驗模型的基礎推理與知識儲備,而非文化細節。一個像 Qwen2 這樣經過海量、高品質、多樣化資料(即使以簡體中文為主)預訓練的超大規模模型,可能已經發展出極其強大的底層通用推理能力,使其能夠在這些普適性問題上表現出色 [28]。其次,這也反過來印證了在地化微調的真正價值所在。在更需要文化細膩度和在地語境的評測上,例如 TW Truthful QA,yentinglin 的模型依然保持著明顯的領先優勢(80.95% vs. 73.02%)713。 結論是,在地化的價值並非一成不變,而是與任務特性緊密相關。對於涉及普適性知識的任務,模型的基礎規模與訓練品質可能佔據主導地位;而對於深度嵌入在地文化、語言習慣和專業領域(如法律、在地時事)的應用,經過精準微調的在地化模型則擁有不可替代的優勢。這為開發者在不同應用場景下選擇模型提供了更為細緻的決策依據。

IV. 核心洞察與策略意涵

在前一章節的數據分析基礎上,本章節旨在提煉出更深層次的洞察,並探討其對於臺灣 AI 產業發展的策略性意涵。這些洞察涵蓋了在地化的價值、模型規模的權衡,以及臺灣在當前全球開源生態系中所面臨的機遇與挑戰。

A. 在地化的絕對價值:何時與為何重要

綜合第三章的數據分析,尤其是在地化模型與其基礎模型的直接比較,我們可以得出一個明確的結論:在地化微調具有絕對且不可或缺的價值。這種價值並非均勻分佈在所有任務上,而是在特定場景下表現得尤為突出。 當應用場景高度依賴對臺灣的社會文化、時事動態、專業領域知識(如法律、醫療)以及獨特語言習慣的精準理解時,在地化模型不僅是「更好」的選擇,甚至是「唯一」可行的選擇。yentinglin/Llama-3-Taiwan 系列在 TW Legal Eval 和 TW Truthful QA 這兩項評測上相較於其 Llama-3 基礎模型所展現出的巨大性能差距(分別高出 17.22 和 14.28 個百分點),便是最有力的證明 7。 這背後的邏輯在於,全球模型(無論是來自美國還是中國大陸)的預訓練資料中,關於臺灣的內容佔比極低,導致它們在面對臺灣特有的概念、實體和事件時,容易產生「事實幻覺」(hallucination)或給出模糊、不確定的答案。在地化微調通過注入大量高品質的在地化資料,有效地彌補了這一「知識盲區」,從而顯著提升了模型在這些關鍵應用中的可靠性與準確性。因此,對於金融、法律、政府公共服務、在地化客服等高風險或高價值的應用,投資於在地化模型是確保服務品質與使用者信任的必要策略。

B. 模型規模的權衡:性能與成本的博弈

模型參數的規模是影響其性能的核心變數之一,但更大的模型也意味著更高的運算成本。我們的分析揭示了規模與性能之間的非線性關係,為開發者在性能與成本之間進行權衡提供了依據。 比較 yentinglin 系列的 8B 和 70B 模型,在 TMLU 評測上,後者比前者高出約 15 個百分點(74.76% vs. 59.50%)9。同樣,比較 Meta 官方的 Llama 3.1 8B 和 70B Instruct 模型,在 MMLU 上的差距也達到了 14.2 個百分點(83.6% vs. 69.4%)14。 這些數據表明,從 80 億(8B)參數規模躍升至 700 億(70B)參數規模,所帶來的性能提升是顯著的、階梯式的,而非微不足道的邊際改善。70B 級別的模型在知識的廣度、推理的深度和處理複雜指令的能力上,都遠超 8B 級別的模型。 然而,這種性能的飛躍伴隨著巨大的運算成本。70B 模型的推理(inference)對硬體資源的需求遠高於 8B 模型,這直接影響到應用的部署成本和回應延遲。這就形成了一個經典的權衡困境:

對於開發者而言,這意味著不存在一個普適的最佳選擇。決策的關鍵在於精準評估應用場景對模型能力的需求,並在可接受的成本範圍內,選擇能夠滿足該需求的最小、最高效的模型。

C. 開源生態系的現況:臺灣的機遇與挑戰

臺灣在大型語言模型領域的發展,展現出一個充滿活力且日漸成熟的開源生態系,這既是機遇,也伴隨著挑戰。

總而言之,臺灣的開源 LLM 生態系正處於一個關鍵的發展階段。未來的成功將取決於能否在利用全球先進基礎模型的同時,憑藉獨特的在地化數據和領域知識,打造出在全球競爭格局中具有明確比較優勢的產品。

V. 建議與展望

基於前述詳盡的數據分析與洞察,本章節將提供具體的模型選型建議,並對未來可能的研究方向與產業趨勢進行展望,以期為臺灣 AI 領域的開發者、研究人員及決策者提供前瞻性的參考。

A. 開發者選型建議

選擇合適的大型語言模型是成功開發 AI 應用的第一步。以下是針對不同應用需求的具體建議:

B. 未來研究方向

當前的評測結果也為未來的學術研究指明了幾個關鍵方向:

C. 產業展望

展望未來,臺灣的 LLM 產業將呈現「多模型共存」的格局。企業將不再尋求一個「萬能模型」,而是會根據不同業務需求,採用「多 LLM 策略」(multi-LLM strategy),為特定任務選擇最適合的工具。例如,法律部門可能採用在 TW Legal Eval 上表現最佳的模型,而行銷部門則可能選擇在創意寫作上更具優勢的模型。 在地化模型與全球模型的競爭將持續加劇,這將成為推動臺灣模型品質提升和成本下降的主要動力。臺灣 AI 生態系的長期成功,將取決於能否充分利用獨特、高品質的在地化資料(包括文字、圖像與聲音),並在金融、醫療、製造、法律等臺灣具有優勢的垂直領域進行深度耕耘,從而打造出全球模型難以複製的專業護城河。這場競賽不僅是技術的較量,更是數據、領域知識與生態系協作能力的綜合比拼。

VI. 結論與洞見

從收集的資料可以得出以下幾點洞見:

  1. 臺灣本土優化的模型在臺灣特定知識上表現優越:經過臺灣本土資料微調的模型,如Llama-3-Taiwan系列,在Taiwan Truthful QA和Legal Eval等臺灣特定知識測試上,表現優於原版的國際模型7。這凸顯了本土化微調對提升模型在特定文化和語言環境下理解能力的重要性39
  2. 大型參數模型普遍表現更佳:70B參數級別的模型通常優於8B級別的模型,但經過良好微調的小型模型也能達到不錯的效果7。例如,yentinglin/Llama-3-Taiwan-8B-Instruct在多項指標上優於原版Meta-Llama-3-8B-Instruct9
  3. 國際模型的強項與弱項:Qwen系列等國際模型在通用知識上表現優異,甚至在某些臺灣本土測試上也取得了良好成績9。然而,在深度結合臺灣文化、法律等特定領域知識的測試上,本土優化模型通常更勝一籌7
  4. 繼續改進的空間:即使是表現最好的模型,在某些測試上仍有提升空間39。特別是在法律評估(Legal Eval)上,最高分也僅為70.33%(yentinglin/Llama-3-Taiwan-70B-Instruct-DPO)9
  5. 本土化與通用能力的平衡:理想的模型應當在保持強大通用能力的同時,具備優秀的本土化理解能力319。臺灣本土模型的持續發展將致力於在這兩方面取得更好的平衡7

總體而言,臺灣本土大型語言模型在繁體中文和臺灣特定知識的理解上展現出了顯著優勢,證明了針對特定語言和文化背景進行模型優化的價值39。同時,國際頂尖模型也在不斷提升多語言能力,這種良性競爭將推動大型語言模型技術的整體進步121

Appendix (附錄):Embedding 與 Reranking 模型在 RAG 應用中的關鍵角色與評估

在大型語言模型(LLM)應用中,當涉及檢索增強生成(Retrieval-Augmented Generation, RAG)時,其核心目標是為 LLM 提供精準且具備上下文的資訊,從而生成高品質、具事實根據的回應。傳統的關鍵字搜尋方法已不足以應對複雜的語義理解需求。為此,RAG 系統引入了嵌入(Embedding)模型和重排序(Reranking)模型,它們直接影響到 RAG 系統檢索資訊的相關性與準確性。

A. Embedding 與 Reranking 的角色

RAG 流程引入了兩個關鍵階段:Embedding 向量檢索與 Reranking 重新排序,這兩者共同構成了高效能資訊檢索的基石。

B. 檢索階段:Embedding 模型效能深度剖析

評估嵌入模型品質的標準基準測試是 MTEB (Massive Text Embedding Benchmark)。

C. 主流 Embedding 模型分析與表現

多種嵌入模型被廣泛用於RAG系統。在中文 embedding 領域,由北京智源人工智能研究院(BAAI)開發的 BGE 系列模型表現尤為突出。

針對特定領域(例如表格數據)的應用,即使是最先進的通用嵌入模型也可能表現不佳,這時需要對嵌入模型進行微調。

D. 對於文件檢索的策略性啟示

模型選擇並非單純追求最高分,而是需要根據具體應用場景進行權衡。對於專注於繁體中文的 RAG 系統,特化模型與通用多語言模型之間存在策略取捨。

表 關鍵 Embedding 模型特性比較

模型名稱 主要語言 最大上下文長度 (Tokens) 關鍵優勢 MTEB/C-MTEB 相關表現
BAAI/bge-large-zh-v1.5 中文 512 中文特化,性能卓越 曾於 C-MTEB 排名第一
BAAI/bge-m3 多語言 (100+) 8192 多語言、多功能、長文本處理 多語言場景下性能頂尖,超越 OpenAI 模型
gte-Qwen2-7B-instruct 多語言 未明確 (基礎模型支援長) MTEB 排行榜頂尖模型之一 在 MTEB 排行榜上名列前茅
NV-Embed-v2 英文為主 未明確 曾登頂 MTEB 檢索類別榜首,適合 RAG 曾於 MTEB 排行榜排名第一

E. 精煉階段:Reranker 模型效能的量化評估

在初步檢索之後,Reranker 模型是提升 RAG 系統回應品質的第二道關鍵防線。

Reranker 模型的核心是其 cross-encoder 架構。與 embedding 模型(bi-encoders)分別為查詢和文件生成獨立的向量不同,cross-encoder 將「查詢」和「單一候選文件」作為一個整體同時輸入模型進行處理。這種設計允許模型在內部對查詢和文件的每一個 token 之間進行深度、細粒度的注意力計算,從而給出一個極其精準的相關性分數。

這種高精準度的代價是計算量遠大於 bi-encoder,因此它不適合用於對整個龐大知識庫進行全面篩選,而是作為「精煉器」,僅對由 embedding 模型快速召回的前 k 個(例如前 20-50 個)最相關的候選文件進行重新排序。

常見的評估指標包括命中率(Hit Rate)平均倒數排名(MRR, Mean Reciprocal Rank)。研究顯示,優秀的重排序模型能持續提升幾乎所有嵌入模型的這兩項指標。

根據現有研究,市場上主流的 Reranker 模型包括 BAAI/bge-reranker-v2-m3 以及由阿里巴巴開發的 Qwen3-Reranker 系列。一份關鍵的評測報告對這些模型在多個檢索相關基準上的表現進行了比較,包括 MTEB-R(英文檢索)、CMTEB-R(中文檢索)、MMTEB-R(多語言檢索)和 MLDR(多語言長文件檢索)。

F. 常見 Reranker 模型及表現

對 Reranker 模型的評測數據進行分析後,可以發現其性能並非單一維度,而是與特定語言和任務高度相關。

數據顯示,不同模型在不同語言的檢索任務上表現出明顯的專業化傾向。

這一現象清楚地表明,Reranker 模型的選擇必須与知識庫的語言構成精準匹配,才能最大化其提升檢索精準度的效益。

表 關鍵 Reranker 模型在檢索評測上的性能比較

模型名稱 參數規模 MTEB-R (英文) CMTEB-R (中文) MMTEB-R (多語言) MLDR (長文本)
Qwen3-Reranker-8B 8B 69.02 77.45 72.94 70.19
Qwen3-Reranker-4B 4B 69.76 75.94 72.74 69.97
gte-multilingual-reranker-base 0.3B 59.51 74.08 59.44 66.33
BGE-reranker-v2-m3 0.6B 57.03 72.16 58.36 59.51
Qwen3-Reranker-0.6B 0.6B 65.80 71.31 66.36 67.28
Jina-multilingual-reranker-v2-base 0.3B 58.22 63.37 63.73 39.66

G. 重排序的必要性與挑戰

數據明確顯示了重排序模型在優化搜索結果方面的顯著性。幾乎所有嵌入模型都透過重排序獲得了改進。重排序模型,特別是 CohereRerankbge-reranker-large (或其更新版本如 BGE-reranker-v2-m3),展現了將任何嵌入模型轉化為具有競爭力的模型的能力。

然而,引入重排序模型會增加延遲和系統複雜性。儘管開箱即用的重排序模型在某些推理任務上可能表現不佳,但透過微調可以實現最先進的性能。這也顯示了重排序模型在真實世界應用中,需要在模型大小、排名準確性以及延遲/吞吐量等系統要求之間取得平衡。

H. 臺灣本土模型與國際模型的嵌入/重排序評比

就臺灣本土大型語言模型(如 yentinglin/Llama-3-Taiwan 系列、taide/Llama-3.1-TAIDE-LX-8B-ChatMediaTek-Research/Llama-Breeze2 系列)以及國際知名模型(如 QwenLlama 3.x 系列)而言,現有資料主要針對這些 LLM 本身在如 TMLU、TMMLU 等語言理解基準測試上的表現進行評估。

關於這些特定模型在作為 RAG 系統中的嵌入模型重排序模型方面的獨立基準測試結果,目前提供的公開資料並未明確提供詳盡的數據。這可能歸因於以下幾點:

總結

嵌入模型和重排序模型是 RAG 系統中不可或缺的組成部分,它們共同確保了提供給 LLM 的資訊的相關性和準確性。雖然有通用的基準測試(如 MTEB、C-MTEB)和評估方法(如 NDCG@10、Hit Rate、MRR)來評估這些模型,且已證明它們對 RAG 系統性能的關鍵影響,但針對特定 LLM(如臺灣本土模型、Qwen、Llama 3.x 系列)作為獨立嵌入/重排序組件的詳細評比數據,在當前資料中尚不充分。這類數據通常會是更專門化的 RAG 系統組件性能評估研究的範疇,並且需要根據具體的應用場景、知識庫特性(如語言、長度)和系統資源限制(如延遲、計算成本)來進行細緻的選擇與優化。

參考文獻