layout: default title: Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101 —
Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心
大語言模型 | 語音處理 | 自然語言處理 | 電腦視覺 |
Large Language Model | Speech Processing | Natural Language Processing, NLP | Computer Vision |
用 AI 懂 AI
- Chain-of-Thought is not explainability
- Chain-of-Thought
- arXiv 2506.21521 (Potemkin Understanding in Large Language Models)
- arXiv 2502.04644 (Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research)
- AI新賽局:企業的入門策略指南
- 臺灣大型語言模型性能評測與在地化策略分析報告
- GenAI 與 LLM 在金融產業的應用分析:金融服務中 GenAI 與 LLM 的變革潛力。
- AI Robot 陪伴型機器人:2025 趨勢分析技術突破、市場潛力與未來展望。
- 避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案:探討多種 AI 代理人工具的應用經驗與挑戰,分享實用經驗與工具推薦。
AI 技術 體驗/分享
手把手帶你一起踩 AI 坑:https://www.twman.org/AI
- 白話文手把手帶你科普 GenAI:淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性。
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算:探討 LLM 的發展與應用,硬體資源在開發中的作用。
- Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成);深入探討影像生成與分割技術的應用,強調硬體資源的重要性。
- ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策:探討 ASR 和 TTS 技術應用中的問題,強調數據質量的重要性。
- 那些 NLP 踩的坑:分享 NLP 領域的實踐經驗,強調數據質量對模型效果的影響。
- 那些語音處理踩的坑:分享語音處理領域的實務經驗,強調資料品質對模型效果的影響。
- 手把手學深度學習安裝環境:詳細介紹在 Ubuntu 上安裝深度學習環境的步驟,分享實際操作經驗。
AI 技術 開源/試用
日期:2025年07月04日更新
論文主題:Potemkin Understanding in Large Language Models
論文作者:Marina Mancoridis, Bec Weeks, Keyon Vafa, Sendhil Mullainathan
其它中文參考 1:Gary Marcus驚世之言:純LLM上建構AGI徹底沒了希望! MIT、芝大、哈佛論文火了
其它中文參考 2:LLM 的「波將金村莊」假象:不要輕言「理解」
🎵 不聽可惜的 NotebookLM Podcast @ Google 🎵
「波將金式理解」(potemkin understanding),即一種理解的假象。研究發現,這種「波將金式理解」在不同的模型、任務和領域中普遍存在,這不僅是理解上的錯誤,更反映了模型在概念表示上存在深層次的內部不連貫性。
大型語言模型的「波將金式理解」入門指南
A.1. 什麼是「波將金式理解」?
- 「波將金式理解」是指大型語言模型(LLM)在標準測試中看似表現出色,但其對概念的內在理解卻與人類截然不同,甚至內部存在矛盾。
- 這種成功是一種「虛假的理解」,其答案與人類對概念的解釋方式不相容。
- 這個詞源自「波將金村莊」的典故,比喻為人創造一種虛假印象的行為。
A.2. LLM「理解」的本質性局限 LLM在基準測試中看似表現出色,但其對概念的內在理解卻與人類截然不同,甚至存在內部不一致性。這種成功是一種「虛假的理解」,其答案與人類對概念的解釋方式不相容。這並非傳統意義上的「知識不足」或「推理錯誤」,而是模型對概念表徵本身存在的「深層內在矛盾」和「不連貫性」。
B.1. 為何現有評估可能存在問題?
- 目前用於評估LLM的基準測試(例如AP考試)最初是為人類設計的。
- 這些測試對LLM有效的核心假設是:LLM的誤解模式必須與人類的誤解模式相似。
- 如果LLM的誤解方式與人類不同,那麼它們在這些測試上的高分可能僅僅是「波將金式理解」,無法反映真實理解。
B.2. 對現有評估框架的根本性挑戰
- 為人類設計的基準測試失效:當前用於評估LLM的基準測試(如AP考試)原本是為人類設計的。這些測試的有效性,前提是LLM的誤解模式必須與人類相似。然而,如果LLM的解釋空間與人類不同,為人類設計的「基石集」對LLM就可能是無效的。LLM可能「碰巧」通過了針對人類誤解設計的基石集,但其實際內部理解是扭曲的,並在其他相關任務上犯下人類不會犯的錯誤。
- 「解釋」與「應用」的鴻溝:研究發現,LLM在94.2%的情況下能正確定義概念,但在需要使用這些概念執行任務時,表現會急劇下降,呈現高「波將金率」。例如,GPT-4o能準確解釋「ABAB押韻格式」,卻在實際填寫韻腳時出錯,甚至能在被追問時「識別」出自己應用的錯誤。這表明LLM可能僅是「背誦」了定義,而非真正融會貫通。
- 概念內部不連貫性普遍存在:模型表現出顯著的內部不一致性,得分範圍從0.02到0.64。這意味著模型對同一概念可能持有相互衝突的內部認知或表徵,其理解是碎片化的,無法形成統一、自洽的整體。這種現象在所有測試模型、所有概念和所有領域中都普遍存在,顯示其是LLM的系統性缺陷。
C.1. 關鍵概念:「基石集」(Keystone Set)
- 「基石集」是一個最小的實例集合,如果人類在這些實例上都能與正確解釋一致,那麼就可以推斷其真正理解了概念。
- 它透過排除所有已知的人類結構化誤解路徑,來證明深層理解。
- 但如果LLM的「解釋空間」與人類不同,為人類設計的基石集對LLM可能就無效了。
C.2. 對通用人工智慧(AGI)前景的重大影響 著名人工智慧學者Gary Marcus認為,這項研究宣告了任何試圖在純粹LLM基礎上構建通用人工智慧(AGI)希望的終結。他認為基於這些連自身論斷都無法保持一致的機器,根本不可能創造出AGI。儘管有不同意見,例如Google DeepMind科學家Prateek Jain指出Gemini 2.5 Pro在測試論文部分例子時表現良好,這項研究仍強烈暗示,僅依賴當前統計模式匹配的LLM架構,可能難以實現人類級別的通用智能。
D. 如何量化「波將金現象」?
研究提出了兩種方法:
- 基於基準數據集的方法(解釋與應用的脫節)
- 測量LLM能否正確定義一個概念,同時卻無法準確應用它。
- 透過「分類」、「受限生成」和「編輯」等任務來測試模型在定義概念後的實際運用能力。
- 計算「波將金率」:在正確定義後,模型在應用任務上犯錯的比例。
- 自動化評估方法(概念不連貫性)
- 利用模型自身的「自洽性」來揭示問題,提供「波將金率」的下限。
- 核心思想是讓模型生成一個概念實例後,再讓它自行判斷這個實例是否符合概念,計算其不一致的比例。
E. 主要研究發現
- 普遍存在:「波將金現象」在所有測試模型、所有概念和所有領域中都普遍存在,顯示其是LLM的系統性缺陷。
- 定義能力高,應用能力差:模型在94.2%的情況下能正確定義概念,但在需要使用這些概念執行任務時,表現急劇下降,呈現高波將金率。這表明LLM可能僅是「背誦」了定義,而非融會貫通。
- 概念不連貫性普遍存在:模型表現出顯著的內部不一致性,得分範圍從0.02到0.64。這意味著模型對同一概念可能持有相互衝突的認知,其理解是碎片化的,無法形成統一、自洽的整體。
F. 「波將金現象」的潛在根源猜想
- 統計模式匹配的本質局限:LLM是相關性引擎,而非因果推理引擎。
- 目標函數的限制:訓練目標通常是最大化下一個詞的預測機率,導致模型可能找到「捷徑學習」。
- 數據特性:訓練數據中可能存在隱蔽的「不一致性」或「不完整性」。
- 模型架構的限制:Transformer架構可能難以有效構建自洽的「世界模型」。
- 缺乏真實世界交互和具身經驗:人類理解來源於與真實世界的交互,而LLM主要通過文本學習。
G.1. 對未來發展的啟示
論文強調需要評估和訓練方法上的雙重革新:
- 評估革新:
- 引入一致性評估、魯棒性與泛化能力、多任務/多模態融合評估。
- 採用Human-in-the-Loop評估、對話式評估(多輪追問、自我糾正)。
- 開發擺脫人類中心的AI專屬理解基準,設計新型挑戰測試以逆向驗證誤解。
- 訓練革新:
- 引入一致性損失函數,進行高質量、一致性數據清洗,並進行多模態數據融合訓練。
- 探索混合智能(結合統計與符號推理/知識圖譜/因果模型),強化鏈式思考與自省機制,提高可解釋性。
G.2. 未來發展的戰略性建議 論文強調,解決「波將金理解」問題需要評估和訓練方法上的雙重革新。
- 評估革新:
- 多維度能力評估:引入一致性評估、魯棒性與泛化能力、多任務/多模態融合評估。
- 動態與交互評估:採用人類在環(Human-in-the-Loop)深度追問、對話式評估(多輪追問、自我糾正)。
- AI專屬基準:開發擺脫人類中心,針對AI誤解模式設計的新型挑戰測試,逆向驗證誤解。
- 訓練革新:
- 優化目標與數據:引入一致性損失函數,進行高質量、一致性數據清洗,並進行多模態數據融合訓練。
- 改進架構與推理:探索混合智能(結合統計與符號推理/知識圖譜/因果模型)、強化鏈式思考與自省機制,提高可解釋性。這包括讓模型能夠反思、檢查和評估自身輸出或內部狀態的能力。
H. 對通用人工智慧(AGI)前景的影響
- 認知科學家Gary Marcus認為,這項研究宣告了任何試圖在純粹LLM基礎上構建通用人工智慧(AGI)希望的終結,因為基於這些連自身論斷都無法保持一致的機器,根本不可能創造出AGI。
- 但也有觀點認為,我們可能不需要LLM「理解」,只要它們表現得越來越好就足夠了。