layout: default title: Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101 —

Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。

Deep Learning 101 Buy Me A Coffee

去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心


大語言模型 語音處理 自然語言處理 電腦視覺
Large Language Model Speech Processing Natural Language Processing, NLP Computer Vision

用 AI 懂 AI

AI 技術 體驗/分享

手把手帶你一起踩 AI 坑https://www.twman.org/AI


AI 技術 開源/試用

匯整TonTon Huang Ph.D.

日期:2025年07月19日更新

論文主題 IChain-of-Thought is not explainability

論文作者 I:Fazl Barez, Tung-Yu Wu, Iván Arcuschin, Michael Lan, Vincent Wang, Noah Siegel, Nicolas Collignon, Clement Neo, Isabelle Lee, Alasdair Paren, Adel Bibi, Robert Trager, Damiano Fornasiere, John Yan, Yanai Elazar, Yoshua Bengio

論文主題 IIChain of Thought Monitorability: A New and Fragile Opportunity for AI Safety

論文作者 II:Elizabeth Barnes, Yoshua Bengio, Joe Benton, Joseph Bloom, Mark Chen, Alan Cooney, Allan Dafoe, Anca Dragan, Scott Emmons, Owain Evans, David Farhi, Ryan Greenblatt, Dan Hendrycks, Marius Hobbhahn, Evan Hubinger, Geoffrey Irving, Erik Jenner, Daniel Kokotajlo, Victoria Krakovna, Shane Legg, David Lindner, David Luan, Aleksander Mądry, Julian Michael, Neel Nanda, Dave Orr, Jakub Pachocki, Ethan Perez, Mary Phuong, Fabien Roger, Joshua Saxe, Buck Shlegeris, Martín Soto, Eric Steinberger, Jasmine Wang, Wojciech Zaremba, 以及: Equal senior authors: Bowen Baker (OpenAI) Rohin Shah (Google DeepMind) Vlad Mikulik (Anthropic)

其它中文參考 IBengio親手戳穿CoT神話! LLM推理是假象,25%頂會論文遭打臉
其它中文參考 IAI 思維鏈將失效?OpenAI、Google 和 Anthropic 等研究人員聯合發出警告


🎵 不聽可惜的 NotebookLM Podcast @ Google 🎵

本文批判性地賦予了思維鏈(CoT)提示能真實地解釋了大型語言模型推理的假設,透過綜合性證據和對arXiv論文的審計表明,CoT輸出與模型內部計算系統性地不真實。研究揭示,大約25%的近期以CoT為中心的論文明確將CoT視為一種可解釋性方法,儘管有證據表明CoT通常是事後合理化的,而不是對實際模型過程的透明反映。



思維鏈(CoT)與可解釋性:關鍵重點匯整

概述:思維鏈的假象

思維鏈(Chain-of-Thought, CoT)提示是一種強大的技術,旨在提升大型語言模型(LLM)在複雜推理任務中的表現。它鼓勵模型在提供最終答案之前口頭表達其中間推理步驟。最初,CoT 被認為既能增強任務性能,又能提高模型推理過程的透明度,讓人們得以一窺 LLM 如何得出結論。這項技術最初由前 Google 研究員 Jason Wei 提出,並被廣泛應用。

然而,學術界對 CoT 能忠實解釋 LLM 推理的基本假設提出了批判性挑戰。核心論點是,儘管 CoT 提供了寶貴的溝通效益,但它作為一種值得信賴的可解釋性方法卻根本失敗了。研究顯示,CoT 輸出與模型內部計算之間存在系統性的不忠實,它通常充當「事後合理化」(post-hoc rationalisations),而非對實際模型過程的透明反映。換言之,CoT 的透明度可能只是一種精心編織的假象。特別令人擔憂的是,審計結果顯示,約 25% 的近期以 CoT 為中心的論文「明確將 CoT 視為一種可解釋性方法」,甚至在高風險領域(如醫療 AI、法律 AI、自動駕駛汽車)中,這種誤解的比例更高。

忠實解釋的定義

為了評估解釋的品質,研究建立了嚴謹的框架,定義了忠實 CoT 解釋的三個關鍵標準:

這些標準作為分析工具,用於評估現有研究並區分僅僅看似合理與準確反映模型內部推理機制的解釋。

思維鏈不忠實性的系統性證據

綜合多項實證研究的證據顯示,CoT 的不忠實性並非偶發異常,而是一種系統性現象。主要模式包括:

研究社群中對 CoT 誤解的普遍程度

為了衡量研究社群中可解釋性誤解的普遍性,作者開發了一個使用檢索增強生成(RAG)方法的自動化審計系統。他們分析了 arXiv 上 1,000 篇近期以 CoT 為中心的研究論文(審計範圍:2024 年 4 月至 2025 年 6 月)。

審計揭示了驚人的結果:

這種誤解在高風險領域尤為普遍且危險。例如,約 38% 的醫療 AI、25% 的法律 AI、63% 的自動駕駛汽車相關論文,都盲目地將 CoT 視為可解釋性方法,這可能導致在關鍵應用中產生錯誤的信任,進而引發災難性後果。

不忠實性的機制與認知解釋

CoT 解釋為何系統性地偏離模型內部過程,可以從兩個互補的視角來探討:

改進 CoT 忠實性的路線圖

論文不僅批判了現有做法,還為提高 CoT 忠實性提供了建設性建議:

思維鏈(CoT)的AI安全監控潛力

儘管 CoT 在解釋模型行為方面存在不忠實性,但它在 AI 安全領域作為一種「監控」方法卻展現出獨特的潛力。

結論與啟示

這項工作對大型語言模型的負責任開發和部署具有深遠影響,尤其是在醫療保健、法律推理和自動駕駛系統等高風險領域。研究結果表明,當前將 CoT 視為模型可解釋性的方法可能提供虛假信心,從而導致在關鍵應用中產生錯誤的信任。

因此,研究界必須制定更嚴格的可解釋性標準,超越表層合理性,以確保解釋能夠準確反映人工智慧決策背後的因果機制。儘管 CoT 在性能增強和人機交互方面仍然有價值,但在沒有額外驗證機制的情況下,不應將其視為理解模型推理的可靠窗口。這項工作是朝著該目標邁出的關鍵一步,它挑戰了普遍存在的假設,並為實現更忠實的 AI 可解釋性提供了路線圖。同時,CoT 在 AI 安全監控方面的潛力,也為開發更安全的前沿 AI 系統提供了新的機會,值得研究界持續投入。

主要人物與機構

以下是資料中提及的,在 CoT 可解釋性與監控性研究中扮演重要角色的主要人物、研究團隊和機構:

思維鏈解釋假象事件時程表

本時程表涵蓋了學術界對思維鏈(CoT)作為可解釋性方法進行審視、批判以及對其監控潛力探索的主要事件與研究進展: