Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

💼 從頂層 AI 戰略到地端 GPU 部署企業方案：卡在開源模型效能低落？不知道如何為企業私有雲架設高併發的推論伺服器？提供 FDE (Forward Deployed Engineering) 級別的 AI 落地顧問與架構建置以及企業級的 LLM 架構健檢與地端部署服務。

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，特別感謝時任職公司台灣雪豹科技無償贊助場地及茶水點心。
這裡不僅匯集了我們歷年的 Meetup 紀錄，更是 AI 演算法與開源資源匯整中心。

👉 Deep Learning 101 歷年 Meetup 📺 💼 預約企業 AI 架構健檢與 POC 諮詢

Deep knowledge representation and reasoning YouTube

2019/02/15 Chin-Hui Chen

人工智慧早期：專家系統的輝煌與侷限

在人工智慧發展的早期階段，據稱大約在1970年代到1980年代 [1, 3]，專家系統 (Expert Systems) 是主流方法之一 [1]。對於入門的同學，你可以把它想像成一個試圖模仿人類專家的思考過程來解決特定問題的電腦程式 [1]。

核心原理：基於規則與符號

專家系統的基礎是一系列的邏輯規則 [1]。這些規則通常以「如果 (If) … 則 (Then) …」的形式存在，用來定義在特定條件下應該採取的行動或推導出的結論 [1]。系統會根據輸入的事實去匹配這些規則，進行邏輯推論 [1]. 來源中也提到，這些規則需要手動建立 [4, 5].

主要的挑戰與侷限：

僵化的零一邏輯，難處理不確定性 專家系統最根本的問題在於它的邏輯是「零跟一」的 [1, 4]。這意味著它只能判斷一個事物是「真」或「假」，而無法處理機率或介於中間的模糊狀態 [1, 4]. 來源引述提到：「這最主要問題就是它邏輯只有零跟一嘛，那你沒有辦法處理機率的問題。又沒有介於中間的。」[1, 6]. 就像手寫數字辨識中，一個寫得不太標準的數字，可能像 1 又有點像 7，專家系統很難用確切的規則來判斷 [1, 4].
詞彙的多重含義與上下文依賴性 對於自然語言處理來說，這是一個更大的難題 [1, 4]. 一個詞彙往往有很多個意思，而它的確切意思取決於它所在的上下文 [1, 4]. 來源引述指出：「那其實語言的每個詞彙它都有很多個意思，那以每一個字的意識跟它的上下文都有關係，然候這又是一個機率的問題，就就是便變成沒有辦法很明確的說這個字性代表什麼東西。因為跟他上下在一起到是說這個自己到有可能是。」[1, 6]. 這種根據上下文而變化的語義，本質上是機率性的 [1, 4]。專家系統基於零一邏輯的設計，很難彈性地捕捉和處理這種多重含義和上下文相關性 [1, 4].
知識庫的手工建構與擴展困難 專家系統的另一個巨大瓶頸在於其知識庫的建構高度依賴於人工 [1, 4, 5]。研究人員需要花費大量的時間和精力去人工編寫和定義這些規則和關係 [1, 4, 5]. 這不僅耗時耗力，而且難以擴展和泛化 [1, 4]. 來源中有人分享了建構病毒知識庫或小吃建議系統的經驗 [1, 5]，就體會到這種手工建構的艱辛與侷限性 [5]. 一個針對特定領域（如醫療或法律）建立的專家系統，其知識和規則是高度專業化的，難以直接應用到其他不同的領域（領域限定性）[7]. 史丹佛大學雖然在醫學領域使用了類似的技術進行研究 [3]，但這也反映了這種領域限定的特點 [7].

標準化與結構化的嘗試

為了解決手工建構和缺乏標準化的問題，學界曾嘗試引入一些標準化的技術 [3, 6]，例如 OWL (Web Ontology Language) 和 RDF (Resource Description Framework) [1, 4]. 曼徹斯特大學 (University of Manchester) 在2011年左右是開發OWL的代表之一 [3]，可能也開發過相關軟體，例如一個名為 Port 的軟體 [3, 5]. 這些技術試圖提供一種更有結構、更標準化的方式來表示知識 [1, 4]，例如定義概念、屬性以及它們之間的關係 [4]. 一些工具（例如被稱為「Page」或「Port」的軟體 [5, 7]，結合 SWRL (Semantic Web Rule Language) [5, 7]）也應運而生，允許建立結構化的關係並進行推論 [5, 7]. 例如，可以建立「A 是 B 的爸爸」這樣的二元關係 [5]，並通過規則推論出 A 和 C（B 的媽媽）之間的關係 [5]. 來源提到，這種推論是基於已定義的關係，而不是因果關係 [8].

然而，即使有了 OWL 這樣的工具，早期的知識庫仍然存在限制 [4]. 它們通常只能建立有限種類的關係 [4]，例如本體論中的屬性關聯或簡單的二元關係 [4, 5]. 雖然可以進行簡單的邏輯推論 [5, 7]，但要處理更複雜、更抽象或在開放領域 (Open Domain) 中未見過的名詞和關係時，仍然非常困難 [4, 5, 7]. 來源中提到，那個年代即使使用了這些標準化工具，在開放領域仍然沒有辦法做好，只是不需要完全手動鍵而已 [5]. 這促使一些研究者甚至嘗試開發新的語言（如「FM language」）[6, 7, 9]，試圖將「黎」的概念引入來增強關係的表示能力 [6, 7]，這顯示出大家已經意識到僅靠簡單的結構化關係是不足夠的 [7].

近代方法的興起：擁抱連續空間與數據學習

面對專家系統在處理不確定性、語義多樣性 [1, 4] 和擴展性 [1, 4] 方面的根本性挑戰，研究方向開始轉向 [2]. 雖然來源中沒有在關鍵比較點明確提及「詞向量」，但其對近代方法能力的描述 [1, 2]，與詞向量 (Word Embeddings) 的核心思想高度契合。

核心原理：將詞彙映射到向量空間

近代的方法，特別是像詞向量這樣的技術，其核心思想是將每一個詞彙或符號不再視為孤立的單元，而是將它們映射到一個連續的數學向量空間中 [1, 2]. 每個詞彙都由空間中的一個高維向量來表示 [1, 2]. 來源中也提到了向量和矩陣運算的概念 [10, 11]，這與這種表示方式是相符的 [10, 11].

詞向量的優勢與能力：

捕捉語義關係與處理機率 在這個向量空間中，詞彙之間的語義關係得以捕捉 [1, 2]. 那些語義相似的詞彙，在這個空間中的距離會比較近 [1, 2]. 更進一步，特定的語義關係可以通過向量之間的代數運算來體現 [1, 10, 11]. 這使得系統能夠處理專家系統難以應對的機率問題 [1, 4] 和語義的多樣性 [1, 4]. 詞彙的向量表示是從大量的文本數據中學習而來的 [2]，其位置反映了它在不同語境下的用法和頻率，因此能自然地捕捉到詞彙的多重含義及其上下文相關性 [1, 4].
數據驅動與良好的泛化能力 與專家系統需要人工手動編寫規則不同 [1, 4]，詞向量是通過數據學習的方式獲得的 [2]. 這使得系統的建構和更新效率大大提高 [2]，並且具有更好的擴展性和泛化能力 [2]. 即使是模型在訓練時沒有直接見過的新詞 [1, 2]，也可以通過其在上下文中的出現來學習其向量表示，並被歸類或理解 [1, 5]（即使可能還不知道具體的「是什麼東西」 [5]，但能歸到某一類 [1, 5]）. 來源中引述（意譯，描述詞向量的能力）提到：「你不是可以把沒有看過的把它歸成一類嗎？或者是歸成某一個。」[1, 5]
向量與矩陣運算 來源中提到了向量和矩陣運算的概念 [10, 11]，例如不同維度矩陣的相乘或相加 [10, 11]. 這暗示了在近代方法中，知識的表示和處理是通過數學計算來完成的 [10, 11]. 這種基於數值計算的方式，與專家系統基於符號和規則的邏輯推理方法截然不同 [10]. 來源中也暗示了這種方法可以捕捉更複雜的關係，例如「國王 - 男人 + 女人 = 皇后」之類的類比關係，通過向量的加減法來實現 [1].

總結：範式轉移的意義

從專家系統到詞向量這類方法的轉變，是人工智慧領域一次深刻的範式轉移 [2]. 它標誌著從早期的符號主義 (Symbolism) 方法（強調用邏輯規則和符號表示知識 [2]）向連接主義 (Connectionism) 或說數據驅動 (Data-driven) 方法（強調從數據中學習，用向量等連續表示來捕捉模式 [2]）的演進。

專家系統因其僵化的零一邏輯 [1, 4]、難處理不確定性與語義多樣性 [1, 4]，以及對人工知識建構的依賴 [1, 4] 而面臨嚴峻挑戰 [1, 2]. 近代方法通過將詞彙等信息表示在連續的向量空間中 [1, 2]，利用大規模數據學習的能力 [2]，更靈活和強大地捕捉語義關聯和處理複雜語言現象 [1, 2]. 這種轉變不僅是技術上的進步 [2]，也反映了我們對如何表示和處理知識有了更深入的理解 [2]. 對於初學者而言，理解這兩種方法在核心思想和處理能力上的根本差異 [1, 2, 4, 10]，是掌握當前自然語言處理技術發展脈絡的關鍵一步 [1, 2].