Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷，是為了普及與分享深度學習及AI領域的尖端知識，深信AI的價值在於解決真實世界的商業問題。

2018/10/12 Nat Lee

智能情感分析：核心概念與技術入門

情感分析，簡單來說，是一種自然語言處理（NLP）技術，目的在於判定一段文本所表達的情感傾向，究竟是正面的、負面的，還是中立的 [1, 2]。這對於理解大眾對特定事物（例如產品、服務，或是資料中特別關注的 ICO 項目）的看法至關重要 [1, 3]。對於新手來說，理解其核心目標——從文字中「讀懂」情緒——是踏入此領域的第一步。

資料處理流程：理解數據的轉換之旅

在進行情感分析之前，原始文本資料需要經過一系列的處理步驟，這是一個在 NLP 領域非常基礎且關鍵的流程 [1, 4]。想像一下，我們從社群平台（資料中主要提及 Facebook, Twitter, Telegram [1, 4, 5]）抓取了大量的評論或貼文，這些原始資料充滿了各種噪音和非結構化資訊。因此，資料處理流程是模型能夠有效學習的基石。

預處理 (Pre-processing): [1, 2, 4] 這是資料清洗的階段，目的是移除或轉換那些對情感分析模型訓練沒有幫助的元素。
- 例如，社群媒體上常見的表情符號、特殊字符（如標點符號過多）會被過濾或標準化處理 [1, 4]。
- Hashtag (警字號 + 文字) 會被轉換成統一的標記 <hashtag> [1, 4]，例如 #bitcoin 就變成 <hashtag>。
- 提及用戶 (@ + 用戶名) 也會被轉換成統一的標記 <user> [1, 4]，例如 @elonmusk 就變成 <user>。
- 這樣做的原因在於，原始的表情符號或具體的用戶名、Hashtag 可能過於多樣且不具備泛化性，標準化處理可以減少模型的負擔並提高其泛化能力。
分詞 (Tokenization): [1, 2, 4] 預處理之後的文本仍然是一串連續的字元。分詞的作用是將這串連續文本分割成有意義的單元，通常是詞語或符號 (tokens)。例如，句子 “I ❤️ it” 經過分詞後，可能會變成 [“I”, “<3”, “it”] 或 [“I”, “heart”, “it”]，甚至轉換成數字序列 [4, 6]。這一步是將人類語言轉換為電腦可以理解的離散單元，為後續的數值化表示做準備。
詞嵌入 (Embedding): [1, 2, 4] 分詞後的結果是離散的符號（如單詞 ID）。詞嵌入的目的是將這些離散的單詞或符號轉換為連續向量空間中的低維稠密向量表示 [1, 2, 4, 6]。這一步非常關鍵，因為它能捕捉詞語之間的語義和語法關係，使意義相似的詞語在向量空間中距離較近 [1, 4, 6]。文獻中提到這是一個「離散空間轉變成連續空間」的過程 [6]，並用星座的比喻來解釋 [6, 7]，說明如何將「勇敢」、「領導力」等離散形容詞對應到連續的星座序列中 [6, 7]。對於模型來說，處理連續向量比處理離散符號更有效率，且能利用詞語之間的相似性。

模型架構：LSTM 加 CNN 的考量

資料中提及的情感分析模型採用了 LSTM (Long Short-Term Memory) 加 CNN (Convolutional Neural Network) 的組合架構 [1, 4-6]。這與市面上一些常見的 CNN 後接 LSTM 的做法不同 [4, 7]。

CNN 在文本處理中常用於提取局部特徵，例如短語或 N-gram [2, 4, 7]。它可以識別文本中的關鍵模式或詞語組合。
LSTM 是一種特殊的循環神經網絡 (RNN)，特別擅長處理序列資料並捕捉長距離的依賴關係 [2, 4]。在句子中，詞語的順序很重要，LSTM 可以幫助模型理解上下文。

將兩者結合，通常是為了利用 CNN 的局部特徵提取能力和 LSTM 的序列建模能力。資料中提到，選擇 LSTM 加 CNN 的順序可能是為了處理較短的文本，如社交媒體留言，通常在 60-100 字左右 [4, 8]。這點值得我們思考，不同文本長度或類型的任務，可能會需要調整模型的組合方式或順序。

模型訓練完成後，資料中報告的訓練集準確率約為 82%，人工驗證準確率約為 83% [4, 9]。這也帶出了模型驗證和數據標註的挑戰。

學術與實務的挑戰：數據、標註與可重現性

進行 NLP 領域的研究與開發，特別是在情感分析這樣的任務上，會遇到一些普遍的挑戰，這些在資料中被反覆強調，對於新手研究者而言是重要的提醒 [1, 10-12]。

缺乏標準化與公開的資料集 (Dataset): [1, 10-12] 這是資料中講者大力批評的問題 [10-12]。許多學術論文不公開其使用的資料集或驗證方法 [1, 10-12]。這導致其他研究者難以重現實驗結果，無法公平地比較不同模型或方法的效能 [1, 10-12]。有時即使提供了連結，資料也可能已經失效 [12]。這種「不可重現性 (Reproducibility)」是學術研究嚴謹性的重要障礙 [2, 13]。作為入門者，尋找高質量、公開且驗證方法清晰的資料集是學習和實踐的第一步，但現實中這並不容易。資料中提到團隊計劃將他們收集的資料集公開，並可能放在 Kaggle 等平台，這是一種積極的回饋社群的行為 [10, 14]。
資料標註 (Labeling) 的困難與耗時: [1, 10, 14, 15] 訓練監督式學習模型需要大量帶有標籤的資料，但在 NLP 領域，為文本標註情感（正面、負面、中立）需要大量的人工投入 [1, 10, 14, 15]。文獻中也提到不同人對同一句話的情感判斷可能存在差異，這會影響標註的一致性 [4, 9, 15]。為了解決這個問題，團隊開發了一個網站 se.twman.org [1, 10, 14, 16]，希望透過社群志願者的力量來協助資料標註，並提供獎勵機制鼓勵參與 [10, 14, 16]。這提示我們，數據的質量和數量是模型性能的關鍵，而獲取高質量的標註數據往往是實務中最耗時且困難的部分。
權重演算法 (Weighting Algorithm) 的設計: [1, 2, 4, 9, 17] 在將單一文本的情感分數匯總成一個項目或主題的總體分數時，會面臨一個問題：如何避免少數評論（即使其情感得分很高）主導整體評分 [1, 4, 9, 17]。特別是對於討論熱度低的項目，幾句正面評論就可能使其得分很高，這與討論熱度高的項目可能因少量負面評論而無法獲得滿分的情況形成對比，是不合理的 [4, 9, 17]。蠻牛哥設計的權重演算法旨在解決這個問題，其核心思想是根據社群的總聲量（留言或討論數量）來計算權重，聲量越大權重越高（越接近 1.0），這樣總分更能反映整體的討論狀況和熱度 [4, 17]。這提示我們，從學術模型輸出的原始結果到實際應用中的呈現，往往需要額外的工程和算法來處理邊界情況和提升用戶體驗。

情感分析的實際應用與產品落地

這些情感分析的技術成果並非僅限於實驗室研究，而是被實際應用並「落地」到產品中 [8, 10]。

Rating Token (ratingtoken.net): [1, 4, 5, 17-19] 這是一個專門用於收集 ICO 相關數據並展示情感分析結果的產品 [1, 4, 18, 19]。它展示了不同平台（Facebook, Twitter, Telegram）上的情感分數，通常顯示 14 天內的數據，並提供走勢圖（可選 7 天、14 天、30 天）[4, 17]。它也提供了 API 供第三方應用接入 [4, 11]。
Coin Master: [1, 4, 5, 18-20] 這是另一個產品，也應用了情感分析功能，可能用於評估加密貨幣項目的社群溫度或評論分析 [1, 4, 5, 18, 19]。資料中提到 Coin Master 包含情感分析的一個 P 版本，用於展示預期分析狀況 [18, 19]。

這些產品應用展示了情感分析技術如何從研究走向實際服務，為使用者提供有價值的資訊。同時，產品的實際部署也提供了寶貴的用戶回饋，有助於系統的持續優化和迭代 [1, 11]。

社群與未來展望：共享、協作與持續成長

這個讀書會社群的存在與發展本身就是一個重要關鍵點 [5, 10, 19, 21, 22, 26]。活動起源於 2016 年 11 月 11 日，從最初預計辦兩三次，持續至今已經舉辦了 24 次活動，歷時兩年 [5, 18, 19, 21, 26]。讀書會模式為現場直播且未經修改，強調真實分享 [21, 26]。

回饋社群與促進研究: [5, 10, 14] 講者多次強調公開資料集和模型的重要性 [5, 10, 14]。他們計劃將情感分析數據集和模型開源 [5, 10, 14]，這對於促進學術研究和領域發展是很大的貢獻。對於新手研究者來說，能夠獲取公開的資料集和參考模型是寶貴的學習資源。
志願者數據標註平台: [1, 5, 10, 14, 16, 18, 23] 前面提到的 se.twman.org 網站 [1, 10, 14, 16] 不僅是解決數據標註困難的方法，也是鼓勵社群協作的體現 [10, 14, 16, 23]。透過大眾參與標註，可以加速數據集的擴充和改進模型的性能。
持續學習與落地實踐: 讀書會的理念是做出能夠「落地」的實際產品應用 [8, 10]，這與許多純學術研究導向的項目不同 [8, 10]。他們也強調持續優化和迭代系統的重要性 [1, 11]。
未來發展方向: 展望未來，團隊希望將情感分析應用擴展到更多領域 [1, 5, 8, 10]，持續改進模型和算法 [5, 10]，開發更多基於 AI 的產品（如機器人） [5, 10]，並希望讀書會能夠持續舉辦下去，成為分享技術和經驗的平台 [5, 10, 25, 27]。

📚 精選資源導航

2018/10/12 Nat Lee

智能情感分析：核心概念與技術入門

資料處理流程：理解數據的轉換之旅

模型架構：LSTM 加 CNN 的考量

學術與實務的挑戰：數據、標註與可重現性

情感分析的實際應用與產品落地

更多基於 AI/DL 的探索與產品

社群與未來展望：共享、協作與持續成長

📚 精選資源導航

SOC: Social-network Opinion and Comment YouTube

2018/10/12 Nat Lee

智能情感分析：核心概念與技術入門

資料處理流程：理解數據的轉換之旅

模型架構：LSTM 加 CNN 的考量

學術與實務的挑戰：數據、標註與可重現性

情感分析的實際應用與產品落地

更多基於 AI/DL 的探索與產品

社群與未來展望：共享、協作與持續成長