Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷,是為了普及與分享深度學習及AI領域的尖端知識,深信AI的價值在於解決真實世界的商業問題。
📝 那些自然語言處理 (NLP) 踩的坑:中文場景實戰經驗
相較於英文,中文的自然語言處理 (NLP) 往往會面臨更多如「分詞困難」、「語料庫稀缺(尤其是繁體中文)」等挑戰。本頁面匯集了我們在開發中文 NLP 應用時的實務經驗與避坑策略。
作者:TonTon Huang Ph.D.
原文出處:那些自然語言處理 (Natural Language Processing, NLP) 踩的坑 (發布於 2021/04/17)
🚧 核心挑戰與對策
1. 數據獲取與標註問題
- 痛點:開源的高品質繁體中文數據集極度匱乏。多數數據集為簡體中文,且直接轉換往往會出現語義偏差。
- 對策:除了開發自動化標註工具來降低人力成本外,善用開源工具進行簡繁轉換與人工複核是不可避免的基礎工程。
2. 機器閱讀理解 (MRC)
- 痛點:缺乏如英文 SQuAD 般高質量的中文閱讀理解數據集。直接依賴機器翻譯英文數據集,常因口語和語法結構差異導致模型理解錯誤。
- 對策:利用基於 Transformer 的預訓練模型(如 BERT)進行微調,並盡可能自行建立或改造更符合中文語境的在地化數據集。
3. 文本糾錯 (Text Correction)
- 痛點:語音辨識 (ASR) 轉錄出來的文本常伴隨同音錯字或語法錯誤,嚴重影響後續的意圖判斷(尤其在客服場景)。
- 對策:引入如 PyCorrector 等開源工具進行拼寫修正,或針對特定應用場景使用 Seq2Seq 模型進行微調訓練。
4. 文本分類與情感分析
- 痛點:語料標註質量不一,且常面臨「類別不平衡 (Class Imbalance)」的問題,導致模型對少數類別的預測能力極差。
- 對策:在訓練時引入加權損失函數 (Weighted Loss Function) 進行修正,並搭配預訓練模型微調以提升基準表現。
5. 命名實體識別 (NER)
- 痛點:中文多義詞、歧義詞的邊界難以切分,且訓練資料常受限於特定領域。
- 對策:結合 CRF(條件隨機場)與 BERT 架構,並透過多輪次的微調來提升實體抽取的精準度。
💡 結語:在中文 NLP 的世界裡,「數據決定了上限,模型只是逼近這個上限」。無論是進行 MRC、NER 還是文本相似度匹配,掌握資料清洗與在地化標註的訣竅,永遠是專案成功的最關鍵因素。