Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101

AI是一條孤獨且充滿惶恐及未知的旅程，花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗；如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起，及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
Deep Learning 101 創立初衷，是為了普及與分享深度學習及AI領域的尖端知識，深信AI的價值在於解決真實世界的商業問題。

大語言模型	語音處理	自然語言處理	電腦視覺
Large Language Model	Speech Processing	Natural Language Processing, NLP	Computer Vision

在快速變動的全球局勢與本地產業環境下，您的營運是否正遭遇瓶頸？這些不僅是挑戰，更是導入AI、實現轉型升級的最佳契機。AI導入並非單純的技術採購，而是一場由上而下的企業變革。

【第一步】企業現況與需求訪談：了解商業模式、營運痛點與期望目標，定義出最具商業價值的AI應用場景。
【第二步】AI導入策略與藍圖規劃：量身打造清晰、務實的AI導入路線圖，包含技術架構、數據策略、預算規劃與預期效益。
【第三步】概念驗證 (PoC) 與模型開發：以最小成本、最快速度建立一個可行的AI模型來驗證構想，確保方向正確，並依據反饋快速迭代。
【第四步】系統整合與全面導入：將成熟的AI模型無縫對接到您現有的系統，實現真正的自動化與智慧化。
【第五步】團隊賦能與技術培訓：不只交付工具，更交付知識。提供教育訓練，確保AI能真正落地生根，成為企業文化的一部分。

用 AI 懂 AI

AI 技術體驗/分享

手把手帶你一起踩 AI 坑：https://www.twman.org/AI

AI 技術開源/試用

那些自然語言處理 (Natural Language Processing, NLP) 踩的坑

作者：TonTon Huang Ph.D.
日期：2021年4月17日
原文網址：https://blog.twman.org/2021/04/NLP.html

主要內容摘要

1. NLP 專案中的常見挑戰

數據問題：
- 中文 NLP 領域普遍缺乏高品質的繁體中文數據集。許多開源數據集是簡體中文，需手動轉換或標註。
- 自行標註數據費時且繁瑣，因此自動化標註工具的開發成為關鍵。
模型選擇與訓練：
- 使用的模型架構（如 BERT、GPT）往往需要大量的資源，且模型選擇會直接影響任務的結果。
- 在訓練過程中，常會遇到模型的過擬合或欠擬合問題，需要調整超參數。
工具與資源：
- Hugging Face 提供的 Transformer 库和其他工具對 NLP 任務十分有幫助，但仍需注意中文語言模型的選擇。
- PyCorrector 等工具可用於文本糾錯，這對 ASR 和其他錯誤類型的文本處理至關重要。

2. 機器閱讀理解（MRC）

挑戰：
- 缺乏高品質的中文閱讀理解數據集，現有的英文數據集（如 SQuAD）常無法直接應用於中文。
- 機器翻譯並非總是有效，特別是對於口語和語法差異較大的文本。
解決策略：
- 自行建立或改造中文閱讀理解數據集，這樣能更好地符合中文語言特性。
- 採用自動化的數據生成和標註工具來提升訓練效率。
- 使用基於 Transformer 的模型，如 BERT，對中文文本進行微調，提升理解能力。

3. 文本糾錯（Text Correction）

挑戰：
- ASR 系統產生的錯誤通常是同音字錯誤、拼寫錯誤或語法錯誤。這些錯誤對文本質量影響極大。
- 應用場景往往不同，特別是客服場景中，錯誤頻繁且難以處理。
解決策略：
- 使用 PyCorrector 等開源工具來修正拼寫錯誤。
- 基於 Seq2Seq 和 Transformer 模型進行文本糾錯，並針對具體應用場景進行微調。

4. 文本分類與情感分析

挑戰：
- 類別不平衡是常見問題，尤其是當某些類別出現頻率極低時，模型會難以學到有效的分類規律。
- 語料標註的質量不均也會影響分類結果。
解決策略：
- 使用加權損失函數來處理類別不平衡問題。
- 使用預訓練模型進行微調，這樣能有效提升模型在中文文本分類上的表現。

5. 命名實體識別（NER）

挑戰：
- 中文命名實體識別中，處理多義詞和歧義詞是挑戰之一。
- 訓練資料往往是英文數據集，無法完全適應中文。
解決策略：
- 使用 CRF（條件隨機場）和 BERT 等模型進行實體識別。
- 自行標註數據集，並利用多輪次的微調來提升實體識別的準確性。

6. 文本相似度與匹配

挑戰：
- 在中文文本相似度分析中，詞彙間的語法結構差異會導致模型無法正確理解句子意思。
- 對於同義詞和多義詞的處理往往存在困難。
解決策略：
- 使用基於 Transformer 的模型（如 BERT、RoBERTa）來進行語義匹配，並結合語言模型預訓練來提升相似度評估準確性。

7. 文本摘要

挑戰：
- 中文文本摘要需要保證簡潔且不失信息，但現有的生成式摘要方法在中文中表現較差。
- 句子結構的不同會影響生成摘要的語法準確性。
解決策略：
- 使用 BERT 等預訓練模型進行摘要生成，並使用指標（如 ROUGE）來評估摘要效果。

結語

在中文 NLP 領域，數據的取得與處理是成功的關鍵，特別是在機器閱讀理解和文本分類等任務中。透過結合多種工具與策略，並根據實際應用需求進行調整與優化，能夠有效提升系統的效能與準確度。本文提供的經驗分享對於從事 NLP 開發與應用的從業者具有重要參考價值。

📖 如需進一步了解，請參閱原文：
https://blog.twman.org/2021/04/NLP.html