Deep Learning 101, Taiwan’s pioneering and highest deep learning meetup, launched on 2016/11/11 @ 83F, Taipei 101
AI是一條孤獨且充滿惶恐及未知的旅程,花俏絢麗的收費課程或活動絕非通往成功的捷徑。
衷心感謝當時來自不同單位的AI同好參與者實名分享的寶貴經驗;如欲移除資訊還請告知。
由 TonTon Huang Ph.D. 發起,及其當時任職公司(台灣雪豹科技)無償贊助場地及茶水點心。
去 YouTube 訂閱 | Facebook | 回 GitHub Pages | 到 GitHub 點星 | 網站 | 到 Hugging Face Space 按愛心
大語言模型 | 語音處理 | 自然語言處理 | 電腦視覺 |
Large Language Model | Speech Processing | Natural Language Processing, NLP | Computer Vision |
AI 技術 體驗/分享
手把手帶你一起踩 AI 坑:https://www.twman.org/AI
- AI Robot 陪伴型機器人:2025 趨勢分析技術突破、市場潛力與未來展望。
- 避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案:探討多種 AI 代理人工具的應用經驗與挑戰,分享實用經驗與工具推薦。
- 白話文手把手帶你科普 GenAI:淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性。
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算:探討 LLM 的發展與應用,硬體資源在開發中的作用。
- Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成);深入探討影像生成與分割技術的應用,強調硬體資源的重要性。
- ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策:探討 ASR 和 TTS 技術應用中的問題,強調數據質量的重要性。
- 那些 NLP 踩的坑:分享 NLP 領域的實踐經驗,強調數據質量對模型效果的影響。
- 那些語音處理踩的坑:分享語音處理領域的實務經驗,強調資料品質對模型效果的影響。
- 手把手學深度學習安裝環境:詳細介紹在 Ubuntu 上安裝深度學習環境的步驟,分享實際操作經驗。
AI 技術 開源/試用
AI 陪伴機器人:2025 趨勢分析技術突破、市場潛力與未來展望
AI 陪伴機器人:2025 趨勢分析:技術突破、市場潛力與未來展望
作者:TonTon Huang Ph.D.
日期:2025年06月16日更新
🎵 不聽可惜的 NotebookLM Podcast @ Google 🎵
AI 陪伴機器人:2025 趨勢分析技術突破、市場潛力與未來展望
隨著人工智慧 (AI) 技術的快速發展,AI 陪伴型機器人逐漸成為熱門話題,並在 CES 2025 中展現出強勁的發展勢頭。本報告旨在分析 AI 陪伴型機器人的發展趨勢、應用場景、技術挑戰,並探討相關的語音辨識 (ASR)、語音合成 (TTS)、大型語言模型 (LLM) 和其他關鍵技術,以及目前已知競品的價格分析,為 AI 陪伴型機器人的開發和應用提供參考。
服務型機器人興起
根據國際機器人聯盟 (IFR) 的數據,服務型機器人 (普渡、獵戶星空、擎朗智能、凌群電腦、緯創資通) 市場正在快速增長,預計到 2027 年將迎來爆發性成長 [1]。其中,AI 陪伴型機器人作為服務型機器人的重要分支,因其能夠提供情感支持、陪伴和娛樂等功能,受到越來越多關注。推動這股趨勢發展的因素之一是利用雲端技術蒐集機器人資料,並監控各種自動化任務,具有靈活性、可擴充性和低進入門檻等優勢,逐漸受到企業青睞。有助於降低 AI 陪伴型機器人開發和部署成本,加速普及應用。
CES 2025 與 AI 陪伴型機器人
在 CES 2025 中,AI 陪伴型機器人成為焦點之一,多家廠商推出新型機器人,展現最新的技術發展。例如,萌友智能公司發布的 AI 寵物玩具 Ropet,可以模仿真實寵物的行為,例如搖尾巴、舔手等,為使用者帶來情感陪伴 [2]。此外,日本公司 Yukai Engineering 展示了一款樹懶寶寶機器人 Mirumi,其動作緩慢且表情呆萌,可以舒緩使用者的壓力和焦慮 [3]。TCL 在 CES 上發布了一款名為 Ai Me 的概念陪伴機器人。據介紹,作為「世界上第一款模塊化人工智能伴侶機器人」,可以通過 AI 技術識別物體,還有類似「翅膀」的機械部分進行互動 [4]。AI 陪伴型機器人需要具備持續學習的能力,才能不斷學習和改進,並隨著時間推移變得更智慧、更有能力。這需要機器人能夠從與使用者互動中學習,並根據新的資訊和經驗調整自身的行為和反應,才能滿足使用者需求。
技術挑戰
儘管 AI 陪伴型機器人發展迅速,但仍面臨一些技術挑戰:
- 自然的情感互動:如何讓機器人更自然地理解和回應人類的情感,是 AI 陪伴型機器人發展的關鍵挑戰之一。這需要機器人能夠識別人類的情緒,並做出適當的反應,例如語氣、表情和肢體語言等。
- 安全性:AI 陪伴型機器人需要確保其安全性,避免對使用者造成任何傷害。這包括物理安全,例如避免機器人碰撞或跌倒,以及資訊安全,例如保護使用者的隱私資料。
- 成本:目前 AI 陪伴型機器人的成本仍然較高,限制了其普及應用。降低機器人的成本,是推動其發展的重要因素之一。
- 表情控制:為了實現更逼真的互動體驗,AI 陪伴型機器人需要能夠精準地控制面部表情。這需要採用高精度的執行器,並結合語音、視覺和情感交互等技術,才能讓機器人的表情更自然、更生動。
AI 陪伴型機器人應用場景
AI 陪伴型機器人具有廣泛的應用場景,包括:
- 居家陪伴:為老年人、獨居者和兒童提供陪伴和情感支持,例如提醒吃藥、聊天、玩遊戲等。AI 陪伴型機器人可以幫助老年人保持活躍的生活方式,減輕孤獨感,並提高生活品質。
- 醫療照護:協助老年人和殘疾人士進行復健、提供日常護理,例如提醒服藥、監測健康狀況等。AI 陪伴型機器人可以減輕醫療人員的工作負擔,並提高照護效率。
- 教育娛樂:為兒童提供教育和娛樂內容,例如講故事、教唱歌、玩遊戲等。AI 陪伴型機器人可以寓教於樂,激發兒童的學習興趣,並促進其智力發展。
- 心理治療:協助心理疾病患者進行治療,例如提供情感支持、進行心理疏導等。AI 陪伴型機器人可以提供安全、私密的治療環境,並幫助患者克服心理障礙。
- 虛擬伴侶:例如 Gatebox 推出的二次元虛擬伴侶,為單身用戶提供情感寄托。
- 娛樂產業:AI 陪伴型機器人可以應用於娛樂產業,例如陪伴使用者觀看電影、玩遊戲等,提供更豐富的娛樂體驗。
- 醫療保健:AI 陪伴型機器人可以應用於醫療保健領域,例如提供健康諮詢、提醒服藥、監測健康狀況等,幫助使用者更好地管理自身健康。
競品分析
市面上已有些 AI 陪伴型機器人產品,以下就市場現有或 CES 2025 發表的,分析其優缺點:
-
Ropet (萌友智能):這款 AI 寵物機器人在 CES 2025 中亮相,主打模仿真實寵物行為,例如搖尾巴、舔手等,為使用者帶來情感陪伴;在眾籌平台 Kickstarter 上,籌款額超百萬,已售出超過 900 台。其優點是外型可愛,互動性強,可以滿足使用者對寵物陪伴的需求。缺點是價格和詳細功能尚未公開,可能需要進一步觀察其市場表現 [2, 5]。
-
Mirumi (Yukai Engineering):這款樹懶寶寶機器人在 CES 2025 中亮相,其動作緩慢且表情呆萌,可以舒緩使用者的壓力和焦慮;預計在今年年中啟動募資活動,消費者只需花費約 70 至 100 美元。其優點是外型獨特,可以提供療癒的陪伴體驗。缺點是價格和詳細功能尚未公開,需要進一步觀察其市場表現 [3, 5]。
-
Ai Me (TCL):這款由 TCL 推出的 AI 陪伴機器人在 CES 2025 中亮相,但詳細功能和價格尚未公開。其優點是背靠 TCL 品牌,可能具有較強的技術實力和市場推廣能力。缺點是資訊不足,需要進一步觀察其產品定位和市場表現 [4, 5]。
-
BubblePal (躍然創新):這款針對毛絨玩具設計的外置 AI 掛件可以將普通的毛絨玩具變成 AI 陪伴玩具,為兒童提供互動式的陪伴體驗。其優點是價格(售價人民幣 399 元)相對較低,可以賦予舊玩具新的生命力。缺點是功能相對簡單,可能需要依賴特定的毛絨玩具才能發揮作用 [5]。
-
LOVOT (Groove X):這款來自日本的陪伴機器人主打情感互動,擁有可愛的外型和豐富的感測器,可以對使用者的觸摸和聲音做出反應。優點是互動性強,情感表達豐富,提供溫暖的陪伴體驗。缺點是價格昂貴(約 3,000 美元),續航時間較短,功能相對簡單 [6]。
-
Moflin (Vanguard Industries):這款 AI 毛絨寵物玩具由卡西歐和 Vanguard Industries 合作開發,外型像一隻毛茸茸的小動物,可以透過 AI 技術學習和適應使用者的行為。其優點是觸感柔軟,互動性強,可以提供溫暖的陪伴體驗。缺點是價格較高(約 400 美元),功能相對簡單 [7]。
-
湯姆貓 AI 童伴 (金科文化):這款 AI 陪伴機器人以知名的「會說話的湯姆貓」IP 為基礎,主打語音互動和教育娛樂功能,價格分別為人民幣 1499 元、1699 元、1999 元。其優點是價格親民,IP 知名度高,可以吸引兒童的興趣。缺點是功能相對簡單,互動性可能不足 [8]。
-
FoloToy (深圳市萌想科技有限公司):Fofo 是一款 AI 陪伴機器人,旨在提供情感支持和陪伴。它可以與使用者進行自然語言互動,並根據使用者的情緒和喜好調整其行為。FoloToy 介紹稱,Fofo 定價在千元內,電路板套件定價百元左右,兩者在全球銷售量合計已超千件。Fofo 還可以播放音樂、講故事和提供提醒等功能,幫助使用者更好地管理日常生活 [9]。
-
顯眼包 (字節跳動):字節跳動方面向《科創板日報》表示,顯眼包是給中秋節給客戶送出去的玩具,不是一個產品,只是覺得中秋老送月餅沒有新意,所以做了一個玩具結合豆包做一個創新,並不是產品上的舉措。終端是大模型應用的重要場景,豆包大模型和汽車、手機也包括各類消費品都有很多合作,但字節跳動自己不會做。
-
Moflin (Vanguard Industries):於 2020 年在 Kickstarter 上推出,最初的生產因疫情期間的供應鏈問題而受阻,現在由卡西歐製造和分銷,預計將於 11 月 7 日開始發售,價格為 59,400 日元(約 12,735 台幣)。此外,CASIO 還提供維修、清潔、更換毛皮的「Club Moflin」訂閱服務,每年 6,600 日元,折台幣 1,415 元。
-
喜羊羊超能鈴鐺娃娃 (奧飛娛樂):擁有「喜羊羊」IP 的奧飛娛樂發布了「喜羊羊」首款 AI 智慧產品-「喜羊羊超能鈴鐺娃娃」。這也是其旗下《喜羊羊與灰太狼》最新大電影《守護》的限定限量珍藏款。目前產品已在官方淘寶店開啟預售,售價人民幣 799 元。截至目前,店鋪顯示該產品在預售階段已售 100 餘件。
技術分析
✨LLM API Platform Price Comparison
大型語言模型API平台價格比較 ~2025/04
平台 | 模型 | 輸入費用 (USD/1M Tokens) | 輸出費用 (USD/1M Tokens) | 上下文窗口 | 免費層級 | 最大速率限制 (RPM / TPM) | 多模態能力 | 特點 / 說明 | 定價連結 |
---|---|---|---|---|---|---|---|---|---|
OpenAI | OpenAI o1 | $15.00 | $60.00 | 200k | ❌ | 不公開 | ✅(文字+圖像) | Frontier 模型,支援 Vision/Tools/結構化輸出 | OpenAI Pricing |
OpenAI | OpenAI o3-mini | $1.10 | $4.40 | 200k | ❌ | 不公開 | ❌ | 成本效益模型,適合編碼與數學 | 同上 |
Gemini 2.5 Pro (Preview) | $1.25(≤200k),$2.50(>200k) | $10.00(≤200k),$15.00(>200k) | >200k | ✅(指定模型) | 150 RPM / 2M TPM(Tier 1) | ✅(文字+圖像) | 高階推理力,企業級用途 | Gemini API / Gemini 網站 | |
Gemini 2.0 Flash | $0.10(圖文影),$0.70(音訊) | $0.40 | 1M | ✅(15 RPM) | 2,000 RPM / 4M TPM | ✅(文字+圖+影+音) | 多模態支援,企業級速率與穩定性 | 同上 | |
Gemini 2.0 Flash Lite | $0.075(全模態) | $0.30 | 1M | ✅(30 RPM) | 4,000 RPM / 4M TPM | ✅(全模態) | 超高速率、經濟型多模態模型 | 同上 | |
DeepSeek | deepseek-chat (V3) | $0.27 | $1.10 | 64K | ❌ | 不公開 | ❌ | 標準價,推理速度佳 | DeepSeek Pricing / DeepSeek Chat |
DeepSeek | deepseek-reasoner (R1) | $0.55 | $2.19 | 64K | ❌ | 不公開 | ❌ | 高階邏輯推理與數據分析能力 | 同上 |
Qwen | Qwen-Max | $1.60 | $6.40 | ~32K | ❌ | 不公開 | ❌ | 強推理型,偏向高品質產出 | Qwen Chat |
Qwen | Qwen-Plus | $0.40 | $1.20 | ~131K | ❌ | 不公開 | ❌ | 均衡型模型,支援較長上下文 | 同上 |
Grok | grok-3 | $3.00 | $15.00 | 131k | ✅ | 不公開 | ❌ | 支援思考模式、有限搜尋功能 | Grok 官網 |
百度 | 文心一言(ERNIE Bot) | 不公開(免費使用) | 不公開(免費使用) | 不公開 | ✅ | 不公開 | ✅(圖像/語音) | 支援中文語境與多模態任務 | 文心一言 |
🎙️ 語音識別 / 合成平台價格比較
~2025/04
名稱 | 功能 | 網址 | 說明 |
---|---|---|---|
Whisper (開源) | 語音識別、翻譯 | 每分鐘150字 × 10分鐘 = 1500字 | |
Fish Audio | 語音識別、語音合成 | TTS:英文 $0.0225,中文 $0.0675;ASR:30分鐘 = $0.18 | |
Deepgram | 語音識別 | TTS:英文 $0.02025,中文 $0.06075;ASR:30分鐘 = $0.147 | |
Microsoft Azure | 語音合成 | TTS:英文 $0.036,中文 $0.108;ASR:即時轉錄 $1/小時,超額 $0.8/小時 | |
Amazon Polly | 語音合成 | TTS:英文 $0.024,中文 $0.072 | |
Google WaveNet | 語音合成 | TTS:英文 $0.024,中文 $0.072 | |
Google Vertex AI | 大型語言模型 | Gemini/Claude 定價頁 | |
Google Cloud VM | 虛擬機器 | VM 執行個體定價頁面 |
大型語言模型 (LLM) 如 Gemini 2.0,賦予 AI 陪伴型機器人更強大的語言理解和生成能力,使其能夠進行更自然、更深入的對話。Gemini 2.0 的優點包括:
- 強大的理解能力:能夠理解複雜的語句和上下文,更準確地理解用戶的意圖。
- 流暢的對話生成:能夠生成自然流暢的對話,更像人類的交流方式。
- 多模態理解:能夠處理文本、圖像、音訊等多種模態資訊,提供更豐富的互動體驗。
除了 ASR、TTS 和 LLM 之外,AI 陪伴型機器人還需要其他技術的支持,例如:
- LiveKit:一個開源的 WebRTC 平台,可用於構建實時音視頻通訊應用,例如視訊通話、直播等,可以讓 AI 陪伴型機器人進行視訊互動和遠端監控。
- Ten-Agent:一個開源的對話代理框架,可用於構建聊天機器人、語音助手等,可以讓開發者更方便地構建和管理 AI 陪伴型機器人的對話系統。
- Pipecat:一個開源的數據管道工具,可用於處理和分析大量的數據,例如語音數據、文本數據等,可以協助 AI 陪伴型機器人進行數據收集和分析,並優化其學習和決策能力。
- Dify:一個開源的 AI 應用開發平台,可用於快速構建和部署 AI 應用,例如聊天機器人、圖像識別等,可以加速 AI 陪伴型機器人的開發和部署流程。
硬體建議(智慧音箱應用)
- 樹莓派:作為核心處理器,運行語音辨識、語音合成和 LLM 模型。
- 麥克風陣列:提高語音辨識準確度,抑制噪音與回音。
- 高品質揚聲器:提供清晰、自然的語音輸出體驗。
- 觸控螢幕:可用於播放影片、互動操作等。
- 網路攝影機:支援視訊通話、人臉辨識等互動功能。
- 客製化外觀:可透過 3D 列印或特殊材質打造專屬形象。
結論
AI 陪伴型機器人市場發展迅速,預計到 2027 年將迎來爆發性成長。隨著 AI 技術的進一步發展,AI 陪伴型機器人將更加智慧化、個性化和人性化,為人類提供更優質的陪伴和服務。
AI 陪伴型機器人具有廣泛的應用前景,可以應用於居家陪伴、醫療照護、教育娛樂、心理治療等多個領域,滿足不同人群的需求。
AI 陪伴型機器人的發展也反映了社會發展的趨勢。全球人口高齡化和少子化現象日益嚴重,AI 陪伴型機器人可以協助解決老年人照護和兒童陪伴等社會問題 [1]。同時,AI 陪伴型機器人也有望在娛樂產業和醫療保健領域發揮重要作用。
然而,AI 陪伴型機器人的發展也面臨一些挑戰,例如如何讓機器人更自然地理解和回應人類的情感,如何提高機器人的安全性,以及如何降低機器人的成本等。此外,機器人的泛化能力也將成為關鍵競爭力,這需要機器人能夠適應不同的環境和任務。
建議:
- 加強情感計算和自然語言處理等技術的研發,提高機器人與人類的互動體驗。
- 關注降低機器人的開發和部署成本。
- 開拓更多應用場景,例如醫療照護、教育娛樂等。
- 加強數據安全和隱私保護,確保用戶的資訊安全。
- 鼓勵開發針對不同人群(如失智長者、青少年、兒童)做專門功能和外型客製化。
未來,AI 陪伴型機器人將在人類生活中扮演越來越重要的角色。專家預測,到了 2030 年,AI 將更深入地融入人類社會,成為人類的夥伴和助手。AI 陪伴型機器人的發展,將為人類社會帶來 profound 的影響。