How robots learn: A brief, contemporary history
2025年人形機器人狂吸61億美元,AI基礎模型讓硬體告別預寫腳本。
- 2025 年人形機器人投資額達 61 億美元,是前一年的四倍。
- 早期機器人依賴預寫腳本,如今改用大數據與模擬環境自主試錯。
- 科技巨頭成功將大型語言模型結合機器視覺,並投入物流倉儲。
2025 年投入人形機器人的資金高達 61 億美元,是 2024 年的四倍。這波爆發並非硬體奇蹟,而是機器學習方式的根本革命。工程師不再逐條編寫規則,改用海量數據與 AI 模型,讓機器人自行從試錯與預測中摸索生存之道。
2025 年 61 億美元熱潮:機器人拋棄預寫規則
打造一台能像科幻小說般在真實世界穿梭、適應各種環境並與人類安全互動的機器,一直是多數研究人員的終極野心。這種機器人可以協助行動不便者、緩解孤獨,或承擔對人類過於危險的工作。對講求經濟效益的企業來說,它更代表著無窮無盡的免薪勞動力。然而過去屢戰屢敗的歷史,曾讓矽谷對投資實用型機器人猶豫不決,多數人原本期盼打造出 C-3PO,最後卻只能端出 Roomba 掃地機器人。
情況在近期發生了徹底翻轉。儘管完美的機器人尚未完全問世,資金卻已大舉湧入,推動這場變革的核心在於機器學習模式的根本轉換。想像一下,如果你想在家裡安裝一雙專門折衣服的機器手臂,早期工程師的作法是寫滿規則:先檢查布料能承受多少拉扯、辨識襯衫領口、將夾爪移到左袖並向內摺疊精確的距離。一旦衣服旋轉或袖子扭曲,規則數量就會爆炸性增長,這正是傳統機器人學的困境——試圖預先設想所有可能性並寫成程式碼。
大約在 2015 年,尖端實驗室開始改變策略,在數位環境中建立機器手臂與衣服的模擬系統。程式每次成功折疊就能獲得獎勵信號,失敗則扣分,透過數百萬次的試錯來提升技術,原理就如同 AI 學會玩遊戲一樣。2022 年 ChatGPT 的出現進一步催化了當前的繁榮,類似的 LLM(大型語言模型) 架構被應用到機器人領域。這類模型開始吸收影像、感測器數據以及機器人關節的即時位置,預測機器下一步該做什麼,甚至能每秒發出數十次馬達指令,讓矽谷再次燃起打造通用機器的龐大夢想。
2014 年 Jibo 獲 370 萬美元卻敗於寫死腳本
遠在 LLM 時代來臨前,麻省理工學院(MIT)機器人研究員 Cynthia Breazeal 就曾試圖解決人機互動的問題。她在 2014 年向大眾展示了一款名為 Jibo 的機器人,這台裝置沒有手臂、雙腿或臉孔,外觀上其實更像一盞檯燈。團隊的目標是打造一款適合家庭的社交機器人,這個概念在群眾募資平台上大受歡迎,成功吸引約 4,800 筆預購,每台早鳥價高達 749 美元,總計籌得 370 萬美元。
初期的 Jibo 能夠自我介紹並跳舞逗樂孩子,但功能也僅止於此。開發團隊原本的願景是讓它成為一個具備實體型態的助理,包辦從安排行程、處理電子郵件到說故事等各種任務。它確實贏得了一批忠實用戶,但母公司最終仍在 2019 年黯然關閉。
事後回顧,Jibo 當時最欠缺的正是更強大的語言處理能力。它當時的競爭對手是蘋果的 Siri 與亞馬遜的 Alexa,而那個年代的所有語音技術都極度依賴繁重的預編寫腳本。當你對著裝置說話時,軟體會將語音轉為文字,分析你的需求,接著從預先核准的文字庫中抽取出回應。這些腳本或許偶有巧思,但本質上非常重複且枯燥,對於一款主打家庭社交的機器人而言是個致命傷。如今,主流 AI 供應商的語音模式早已變得生動有趣,雖然帶來了新機遇,卻也伴隨著 AI 幻覺與不當發言的新風險。
OpenAI 於 2018 年用百萬次模擬訓練機器手
時間來到 2018 年,幾乎每一間頂尖的機器人實驗室都在設法拋棄舊有的腳本規則,轉而透過試錯法來訓練機器人。OpenAI 當時嘗試在虛擬環境中訓練其機器手 Dactyl,他們建立了手部以及手掌大小方塊的數位模型。這些方塊的表面印有字母與數字,模型會下達諸如「旋轉方塊,讓印有字母 O 的紅色面朝上」的任務指令。
這項計畫遇到了一個核心難題。機器手在模擬世界裡或許能表現得極為出色,但當你將這套程式搬到現實世界控制實體機器手時,兩者之間的微小差異就會導致任務失敗。舉例來說,真實世界中的顏色可能略有偏差,或者機器人指尖上可變形的橡膠實際上比模擬環境中更具彈性。
工程師提出的解決方案稱為領域隨機化(引入隨機變數的模擬)。研究人員會創建數百萬個彼此存在微小、隨機差異的模擬世界,在某些世界裡摩擦力較小,有些燈光較刺眼,或者顏色較暗。讓機器人暴露在足夠多的變異中,意味著它們在現實世界操作方塊時能具備更高的適應力。這種方法在 Dactyl 上奏效了,一年後它使用相同的核心技術挑戰更高難度的任務:解開魔術方塊。儘管它只有 60% 的成功率,在初始狀態特別混亂時成功率更降至 20%,這仍是模擬訓練的一大里程碑。不過,OpenAI 隨後在 2021 年關閉了機器人部門,近期才重新啟動並轉而聚焦於人形機器人。
Google 花 17 個月錄製 700 項任務推動 RT-2
2022 年前後,Google 的機器人團隊展開了一項看似異常繁瑣的工程。他們花了整整 17 個月,把機器人控制器交給人類,並錄下人類操作機器人執行各種動作的畫面,從拿起洋芋片包裝袋到轉開水瓶蓋無所不包。團隊最終將這些數據整理成涵蓋 700 種不同任務的龐大目錄。
這項苦工的目的,是為了建立並測試首批具備大規模數據基礎的機器人基礎模型。如同大型語言模型的運作方式,核心概念是輸入大量文字,將其標記化成演算法能理解的格式,接著生成輸出。Google 的第一代模型 RT-1 會接收機器人當下視覺畫面與各關節位置的輸入資訊,隨後接收指令並將其轉化為移動機器的馬達指令。在測試中,RT-1 面對曾經學習過的任務時成功率高達 97%,即使面對未見過的新指令,也有 76% 的成功率。
隔年推出的第二代模型 RT-2 走得更遠。它不再侷限於機器人專屬的訓練資料,而是擴大範圍,吸收了網際網路上更廣泛的一般圖像,如同當時正熱門的視覺語言模型。這讓機器人具備了解讀場景中特定物體位置的能力。帶領這兩代模型開發的 Google DeepMind 機器人學家 Kanishka Rao 表示,這解鎖了諸如「把可樂罐放在泰勒絲照片旁邊」這類複雜指令。到了 2025 年,Google 進一步發表了 Gemini Robotics 模型,大幅改善理解自然語言的能力。
Covariant 推 RFM-1 吸引亞馬遜千座倉儲目光
在 OpenAI 首支機器人團隊解散前的 2017 年,一群工程師帶著一個名為 Covariant 的專案選擇獨立創業。他們的目標不是打造科幻電影裡的人形機器人,而是最具實用價值的設備:能在倉庫裡撿拾與搬運物品的機器手臂。在建立了一個類似 Google 概念的基礎模型系統後,Covariant 將這套平台部署到如 Crate & Barrel 等企業營運的物流中心,並將這些實際運作的場域視為資料收集的管線。
到了 2024 年,Covariant 正式發表了名為 RFM-1 的機器人模型,這套系統讓你能夠像對待人類同事般與之互動。例如,如果你向機器手臂展示好幾排網球,接著指示它將每一排移到不同的區域,機器人不僅能執行,甚至還會給予回饋——它可能會預測自己無法抓牢該物品,並主動詢問人類建議該使用哪一種特定的吸盤。
類似的互動過去只存在於實驗室中,但 Covariant 成功將其推向大規模商業應用。該公司現在於每個客戶的據點都裝設了攝影機與資料收集設備,不斷將更多數據回傳給模型進行訓練。儘管並非完美無缺,共同創辦人 Peter Chen 坦言,模型在缺乏良好訓練數據的地方可能表現不佳。不過,這種實用導向的技術很快獲得電商巨頭的青睞,亞馬遜隨後延攬了團隊創辦人,目前正在取得 Covariant 模型的授權,有望應用於亞馬遜光在美國就多達約 1,300 座的倉儲設施中。
Agility 開發 Digit 機器人進駐豐田與物流巨頭
目前湧入機器人新創公司的新一波投資資金,主要瞄準的不再是長得像檯燈或單純手臂的設備,而是具有人類輪廓的機器人。設計人形機器人的出發點,在於它們應該能無縫融入人類目前工作與活動的空間。企業無需為了容納巨大的機器手臂而重新改造整條裝配線。
然知易行難,在極少數人形機器人實際出現在真實倉庫的案例中,它們通常被限制在測試區與試點專案內。業界亟需一款能真正落地的產品。儘管如此,Agility Robotics 開發的人形機器人 Digit 似乎已經開始承接真正的工作。Digit 的設計完全以功能性為導向,關節外露且頭部設計並不擬人,拋棄了多餘的科幻美學。包含亞馬遜、豐田汽車以及物流巨頭 GXO 皆已導入這款機器人。它成為首批讓企業看見實質成本節省效益,而不僅是當成新奇玩具的人形機器人之一。它們每天的任務就是在廠房內撿拾、移動並堆疊物流搬運箱。
目前的 Digit 距離矽谷所押注的那種全能類人助手還有一段路要走。例如它目前最多只能舉起 35 磅的重物,且每當開發團隊試圖讓它變得更強壯時,電池重量就會增加,導致需要更頻繁地充電。此外,標準化組織指出,由於人形機器人具備移動能力且會長時間近距離接觸人類,因此需要比多數工業機器人更嚴格的安全規範。Digit 的進展證明了這場機器人訓練革命並未侷限於單一方法,它結合了虛擬模擬技術以及 Google Gemini 模型的環境適應力,展示了業界累積十多年的實驗成果,正一步步走向規模化實踐。
從寫死規則到海量數據驅動,機器人學正迎來軟體層面的文藝復興,硬體商用化終將隨之起飛。