MIT Tech Review Full Text Fri, 17 Ap

How robots learn: A brief, contemporary history

James O'Donnell

AI 導讀 technology AI 重要性 4/5

2025年人形機器人狂吸61億美元，AI基礎模型讓硬體告別預寫腳本。

2025 年人形機器人投資額達 61 億美元，是前一年的四倍。
早期機器人依賴預寫腳本，如今改用大數據與模擬環境自主試錯。
科技巨頭成功將大型語言模型結合機器視覺，並投入物流倉儲。

2025 年投入人形機器人的資金高達 61 億美元，是 2024 年的四倍。這波爆發並非硬體奇蹟，而是機器學習方式的根本革命。工程師不再逐條編寫規則，改用海量數據與 AI 模型，讓機器人自行從試錯與預測中摸索生存之道。

2025 年 61 億美元熱潮：機器人拋棄預寫規則

打造一台能像科幻小說般在真實世界穿梭、適應各種環境並與人類安全互動的機器，一直是多數研究人員的終極野心。這種機器人可以協助行動不便者、緩解孤獨，或承擔對人類過於危險的工作。對講求經濟效益的企業來說，它更代表著無窮無盡的免薪勞動力。然而過去屢戰屢敗的歷史，曾讓矽谷對投資實用型機器人猶豫不決，多數人原本期盼打造出 C-3PO，最後卻只能端出 Roomba 掃地機器人。

情況在近期發生了徹底翻轉。儘管完美的機器人尚未完全問世，資金卻已大舉湧入，推動這場變革的核心在於機器學習模式的根本轉換。想像一下，如果你想在家裡安裝一雙專門折衣服的機器手臂，早期工程師的作法是寫滿規則：先檢查布料能承受多少拉扯、辨識襯衫領口、將夾爪移到左袖並向內摺疊精確的距離。一旦衣服旋轉或袖子扭曲，規則數量就會爆炸性增長，這正是傳統機器人學的困境——試圖預先設想所有可能性並寫成程式碼。

大約在 2015 年，尖端實驗室開始改變策略，在數位環境中建立機器手臂與衣服的模擬系統。程式每次成功折疊就能獲得獎勵信號，失敗則扣分，透過數百萬次的試錯來提升技術，原理就如同 AI 學會玩遊戲一樣。2022 年 ChatGPT 的出現進一步催化了當前的繁榮，類似的 LLM（大型語言模型） 架構被應用到機器人領域。這類模型開始吸收影像、感測器數據以及機器人關節的即時位置，預測機器下一步該做什麼，甚至能每秒發出數十次馬達指令，讓矽谷再次燃起打造通用機器的龐大夢想。

2014 年 Jibo 獲 370 萬美元卻敗於寫死腳本

遠在 LLM 時代來臨前，麻省理工學院（MIT）機器人研究員 Cynthia Breazeal 就曾試圖解決人機互動的問題。她在 2014 年向大眾展示了一款名為 Jibo 的機器人，這台裝置沒有手臂、雙腿或臉孔，外觀上其實更像一盞檯燈。團隊的目標是打造一款適合家庭的社交機器人，這個概念在群眾募資平台上大受歡迎，成功吸引約 4,800 筆預購，每台早鳥價高達 749 美元，總計籌得 370 萬美元。

初期的 Jibo 能夠自我介紹並跳舞逗樂孩子，但功能也僅止於此。開發團隊原本的願景是讓它成為一個具備實體型態的助理，包辦從安排行程、處理電子郵件到說故事等各種任務。它確實贏得了一批忠實用戶，但母公司最終仍在 2019 年黯然關閉。

事後回顧，Jibo 當時最欠缺的正是更強大的語言處理能力。它當時的競爭對手是蘋果的 Siri 與亞馬遜的 Alexa，而那個年代的所有語音技術都極度依賴繁重的預編寫腳本。當你對著裝置說話時，軟體會將語音轉為文字，分析你的需求，接著從預先核准的文字庫中抽取出回應。這些腳本或許偶有巧思，但本質上非常重複且枯燥，對於一款主打家庭社交的機器人而言是個致命傷。如今，主流 AI 供應商的語音模式早已變得生動有趣，雖然帶來了新機遇，卻也伴隨著 AI 幻覺與不當發言的新風險。

OpenAI 於 2018 年用百萬次模擬訓練機器手

時間來到 2018 年，幾乎每一間頂尖的機器人實驗室都在設法拋棄舊有的腳本規則，轉而透過試錯法來訓練機器人。OpenAI 當時嘗試在虛擬環境中訓練其機器手 Dactyl，他們建立了手部以及手掌大小方塊的數位模型。這些方塊的表面印有字母與數字，模型會下達諸如「旋轉方塊，讓印有字母 O 的紅色面朝上」的任務指令。

這項計畫遇到了一個核心難題。機器手在模擬世界裡或許能表現得極為出色，但當你將這套程式搬到現實世界控制實體機器手時，兩者之間的微小差異就會導致任務失敗。舉例來說，真實世界中的顏色可能略有偏差，或者機器人指尖上可變形的橡膠實際上比模擬環境中更具彈性。

工程師提出的解決方案稱為領域隨機化（引入隨機變數的模擬）。研究人員會創建數百萬個彼此存在微小、隨機差異的模擬世界，在某些世界裡摩擦力較小，有些燈光較刺眼，或者顏色較暗。讓機器人暴露在足夠多的變異中，意味著它們在現實世界操作方塊時能具備更高的適應力。這種方法在 Dactyl 上奏效了，一年後它使用相同的核心技術挑戰更高難度的任務：解開魔術方塊。儘管它只有 60% 的成功率，在初始狀態特別混亂時成功率更降至 20%，這仍是模擬訓練的一大里程碑。不過，OpenAI 隨後在 2021 年關閉了機器人部門，近期才重新啟動並轉而聚焦於人形機器人。

Google 花 17 個月錄製 700 項任務推動 RT-2

2022 年前後，Google 的機器人團隊展開了一項看似異常繁瑣的工程。他們花了整整 17 個月，把機器人控制器交給人類，並錄下人類操作機器人執行各種動作的畫面，從拿起洋芋片包裝袋到轉開水瓶蓋無所不包。團隊最終將這些數據整理成涵蓋 700 種不同任務的龐大目錄。

這項苦工的目的，是為了建立並測試首批具備大規模數據基礎的機器人基礎模型。如同大型語言模型的運作方式，核心概念是輸入大量文字，將其標記化成演算法能理解的格式，接著生成輸出。Google 的第一代模型 RT-1 會接收機器人當下視覺畫面與各關節位置的輸入資訊，隨後接收指令並將其轉化為移動機器的馬達指令。在測試中，RT-1 面對曾經學習過的任務時成功率高達 97%，即使面對未見過的新指令，也有 76% 的成功率。

隔年推出的第二代模型 RT-2 走得更遠。它不再侷限於機器人專屬的訓練資料，而是擴大範圍，吸收了網際網路上更廣泛的一般圖像，如同當時正熱門的視覺語言模型。這讓機器人具備了解讀場景中特定物體位置的能力。帶領這兩代模型開發的 Google DeepMind 機器人學家 Kanishka Rao 表示，這解鎖了諸如「把可樂罐放在泰勒絲照片旁邊」這類複雜指令。到了 2025 年，Google 進一步發表了 Gemini Robotics 模型，大幅改善理解自然語言的能力。

Covariant 推 RFM-1 吸引亞馬遜千座倉儲目光

在 OpenAI 首支機器人團隊解散前的 2017 年，一群工程師帶著一個名為 Covariant 的專案選擇獨立創業。他們的目標不是打造科幻電影裡的人形機器人，而是最具實用價值的設備：能在倉庫裡撿拾與搬運物品的機器手臂。在建立了一個類似 Google 概念的基礎模型系統後，Covariant 將這套平台部署到如 Crate & Barrel 等企業營運的物流中心，並將這些實際運作的場域視為資料收集的管線。

到了 2024 年，Covariant 正式發表了名為 RFM-1 的機器人模型，這套系統讓你能夠像對待人類同事般與之互動。例如，如果你向機器手臂展示好幾排網球，接著指示它將每一排移到不同的區域，機器人不僅能執行，甚至還會給予回饋——它可能會預測自己無法抓牢該物品，並主動詢問人類建議該使用哪一種特定的吸盤。

類似的互動過去只存在於實驗室中，但 Covariant 成功將其推向大規模商業應用。該公司現在於每個客戶的據點都裝設了攝影機與資料收集設備，不斷將更多數據回傳給模型進行訓練。儘管並非完美無缺，共同創辦人 Peter Chen 坦言，模型在缺乏良好訓練數據的地方可能表現不佳。不過，這種實用導向的技術很快獲得電商巨頭的青睞，亞馬遜隨後延攬了團隊創辦人，目前正在取得 Covariant 模型的授權，有望應用於亞馬遜光在美國就多達約 1,300 座的倉儲設施中。

Agility 開發 Digit 機器人進駐豐田與物流巨頭

目前湧入機器人新創公司的新一波投資資金，主要瞄準的不再是長得像檯燈或單純手臂的設備，而是具有人類輪廓的機器人。設計人形機器人的出發點，在於它們應該能無縫融入人類目前工作與活動的空間。企業無需為了容納巨大的機器手臂而重新改造整條裝配線。

然知易行難，在極少數人形機器人實際出現在真實倉庫的案例中，它們通常被限制在測試區與試點專案內。業界亟需一款能真正落地的產品。儘管如此，Agility Robotics 開發的人形機器人 Digit 似乎已經開始承接真正的工作。Digit 的設計完全以功能性為導向，關節外露且頭部設計並不擬人，拋棄了多餘的科幻美學。包含亞馬遜、豐田汽車以及物流巨頭 GXO 皆已導入這款機器人。它成為首批讓企業看見實質成本節省效益，而不僅是當成新奇玩具的人形機器人之一。它們每天的任務就是在廠房內撿拾、移動並堆疊物流搬運箱。

目前的 Digit 距離矽谷所押注的那種全能類人助手還有一段路要走。例如它目前最多只能舉起 35 磅的重物，且每當開發團隊試圖讓它變得更強壯時，電池重量就會增加，導致需要更頻繁地充電。此外，標準化組織指出，由於人形機器人具備移動能力且會長時間近距離接觸人類，因此需要比多數工業機器人更嚴格的安全規範。Digit 的進展證明了這場機器人訓練革命並未侷限於單一方法，它結合了虛擬模擬技術以及 Google Gemini 模型的環境適應力，展示了業界累積十多年的實驗成果，正一步步走向規模化實踐。

從寫死規則到海量數據驅動，機器人學正迎來軟體層面的文藝復興，硬體商用化終將隨之起飛。

Abstract

Roboticists used to dream big but build small. They’d hope to match or exceed the extraordinary complexity of the human body, and then they’d spend their career refining robotic arms for auto plants. Aim for C-3P0; end up with the Roomba.  The real ambition for many of these researchers was the robot of science fiction—one…

How robots learn: A brief, contemporary history

2025 年 61 億美元熱潮：機器人拋棄預寫規則

2014 年 Jibo 獲 370 萬美元卻敗於寫死腳本

OpenAI 於 2018 年用百萬次模擬訓練機器手

Google 花 17 個月錄製 700 項任務推動 RT-2

Covariant 推 RFM-1 吸引亞馬遜千座倉儲目光

Agility 開發 Digit 機器人進駐豐田與物流巨頭

Abstract

🔗 相關推薦

最新研究透過分層摘要過濾雜訊，使大型語言模型的預測一致性提升達 30%。

墨爾本大學最新研究揭示，量子模型的數學對稱性並不能保證防禦力，抑制特定的脆弱傅立葉模態才是確保系統強健性的關鍵。

ExoNet 模型透過融合光變曲線與恆星參數，在兩小時內完成訓練，成功從 TESS 數據揪出高達 99.64% 信心度的類地行星目標。