美譽度品牌管理
美譽度7月29日消息,Google DeepMind再放AI機器人大招!周五,這家前沿AI研究機構(gòu)宣布以訓(xùn)練AI聊天機器人的方式訓(xùn)練了一款全新的機器人模型Robotic Transformer 2(RT-2)。
結(jié)合思維鏈推理,RT-2可以執(zhí)行多階段語義推理。即便是一些抽象概念,RT-2也能理解并指揮機械臂做出正確的動作。比如讓它找一把臨時用的簡易錘子,它會抓起石頭;讓它給疲憊的人選一款飲料,它會選擇紅牛;讓它把可樂罐移到泰勒·斯威夫特的照片上,它也能順利完成。
Google DeepMind博客文章寫道,RT-2顯示出超越其所接觸的機器人數(shù)據(jù)的泛化能力以及語義和視覺理解能力,包括解釋新命令并通過執(zhí)行基本推理(例如關(guān)于對象類別或高級描述的推理)來響應(yīng)用戶命令。
其將信息轉(zhuǎn)化為行動的能力表明,機器人有望更快地適應(yīng)新的情況和環(huán)境。
在對RT-2模型進行了超過6000次的機器人試驗后,研究團隊發(fā)現(xiàn),RT-2在訓(xùn)練數(shù)據(jù)或“可見”任務(wù)上的表現(xiàn)與之前的模型RT-1一樣好。它在新奇的、不可預(yù)見的場景中的表現(xiàn)幾乎翻番,從RT-1的32%提高到62%。
一、讓機器人用AI大模型學(xué)習(xí)新技能 機器人技術(shù)領(lǐng)域正悄然進行一場革命——將大型語言模型的最新進展引入機器人,讓機器人變得更聰明,并具備新的理解和解決問題的能力。 《紐約時報》技術(shù)專欄作家凱文·羅斯(Kevin Roose)在谷歌機器人部門觀看了實際演示,工程師給機器人發(fā)出指令:“撿起滅絕的動物”,一個單臂機器人呼呼地響了一會兒,然后伸出機械臂,爪子張開落下,準確抓住了它面前桌子上的恐龍塑料制品。 在這場長達1小時的演示中,RT-2還成功執(zhí)行了“將大眾汽車移到德國國旗上”的復(fù)雜指令,RT-2找到并抓住一輛大眾巴士模型,并將其放在幾英尺外的微型德國國旗上。 ▲兩名谷歌工程師Ryan Julian(左)和Quan Vuong成功指示RT-2“將大眾汽車移到德國國旗上”。(圖源:《紐約時報》) 多年以來,谷歌和其他公司的工程師訓(xùn)練機器人執(zhí)行機械任務(wù)(例如翻轉(zhuǎn)漢堡)的方式是使用特定的指令列表對其進行編程。然后機器人會一次又一次地練習(xí)該任務(wù),工程師每次都會調(diào)整指令,直到得到滿意的結(jié)果為止。 這種方法適用于某些有限的用途。但以這種方式訓(xùn)練機器人,既緩慢又費力。它需要從現(xiàn)實世界的測試中收集大量數(shù)據(jù)。如果你想教機器人做一些新的事情(例如從翻轉(zhuǎn)漢堡改做翻轉(zhuǎn)煎餅),你通常必須從頭開始重新編程。 部分源于這些限制,硬件機器人的改進速度慢于基于軟件的同類機器人。 近年來,谷歌的研究人員有了一個想法:如果機器人使用AI大型語言模型(來為自己學(xué)習(xí)新技能,而不是逐一為特定任務(wù)進行編程,會怎樣? 高容量視覺-語言模型(VLM)在web-scale數(shù)據(jù)集上進行訓(xùn)練,使這些系統(tǒng)非常擅長識別視覺或語言模式并跨不同語言進行操作。但要讓機器人達到類似的能力水平,他們需要收集每個物體、環(huán)境、任務(wù)和情況的第一手機器人數(shù)據(jù)。 RT-2的工作建立在RT-1的基礎(chǔ)上。這是一個經(jīng)過多任務(wù)演示訓(xùn)練的模型,可學(xué)習(xí)機器人數(shù)據(jù)中看到的任務(wù)和對象的組合。更具體地說,谷歌的研究工作使用了在辦公室廚房環(huán)境中用13個機器人在17 個月內(nèi)收集的RT-1機器人演示數(shù)據(jù)。 谷歌首次嘗試將語言模型和物理機器人結(jié)合起來是一個名為PaLM-SayCan的研究項目,該項目于去年公布,它引起了一些關(guān)注,但其用處有限。機器人缺乏解讀圖像的能力,而這是能夠理解世界的一項重要技能。他們可以為不同的任務(wù)寫出分步說明,但無法將這些步驟轉(zhuǎn)化為行動。 谷歌的新機器人模型RT-2就能做到這一點。這個“視覺-語言-動作”模型不僅能夠看到和分析周圍的世界,還能告訴機器人如何移動。 它通過將機器人的動作轉(zhuǎn)換為一系列數(shù)字(這一過程稱為標注)并將這些標注合并到與語言模型相同的訓(xùn)練數(shù)據(jù)中來實現(xiàn)這一點。 最終,就像ChatGPT或Bard學(xué)會推測一首詩或一篇歷史文章中接下來應(yīng)該出現(xiàn)什么詞一樣,RT-2可以學(xué)會猜測機械臂應(yīng)該如何移動來撿起球或?qū)⒖掌奕舆M回收站垃圾桶。 RT-2表明視覺-語言模型(VLM)可以轉(zhuǎn)化為強大的視覺-語言-動作(VLA)模型,通過將VLM預(yù)訓(xùn)練與機器人數(shù)據(jù)相結(jié)合,直接控制機器人。 RT-2以視覺-語言模型(VLM)為基礎(chǔ),將一個或多個圖像作為輸入,并生成一系列通常代表自然語言文本的標注。此類VLM已接受web-scale數(shù)據(jù)的訓(xùn)練,能夠執(zhí)行視覺問答、圖像字幕或?qū)ο笞R別等任務(wù)。Google DeepMind團隊采用PaLI-X和PaLM-E模型作為RT-2的支柱。 為了控制機器人,必須訓(xùn)練它輸動作。研究人員通過將操作表示為模型輸出中的標注(類似于語言標注)來解決這一挑戰(zhàn),并將操作描述為可以由標準自然語言標注生成器處理的字符串,如下所示: ▲RT-2訓(xùn)練中使用的動作字符串的表示形式。這種字符串的示例可以是機器人動作標記編號的序列,例如“1 128 91 241 5 101 127 217”。 該字符串以一個標志開頭,指示是繼續(xù)還是終止當(dāng)前情節(jié),而不執(zhí)行后續(xù)命令,然后是更改末端執(zhí)行器的位置和旋轉(zhuǎn)以及機器人夾具所需延伸的命令。 研究人員使用了與RT-1中相同的機器人動作離散版本,并表明將其轉(zhuǎn)換為字符串表示使得可以在機器人數(shù)據(jù)上訓(xùn)練VLM模型,因為此類模型的輸入和輸出空間不需要改變了。 ▲RT-2架構(gòu)和訓(xùn)練:研究人員針對機器人和網(wǎng)絡(luò)數(shù)據(jù)共同微調(diào)預(yù)先訓(xùn)練的VLM模型。生成的模型接收機器人攝像頭圖像并直接預(yù)測機器人要執(zhí)行的動作。 研究人員在RT-2模型上進行了一系列定性和定量實驗,進行了6000多次機器人試驗。 每項任務(wù)都需要理解視覺語義概念以及執(zhí)行機器人控制以操作這些概念的能力。需要諸如“撿起即將從桌子上掉下來的袋子”之類的命令,其中要求機器人對機器人數(shù)據(jù)中從未見過的物體或場景執(zhí)行操作任務(wù)將知識從基于網(wǎng)絡(luò)的數(shù)據(jù)轉(zhuǎn)化為可操作的。 ▲機器人數(shù)據(jù)中不存在的新興機器人技能示例,需要通過網(wǎng)絡(luò)預(yù)訓(xùn)練進行知識遷移。 在所有類別中,研究人員觀察到與之前的基線(例如之前的RT-1模型和Visual Cortex(VC-1)等模型)相比,RT-2的泛化性能提高到3倍以上,這些模型是在大型視覺數(shù)據(jù)集上進行預(yù)訓(xùn)練的。 ▲緊急技能評估的成功率:RT-2模型優(yōu)于之前的RT-1和VC-1基線。 研究人員還進行了一系列定量評估,從最初的RT-1任務(wù)開始,在機器人數(shù)據(jù)中提供了示例,然后繼續(xù)對機器人進行不同程度的以前未見過的物體、背景和環(huán)境,要求機器人從VLM預(yù)訓(xùn)練中學(xué)習(xí)泛化能力。 ▲機器人以前未見過的環(huán)境示例,RT-2可以推廣到新的情況。 RT-2保留了機器人數(shù)據(jù)中看到的原始任務(wù)的性能,并提高了機器人在以前未見過的場景上的性能,從RT-1的32%提高到了62%,展示了大規(guī)模預(yù)訓(xùn)練的巨大優(yōu)勢。 此外,研究人員觀察到與僅視覺任務(wù)預(yù)訓(xùn)練的基線相比有顯著改進,例如VC-1和機器人操作的Reusable Representations for Robotic Manipulation(R3M),以及用VLM進行對象識別的算法,例如Manipulation of Open-World Objects(MOO)。 ▲RT-2在可見的分布內(nèi)任務(wù)上實現(xiàn)了高性能,并且在分布外未見的任務(wù)上優(yōu)于多個基線。 在機器人任務(wù)的開源Language Table套件上評估其模型,研究人員在模擬中實現(xiàn)了90%的成功率,高于之前的基線,包括BC-Z(72%)、RT-1(74%)和LAVA(77%)。 然后研究人員在現(xiàn)實世界中評估相同的模型(因為它是在模擬和真實數(shù)據(jù)上進行訓(xùn)練的),并展示了其泛化到新對象的能力,如下所示,其中除了藍色立方體之外,沒有任何對象出現(xiàn)在訓(xùn)練中數(shù)據(jù)集。 ▲RT-2在真實機器人Language Table任務(wù)中表現(xiàn)良好。除了藍色立方體之外,訓(xùn)練數(shù)據(jù)中不存在任何對象。 受大型語言模型中使用思維鏈提示方法的啟發(fā),研究人員探索其模型,將機器人控制與思維鏈推理相結(jié)合,以便能夠在單個模型中學(xué)習(xí)長期規(guī)劃和簡易技能。 特別是,他們對RT-2的變體進行了幾百個梯度步驟的微調(diào),以提高其聯(lián)合使用語言和動作的能力,然后對數(shù)據(jù)進行了擴充,添加了一個額外的“計劃”步驟,首先用自然語言描述機器人即將采取的動作的目的,然后是“動作”和動作標注。 這里,研究人員展示了這種推理和機器人的最終行為的示例: ▲思維鏈推理可以學(xué)習(xí)一個獨立的模型,該模型既可以規(guī)劃長期技能序列,又可以預(yù)測機器人的動作。 通過這一過程,RT-2可以執(zhí)行更多復(fù)雜的命令,這些命令需要推理完成用戶指令所需的中間步驟。得益于其VLM主干,RT-2還可以根據(jù)圖像和文本命令進行規(guī)劃,從而實現(xiàn)基于視覺的規(guī)劃,而當(dāng)前的計劃和行動方法(如SayCan)無法看到現(xiàn)實世界并完全依賴于語言。 多年來,研究人員們一直試圖讓機器人具有更好的推理能力,以解決如何在現(xiàn)實生活環(huán)境中生存的問題。以前,訓(xùn)練機器人需要很長時間。研究人員必須單獨制定方向。但借助RT-2等VLA模型的強大功能,機器人可以獲取更多信息來推斷下一步該做什么。 加州大學(xué)伯克利分校機器人學(xué)教授肯·戈德堡(Ken Goldberg)說,機器人的靈巧程度仍達不到人類的水平,在一些基本任務(wù)上也表現(xiàn)不佳,但谷歌利用AI大型語言模型賦予機器人新的推理和即興創(chuàng)作技能,這是一個有希望的突破。 谷歌沒有立即計劃銷售RT-2機器人或更廣泛地發(fā)布它們,但其研究人員相信這些配備新語言的機器最終將不僅僅用于室內(nèi)魔術(shù),具有內(nèi)置語言模型的機器人可以放入倉庫、用于醫(yī)藥,甚至可以用作家庭助理——折疊衣物、從洗碗機中取出物品、在房子周圍收拾東西。 當(dāng)然,在雜亂無章的物理世界中移動物體,比在受控實驗室中移動物體要困難。人類本能地知道該如何清理潑到桌上的飲料,但機器人需要更多的指令才能去做這項看似輕而易舉的工作。 鑒于AI大型語言模型經(jīng)常犯錯誤或發(fā)明無意義的答案,將它們用作機器人的大腦可能會帶來新的風(fēng)險。但戈德堡教授說,這些風(fēng)險仍然很小?!拔覀儾⒉皇窃谡?wù)撟屵@些東西失控,”他說,“在這些實驗室環(huán)境中,他們只是試圖在桌子上推一些物體?!?/p> 谷歌方面表示,RT-2配備了大量安全功能。除了每個機器人背面都有一個紅色大按鈕(按下按鈕后機器人會停止在軌道上)之外,該系統(tǒng)還使用傳感器來避免撞到人或物體。 RT-2內(nèi)置的AI軟件有自己的保護措施,可以用來防止機器人做出任何有害的事情。例如,谷歌的機器人經(jīng)過訓(xùn)練后不會拿起裝有水的容器,因為如果水溢出,它們的硬件可能會損壞。 谷歌的RT-2機器人并不完美。在實際演示中,它把一罐檸檬味蘇打水的味道錯猜成“橘子味”。還有一次被問到桌子上有什么水果時,機器人回答成“白色”,而正確答案是香蕉。谷歌發(fā)言人解釋說,該機器人使用了緩存的答案來回答之前測試者的問題,因為它的Wi-Fi曾短暫中斷過。 但瑕不掩瑜。RT-2不僅是對現(xiàn)有VLM模型的簡單而有效的修改,而且還展示了構(gòu)建通用物理機器人的前景,該機器人可以推理、解決問題和解釋信息,以在現(xiàn)實世界中執(zhí)行各種任務(wù)。 在大型語言模型研究的啟發(fā)下,機器人正變得更加智能。