您好,歡迎進(jìn)入美譽(yù)度品牌管理官網(wǎng)!

江蘇危機(jī)公關(guān)公司

一站式提供商

提供設(shè)計(jì),生產(chǎn),安裝,售后服務(wù)一條龍服務(wù)

400-021-0821
公司資訊
您的位置: 主頁 > 新聞中心 > 公司資訊
重磅!DeepMind“機(jī)器貓”自學(xué)成才,能操作多個(gè)機(jī)器人、不依賴人類監(jiān)督
發(fā)布時(shí)間:2023-07-20 09:23瀏覽次數(shù):

美譽(yù)度品牌管理
作者 | jojo
編輯 | Anddy

美譽(yù)度6月21日消息,剛剛,谷歌DeepMind推出了一種可以自我改進(jìn)、自我提升(self-improving)的用于機(jī)器人的AI智能體,名為RoboCat。

DeepMind稱它是全球第一個(gè)可以解決和適應(yīng)多種任務(wù)的機(jī)器人AI智能體,并且它可以在各類真實(shí)的機(jī)器人產(chǎn)品上完成這些任務(wù)。

▲RoboCat操控機(jī)械臂完成各種各樣的任務(wù),來源:Google DeepMind

整體來看,RoboCat最主要的突破在三個(gè)方面:

1、DeepMind讓一個(gè)神經(jīng)網(wǎng)絡(luò)能在多個(gè)不同的機(jī)器人上工作,可以快速操作新的機(jī)械臂,解決新的復(fù)雜任務(wù)。

2、RoboCat學(xué)習(xí)的新任務(wù)越多,就越擅長(zhǎng)學(xué)習(xí)和解決額外的新任務(wù)。

3、RoboCat是通用機(jī)器人領(lǐng)域的重要研究進(jìn)展,能夠減少對(duì)人類監(jiān)督訓(xùn)練的需求。 

▲RoboCat解決更多類型的任務(wù),來源:Google DeepMind

AI智能體可以自己操控機(jī)械臂,學(xué)習(xí)玩套圈、搭積木、抓水果了!效率極高,還不需要多少人力。

只需要通過100次左右的演示,RoboCat就可以學(xué)會(huì)操控機(jī)械臂來完成各式各樣的任務(wù),并且它還能通過自生成的數(shù)據(jù)來進(jìn)行迭代改進(jìn)。

最重要的是,不論是它操控的機(jī)械臂還是它要完成的任務(wù),RoboCat之前都從來沒見過。

▲RoboCat可以解決的各類任務(wù),來源:Google DeepMind

這種“通用性學(xué)習(xí)能力”是RoboCat的強(qiáng)項(xiàng),此外,RoboCat最主要的特點(diǎn)就是“學(xué)得快”, 這種能力對(duì)于加快機(jī)器人領(lǐng)域的研究有重要意義,因?yàn)橛辛诉@種能力,人類監(jiān)督訓(xùn)練的需求就會(huì)極大減少,這是創(chuàng)造通用機(jī)器人非常重要的一環(huán)。

在DeepMind演示視頻中,RoboCat可以通過自主學(xué)習(xí)完成“套圈”、“搭積木”、“拿放水果”等任務(wù)。目前RoboCat完成一項(xiàng)新任務(wù)的成功率已經(jīng)從初期的36%提升至74%。

▲RoboCat前后版本完成任務(wù)成功率對(duì)比,來源:Google DeepMind

并且根據(jù)DeepMind論文,RoboCat完成現(xiàn)實(shí)世界訓(xùn)練任務(wù)的成功率要遠(yuǎn)高于傳統(tǒng)基于視覺的模型方案,領(lǐng)先幅度還是比較明顯的,這也是DeepMind研究的重要價(jià)值所在。

▲RoboCat與基于視覺的模型在完成現(xiàn)實(shí)世界訓(xùn)練任務(wù)成功率方面的對(duì)比,來源:Google DeepMind

值得一提的是,RoboCat用到的關(guān)鍵技術(shù)之一,是一種多模態(tài)模型(multimodal model)Gato,而Gato在西班牙語里意為“貓”,也就是“cat”,這也是“RoboCat”這一命名的由來之一。

此前研究人員已經(jīng)在機(jī)器人大規(guī)模學(xué)習(xí)多種任務(wù)方面進(jìn)行了探索,并將對(duì)語言模型的理解與現(xiàn)實(shí)世界的機(jī)器人能力相結(jié)合。而RoboCat的進(jìn)步性在于,它是第一個(gè)可以解決和適應(yīng)多種任務(wù)的機(jī)器人AI智能體。

DeepMind認(rèn)為,RoboCat獨(dú)立學(xué)習(xí)技能、快速自我提升的能力,以及對(duì)于不同硬件設(shè)備的快速適應(yīng)能力,將對(duì)新一代通用機(jī)器人AI智能體的發(fā)展起到重要推動(dòng)作用。

論文地址:

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf

一、套圈、搭積木樣樣精通,將水果從碗里拿出來總共分幾步?

首先,我們來看看這個(gè)RoboCat到底能做什么。

從DeepMind的演示視頻中我們可以看到,研究人員在機(jī)器人的攝像頭下面將物體擺好,機(jī)器人就會(huì)將擺好的物體狀態(tài)設(shè)定為“目標(biāo)圖像”,在設(shè)定好目標(biāo)圖像后,研究人員會(huì)將物體的擺放位置還原,然后讓機(jī)器人操作還原剛才的物體擺放狀態(tài)。

▲RoboCat完成“套圈”任務(wù),來源:Google DeepMind

在“套圈”這個(gè)任務(wù)中,RoboCat可以很好的操控機(jī)械臂還原橘紅色圓圈的位置。

在同一類“套圈”任務(wù)中,RoboCat還可以解決更復(fù)雜的情況,比如區(qū)分大圈和小圈并準(zhǔn)確套在對(duì)應(yīng)的金屬柱上。

▲RoboCat完成更復(fù)雜的“套圈”任務(wù),來源:Google DeepMind

DeepMind還演示了一個(gè)任務(wù),就是抓水果。這個(gè)任務(wù)RoboCat已經(jīng)在此前的訓(xùn)練中看到過,但值得注意的是,此前的訓(xùn)練數(shù)據(jù)中從來沒有過“人手”出現(xiàn),這次研究人員給RoboCat設(shè)定的目標(biāo)圖像中卻包含了人手,最終,RoboCat仍然可以順利完成任務(wù)。

▲RoboCat在目標(biāo)圖像有“人手”干擾的情況下完成抓水果任務(wù),來源:Google DeepMind

這還沒完,后續(xù)研究人員進(jìn)一步提高難度,讓RoboCat操控了一個(gè)它之前從未見過的機(jī)械臂,這個(gè)機(jī)械臂跟之前抓水果用的有所不同,但最終RoboCat依然可以操控這一新的機(jī)械臂來成任務(wù)。

▲RoboCat操控從未見過的機(jī)械臂完成此前學(xué)過的任務(wù),來源:Google DeepMind

在另一個(gè)“搭積木”的測(cè)試中,研究人員展示了RoboCat的另一項(xiàng)技能,當(dāng)目標(biāo)圖像設(shè)定好后,不論初始積木位置是怎樣的,RoboCat都可以很好的還原目標(biāo)圖像中的積木狀態(tài)。

▲當(dāng)目標(biāo)圖像設(shè)定好后,不論初始積木位置是怎樣的,RoboCat都可以很好的還原目標(biāo)圖像中的積木狀態(tài),來源:Google DeepMind

除了搭積木,RoboCat還可以完成將水果從碗里拿進(jìn)拿出這樣的任務(wù)。

二、基于超大數(shù)據(jù)集,還會(huì)自我迭代升級(jí),五步就能掌握新本領(lǐng)

具體來看RoboCat背后的硬核技術(shù),DeepMind提到,RoboCat用到了一種多模態(tài)模型Gato,Gato模型可以在模擬環(huán)境和物理環(huán)境中處理語言、圖像和動(dòng)作,研究人員將Gato的架構(gòu)與一個(gè)大型訓(xùn)練數(shù)據(jù)集進(jìn)行了結(jié)合,這個(gè)數(shù)據(jù)集包含了各種機(jī)械臂解決數(shù)百個(gè)不同任務(wù)的圖像序列和動(dòng)作。

在第一輪訓(xùn)練之后,研究人員讓RoboCat進(jìn)入一個(gè)“自我提升(self-improvement)”的訓(xùn)練周期,在這個(gè)訓(xùn)練周期中,RoboCat會(huì)學(xué)習(xí)解決很多以前從未見過的任務(wù)。

每項(xiàng)新任務(wù)的學(xué)習(xí)分為五個(gè)步驟:

1、收集100-1000個(gè)由研究人員控制的機(jī)械臂完成的新任務(wù)演示。

2、在新任務(wù)所使用的機(jī)械臂上微調(diào)(Fine-tune)RoboCat,創(chuàng)建一個(gè)專用的衍生代理。

3、衍生代理在機(jī)械臂上練習(xí)10000次,以生成更多的訓(xùn)練數(shù)據(jù)。

4、將演示數(shù)據(jù)和自生成數(shù)據(jù)合并到RoboCat的現(xiàn)有訓(xùn)練數(shù)據(jù)集中。

5、在新的訓(xùn)練數(shù)據(jù)集上訓(xùn)練RoboCat的新版本。

▲RoboCat的訓(xùn)練周期示意圖,它能夠自生成額外的訓(xùn)練數(shù)據(jù),來源:Google DeepMind

上述所有這些訓(xùn)練的結(jié)合,意味著RoboCat的數(shù)據(jù)集將包含數(shù)百萬次的訓(xùn)練軌跡數(shù)據(jù),這些數(shù)據(jù)來自真實(shí)機(jī)械臂以及模擬機(jī)械臂,包括了RoboCat自生成的數(shù)據(jù)。

▲RoboCat從各種訓(xùn)練數(shù)據(jù)類型和任務(wù)中學(xué)習(xí),來源:Google DeepMind

研究人員總共使用了四種不同類型的機(jī)器人和各類機(jī)械臂來收集基于視覺的數(shù)據(jù)。

▲RoboCat使用現(xiàn)實(shí)和虛擬機(jī)械臂積累訓(xùn)練數(shù)據(jù),來源:Google DeepMind

三、RoboCat:一個(gè)“自我提升的通才”

在上述這種多樣化的訓(xùn)練方式下,RoboCat可以在幾個(gè)小時(shí)內(nèi)學(xué)會(huì)操作不同的機(jī)械臂,包括一些更加復(fù)雜的從未見過的機(jī)械臂。

RoboCat可以操作這些機(jī)械臂完成之前見過的任務(wù),比如套圈、拿取水果,甚至是在對(duì)應(yīng)形狀的格子中放上對(duì)應(yīng)形狀的物品,這些任務(wù)會(huì)考驗(yàn)RoboCat操作的精準(zhǔn)度、理解力以及對(duì)于形狀匹配難題的解決能力。

▲RoboCat用新機(jī)械臂完成此前學(xué)過的任務(wù),來源:Google DeepMind

用DeepMind的話來說,RoboCat是一個(gè)“自我提升的通才”,因?yàn)樗腔谝粋€(gè)良性的訓(xùn)練循環(huán)來學(xué)習(xí)新任務(wù)。簡(jiǎn)單來說,它學(xué)習(xí)的新任務(wù)越多,它就能更好地學(xué)習(xí)和解決額外的新任務(wù)。

最初版本的RoboCat,在每個(gè)新任務(wù)進(jìn)行500次演示后,只有36%的概率能成功的完成之前從未見過的任務(wù),但是最新版本的RoboCat已經(jīng)將這一成功率提升至74%。

這些提升歸功于RoboCat不斷增長(zhǎng)的經(jīng)驗(yàn)廣度,就像人類在特定領(lǐng)域不斷深化學(xué)習(xí),從而發(fā)展出更加多樣化的能力一樣。

今天,機(jī)器人在我們的生活中已經(jīng)廣泛應(yīng)用,但大部分機(jī)器人只能完成特定的任務(wù),這些機(jī)器人基本上都是被提前編程設(shè)定好的。

在制造可以完成更多種類任務(wù)的“通用機(jī)器人”方面,研究進(jìn)展一直很緩慢,因?yàn)槭占F(xiàn)實(shí)世界中的訓(xùn)練數(shù)據(jù)是非常費(fèi)時(shí)費(fèi)力的。

RoboCat這種獨(dú)立學(xué)習(xí)技能、快速自我提升的能力,以及對(duì)于不同硬件設(shè)備的快速適應(yīng)能力,將對(duì)新一代通用機(jī)器人AI智能體的發(fā)展起到重要推動(dòng)作用。

結(jié)語:多模態(tài)AI模型引入,通用機(jī)器人研究再進(jìn)一步

在全球AI研究熱點(diǎn)涌向大模型的當(dāng)下,谷歌DeepMind似乎對(duì)大模型競(jìng)賽并不熱衷,仍專注于解決AI如何與物理世界交互的問題,并將研究重心鎖定在優(yōu)化機(jī)器人技術(shù)的基礎(chǔ)模型上。

而最新發(fā)布的RoboCat,絕對(duì)是個(gè)了不起的AI模型。它通過視覺目標(biāo)調(diào)節(jié)解決了不同平臺(tái)的各種拾取和放置任務(wù),只需100次演示就能學(xué)會(huì)在不同的機(jī)器人上執(zhí)行各種任務(wù),從自生成訓(xùn)練數(shù)據(jù)提高技能的方法令人眼前一亮。

多模態(tài)AI模型的引入,為邁向通用機(jī)器人的歷程貢獻(xiàn)了又一個(gè)激動(dòng)人心的進(jìn)展!

來源:Google DeepMind

400-021-0821