谷歌在機器人技術(shù)領(lǐng)域再度邁出重要一步,近日推出了Gemini Robotics On-Device模型,這是其“視覺語言動作”(VLA)模型的升級版。據(jù)谷歌官方介紹,這款新模型代表了他們目前最強大的VLA技術(shù)能力,特別之處在于它經(jīng)過優(yōu)化,可以在機器人設(shè)備上直接本地運行。
DeepMind的高級總監(jiān)及機器人項目負(fù)責(zé)人分享道,這款模型的獨特優(yōu)勢在于其不依賴于數(shù)據(jù)網(wǎng)絡(luò),因此對延遲敏感的應(yīng)用場景極為友好。即使在間歇性斷網(wǎng)或無網(wǎng)絡(luò)連接的環(huán)境下,它也能保持穩(wěn)定運行,這為機器人的廣泛應(yīng)用提供了更多可能性。
Gemini Robotics On-Device模型是在今年3月推出的Gemini Robotics基礎(chǔ)上升級而來,專為雙臂機器人設(shè)計。谷歌明確表示,這款模型旨在提升機器人在應(yīng)對復(fù)雜任務(wù)時的靈巧性和適應(yīng)能力。在一次演示活動中,團(tuán)隊展示了搭載這一本地模型的機器人,它們能夠輕松完成如拉開拉鏈、折疊衣物等精細(xì)動作。
值得注意的是,雖然該模型最初是為ALOHA機器人訓(xùn)練的,但谷歌隨后對其進(jìn)行了調(diào)整,使其也適用于雙臂Franka FR3機器人和Apollo人形機器人。這一靈活性顯示了谷歌在機器人技術(shù)領(lǐng)域的廣泛布局和深厚實力。
為了推動Gemini Robotics的進(jìn)一步發(fā)展,谷歌DeepMind還發(fā)布了配套的Gemini Robotics SDK。開發(fā)人員可以在MuJoCo高級物理模擬器上利用這些模型,通過向機器人展示50到100個任務(wù)演示來訓(xùn)練它們完成任務(wù)。這一舉措無疑將加速機器人技術(shù)的研發(fā)和應(yīng)用進(jìn)程。
與單純的大語言模型相比,機器人AI面臨更多挑戰(zhàn)。機器人不僅存在于物理世界中,還會改變其環(huán)境。谷歌DeepMind機器人技術(shù)負(fù)責(zé)人強調(diào),Gemini不僅能夠生成文本、寫詩、總結(jié)文章甚至編寫代碼,現(xiàn)在還能生成機器人動作。這意味著谷歌的機器人模型已經(jīng)能夠通過大數(shù)據(jù)訓(xùn)練各種動作,在快速迭代中應(yīng)對物理世界的各種問題。
在安全性方面,谷歌也采取了嚴(yán)格措施。他們采用多層限制的方法,通過底層VLA模型和上層VLA推理模型共同管理機器人的指令。這種“AI管理AI”的方式旨在確保機器人的安全運行,避免潛在的風(fēng)險。
隨著谷歌在機器人技術(shù)領(lǐng)域的不斷突破,越來越多的公司也開始關(guān)注這一領(lǐng)域。Nvidia等知名企業(yè)正在秘密研發(fā)自己的機器人項目,國內(nèi)也有眾多企業(yè)在默默耕耘。可以預(yù)見,一場新的AI大戰(zhàn)即將拉開帷幕,讓我們共同期待這一領(lǐng)域的精彩發(fā)展。