一連寫(xiě)了多篇關(guān)於生成式人工智能(AI)的文章,不難察覺(jué)目前發(fā)展比較成熟的應(yīng)用,主要還是通過(guò)裝上軟件和演算法的終端機(jī)與用戶(hù)互動(dòng)??苹秒娪爸锌吹较袢祟?lèi)般懂聽(tīng)懂說(shuō)、對(duì)答如流、活動(dòng)自如的智能機(jī)器人,迄今還沒(méi)走出電影的虛擬世界。要實(shí)現(xiàn)這個(gè)終極目標(biāo),AI領(lǐng)域的下一個(gè)挑戰(zhàn)將是實(shí)現(xiàn)「具身智能」(Embodied Artificial Intelligence),即能夠通過(guò)自我學(xué)習(xí)掌握各種技能,並具備執(zhí)行能力的高端機(jī)器人。
具身智能簡(jiǎn)單來(lái)說(shuō),就是賦予AI系統(tǒng)一個(gè)支援物理交互的軀體,把兩者結(jié)合成一個(gè)軟硬體合一的智能體後,可以像人類(lèi)一樣與環(huán)境交互感知,通過(guò)觀察、移動(dòng)、說(shuō)話和與世界互動(dòng),從而完成現(xiàn)實(shí)生活中各種任務(wù)。目前,日常生活中可見(jiàn)的一些智能服務(wù)機(jī)器人、自動(dòng)駕駛汽車(chē)、聊天機(jī)器人等都是具身智能的雛形。但由於主要依賴(lài)預(yù)載的程式來(lái)實(shí)現(xiàn)控制,與具身智能的終極形態(tài)存在相當(dāng)大距離。
要了解具身智能可先從與之相對(duì)、較多人接觸過(guò)的非具身智能(Disembodied AI或Internet AI)開(kāi)始。非具身智能聚焦於AI的軟件應(yīng)用,不考慮具體形態(tài)、不需要物理交互、專(zhuān)注於抽象演算法的開(kāi)發(fā),如近年發(fā)展迅速的深度學(xué)習(xí)和生成式AI大模型等,衍生出如ChatGPT、Midjourney等各種多模態(tài)應(yīng)用。具身智能同樣擁有AI,但一個(gè)重要條件是具有能支援感覺(jué)和活動(dòng)的物理身體,理想中的具身智能是能夠像人類(lèi)般主動(dòng)去感受世界,聽(tīng)得懂人類(lèi)語(yǔ)言,然後分析任務(wù)進(jìn)而採(cǎi)取行動(dòng),過(guò)程中可即時(shí)驗(yàn)證並調(diào)整模型,最終完成相應(yīng)任務(wù)。
要複製人類(lèi)眼耳口鼻身意般的五感,自然不是一件容易的事,具身智能包含了AI領(lǐng)域幾乎所有的技術(shù),包括機(jī)器視覺(jué)、自然語(yǔ)言理解、認(rèn)知和推理、機(jī)器人學(xué)、博弈倫理、機(jī)器學(xué)習(xí)等,是AI的集大成者。隨著深度學(xué)習(xí)的不斷進(jìn)步,生成式AI大模型日益向多模態(tài)發(fā)展,特別是大語(yǔ)言模型的發(fā)展,結(jié)合視覺(jué)等多種感測(cè)器的複雜多模態(tài)模型,大大加快了具身智能的研發(fā)和落地速度。
具身智能的「頭腦」通常是由深度神經(jīng)網(wǎng)路模型驅(qū)動(dòng),GPT等大模型的出現(xiàn)提供了新思路,具有通用能力的大語(yǔ)言模型和視覺(jué)語(yǔ)言模型等模型,通過(guò)將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,增強(qiáng)模型對(duì)現(xiàn)實(shí)環(huán)境中物件的理解,賦予具身智能強(qiáng)大的泛化能力。機(jī)器人技術(shù)則提供了可以與物理世界互動(dòng)的「身體」,通過(guò)集成攝影鏡頭、麥克風(fēng)和觸覺(jué)感測(cè)器等一系列感測(cè)器,讓AI可以像人類(lèi)一樣依靠感官來(lái)感知世界;再配上輪子、電動(dòng)關(guān)節(jié)等執(zhí)行器為AI提供了運(yùn)動(dòng)能力的身體。
更重要的一點(diǎn)是,非具身智慧沒(méi)有眼耳口鼻和四肢感官,無(wú)法自主地採(cǎi)集數(shù)據(jù),只能被動(dòng)地接受人類(lèi)已經(jīng)採(cǎi)集好的資料。目前大部分深度學(xué)習(xí)模型訓(xùn)練使用的都是來(lái)自於互聯(lián)網(wǎng)的歷史數(shù)據(jù),一旦遇到訓(xùn)練環(huán)境中沒(méi)有出現(xiàn)過(guò)的問(wèn)題,就需要收集資料再重新反覆運(yùn)算優(yōu)化,這個(gè)過(guò)程的效率很低。未來(lái)具身智能模型的訓(xùn)練與測(cè)試可以與雲(yún)服務(wù)相結(jié)合,在雲(yún)端虛擬模擬場(chǎng)景下,進(jìn)行端到端的實(shí)時(shí)訓(xùn)練與測(cè)試,毋須再靠人手寫(xiě)代碼去更新迭代,自然大大加速了具身智慧體的進(jìn)化速度。
有望取代危險(xiǎn)工種
目前,谷歌、微軟、特斯拉等科技公司都公布了自家的具身智能產(chǎn)品,如今年3月份谷歌推出的PaLM-E,就是一種多模態(tài)具身視覺(jué)語(yǔ)言模型(VLM),讓機(jī)器人可以基於大模型來(lái)理解圖像、語(yǔ)言等數(shù)據(jù),執(zhí)行複雜的指令,而無(wú)需重新訓(xùn)練。這種一步到位的研發(fā)路線看起來(lái)很酷,但耗時(shí)漫長(zhǎng),距離產(chǎn)業(yè)可用還比較遙遠(yuǎn)。
更可行的技術(shù)落地路徑是,讓不同任務(wù)通過(guò)不同模型來(lái)實(shí)現(xiàn),比如用語(yǔ)言大模型來(lái)學(xué)習(xí)對(duì)話、視覺(jué)大模型來(lái)識(shí)別地圖、多模態(tài)大模型來(lái)完成肢體驅(qū)動(dòng),把所有的指令分解執(zhí)行,再通過(guò)大模型來(lái)完成自動(dòng)化調(diào)度和協(xié)作。
中國(guó)的政策也在推進(jìn)具身智能的發(fā)展,工信部於今年11月2日發(fā)布《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見(jiàn)》,為中國(guó)人形機(jī)器人發(fā)展定位。提出以大模型等AI技術(shù)突破為引領(lǐng),在機(jī)器人已有成熟技術(shù)基礎(chǔ)上,重點(diǎn)在人形機(jī)器人「大腦」和「小腦」、「肢體」關(guān)鍵技術(shù)、技術(shù)創(chuàng)新體系等領(lǐng)域取得突破。
產(chǎn)業(yè)智能化的浪潮為具身智能提供了市場(chǎng),比如在工業(yè)場(chǎng)景下的「抓、拿、放」,可以取代人工操作危險(xiǎn)或繁瑣重複的工序,如煤礦井下作業(yè)、港口倉(cāng)庫(kù)搬卸、搬家快遞服務(wù)、清理事故現(xiàn)場(chǎng)和救災(zāi)等領(lǐng)域。若再加上引入多模態(tài)輸入,讓使用者可用語(yǔ)言直觀控制如機(jī)械臂、無(wú)人機(jī)、家庭輔助機(jī)器人等,更可將應(yīng)用範(fàn)圍迅速擴(kuò)展至日常生活層面,並產(chǎn)生巨大的產(chǎn)業(yè)價(jià)值。