文|白 鴿
編|王一粟
2024年,具身智能可以說(shuō)是AI領(lǐng)域最火熱的賽道之一。
所謂具身智能,可以理解為人工智能和機(jī)器人技術(shù)深度結(jié)合的產(chǎn)物,是“長(zhǎng)了身體的智能”,能夠直接與物理世界進(jìn)行交互。目前業(yè)內(nèi)普遍認(rèn)為,人形機(jī)器人是具身智能落地的最佳硬件載體。
也正因此,以機(jī)器人為主體的具身智能在全球徹底火了,機(jī)器人公司如雨后春筍般出現(xiàn),具身智能領(lǐng)域的投融資也非?;馃?。
據(jù)公開資料顯示,2024年上半年做具身智能機(jī)器人的公司可能已超過(guò)70家,其中,華為等大廠也開始布局該賽道,創(chuàng)企們則頻頻獲得融資,甚至產(chǎn)品尚未落地,就已經(jīng)估值數(shù)十億元。
今年11月5日,成立不到一年,致力于“將通用人工智能帶入物理世界”具身大模型企業(yè)Physical Intelligence宣布新一輪4億美元融資,估值達(dá)到24億美元。9月,李飛飛老師創(chuàng)立的空間智能公司W(wǎng)orld Labs在完成1億美元融資后,兩個(gè)月內(nèi)又完成了新一輪2.3億美元融資;7月,致力于“開發(fā)扎根于物理世界的通用人工智能(AGI)”企業(yè)Skild AI宣布完成3億美元A輪融資,估值達(dá)到15億美金。
那么,在這一輪具身智能賽道中,創(chuàng)業(yè)企業(yè)究竟該如何走出差異化競(jìng)爭(zhēng)優(yōu)勢(shì)?具身智能背后的技術(shù)發(fā)展路徑又是如何?未來(lái)機(jī)器人時(shí)代到底將會(huì)在什么時(shí)間到來(lái)?
近期,我們與具身智能新銳企業(yè)智澄AI創(chuàng)始人兼CEO胡魯輝進(jìn)行了一場(chǎng)深度交流,這位行業(yè)大咖對(duì)具身智能的技術(shù)發(fā)展和行業(yè)趨勢(shì),給出了自己的思考和解法。
“我們是一家通用人工智能公司,核心技術(shù)是理解物理的世界模型,對(duì)標(biāo)斯坦福李飛飛老師的公司?!焙斴x如此說(shuō)道,“但是我們產(chǎn)品形態(tài)并非是模型,而是具身智能機(jī)器人。”
在胡魯輝看來(lái),世界模型和主流的多模態(tài)大模型主要有兩方面不同之處,一是世界模型主要通過(guò)包括攝像頭在內(nèi)的傳感器直接感知外部環(huán)境信息,相比于多模態(tài)大模型,其輸入的數(shù)據(jù)形式以實(shí)時(shí)感知的外部環(huán)境為主,而多模態(tài)大模型則是以圖片、文字、視頻、音頻等信息交互為主。
另一方面,世界模型輸出的結(jié)果,更多的是時(shí)間序列數(shù)據(jù)(TSD),并通過(guò)這個(gè)數(shù)據(jù)可以直接控制機(jī)器人。而多模態(tài)大模型輸出的結(jié)果仍是以信息為主。同時(shí)物理智能需要與世界進(jìn)行實(shí)時(shí)交互,其對(duì)時(shí)效性要求較高,而多模態(tài)大模型更多是與人交互,對(duì)時(shí)效性要求較低。
也正因此,世界模型也被行業(yè)人士看做是邁向AGI(通用人工智能)的必經(jīng)之路。
作為曾在微軟、亞馬遜、華為美國(guó)研究院、Meta這樣的頂尖科技巨頭擔(dān)任高管的行業(yè)專家,胡魯輝其實(shí)早就意識(shí)到AI能夠與物理世界結(jié)合,并一直尋找合適的創(chuàng)業(yè)機(jī)會(huì)。
2024年年初,智澄AI正式成立。胡魯輝對(duì)公司的整體發(fā)展規(guī)劃,也分為兩部分:一是以打造世界模型為核心,持續(xù)進(jìn)行技術(shù)創(chuàng)新和研發(fā)突破;二則是要真正的實(shí)現(xiàn)產(chǎn)品落地應(yīng)用,“我們現(xiàn)階段也在與客戶進(jìn)行深度合作,今年將以產(chǎn)品升級(jí)迭代為主,明年將開始真正落地商業(yè)化應(yīng)用。”
據(jù)悉,今年5月開始,智澄AI的人工智能機(jī)器人原型一(TR1)、原型二(TR2)相繼完成。胡魯輝將智澄AI的人工智能機(jī)器人命名為TR,即Transforming Robot(即意為“改變機(jī)器人”)。
“雖然世界模型的研發(fā)是個(gè)持續(xù)的過(guò)程 ,但我們產(chǎn)品迭代和商業(yè)落地速度很快,現(xiàn)在基本上兩個(gè)月一次迭代?!焙斴x說(shuō)道。
事實(shí)上,當(dāng)前具身智能行業(yè)發(fā)展的關(guān)鍵挑戰(zhàn)之一,就是機(jī)器人的泛化能力。
畢竟,在硬件相差不大的情況下,機(jī)器人的抓取能力和動(dòng)作靈活性完全依賴于“大腦”的智能化程度。只有擁有強(qiáng)大的泛化能力,機(jī)器人才能適應(yīng)各種任務(wù)場(chǎng)景,具備真正的“可用性”。
胡魯輝也表示,應(yīng)對(duì)當(dāng)前挑戰(zhàn),智澄AI的泛化能力主要體現(xiàn)在三方面:
任務(wù)泛化:機(jī)器人既能夠做這個(gè)任務(wù),也能夠做別的任務(wù)。
環(huán)境泛化:典型場(chǎng)景類似無(wú)人駕駛,需要識(shí)別理解不同路況環(huán)境,對(duì)機(jī)器人而言能夠適應(yīng)不同的環(huán)境。
本體泛化:同一個(gè)模型既能驅(qū)動(dòng)這類機(jī)器人本體,也能夠用另外一類機(jī)器人本體。
“對(duì)具身智能來(lái)說(shuō),只有具備任務(wù)、環(huán)境和本體三種泛化能力,才能夠真正推動(dòng)機(jī)器人時(shí)代到來(lái)。”胡魯輝說(shuō)道,“但想要實(shí)現(xiàn)三種能力的泛化,以目前的多模態(tài)大模型技術(shù)來(lái)說(shuō)很難突破。我們將打造澄靈世界模型,分三個(gè)階段,花費(fèi)2-3年時(shí)間,逐步推進(jìn)物理世界模型,使其能夠?qū)崿F(xiàn)像人一樣的泛化能力?!?/p>
不過(guò),在邁向通用人工智能的道路上,目前面臨著諸多挑戰(zhàn),包括算法、數(shù)據(jù)、算力等多方面,除了應(yīng)對(duì)上述挑戰(zhàn)之外,胡魯輝認(rèn)為,智能工程和模型架構(gòu)是另外兩個(gè)更為關(guān)鍵的要素,而智澄AI創(chuàng)始團(tuán)隊(duì)在這兩個(gè)方面有多年國(guó)際領(lǐng)先的實(shí)戰(zhàn)經(jīng)驗(yàn)。
面對(duì)日新月異的技術(shù)和產(chǎn)業(yè)變化,胡魯輝也表示,智澄AI將堅(jiān)持以物理智能為核心技術(shù),不斷加強(qiáng)自身技術(shù)能力的迭代,積極擁抱行業(yè)變化,推動(dòng)機(jī)器人時(shí)代的到來(lái)。
以下為光錐智能與智澄AI CEO胡魯輝詳細(xì)對(duì)話內(nèi)容(經(jīng)光錐智能編輯整理):
01 每2個(gè)月迭代一次,明年將實(shí)現(xiàn)產(chǎn)品商業(yè)化落地
Q:從模型算法到智能機(jī)器人的落地,有哪些難點(diǎn)需要克服?我們用了多久實(shí)現(xiàn)了從模型算法到智能機(jī)器人的落地?
A:?整體挑戰(zhàn)還是蠻多的,主要是模型架構(gòu)、智能工程和產(chǎn)品落地三個(gè)方面。智澄AI模型架構(gòu)是端到端智能原生的世界模型,從智能工程,包括數(shù)據(jù)的采集、模型的訓(xùn)練和發(fā)布等等,產(chǎn)品落地是結(jié)合泛化能力和實(shí)際的客戶需求快速迭代。2024年4月初公開創(chuàng)業(yè)方向,也差不多是這個(gè)時(shí)候開始做產(chǎn)品研發(fā),產(chǎn)品名稱為TR(Transforming Robot),基本上每2個(gè)月實(shí)現(xiàn)一次產(chǎn)品迭代,現(xiàn)有多款人工智能機(jī)器人產(chǎn)品在進(jìn)行研發(fā)。
Q:最新兩代產(chǎn)品基本完成,智澄AI后續(xù)的產(chǎn)品研發(fā)及市場(chǎng)落地策略如何?
A:?我們的整個(gè)戰(zhàn)略方針是兩條腿走路,一方面不斷進(jìn)行技術(shù)創(chuàng)新和研發(fā)突破,另一方面進(jìn)行產(chǎn)品落地,我們現(xiàn)在和多家行業(yè)頭部客戶進(jìn)行深度合作,計(jì)劃今年主要以技術(shù)產(chǎn)品迭代為主,明年開始產(chǎn)品落地和商業(yè)化應(yīng)用。
Q:您大概是從什么時(shí)候決定做智澄AI這樣的公司?了解到咱們團(tuán)隊(duì)具備國(guó)際領(lǐng)先的AI模型與數(shù)據(jù)能力,這次創(chuàng)業(yè)為什么選擇具身智能賽道?
A:?在2022年底,我已經(jīng)在思考這個(gè)事情,當(dāng)時(shí)ChatGPT剛剛出來(lái)。其實(shí)更早之前我還寫了一篇關(guān)于生成式人工智能的文章,這篇文章被廣泛引用,當(dāng)時(shí)AIGC還沒(méi)有火起來(lái),結(jié)論就是AI是能夠跟物理智能結(jié)合。從科技角度,現(xiàn)在是移動(dòng)互聯(lián)網(wǎng)時(shí)代,下一個(gè)時(shí)代是機(jī)器人時(shí)代,想改變機(jī)器人現(xiàn)狀,推動(dòng)機(jī)器人時(shí)代的到來(lái),核心技術(shù)是人工智能,而我和智澄AI部分核心團(tuán)隊(duì)在人工智能基礎(chǔ)模型及關(guān)鍵大數(shù)據(jù)等方面深耕多年。
Q:因?yàn)槠鋵?shí)近一年具身智能火爆,有很多企業(yè)加入到賽道當(dāng)中,包括初創(chuàng)企業(yè)和一些大廠。在競(jìng)爭(zhēng)激烈的環(huán)境下,智澄AI作為創(chuàng)業(yè)團(tuán)隊(duì),未來(lái)有哪些核心競(jìng)爭(zhēng)優(yōu)勢(shì)?以及該如何去突破?
A:?主要兩方面,一方面我們堅(jiān)持以理解物理世界、實(shí)現(xiàn)通用人工智能為愿景,不管外界變化如何,以物理智能為核心技術(shù),推動(dòng)機(jī)器人時(shí)代的到來(lái)。另一方面,我們不斷加強(qiáng)技術(shù)產(chǎn)品的迭代,同時(shí)結(jié)合產(chǎn)業(yè)理解和技術(shù)創(chuàng)新,持續(xù)推出匹配市場(chǎng)需求的產(chǎn)品。
Q:特斯拉在10月份“We,Robot”發(fā)布會(huì)上展示了人形機(jī)器人Optimus2,說(shuō)成本會(huì)到2-3萬(wàn)美金價(jià)格區(qū)間,您是如何看待這一定價(jià)的,以及您認(rèn)為未來(lái)機(jī)器人的價(jià)格會(huì)到什么區(qū)間,才能夠?qū)崿F(xiàn)真正的普惠于民?
A:?在特斯拉的帶動(dòng)下,現(xiàn)在人形機(jī)器人確實(shí)比較火。另外我們生活的世界其實(shí)是圍繞人類習(xí)慣而構(gòu)建的,因此很多場(chǎng)景,人形機(jī)器人會(huì)更合適。但我們最終目的是服務(wù)于人,幫助人解決問(wèn)題,所以要思考做什么樣機(jī)器人,而不僅僅只是說(shuō)要像人。比如說(shuō)未來(lái)汽車也是一種機(jī)器人,但不能說(shuō)讓車變成人的形態(tài)背著你跑,現(xiàn)在汽車形態(tài),是比較舒服的形式,所以沒(méi)必要做成人形。
對(duì)于價(jià)格,則是相對(duì)的,現(xiàn)在一輛汽車能夠賣到20萬(wàn)人民幣,就是一個(gè)普遍能夠接受的價(jià)格,而賣到4-5萬(wàn)人民幣,也是可行的,因?yàn)槊鎸?duì)的是不同的需求和不同的受眾群體。因?yàn)楸旧韴?chǎng)景就不太一樣,我覺得價(jià)格本身不是很關(guān)鍵。
Q:之前在制造業(yè)中,已經(jīng)有很多雙臂機(jī)器人進(jìn)行應(yīng)用,能夠滿足工廠的生產(chǎn)需求,智澄AI的雙臂機(jī)器人,會(huì)率先落地制造業(yè),那這與上一代機(jī)器人,在實(shí)際應(yīng)用上,會(huì)有哪些明顯感知的區(qū)別?以及對(duì)制造業(yè)工廠而言,會(huì)產(chǎn)生哪些更有價(jià)值的效益?
A:?我們圍繞具身智能,做人工智能機(jī)器人,主要目的還是做事情干活,幫助人解決問(wèn)題,所以也是從人類的角度思考出發(fā)。因?yàn)槿俗鍪虑榈闹饕课皇请p手,所以我們率先從手開始,即單臂機(jī)器人到雙臂機(jī)器人。我們的機(jī)器人是基于AI原生模型,相比傳統(tǒng)機(jī)器人控制系統(tǒng),有本質(zhì)的變化。傳統(tǒng)的MPC/WBC本質(zhì)還是基于規(guī)則的控制系統(tǒng),優(yōu)勢(shì)比較明顯,即可以實(shí)現(xiàn)精準(zhǔn)控制操作,缺點(diǎn)就在于類似于自動(dòng)駕駛這種強(qiáng)化學(xué)習(xí),泛化能力比較差,稍微調(diào)整一下,就需要重新開始編程,過(guò)程比較繁瑣,類似于自動(dòng)化系統(tǒng)應(yīng)用。而且,因?yàn)檫@種可擴(kuò)展性差,也會(huì)導(dǎo)致其開發(fā)和工程成本比較高。
智澄AI的模型則類似于人腦,已具備一定的泛化能力,最終目標(biāo)是其有很強(qiáng)的泛化能力,能夠很好的適應(yīng)環(huán)境,不會(huì)因?yàn)榄h(huán)境的變化或任務(wù)的變化而重新來(lái)過(guò)。我們的技術(shù)以及解決方案,將真正推動(dòng)機(jī)器人時(shí)代的到來(lái)。
移動(dòng)互聯(lián)網(wǎng)作為上個(gè)時(shí)代影響全球數(shù)十億用戶的核心技術(shù)浪潮,當(dāng)下已基本進(jìn)入存量市場(chǎng),機(jī)器人作為AI在物理世界的硬件載體,有望進(jìn)入十億級(jí)用戶的日常生產(chǎn)及生活之中,我認(rèn)為將是下一波科技浪潮中更大的增量市場(chǎng)。
雖然逐步優(yōu)化產(chǎn)品成本是讓機(jī)器人快速普及的推動(dòng)方式之一,但僅降本很難真正改變行業(yè)現(xiàn)狀,所以我們更多要做的是讓一個(gè)模型不僅僅驅(qū)動(dòng)一種本體更實(shí)用,而是使得不同型號(hào)、不同性能的機(jī)器人本體都能具備更高的功能實(shí) 用性,推動(dòng)本體智能化水平實(shí)用、大規(guī)模的量產(chǎn)的同時(shí)也大幅降低成本。
02 從交互形式、輸出結(jié)果來(lái)看,多模態(tài)大模型與世界模型的本質(zhì)區(qū)別?
Q:多模態(tài)大模型如GPT和我們想做的物理世界大模型,本質(zhì)的區(qū)別是什么?
A:?目前多模態(tài)大模型主要是信息智能(輸入和輸出都是文字、音頻、圖像等信息),以信息交互為主,我們做的事情是物理智能,物理智能可以有很多的應(yīng)用方向,我們主要是聚焦具身智能/機(jī)器人方向的應(yīng)用,幫助機(jī)器人更好的理解物理世界。
從實(shí)時(shí)性來(lái)講,物理智能的輸入是對(duì)外界的直接感知,不是靜態(tài)信息輸入的形式,通過(guò)傳感器直接感知帶有時(shí)間序列的外界環(huán)境信息,輸出的則是時(shí)間序列數(shù)據(jù)(TSD),物理智能需要跟現(xiàn)實(shí)世界實(shí)時(shí)、高頻交互。而多模態(tài)大模型的信息往往是過(guò)往一段時(shí)間的靜態(tài)沉淀信息。
Q:自動(dòng)駕駛汽車也需要與物理世界實(shí)時(shí)交互,與家庭/工作場(chǎng)景的機(jī)器人在技術(shù)實(shí)現(xiàn)難度有什么異同之處?
A:?自動(dòng)駕駛汽車也是機(jī)器人的應(yīng)用場(chǎng)景之一,自動(dòng)駕駛汽車的自由度或者說(shuō)控制指令相對(duì)簡(jiǎn)單(如方向、剎車、油門等),其挑戰(zhàn)的地方是車的速度更快,即便出現(xiàn)小概率的失誤也可能造成重大的損失。
相對(duì)于“汽車機(jī)器人”來(lái)說(shuō),如果在家用、生產(chǎn)、危險(xiǎn)等場(chǎng)景的替代或服務(wù)人類勞動(dòng)機(jī)器人,其動(dòng)作復(fù)雜度及任務(wù)控制指令相對(duì)來(lái)說(shuō)也許會(huì)更復(fù)雜,但機(jī)器人執(zhí)行一般的生產(chǎn)或服務(wù)工作可接受的失誤容忍度相對(duì)自動(dòng)駕駛來(lái)說(shuō)更寬松,即便偶然出現(xiàn)一次如杯子掉落等問(wèn)題,損失相對(duì)可控。
Q:我們的機(jī)器人模型在實(shí)際工作中,如何克服可能出現(xiàn)的長(zhǎng)尾問(wèn)題?從而提高泛化性
A:?當(dāng)前強(qiáng)化學(xué)習(xí)技術(shù)路徑在無(wú)人駕駛領(lǐng)域被廣泛使用,但至今仍未讓車真正實(shí)現(xiàn)無(wú)人駕駛上路。我們的世界模型核心是解決泛化性問(wèn)題,并沒(méi)有從強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制出發(fā),而是從端到端神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn),這是本質(zhì)性的區(qū)別。
同時(shí)機(jī)器人在理解物理世界的時(shí)候,也需要像人一樣,具備一定的預(yù)測(cè)能力,才能夠?qū)](méi)被訓(xùn)練過(guò)的事情有一定的應(yīng)對(duì)能力。一方面因?yàn)橛肋h(yuǎn)有長(zhǎng)尾問(wèn)題存在,另一方面物理世界本身也是在不斷變化的,所以我們的物理世界模型希望實(shí)現(xiàn)機(jī)器人能夠像人一樣具備思考、推斷、舉一反三的能力。
Q:未來(lái)物理世界大模型發(fā)展軌跡是否會(huì)與GPT在過(guò)去幾年的迭代發(fā)展有相通之處?
A:?從未來(lái)的發(fā)展預(yù)判來(lái)看,就像GPT一樣,它也會(huì)是一個(gè)階段一個(gè)階段的發(fā)展過(guò)來(lái)?,F(xiàn)階段世界模型已經(jīng)表現(xiàn)出很不錯(cuò)的能力了,例如我們已經(jīng)可以實(shí)現(xiàn)了用單個(gè)模型控制實(shí)現(xiàn)多個(gè)任務(wù)、也可以實(shí)現(xiàn)在不同光線場(chǎng)景條件下完成任務(wù)的泛化能力。
從另一個(gè)層面來(lái)說(shuō),多模態(tài)大模型其舉一反三能力、自監(jiān)督學(xué)習(xí)等能力,這些技術(shù)、特性也會(huì)被引入到世界模型開發(fā)改進(jìn)中,來(lái)幫助世界模型快速發(fā)展。
03 具身大模型只有具備任務(wù)、環(huán)境、本體三重泛化能力,才能真正推動(dòng)機(jī)器人時(shí)代到來(lái)
Q:如何理解機(jī)器人的泛化能力?是從一個(gè)固定場(chǎng)景訓(xùn)練升級(jí),然后泛化應(yīng)用到其他場(chǎng)景中嗎?
A:?現(xiàn)階段深度強(qiáng)化學(xué)習(xí)雖然不能夠解決長(zhǎng)尾場(chǎng)景問(wèn)題,但在實(shí)際的生產(chǎn)線中(如汽車生產(chǎn)線的某一部分),通過(guò)強(qiáng)化某一任務(wù)的技能,效果反而會(huì)更好一些。但如果汽車生產(chǎn)線伴隨柔性生產(chǎn)的趨勢(shì)需要定期變化,強(qiáng)化學(xué)習(xí)路徑的可擴(kuò)展性有限,需要重新采集數(shù)據(jù)進(jìn)行學(xué)習(xí)。
而物理世界模型則可以很快適應(yīng)這種調(diào)整,不需要針對(duì)任務(wù)變化重新訓(xùn)練一遍,而是可以基于原來(lái)的基礎(chǔ)馬上調(diào)整,適用于新任務(wù)。另外在跨場(chǎng)景中,世界模型也可以實(shí)現(xiàn)輕松的遷移。
打個(gè)比方,現(xiàn)階段世界模型有點(diǎn)像一顆小樹苗,雖然當(dāng)前與其他樹苗在外觀差異不大,未來(lái)潛力巨大,更有機(jī)會(huì)長(zhǎng)成參天大樹。
Q:世界模型有一個(gè)很好的泛化能力,您覺得這種泛化的能力,主要來(lái)自哪個(gè)技術(shù)能力的突破?
A:?一方面是很強(qiáng)的理解物理世界的能力,就像人一樣,在能感知到環(huán)境的情況下,能夠做出實(shí)時(shí)的決策判斷。機(jī)器人操作也好,無(wú)人車運(yùn)行也好,都是不斷地進(jìn)行決策。
另一方面物理世界大模型與多模態(tài)大模型的涌現(xiàn)很類似,能夠舉一反三,在物理世界的任務(wù)上有很強(qiáng)的泛化推理能力。但也需要避免多模態(tài)大模型會(huì)出現(xiàn)的幻覺問(wèn)題,而物理世界的機(jī)器人我們希望能夠真正可靠(不存在幻覺問(wèn)題),我們將分成幾個(gè)階段逐步優(yōu)化模型,從而使其能夠既可靠,又能夠具備泛化能力。
Q:智澄AI的大模型訓(xùn)練是否會(huì)面臨算力成本的問(wèn)題?如何解決這一難題?
A:?算力也是重點(diǎn)投入的方向之一,我們會(huì)隨著模型分階段的訓(xùn)練目標(biāo)持續(xù)投入。同時(shí)由于我們具備深厚的模型架構(gòu)及工程化能力,模型體量會(huì)遠(yuǎn)小于當(dāng)前多模態(tài)大語(yǔ)言模型,算力需求也相對(duì)可控。
本文來(lái)自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.gptmaths.com/cgo/127602.html