點(diǎn)擊關(guān)注
文 | 姚悅
今年最早發(fā)布的那批大模型,現(xiàn)在怎么樣了?
近期,商湯科技宣布“商湯日日新SenseNova”大模型體系完成了第一次重大迭代。這距離其發(fā)布過去3個(gè)月時(shí)間。
“每天不斷接到用戶調(diào)用,收到建議反饋后,每隔幾天都會(huì)進(jìn)行快速更新。同時(shí),也會(huì)有長(zhǎng)遠(yuǎn)規(guī)劃,每隔一個(gè)月或幾個(gè)月,大模型要有質(zhì)變,上一個(gè)臺(tái)階?!鄙虦萍悸?lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛表示,大模型體系確實(shí)在“日日新”。
“商湯日日新SenseNova”各大模型都已經(jīng)完成不同程度升級(jí)。商量SenseChat升級(jí)到2.0版本,上下文長(zhǎng)度從2k(2048個(gè)字)提升到了32k(32768個(gè)字),意味著能夠更加充分理解上下文。在知識(shí)信息準(zhǔn)確性、邏輯判斷能力、創(chuàng)作性等方面都有了更多提升。
而目標(biāo)“賦能各行各業(yè)”,商湯科技大模型的多模態(tài)能力也不斷在金融、醫(yī)療,以及智能汽車領(lǐng)域等領(lǐng)域場(chǎng)景已經(jīng)實(shí)現(xiàn)或正在探索落地。
特別是在近期的CVPR(國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議)2023中,商湯科技及聯(lián)合實(shí)驗(yàn)室提出業(yè)內(nèi)首個(gè)感知決策一體化的自動(dòng)駕駛通用大模型——UniAD,多項(xiàng)關(guān)鍵技術(shù)指標(biāo)上超越了SOTA(當(dāng)前最先進(jìn)技術(shù))?!按竽P鸵欢〞?huì)對(duì)下一代自動(dòng)駕駛產(chǎn)生深刻影響。”王曉剛表示。
不過,商湯科技大模型體系迭代的同時(shí),外界環(huán)境亦在劇變。
經(jīng)歷半年多的“大煉?!保瑖?guó)內(nèi)大模型從“硬橋硬馬”的參數(shù)競(jìng)賽,已經(jīng)進(jìn)入到“真刀真槍”解決問題的下半場(chǎng)階段,競(jìng)爭(zhēng)愈加白熱化。甚至有資本市場(chǎng)人士認(rèn)為,這輪“百模大戰(zhàn)”,國(guó)內(nèi)AI大模型最終勝出的不超過2%,意味著,剩下98%的國(guó)內(nèi)大模型都會(huì)消失在競(jìng)爭(zhēng)中。
激烈的競(jìng)爭(zhēng)中,如何才能躋身“關(guān)鍵少數(shù)”?近期,光錐智能對(duì)話商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛,了解商湯科技當(dāng)前階段關(guān)于大模型的經(jīng)驗(yàn)、思考和規(guī)劃。
核心觀點(diǎn):
1、以前每個(gè)領(lǐng)域都有自己的模型,每個(gè)行業(yè)每個(gè)方向有自己的研發(fā)團(tuán)隊(duì),大家協(xié)同性不需要那么高,但今天必須是高度協(xié)同的狀態(tài),一定需要對(duì)研發(fā)體系進(jìn)行重塑。
2、大模型一定會(huì)對(duì)下一代自動(dòng)駕駛產(chǎn)生深刻影響。
3、如何讓視覺信息和語言信息有同樣的特征表達(dá),進(jìn)行更好的融合,同時(shí)把圖像里面豐富的語義內(nèi)涵去挖掘出來,是發(fā)展多模態(tài)的一大挑戰(zhàn)。
4、保證大模型的優(yōu)勢(shì)需要做到三點(diǎn):一是軟硬件基礎(chǔ)設(shè)施,二是深入到各個(gè)行業(yè)高速運(yùn)轉(zhuǎn)大模型研發(fā)體系,三是不斷創(chuàng)新目標(biāo)和方式。
(商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁 王曉剛)
以下為對(duì)話實(shí)錄:
————————————————————————————————
“今天必須高度協(xié)同,就需要重塑研發(fā)體系”
Q:商湯科技最新推出的“商量2.0”新增了知識(shí)庫融合接口,有什么具體作用?
A:一些客戶有專屬領(lǐng)域知識(shí)需求,如果沒有外掛知識(shí)庫融合,就需要把客戶的數(shù)據(jù)拿來,再去訓(xùn)練模型,一方面成本比較高,涉及到整個(gè)模型的迭代;另一方面,安全性不能得到保障。
通過知識(shí)庫的融合,不需要進(jìn)入到模型本身,就可以比較簡(jiǎn)單、方便地把領(lǐng)域知識(shí)總結(jié)在一起,解決大模型的“幻覺”問題。
Q:商湯科技的AI大裝置SenseCore如何同步升級(jí)?
A:在過去幾個(gè)月,大裝置也都處于非常緊張的迭代狀態(tài),要保證有更大規(guī)模的卡連接,也要保證卡間、機(jī)間通訊支持穩(wěn)定運(yùn)行。
同時(shí),大裝置也需要針對(duì)不同類型的應(yīng)用,不同類型模型進(jìn)行優(yōu)化。比如做秒畫,要涉及到生成非常高清的高質(zhì)量圖像,就涉及到大量數(shù)據(jù)傳輸,對(duì)帶寬要求就非常高,這和自然語言模型就很不一樣。所以隨著模型演進(jìn),大裝置本身系統(tǒng)能力也在提升。此外,在部署端也在做一些工作。
Q:關(guān)于商湯AI大裝置SenseCore,是不是可以理解為是一個(gè)提供基礎(chǔ)設(shè)施的基站,團(tuán)隊(duì)在整個(gè)商湯內(nèi)部是類似于中臺(tái)的形式?
A:可以把大裝置理解成一個(gè)基礎(chǔ)設(shè)施,同樣,各個(gè)大模型的團(tuán)隊(duì),也是把這個(gè)模型去提供給各個(gè)行業(yè)的行業(yè)線,從某種意義上,也是中臺(tái)。
所以將來,商湯一定需要對(duì)研發(fā)體系進(jìn)行重塑,能夠去充分利用好這些公共資源,把各個(gè)行業(yè)的信息匯聚導(dǎo)入到大模型還有中臺(tái),建立起基礎(chǔ)設(shè)施。
這就和以前人工智能的發(fā)展很不一樣,以前每個(gè)領(lǐng)域都有自己的模型,每個(gè)行業(yè)每個(gè)方向有自己的研發(fā)團(tuán)隊(duì),大家協(xié)同性就不需要那么高,但今天必須是高度協(xié)同的狀態(tài)。
Q:商湯科技的“日日新”現(xiàn)在是以什么樣的速度更新的?
A:每天都不斷接到用戶調(diào)用,很多重點(diǎn)客戶很有積極性,會(huì)比較全方位地測(cè)試和評(píng)估,也會(huì)給出方向性的建議。所以收到這些反饋以后,(大模型)每隔幾天都會(huì)進(jìn)行快速更新。
同時(shí),也有長(zhǎng)期規(guī)劃,每隔一個(gè)月或幾個(gè)月,模型在有些地方要有質(zhì)變。比如,“商量”模型,4月10號(hào)發(fā)布的模型,上下文的長(zhǎng)度是2k,現(xiàn)在商量2.0能做到32k,就能有非常強(qiáng)的能力去理解上下文。
Q:客戶反饋跟研發(fā)迭代之間的流程具體是什么樣的,效果如何?
A:客戶很多,大模型團(tuán)隊(duì)人數(shù)有限,不可能讓大模型團(tuán)隊(duì)直接去面對(duì)這么多客戶。所以要?jiǎng)訂T整個(gè)公司的產(chǎn)品和研發(fā)力量,把大模型開放給其他各個(gè)研發(fā)團(tuán)隊(duì)。
這些研發(fā)團(tuán)隊(duì)跟客戶對(duì)接過程中,能夠去探索怎么樣調(diào)整模型,更好滿足各個(gè)行業(yè)的需求。一旦根據(jù)需求找到對(duì)應(yīng)調(diào)試方式,就會(huì)對(duì)基座模型團(tuán)隊(duì)反饋,基座模型團(tuán)隊(duì)再進(jìn)行模型更新。
不過,各個(gè)研發(fā)團(tuán)隊(duì)并不是立刻把客戶的需求反饋,而是開發(fā)一段時(shí)間,對(duì)用戶的需求進(jìn)行消化、整理,然后做二次創(chuàng)新,得到一些比較確定的結(jié)論,再給到基座模型團(tuán)隊(duì)。
這樣做,最大程度地節(jié)省了基座模型團(tuán)隊(duì)的時(shí)間和資源,同時(shí)能夠動(dòng)員整個(gè)公司的研發(fā)和產(chǎn)品的資源去對(duì)接客戶。
“大模型一定會(huì)對(duì)下一代自動(dòng)駕駛產(chǎn)生深刻影響”
Q:有觀點(diǎn)認(rèn)為“大模型永遠(yuǎn)是現(xiàn)實(shí)世界的子集”,商湯如何看待這個(gè)說法?;谶@個(gè)說法,智能駕駛輔助是否真的可以通過大模型訓(xùn)練來實(shí)現(xiàn)無人駕駛的終極目標(biāo)?
A:人的認(rèn)知本身也是現(xiàn)實(shí)世界的一個(gè)子集,而且是在不斷演進(jìn)的過程當(dāng)中。如果說“大模型是現(xiàn)實(shí)世界的子集”也沒錯(cuò)。但最核心的,還是要看到大模型現(xiàn)在無論對(duì)科技進(jìn)步,還有行業(yè)發(fā)展都帶來了深刻變化。而且人工智能發(fā)展也是永無止境的,也不是單一維度,可能在未來結(jié)合其他維度有突破,不斷有新的成果產(chǎn)生。
大模型一定會(huì)對(duì)下一代自動(dòng)駕駛產(chǎn)生比較深刻影響,大模型的特點(diǎn)是不斷去解鎖人類之前不能完成的新功能和新任務(wù)。
現(xiàn)在自動(dòng)駕駛不夠智能,有幾方面原因,首先,車上各種傳感器種類非常多,不同類型的傳感器融合具有挑戰(zhàn)性;其次,自動(dòng)駕駛系統(tǒng)和人工智能系統(tǒng),最核心的是做決策和判斷的模塊,但目前這些模塊還是基于規(guī)則。
在未來,大模型會(huì)給自動(dòng)駕駛帶來三個(gè)重要變化:
第一個(gè),核心決策模塊,可以用語言模型去替代以往比較簡(jiǎn)單的規(guī)則;
第二,決策模塊變得非常強(qiáng)大,可以更好地融合從感知模塊輸出的各種信息,提升整體安全性和駕駛體驗(yàn)。
例如,車上感知、決策,規(guī)劃、控制眾多模塊,原來都是割裂來看,分別去開發(fā),然后通過手動(dòng)的方式進(jìn)行鏈接。但商湯最近發(fā)布的首個(gè)端到端的自動(dòng)駕駛通用大模型——UniAD,就是以最終的駕駛體驗(yàn)為目標(biāo),讓這些模塊實(shí)現(xiàn)端到端優(yōu)化,可以極大提升開發(fā)效率。
第三,自動(dòng)駕駛還有一大挑戰(zhàn),就是AI模型可執(zhí)行、可解釋性不高。但現(xiàn)在大模型,尤其是語言模型,不單是輸出結(jié)果,還可以輸出中間的邏輯推理過程來解釋這原因。所以,未來的自動(dòng)駕駛系統(tǒng),會(huì)有更好的可解釋性,出現(xiàn)問題的時(shí)候,可以更好地去診斷,更好地輔助提升各方面的能力。
Q:UniAD有沒有應(yīng)用到實(shí)際的量產(chǎn),或者走向一個(gè)應(yīng)用階段,有沒有可以立刻分享的?
A:面向量產(chǎn)還有一定的周期,但現(xiàn)在已經(jīng)開始,基于我們以往在自動(dòng)駕駛領(lǐng)域的量產(chǎn)經(jīng)驗(yàn),繼續(xù)過去的一些方法——BEV、Transfomer,以及其它智駕系統(tǒng),會(huì)發(fā)現(xiàn)一些非常難解決的例子,針對(duì)這些例子現(xiàn)在用UniAD的框架去進(jìn)行測(cè)試,就會(huì)看到有比較顯著的提升。
Q:在智能駕駛方面,會(huì)不會(huì)在大模型上有更多的探索?
A:大模型的投入一定是持續(xù)的。大模型能夠讓商湯找到核心價(jià)值所在,未來也會(huì)給客車企業(yè)開放接口,在上面做二次開發(fā)創(chuàng)新。
“往通用視覺方向努力”
Q:商湯已經(jīng)推出多種類別的大模型,在戰(zhàn)略部署上未來是不是會(huì)有一些側(cè)重點(diǎn),是會(huì)偏向視覺語言,還是多模態(tài)的發(fā)展?
A:是偏向多模態(tài),AI系統(tǒng)一定能夠更好把握各種多模態(tài)的信息,現(xiàn)實(shí)生活中遇到很多應(yīng)用場(chǎng)景,自動(dòng)駕駛還有機(jī)器人等等,都會(huì)運(yùn)用到多模態(tài)。
Q:“書生”系列的統(tǒng)一通用視覺任務(wù)框架,是不是可以理解為就是商湯在追求“視覺版的ChatGPT”或者是“視覺版的AGI”?
A:是往通用視覺這個(gè)方向努力,3月份發(fā)布的“書生2.5”,現(xiàn)在也正式做了比較大的升級(jí),推出“書生多模態(tài)”的模型。這里面統(tǒng)一了自然語言指令,可以定義各種開放式任務(wù),像之前視覺任務(wù)都是預(yù)定義任務(wù),現(xiàn)在做延申以后,有非常開放的350萬語義標(biāo)簽,能夠更好地覆蓋開放世界里面各種類別和概念。
舉個(gè)例子,出國(guó)的話,如果國(guó)外菜單看不懂,就可以拍一張照片,大模型能介紹菜單有什么,還會(huì)給一些建議,你可以提要求,想吃葷的還是素的,預(yù)算多少,它就會(huì)給你一些組合建議等等。
所以,多模態(tài)能夠幫助我們與現(xiàn)實(shí)世界有更好的交互,這也是商湯致力于這一方向的原因,希望在不斷探索與推進(jìn)的過程中,給人類帶來新的價(jià)值。
Q:研究語言大模型方面的思路和路徑和傳統(tǒng)NLP會(huì)有哪些差異,大模型的思路對(duì)于商湯研究視覺或者通用視覺智能會(huì)有什么啟發(fā)?
A:現(xiàn)在研究自然語言,和以前研究思路很不一樣。過去幾十年是基于語法的規(guī)則來產(chǎn)生語義、語法的分析書等等,現(xiàn)在都是基于大模型,基于Transformer網(wǎng)絡(luò)架構(gòu)。
商湯從2019年開始從事大模型方面的研究,當(dāng)時(shí)視覺就走的(大模型)這條路線。在Transformer領(lǐng)域里,商湯本身也有比較深的研究,在自動(dòng)駕駛里面提出的BEV也是行業(yè)里面影響比較大的“老架構(gòu)”。
當(dāng)商湯從2021年開始從事自然語言研究的時(shí)候,這方面是有比較明顯的優(yōu)勢(shì),再往多模態(tài)方向發(fā)展的時(shí)候,語言視覺開始有更加深度融合,就體現(xiàn)出比較強(qiáng)的這方面的積累和能力。
Q:商湯是從視覺大模型做起,現(xiàn)在做到多模態(tài)大模型有什么挑戰(zhàn)?
A:在開發(fā)大模型過程中,怎么能夠讓視覺信息和語言信息有同樣的特征表達(dá),有很好的融合,例如,一張圖能夠迎合1000多個(gè)詞,怎么能夠把圖像里面非常豐富的語義的內(nèi)涵去挖掘出來,是開發(fā)(多模態(tài))大模型過程中面臨的挑戰(zhàn)。
此外,要想做好多模態(tài),視覺還有語言,這些模型都需要比較強(qiáng)。要能夠更好地運(yùn)用多模態(tài),還需要深入了解各行業(yè)。因?yàn)橛幸恍┒嗄B(tài)的數(shù)據(jù),例如自動(dòng)駕駛、機(jī)器人等領(lǐng)域的視覺任務(wù)數(shù)據(jù),現(xiàn)階段在互聯(lián)網(wǎng)上是沒有的。
如何在“百模大戰(zhàn)”中保持優(yōu)勢(shì)?
Q:當(dāng)前“百模大戰(zhàn)”態(tài)勢(shì)中,商湯“日日新”大模型體系如何在這種激烈的競(jìng)爭(zhēng)中保持優(yōu)勢(shì)?
A:首先,商湯“日日新”大模型有一個(gè)比較長(zhǎng)的歷史積累,從2019年開始,我們就從事大模型方面的研究,也比較早建立大裝置軟硬件的基礎(chǔ)設(shè)施。第二,需要針對(duì)大模型給行業(yè)帶來的變化,重塑研發(fā)體系。第三,不要一直去追隨國(guó)外的成果,而是要基于大模型在應(yīng)用上的落地,有自己的創(chuàng)新性。
Q:商湯在創(chuàng)新方面具體有哪些成果?
A:今年6月,商湯的智能決策在《我的世界》游戲上面取得了重要突破。在過去幾年,包括OpenAI、DeepMind都花了大量的精力在這個(gè)方向上,基于強(qiáng)化學(xué)習(xí),完成開放世界里面的任務(wù)。它們過去幾年一共解決了78個(gè)任務(wù),而商湯融合語言模型去做,能夠解決全部的262個(gè)任務(wù)。
決策這個(gè)方向的市場(chǎng)很廣,基于大模型,未來可以用到機(jī)器人、自動(dòng)駕駛等各領(lǐng)域。
此外,“書生”多模態(tài)大模型也是一大創(chuàng)新。以往無論是圖像視頻、視覺任務(wù),有檢測(cè)分割分類等等,這些都是過去幾十年定義好的,但是有了新任務(wù)時(shí)候都不太可以用語言描述新的任務(wù)。像Meta能夠去做任意物體的分割,今天商湯做的這些事情要遠(yuǎn)遠(yuǎn)超過他們的能力,可以通過自然語言去定義新的視覺任務(wù),可以及時(shí)去給出新的任務(wù)結(jié)果輸出。
歡迎關(guān)注“光錐智能”,獲取更多前沿科技知識(shí)!
本文來自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.gptmaths.com/quan/102393.html