被稱為“國(guó)產(chǎn)最強(qiáng)”,科大訊飛的星火AI大模型有點(diǎn)東西

科大訊飛的「星火」認(rèn)知大模型(以下簡(jiǎn)稱“星火”)在推出之際,便高調(diào)宣稱對(duì)標(biāo)ChatGPT。那么星火究竟到了什么水平?足夠叫板AI賽道的霸主嗎?

出品 | 微果醬(wjam123456)

作者?| 陳出木

在此前測(cè)評(píng)百度文心一言的文章評(píng)論區(qū),有小伙伴表示,星火的“使用效果不錯(cuò)”。

星火是科大訊飛經(jīng)過5個(gè)月時(shí)間研發(fā)出來的大模型,在5月6日的發(fā)布會(huì)上正式面世。在國(guó)產(chǎn)大模型中,星火算不上首發(fā)玩家,科大訊飛的知名度也沒有其他大廠們高,卻少見敢公開對(duì)標(biāo)ChatGPT的。

果醬妹這不就給大家火速安排了一期實(shí)測(cè),看看相比名聲在外的ChatGPT和文心一言,星火到底好不好使。

 

 

01#
如何正確打開星火?

打開星火的官網(wǎng)(https://xinghuo.xfyun.cn/),登錄并點(diǎn)擊“申請(qǐng)注冊(cè)”,等待官方審核通過即可體驗(yàn)。

有一說一,相比文心一言的部分內(nèi)測(cè)申請(qǐng)能卡上一個(gè)月,普遍反饋星火的審核速度很快,果醬妹在注冊(cè)申請(qǐng)后一個(gè)半小時(shí)就通過了審核。

進(jìn)入星火的界面,對(duì)話框和其他模型相差無幾。

對(duì)比連色調(diào)都有些類似的文心一言,星火的左邊欄有“純凈”和“沉浸”兩種模式,可以將界面主題色調(diào)整為藍(lán)色和黑色。但僅能調(diào)色的功能和能通過修改模式調(diào)整回答風(fēng)格的Bing相比,似乎落于下風(fēng)。

圖片

在星火的右邊欄還有四個(gè)導(dǎo)航按鈕,包括使用指南、意見反饋、指令推薦和直播回看四個(gè)功能。其中,點(diǎn)擊“指令推薦”,可以看到星火根據(jù)行業(yè)和應(yīng)用場(chǎng)景不同,準(zhǔn)備了常用的指令集合,可以降低用戶通過AI對(duì)話來獲取想要答案的門檻。

圖片

如果用戶找到合適的指令,可以直接點(diǎn)擊“執(zhí)行”跳轉(zhuǎn)提問對(duì)話。不過,果醬妹在使用過程中,發(fā)現(xiàn)只有前面第一行的指令能夠如此操作,下方標(biāo)注了“編輯執(zhí)行”的指令,則需要復(fù)制并人工切換頁面進(jìn)行操作。

圖片

此外,星火也和文心一言一樣提供了模板功能,在對(duì)話框輸入“/”即可選擇相應(yīng)問題模板,就模板數(shù)量而言,星火略勝一籌。

圖片

02#
星火會(huì)是國(guó)內(nèi)版ChatGPT嗎?

在星火的發(fā)布會(huì)上,官方自信表示,

中文領(lǐng)域已在文本生成、知識(shí)問答、數(shù)學(xué)能力3個(gè)維度超越ChatGPT,并將于10月24日在中文上超越ChatGPT,在英文上達(dá)到跟它相當(dāng)?shù)乃健?/strong>

那么,星火到底能不能行?

1、文本生成

對(duì)于新媒體人來說,文本生成功能是一個(gè)重要輔助。所以,果醬妹選擇把今天的選題交給星火試試手。

盡管提問中出現(xiàn)了錯(cuò)別字,但并不妨礙星火識(shí)別問題并作答,生成的文章基本通順,連接詞、過渡句也都不缺,甚至兼顧了“風(fēng)格生動(dòng)有趣”的需求。

果醬妹又對(duì)這篇文章提出了細(xì)化的需求,但星火生成的是一篇步驟完善的報(bào)告,需要再次引導(dǎo)才能轉(zhuǎn)化成文章。

圖片

而和其他AI大模型一樣,星火也難以與時(shí)俱進(jìn),對(duì)網(wǎng)絡(luò)熱點(diǎn)或熱梗都不能很好地理解并響應(yīng)。比如面對(duì)分析最近走紅的“挖呀挖”“泰褲辣”等熱點(diǎn)事件,星火的回答可謂無中生有,除了結(jié)構(gòu),通篇離題。(用AI來追熱點(diǎn)的夢(mèng)碎了)

圖片

果醬妹還測(cè)試了星火的短篇文案生成能力。就朋友圈文案和小紅書文案的生成情況來說,需要有更強(qiáng)個(gè)人主觀色彩的朋友圈文案表現(xiàn)并不能讓人滿意,而商業(yè)化更重些的小紅書文案則相對(duì)良好。但對(duì)于做客服或運(yùn)營(yíng)的小伙伴來說,星火還是能勝任“小助理”的角色的。

短視頻腳本也能生成,但仍需要人工進(jìn)行引導(dǎo)、調(diào)整、潤(rùn)色。

而到“藏頭詩”環(huán)節(jié),星火就失靈了。無論果醬妹如何更換藏頭的關(guān)鍵詞,星火一意孤行,堅(jiān)持不按照傳統(tǒng)的藏頭詩形式作答。或許是因?yàn)樾腔鸩⑽唇邮苓^這方面的訓(xùn)練,其并不能正確理解“藏頭詩”的意思。

當(dāng)果醬妹指出星火的錯(cuò)誤之后,AI認(rèn)錯(cuò)但胡說八道的本能再次出現(xiàn)。顯然,在傳統(tǒng)文化方面,文心一言還是領(lǐng)先了一些距離的。

除了作文,星火在生成郵件方面的表現(xiàn)大致及格,會(huì)根據(jù)收件人是好朋友還是老板,轉(zhuǎn)變郵件的措辭風(fēng)格。但相對(duì)來說,星火更擅長(zhǎng)工作類型的郵件,而涉及情感因素的郵件仍然比較生硬。

可以說,星火在文本生成方面的能力是能超過及格線的,對(duì)問題及提問意圖都能夠做出相對(duì)正確的理解判斷,并生成基本合格的答案。但星火也有AI的通病,無法處理主觀性太強(qiáng)的內(nèi)容,及訓(xùn)練不充分的傳統(tǒng)文化內(nèi)容。

2、知識(shí)問答

果醬妹首先向星火提問了曾經(jīng)難住文心一言的腦筋急轉(zhuǎn)彎——能否把大象放進(jìn)冰箱。星火理解了問題的本質(zhì)并輕松解決,答案和Bing類似。

但除了這種非常經(jīng)典的問題,星火并不能夠回答出相對(duì)少見的腦筋急轉(zhuǎn)彎問題,即便這些問題對(duì)于人類小朋友來說并不難。

此外,星火在音樂方面暴露了短板。面對(duì)果醬妹提出的找歌和介紹樂隊(duì)的需求,星火出現(xiàn)了編造答案的的情況。且不論問題,其給出的答案中,事實(shí)錯(cuò)誤包括歌曲《媽媽的吻》并非由李玟演唱,The Traveling Band這支樂隊(duì)和樂手在百度暫時(shí)查無此人等。

當(dāng)然,如果回歸到相對(duì)常規(guī)的問題,星火還是能夠做好的,諸如腰疼的原因和應(yīng)對(duì)、用PPT制作動(dòng)畫的步驟等生活工作類型的問題。

可見,星火或許還是太年輕了,接受的訓(xùn)練和數(shù)據(jù)庫的廣度都存在不足,導(dǎo)致其在知識(shí)問答方面有巨大短板。就這方面而言,具備搜索引擎業(yè)務(wù)的百度文心一言和微軟Bing顯然有更大的優(yōu)勢(shì)。

3、數(shù)學(xué)能力

鑒于此前在文心一言和Bing上都因?yàn)閿?shù)學(xué)碰過壁,果醬妹對(duì)于星火的數(shù)學(xué)能力其實(shí)并沒有抱非常大的期待。結(jié)果也不出預(yù)料地翻車了,前兩者沒有解決的問題,星火也沒能做出來。

但如果換成《孫子算經(jīng)》上記錄的雞兔同籠問題,星火又可以了。

甚至包括雞兔同籠問題的變式,星火也能夠解出正確答案。

經(jīng)過幾次測(cè)試,星火的數(shù)學(xué)能力大約相當(dāng)于小學(xué)生水平,初中及以上的題目基本都以失敗告終。(問AI還不如問更專業(yè)的XX搜題)

03#
寫在最后

近日發(fā)布的中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE,其評(píng)測(cè)與排名的結(jié)果顯示,國(guó)產(chǎn)大模型中,科大訊飛研發(fā)的星火認(rèn)知大模型總排名第三,國(guó)內(nèi)排名第一。

單看圖表,星火和文心一言差距極大。但一番測(cè)試下來,我們不難發(fā)現(xiàn),AI的優(yōu)勢(shì)和毛病,星火其實(shí)一個(gè)不落。

在交互方面,星火更類似于ChatGPT,不像文心一言那么生硬,脾氣也更好一點(diǎn)。而回歸業(yè)務(wù)能力,星火和文心一言其實(shí)差不多,日常的都能做,但難度一加碼就翻車,熱點(diǎn)熱梗跟不上,并且都是數(shù)學(xué)不好的偏科生。

當(dāng)然,文心一言還年輕,星火更是在初生期,我們需要給國(guó)產(chǎn)大模型更多的耐心和時(shí)間。僅就當(dāng)前階段來說,它們已經(jīng)能夠在生活工作中發(fā)揮一定的輔助作用,至于如何揚(yáng)長(zhǎng)避短,就是人類需要做的事情了。

這也意味著,AI工具普及已經(jīng)在潛移默化中開始了,我們不應(yīng)該成為最后知道的那一批人。

本文來自投稿,不代表增長(zhǎng)黑客立場(chǎng),如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.gptmaths.com/cgo/product/97681.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
上一篇 2023-05-17 14:30
下一篇 2023-05-17 14:37

增長(zhǎng)黑客Growthhk.cn薦讀更多>>

發(fā)表回復(fù)

登錄后才能評(píng)論