欧美高清免费一本二本三本,成人性生交大免费看,日韩精品性涩视频在线

文｜白鴿

編｜王一粟

OpenAI最新大模型o1的發(fā)布，標志著大模型正式邁入推理時代。但邁入推理時代后，大模型的不可能三角問題更加凸顯——成本、效率和性能難以平衡。

一般來說，想要模型效果好，就需要模型大，但模型越大，意味著參數(shù)越多，參數(shù)越多其背后的算力成本就不斷提升，甚至是幾十上百倍的提升。同時，在模型大、成本低的情況下，還要求模型響應(yīng)延遲足夠低。

想要破解大模型不可能三角的問題，通過優(yōu)化算力資源，在不犧牲模型性能的前提下盡可能降低模型部署成本，成為行業(yè)中的關(guān)鍵解法。

此背景下，聚焦智能算力優(yōu)化的AI Infra賽道崛起。AI Infra，是指在大模型生態(tài)系統(tǒng)中，鏈接算力和應(yīng)用的中間層基礎(chǔ)設(shè)施，包括硬件、軟件、工具鏈和優(yōu)化方法等，是一個整體解決方案。

那么，AI Infra到底怎么實現(xiàn)算力資源的優(yōu)化？又如何跑通其中的商業(yè)閉環(huán)邏輯？作為AI Infra賽道的創(chuàng)企，脫胎于清華大學(xué)高性能研究所的趨境科技給出了自己的思考和解法。

大模型發(fā)展過程中，最底層算力基礎(chǔ)設(shè)施是以GPU為主，如果把其比做汽車發(fā)動機，可以看到，發(fā)動機如果性能好，汽車就可以跑的快，但想要汽車跑的更快，就不能僅靠發(fā)動機，還需要空氣動力學(xué)、傳動軸、輪胎等整車體系化能力的升級。

“現(xiàn)階段很多AI Infra企業(yè)更多是聚焦對GPU進行效率優(yōu)化，而我們則是進行了全系統(tǒng)架構(gòu)設(shè)計。要真正的榨干所有硬件資源，從而突破GPU算力制約?！壁吘晨萍糃EO艾智遠?如此說道。

因此，趨境科技提出以存換算和全系統(tǒng)協(xié)同優(yōu)化推理解決方案，通過協(xié)同存儲、CPU、GPU、NPU等多種設(shè)備，相當(dāng)于把機器內(nèi)所有硬件資源全部用上，充分釋放異構(gòu)算力，將推理成本降低10倍以上。

趨境科技通過協(xié)同所有硬件資源，為大模型提供充足的算力的同時，也通過“以存換算”技術(shù)釋放存力作為算力的補充，降低大模型對算力的需求。

早期大模型推理架構(gòu)將每次推理視為獨立請求，缺乏高效處理所需的“記憶”能力。盡管后續(xù)引入了近似問題緩存（Semantic Query Cache）和前綴緩存（Prefix KVCache Cache），但仍主要依賴于“死記硬背”。這些方案要求新問題與已處理問題高度一致，才能利用緩存去降低算力需求。

“以存換算”的技術(shù)便是針對這一問題所設(shè)計，通過調(diào)用存儲空間和“融合推理（Fusion Attention）”技術(shù)，即便是面對全新的問題也可以從歷史相關(guān)信息中提取可復(fù)用的部分內(nèi)容，與現(xiàn)場信息進行在線融合計算。這一技術(shù)顯著提升了可復(fù)用的歷史計算結(jié)果，進而降低了計算量。

實際上，這就相當(dāng)于給大模型增加了一個存儲體，這個存儲體存儲的不是文檔，而是模型推理過程中的中間結(jié)果，可以理解為大模型推理結(jié)果的記憶元。就像我們的大腦一樣，儲存了海量的運算好的信息，在我們想要表達或者推理的時候，能夠從大腦中調(diào)用出一部分運算好的信息供我們使用。

“我們技術(shù)的本質(zhì)，就是通過過往用戶提問時，對大模型運算過程中的中間結(jié)果進行緩存，然后當(dāng)用戶提出全新問題時，即使與原來問題不一樣，但也能從過往記憶中提取相關(guān)內(nèi)容，再結(jié)合現(xiàn)場推理，輸出最終結(jié)果。”艾智遠如此說道。

通過這一新思路，趨境科技的大模型知識推理一體機充分利用了存儲資源，采用“以存換算”的方式釋放存力作為對于算力的補充，在RAG場景中，響應(yīng)延遲降低20倍，性能提升達10倍。

在實際商用落地上，趨境科技主要提供產(chǎn)品是大模型知識推理一體機，以軟硬一體交付方式為主，內(nèi)置了開箱即用的知識推理平臺和推理加速引擎，提供辦公助手、智能檢索、內(nèi)容創(chuàng)作等應(yīng)用，并支持橫向拓展更多應(yīng)用，能夠在醫(yī)療、教育、金融、法律、企業(yè)培訓(xùn)等場景直接使用；另外也提供豐富的API接口，客戶能夠快速完成大模型的部署和使用，對接現(xiàn)有大模型業(yè)務(wù)和產(chǎn)品中進行二次開發(fā)。

事實上，當(dāng)前在AI Infra在一賽道中，不管是創(chuàng)業(yè)企業(yè)，還是云廠商，抑或是硬件廠商，都虎視眈眈，不斷加速自身的技術(shù)和產(chǎn)品布局。

而趨境科技作為一家2023年底剛剛成立的創(chuàng)業(yè)公司，艾智遠認為自身能夠持續(xù)生存并發(fā)展下去的關(guān)鍵，就在于持續(xù)保持核心技術(shù)的領(lǐng)先性上。

趨境科技會持續(xù)優(yōu)化底層技術(shù)能力，“我們更希望的一種模式是，我們搭的是一個架子，房頂上的這些應(yīng)用是由大家來開發(fā)，然后利用我們架子能夠更好的降低成本。”艾智遠如此說道。

以下為光錐智能與趨境科技CEO艾智遠詳細對話內(nèi)容（經(jīng)光錐智能編輯整理）：

（1）布局大模型知識推理一體機，用以存換算解決不可能三角形

Q：趨境科技成立于2023年底，當(dāng)時選擇創(chuàng)業(yè)的契機是什么？目前公司的基本情況，包括團隊建設(shè)，融資情況等？

A：?趨境科技是由清華計算機系教授武老師與真知創(chuàng)投創(chuàng)始人兼董事長任旭陽共同發(fā)起，公司核心三人創(chuàng)始團隊：我、陳超、陳祥麟，均出身武老師門下。

我是清華計算機系博士畢業(yè)，博士期間主要從事分布式系統(tǒng)優(yōu)化、并行計算、分布式存儲等相關(guān)領(lǐng)域研究領(lǐng)域。

首席戰(zhàn)略官陳超，清華大學(xué)工程博士在讀，擁有MIT&杜克大學(xué)雙碩士，同時兼任真知創(chuàng)投董事總經(jīng)理，負責(zé)真知創(chuàng)投技術(shù)驅(qū)動項目的孵化與投資。

研發(fā)負責(zé)人陳祥麟，清華大學(xué)碩士，擁有多年大數(shù)據(jù)與AI相關(guān)產(chǎn)品研發(fā)和落地經(jīng)驗。

趨境科技的長期技術(shù)合作方，是清華大學(xué)的KVCache.AI團隊，目前的分工是趨境聯(lián)合清華KVCache.AI團隊共同做技術(shù)研發(fā)，同時趨境科技負責(zé)商業(yè)化轉(zhuǎn)化。

清華KVCache.AI團隊，由清華助理教授章明星負責(zé)，團隊在包括OSDI、SOSP、ASPLOS、HPCA、FSE、VLDB、ATC、EuroSys 等國際頂級會議和期刊上發(fā)表論文二十余篇，數(shù)個國家級創(chuàng)新獎項。

我們雙方和月之暗面、阿里、華為等業(yè)內(nèi)主要廠商均有深度協(xié)作，剛剛共同發(fā)布了Mooncake的開源項目，共建以KVCache為中心的推理架構(gòu)。

目前團隊大概90%以上都是碩士，50%以上是博士，整體以清華系為主，還有來自包括新加坡國立、哈工大、中科院、北航、北郵等院校的畢業(yè)生。

Q：為什么會選擇做大模型知識推理一體機這一賽道，背后衡量的點是什么？用“以存換算”的思路進行布局，能否詳細的講述一下這背后的思考？

A：我們的產(chǎn)品名為大模型知識推理一體機，主要是以軟硬件一體的交付形態(tài)，到產(chǎn)品層面則是大模型知識推理平臺，有辦公助手、智能客服、智能搜索等等應(yīng)用，客戶開箱即用，客戶也可以調(diào)用 API ，提供大模型的能力，對接到現(xiàn)有的產(chǎn)品中。我們核心觀點是怎么能夠降低大模型落地準入門檻，以及幫助企業(yè)能夠真正落地專屬大模型產(chǎn)品。所以我們實際做的，是一款高性能、低成本、高效率的解決方案，其能夠助力千行百業(yè)的私有化大模型快速落地。

大模型在業(yè)務(wù)側(cè)落地成本和延遲都非常高，在業(yè)務(wù)側(cè)單次請求的Prompt長度往往需要幾千或者上萬Token，甚至是基于COT，這就需要進行復(fù)雜推理，就像OpenAI的o1。事實上，我們在去年就已經(jīng)發(fā)現(xiàn)：基于COT做深層次推理，能夠讓大模型效果更好。但這背后關(guān)鍵問題就在于推理成本很高。

比如在客服場景，用戶咨詢一個問題，這背后的大模型經(jīng)過深層次推理，加上外部知識，可能需要幾十秒鐘才能完成一個問題的完整回復(fù)。這段時間內(nèi)，大模型一直在進行計算，也意味著幾十秒內(nèi)這臺機器的很多計算資源被獨占。如果線上上萬人，就需要橫向擴展數(shù)百臺機器，這個成本是不能接受的。

所以在去年我們討論這個問題的時候，就發(fā)現(xiàn)私有化模型落地的最大問題，是有一個不可能的三角形，它既要效果，又要效率，還要成本。

效果，是我們希望有更大的模型，模型越大，效果越好。但模型越大，成本也就越高。并且成本的量級不是簡單幾倍數(shù)的提升，而是非常大的量級的提升。同時，模型大、成本低的情況下，還要求響應(yīng)的延遲足夠低，所以這就變成了不可能完成的三角形。

這個問題的關(guān)鍵是GPU算力的制約，因為現(xiàn)有技術(shù)下GPU的利用率已經(jīng)較高，進一步提升的空間有限。

而我們之前的研究方向主要是并行計算、分布式存儲等計算機體系結(jié)構(gòu)相關(guān)的領(lǐng)域，我們關(guān)注一臺服務(wù)器的全部硬件資源，而不僅僅是GPU。因此我們想到一個點，為什么大模型推理過程中，只能用GPU？GPU是很強，就好比汽車中的發(fā)動機，發(fā)動機做的好，汽車確實跑的快。但想要汽車跑得更快，不只是需要增強發(fā)動機本身，還需要結(jié)合空氣動力學(xué)、傳動軸、輪胎等性能。如果想要把性能發(fā)揮到極致，就要把整個機器所有性能都發(fā)揮極致，才能夠達到最好的性能優(yōu)化。

所以，我們就提出了全系統(tǒng)協(xié)同優(yōu)化，相當(dāng)于把機器內(nèi)所有硬件資源全部用上，包括GPUCPU內(nèi)存硬盤等，而其中的關(guān)鍵在于怎么利用這些資源。

與此同時，我們國產(chǎn)GPU卡，與英偉達的產(chǎn)品在實際性能上還是有一些差距。如果只關(guān)注GPU的優(yōu)化，大模型的落地成本會進一步提升。

因此，在這基礎(chǔ)之上，我們提出了2個核心觀點，一個是以存換算，釋放存力作為算力的補充，降低對算力的需求；二則是全系統(tǒng)異構(gòu)協(xié)同優(yōu)化，緊密聯(lián)動 HBM/DRAM/SSD 和 CPU/GPU/NPU 全系統(tǒng)異構(gòu)設(shè)備，突破顯存容量的限制，充分釋放全系統(tǒng)的存力和算力。

Q：“以存換算”背后的技術(shù)邏輯是什么？

A：大模型推理的時候，特別是在RAG場景相關(guān)應(yīng)用上，需要不停地調(diào)用知識庫里的內(nèi)容，給到大模型做推理。

現(xiàn)階段在智能問答、智能客服等場景中，知識庫的運用實際上還是以RAG為核心方式。遇到用戶的提問時，傳統(tǒng)的做法是把這些問題和答案緩存下來，后續(xù)如果有用戶提問相似問題，就可以給到答案，類似“死記硬背”。

但問題在于，用戶的提問永遠是千變?nèi)f化的，很難命中原來一模一樣的問題。

實際上，在RAG場景，我們可以做一個大的存儲體，這個存儲體存儲的不是文檔，而是模型推理過程中的中間結(jié)果，可以理解為大模型推理結(jié)果的記憶元。就像我們的大腦一樣，儲存了海量的運算好的信息，在我們想要表達或者推理的時候，能夠從大腦中調(diào)用出一部分運算好的信息供我們使用。

傳統(tǒng)的Attention計算，當(dāng)遇到一個新的問題時，會調(diào)用問題的相關(guān)產(chǎn)品信息，組成一個比較大的Prompt，給大模型做現(xiàn)場推理計算，就像要求一個人現(xiàn)場看完一本之前沒看過的書，需要的整體理解和閱讀時間周期都很長。

而我們的想法是，針對這個問題，已經(jīng)有了一部分記憶元，在另外一個人提出問題時，就已經(jīng)有相關(guān)知識記憶存儲，就好像我在做現(xiàn)場推理的時候，這本書我已經(jīng)看過了，但是沒有看全，但基于看到的一些新內(nèi)容+之前已有的相關(guān)知識，在做現(xiàn)場推理時，速度會快很多。

因此，我們不是在做死記硬背，而是在做融合推理。通過修改大模型里面關(guān)鍵的算子，做記憶與現(xiàn)場推理的融合計算，能夠比原來傳統(tǒng)推理有10倍性能的提升，尤其是在RAG場景中。

Q：以存換算這一技術(shù)，為什么大模型公司不能夠自己做？

A：對于大模型公司而言，他們更多的關(guān)注點可能會放在模型效果上，所以技術(shù)方向也會偏重訓(xùn)練層。而我們主要面向的是ToB的企業(yè)，他們對于成本更加敏感，“以存換算”主要解決推理部署的成本問題，因此我們在這個方面技術(shù)上研究更加深入。

（2）生存發(fā)展的關(guān)鍵，是保持核心技術(shù)領(lǐng)先性

Q：大模型知識一體機是一個硬件產(chǎn)品？是否需要一套單獨的軟件算法系統(tǒng)，來進行單獨的適配？最后落地給客戶，是以硬件的形式交付，還是以軟件的形式交付？

A：主要產(chǎn)品交付形態(tài)是一個軟硬一體的推理一體機。之所以選擇軟硬一體的形態(tài)，是因為需要進行硬件協(xié)同，一個普普通通的機器是不能滿足這一要求，因為從整個機器的設(shè)計上來講，我們需要更多的內(nèi)存和更好的CPU支持，但有可能是更少的GPU算力支持，包括對帶寬、硬件的選型，基于客戶業(yè)務(wù)訴求我們都會有很多的考慮。

我們做異構(gòu)協(xié)同的話，必須把整臺機器的硬件資源都進行一定的調(diào)配，甚至是有一些主板層面的設(shè)計。在給業(yè)務(wù)方交付時，以一體機的交付形態(tài)。既可以提供豐富的API接口給業(yè)務(wù)方使用，第三方廠商或者是ISV，只要調(diào)用API，就可以完成大模型推理。也可以提供推理平臺，并內(nèi)置了一些簡單應(yīng)用，類似企業(yè)搜索智能問答、各種智能體等，同時客戶也可以根據(jù)業(yè)務(wù)需求再進行拓展。

對于一些終端客戶來講，他可能有些應(yīng)用就已經(jīng)足夠了，我們更希望的一種模式是，我們搭的是一個架子，房頂上的這些應(yīng)用是由大家來開發(fā)，然后利用我們架子能夠更好的降低成本。

Q：目前在硬件的選擇上有具體的傾向嗎？未來在硬件層面有哪些規(guī)劃？

A：目前幾款主流的國產(chǎn)GPU和NVIDIA GPU的都能支持。未來我們考慮更多硬件層面的布局，例如主板的設(shè)計、分離式架構(gòu)設(shè)計、存算融合等等。

Q：目前各大云廠商也都在做智算中心等AI Infra基礎(chǔ)設(shè)施，您認為作為創(chuàng)企，要如何與大廠們進行競爭？同時，目前在行業(yè)中已經(jīng)有了一批早期的創(chuàng)企，并取得了一定的成績，作為后來者，趨境科技又該如何進行差異化競爭？核心優(yōu)勢在哪？

A：?實際上，我們的技術(shù)思路和客群選擇和當(dāng)前的大廠以及AI Infra廠商都有所不同，因此目前沒有明確的競爭關(guān)系。此外，AI Infra還是一個相對藍海的市場，大家都有可以服務(wù)的客群。

另外，我們比較堅持的一點，就是要把“以存換算”和“全系統(tǒng)協(xié)同優(yōu)化”技術(shù)持續(xù)做下去，我們觀測到未來推理成本降低不止10倍，要降到千倍。

我們也遇到很多客戶，72B的大模型很有用，但出于成本的考慮，最終只會選擇7B或13B的模型，這就是一個妥協(xié)。還有些做智能客服的企業(yè)，為了控制成本，可能會在整個系統(tǒng)中只用10%的大模型。因此，降低大模型的準入門檻，是ToB側(cè)客戶落地大模型時最廣泛的需求。

我們認為在自己專注的技術(shù)領(lǐng)域堅持研發(fā)投入，持續(xù)建立領(lǐng)先的技術(shù)優(yōu)勢、做客戶真正需要的產(chǎn)品、提供更好的服務(wù)支持，才能在競爭中生存下去。

（3）做私有化大模型部署，與云廠商不存在競爭關(guān)系

Q：大模型很多算力都是花在訓(xùn)練上，我們?yōu)槭裁床蛔龃竽Ｐ偷挠?xùn)練？

A：?大模型訓(xùn)練的成本很高，對數(shù)據(jù)質(zhì)量、人員標注能力都有很高的要求，訓(xùn)練不好很有可能出現(xiàn)災(zāi)難性遺忘等問題。實際上現(xiàn)階段通用大模型，經(jīng)過了一年多的技術(shù)演進，配合RAG技術(shù)和In-Context Learning（上下文學(xué)習(xí)），甚至比通過領(lǐng)域數(shù)據(jù)訓(xùn)練的模型效果還要好，已經(jīng)能夠滿足大部分客戶的業(yè)務(wù)使用場景。

而阻礙客戶大模型落地的核心痛點是推理端算力的成本，因此我們更加關(guān)注大模型的私有化落地推理側(cè)的性能優(yōu)化問題。

Q：基于以存換算的技術(shù)思路，以存儲的形式，尤其是私有化部署大模型的方式，是否會受到大模型更新迭代的影響？

A：我們實際上是在通用大模型之外，加入了知識推理能力。我們不僅做硬件加速，也做了深度推理，也就是o1的功能。因此，通用大模型的發(fā)展對這件事情反而是有促進作用，可以根據(jù)模型的能力更換通用大模型來達成AI能力的升級。我們不是訓(xùn)練大模型，而是通過推理來減少大模型幻覺，增強他的推理能力。

此外，基于Transformer架構(gòu)的大模型底層的推理邏輯相似，新的模型的適配工作并不大，不需要太多的定制化開發(fā)。

Q：目前主要業(yè)務(wù)是以私有化部署為主，但云廠商們都號召大家把大模型部署在云上，那您認為未來私有化部署的空間是否被壓縮？

A：我們反而覺得私有化是很大的一個空間，因為很多數(shù)據(jù)，比如公司的經(jīng)營決策數(shù)據(jù)、財務(wù)數(shù)據(jù)、核心文檔數(shù)據(jù)、客戶信息、員工信息等，都需要私有化，這是企業(yè)的商業(yè)機密。

因此，一些企業(yè)會選擇私有化這種最保險的方式，B端市場也是個很大的市場，有私有化訴求的這一類客戶群規(guī)模還是比較大，需求也相對可控。

?“以存換算” 降低大模型落地門檻，清華系又跑出一家明星公司

關(guān)于作者

光錐智能

發(fā)表回復(fù)

?“以存換算” 降低大模型落地門檻，清華系又跑出一家明星公司

關(guān)于作者

光錐智能

增長黑客Growthhk.cn薦讀更多>>

營銷內(nèi)卷之下品牌如何破局增長？

求職市場沖出職校生“黑馬”

時代變了，“懂車帝們”急尋新活路

二手閑魚變了“味”

品牌營銷十一招：在消費者日趨主動的市場環(huán)境里占領(lǐng)市場

巨頭砸錢、紅人匯聚的短視頻，未來會有哪些趨勢？

發(fā)表回復(fù)

?“以存換算” 降低大模型落地門檻，清華系又跑出一家明星公司

營銷內(nèi)卷之下品牌如何破局增長？

時代變了，“懂車帝們”急尋新活路

巨頭砸錢、紅人匯聚的短視頻，未來會有哪些趨勢？