文｜劉俊宏

編｜王一粟

特斯拉的端到端自動駕駛到底怎么做的，至今無人能說清。但理想和其他中國第一梯隊(duì)的智駕廠商們在探索的過程中，收獲了最新的三個共識。

要想智駕真正意義全國都能開，過去基于“規(guī)則”的智駕開發(fā)模式已經(jīng)趨近極限，需要用大模型“端到端”的方案讓汽車自己學(xué)會如何駕駛。

但在訓(xùn)練端到端大模型時，過程就像是煉丹。擁有更多高質(zhì)量的數(shù)據(jù)只是“原材料”，“正確”配比投入到模型訓(xùn)練中的數(shù)據(jù)，才能讓智駕擁有良好表現(xiàn)的同時，兼顧面對不同場景的兼容性。

雖然，端到端大模型顛覆了過往智駕的開發(fā)和訓(xùn)練模式。但端到端大模型所帶來的智駕能力提升，目前根本看不到上限。

對于整個汽車智駕行業(yè)，2024年無疑是最重要的分水嶺。不僅是因?yàn)橹邱{完成了“全國都能開”的階段性目標(biāo)，高階智駕在今年正式開始普及。更是因?yàn)楫?dāng)智駕走向大模型端到端之后，各路玩家雖然目標(biāo)一致，但技術(shù)上正在“分道揚(yáng)鑣”。

“已經(jīng)來到了無人區(qū)。沒有人說自己的端到端是怎么做的，大家都在盲人摸象?！?span id="tkqhe3e" class="wpcom_tag_link">理想汽車智能駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬在近期的一個小范圍媒體溝通會上對光錐智能稱，很多技術(shù)都尚處于探索階段。

大模型端到端在智能化時代，儼然成了車企最深的“護(hù)城河”。

帶著這樣的視角，光錐智能與理想汽車智能駕駛研發(fā)副總裁郎咸朋和理想汽車智能駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬進(jìn)行了面對面深度交流。從理想汽車大模型端到端智駕研發(fā)過程的實(shí)踐中，揭開了不少智駕“端到端”的“迷局”。

前方干貨預(yù)警，核心觀點(diǎn)如下：

1. 目前“端到端+VLM（視覺模型）”的方案是能夠支撐到自動駕駛的。后續(xù)會結(jié)合大模型的多模態(tài)能力，統(tǒng)合語音、語言、視覺、激光雷達(dá)最終實(shí)現(xiàn)L4。

2. 從端到端開始，智駕才真正意義上是用AI的方式做自動駕駛。真正用數(shù)據(jù)、算力加上訓(xùn)練實(shí)現(xiàn)模型自動化自我迭代，減少過往大量的人力參與，智駕整體迭代速度會變得非?？?。

3. 測試智駕大模型的能力需要“考試”能力的配合。不僅需要真人“老司機(jī)”駕駛數(shù)據(jù)的“真題卷”、智駕運(yùn)行被接管時的“錯題集”，還有基于世界仿真+Sora的“模擬題”。

4. 端到端智駕大模型很神奇。投喂什么數(shù)據(jù)，就能產(chǎn)生相應(yīng)能力。訓(xùn)練智駕模型最重要的就是數(shù)據(jù)配比，投喂數(shù)據(jù)的配比不同，決定了智駕的能力表現(xiàn)。

5. 為了保證投喂數(shù)據(jù)的質(zhì)量，還需要配套工具鏈對數(shù)據(jù)進(jìn)行高質(zhì)量挖掘。

以下為采訪實(shí)錄（為方便閱讀，光錐智能做了一些文本優(yōu)化）：

做大模型端到端智駕，是在探索“無人區(qū)”

Q：目前理想這套端到端+VLM的智駕架構(gòu)，是基于什么想法設(shè)計(jì)的，未來會怎么變化？

郎咸朋：去年戰(zhàn)略會時期，我們參考了包括特斯拉FSD在內(nèi)的智駕方案，發(fā)現(xiàn)想要實(shí)現(xiàn)自動駕駛的目標(biāo)，存在很大的挑戰(zhàn)。因?yàn)椴还軅鹘y(tǒng)感知決策模型的智駕還是端到端都需要大量數(shù)據(jù)作為基礎(chǔ)。根據(jù)已知的數(shù)據(jù)，通過訓(xùn)練或者人工設(shè)計(jì)規(guī)則去滿足智駕的場景。但這樣就會導(dǎo)致系統(tǒng)在沒見過的場景下不能很好工作。

想要做到自動駕駛，就必須要車輛擁有與人一樣的思考決策或者判斷推理的能力。所以我們采用了跟人類大腦的思考和認(rèn)知方式比較類似的雙系統(tǒng)架構(gòu)。具體而言，系統(tǒng)一是端到端模型，系統(tǒng)二用了VLM。未來有沒有其他的實(shí)現(xiàn)方式，我們還在探索，但目前通過實(shí)踐和迭代來看，這套框架是比較適合后面做自動駕駛的。

賈鵬：對比了特斯拉在美國的表現(xiàn)之后，我們發(fā)現(xiàn)特斯拉在簡單道路上行駛很順，但在復(fù)雜道路上的接管率很高。考慮到中國道路復(fù)雜程度比美國更高，所以我們認(rèn)為單獨(dú)的一個端到端系統(tǒng)可能不夠，需要在端到端的基礎(chǔ)上再加一個有泛化、邏輯思考能力的一套系統(tǒng)（VLM）。VLM雖然不直接控車，但是會起到提供決策的作用。下一步隨著大模型的發(fā)展，端到端和VLM兩個模型可能合二為一。更進(jìn)一步，借鑒大模型多模態(tài)的發(fā)展趨勢，也可能朝著原生多模態(tài)的方向，統(tǒng)一語音、視覺和激光雷達(dá) 。

我們認(rèn)為，這套范式應(yīng)該能夠支撐我們做到L4。同時，參考具身智能的發(fā)展，我們也已經(jīng)能看到這套模型應(yīng)用的雛形。這可能就是我們追求實(shí)現(xiàn)真正人工智能的終極答案。我們現(xiàn)在實(shí)現(xiàn)了無圖智駕全國都能開，端到端實(shí)踐下來效果還不錯。再往下，可能就到了無人區(qū)，最終通向自動駕駛或L4。

Q：端到端和VLM這兩個系統(tǒng)是怎么協(xié)作的？

賈鵬：這倆系統(tǒng)一直都在分開實(shí)時運(yùn)行。端到端這邊模型小一點(diǎn)，運(yùn)行幀率比較高，大概十幾赫茲。

另一邊VLM因?yàn)橐?guī)模參數(shù)量大得多（22億參數(shù)），目前運(yùn)行幀率大概是3-4赫茲。它起到的作用是提供一個參考決策。例如在高速ETC場景，VLM可以告訴汽車走哪邊。VLM系統(tǒng)其實(shí)一直都在，只是它把決策結(jié)果和參考的軌跡點(diǎn)提供給系統(tǒng)一，端到端系統(tǒng)在推理時會參考VLM提供的信息。

Q：后續(xù)推送的節(jié)奏是什么樣的

郎咸朋：肯定會加快。

端到端幾乎重塑了之前的研發(fā)和交付流程。端到端之前，不管是有圖、無圖，還是模塊化或“分段式”端到端方案，與One Model的端到端差別在于是否有人工參與。之前方案開發(fā)是基于需求分析、產(chǎn)品設(shè)計(jì)、研發(fā)、測試，最后到交付的理念。如此一來，當(dāng)初的設(shè)計(jì)方案就限定了能力能夠達(dá)到的上限。

隨著自動駕駛的發(fā)展，真實(shí)場景是無限的，不可能提前定義所有場景。端到端表面上看是一個大模型去替代之前的幾個小模型。但在我理解端到端代表著真正用AI做自動駕駛的分水嶺。因?yàn)槎说蕉耸怯蓴?shù)據(jù)驅(qū)動的，是算力、數(shù)據(jù)、模型相互配合，高度自動化的自我迭代過程。

但同時，端到端時代也帶來了模型能力的評價和測試的挑戰(zhàn)。因?yàn)槎说蕉耸且粋€從輸入直接到輸出的“黑盒”，我們沒法直接寫個規(guī)則或者直接從決策的角度來評價模型的效果。

那么如何評價模型的能力？為此，我們有一個專門用來檢驗(yàn)?zāi)Ｐ湍芰Φ目荚嚹Ｐ?。其中，這個模型首先根據(jù)真人“老司機(jī)”的駕駛指標(biāo)，從我們80萬車主中取大概3%的數(shù)據(jù)作為模型的正樣本，也就是“真題庫”。同時，我們根據(jù)智駕正常測試或開車時，用戶接管和退出時發(fā)生的狀況，生成模型的“錯題庫”。此外，我們還會根據(jù)所有的數(shù)據(jù)生成“模擬題”，針對模型容易出問題的部分，再生成一些內(nèi)容訓(xùn)練。

有了這些題目之后，衡量模型能力首先要驗(yàn)證之前“錯的題”還會不會出錯，然后再考一下之前“會的題”表現(xiàn)情況，最后再用模擬題“考一考”。這樣對每一版模型能“打一個分?jǐn)?shù)”后，根據(jù)分?jǐn)?shù)表現(xiàn)，再決定是否能進(jìn)入下一步類似于千人早鳥測試的驗(yàn)證階段。換句話說，模型在推送給用戶之前，已經(jīng)經(jīng)過了上述包含了上萬公里規(guī)模的考試驗(yàn)證。

接下來的早鳥測試，實(shí)際上是通過上千輛用戶車幫我們做道路驗(yàn)證和測試。在這個過程中，不會影響用戶正常開車體驗(yàn)。我們通過影子模式，數(shù)據(jù)實(shí)時回傳到后臺進(jìn)行自動化分析，然后根據(jù)這些數(shù)據(jù)再進(jìn)行下一輪的自動迭代訓(xùn)練。所以你會看到，我們整個迭代速度會非常快。

在之前傳統(tǒng)智駕迭代的流程中，場景設(shè)計(jì)、研發(fā)、測試，再到交付之后問題分析和修改，都需要大量的人力參與。但到了端到端之后，數(shù)據(jù)收集、樣本制作、自動化訓(xùn)練、自動化評測考試、自動化迭代，到最后的影子測試，這里面人的參與度變得非常少。

Q：模擬題是怎么制作的？后續(xù)如何持續(xù)提高模型能力？

賈鵬：考題主要分兩種，一種是基于真實(shí)數(shù)據(jù)。我們把正常行駛數(shù)據(jù)和出錯數(shù)據(jù)拿回來，通過3D重建技術(shù)還原場景進(jìn)行連續(xù)測試。

另一種就是很難真實(shí)獲取的長尾問題，這就需要一些對應(yīng)的生成工作。之前我們在發(fā)布會上提到，我們的世界模型并不是純Sora那種生成。而是基于重建和生成的結(jié)合，相當(dāng)于在重建的基礎(chǔ)上做泛化，生成符合真實(shí)世界規(guī)律的場景。這種模式與此前自動駕駛仿真基于人為“擺放”的場景不同，本質(zhì)上可能跟大語言模型訓(xùn)練“大力出奇跡”類似。相比追求單一項(xiàng)目的完美表現(xiàn)，我們更追求模型在泛化能力下，每個能力都能實(shí)現(xiàn)90分以上的效果。

后續(xù)能力提升，我們首先是組建了一個包含產(chǎn)品、主觀評測，還有之前做無圖方案的功能工程師的團(tuán)隊(duì)，他們寫prompt生成場景。此外，我們當(dāng)前80萬的車主在給我們時時刻刻上傳case。其實(shí)本質(zhì)上還是人工“出題”和現(xiàn)實(shí)數(shù)據(jù)結(jié)合。

Q：利用AI做虛擬仿真，是否改變了整個驗(yàn)證的流程？那些關(guān)鍵技術(shù)促進(jìn)了仿真驗(yàn)證環(huán)節(jié)的進(jìn)步？

賈鵬：仿真最重要的還是做出攝像頭看到的樣子?，F(xiàn)在對仿真變化最大的技術(shù)就是NeRF（輻射神經(jīng)場），可以把一組視頻還原出3D模型的材質(zhì)和光照。但3D重建最大的問題在于，如果某個視角沒見過，那么生成的部分就會模糊。所以我們現(xiàn)在想把Sora的生成與NeRF結(jié)合在一起，把沒見過的部分給補(bǔ)上，這樣就能產(chǎn)生一個360°的3D世界模型。這是跟以前最大的區(qū)別。

郎咸朋：仿真的進(jìn)步，基本就是解決之前仿真看起來很假和視角缺陷的問題。對比而言，理想自動駕駛的演進(jìn)其實(shí)也是同樣的規(guī)律。

高速NOA時期，用高精地圖方案能解決。到了城市之后，高精地圖很難解決。一開始我們嘗試用感知配合局部NPN（神經(jīng)先驗(yàn)網(wǎng)絡(luò)）的方案減少對地圖的依賴。但這樣還是不行，只要需要圖，那就會存在新鮮度的問題。想達(dá)到全國都能開，就必須扔掉圖。那么，用傳統(tǒng)方式做無圖的話，就需要投大量的人力去迭代、更新、測試。但新的問題是，即使投入如此多資源，能力還是達(dá)不到擬人的效果。所以我們現(xiàn)在才轉(zhuǎn)到了現(xiàn)在的VLM和端到端。

其實(shí)技術(shù)的迭代并不像大家想象的復(fù)雜，都是遇到問題解決問題。只不過遇到問題之后，第一能不能想到本質(zhì)，第二是看到本質(zhì)之后，能不能有決心和執(zhí)行力解決問題。

Q：VLM是必須的嗎，重要性如何？

郎咸朋：我們現(xiàn)在正在探索它的能力。它目前在主路、輔路的車道選擇上，已經(jīng)體現(xiàn)出了價值。但如果沒有它，其實(shí)也不會出安全問題。我們實(shí)現(xiàn)L3主要還是依靠端到端，它代表的是人正常情況下的駕駛能力。但面向L4，一定會需要VLM或者大模型。它可能90%以上的時間不起作用，但它真正能應(yīng)對未知場景的決策能力是智駕從L3走向L4的關(guān)鍵。

Q:這套能力的系統(tǒng)上限到底是在哪？

郎咸朋：現(xiàn)在我們的端到端和VLM應(yīng)該是站在了無人區(qū)的邊界。再往前，其實(shí)當(dāng)前做端到端的各家公司也都是在探索階段。理想作為One Model端到端的先行者，在探索的過程中，我們發(fā)現(xiàn)數(shù)據(jù)規(guī)模帶來的性能提升，現(xiàn)在還沒有看到上限。論極限的話，可能還是基于芯片本身的算力。我們算了一下英偉達(dá)Orin X芯片，大概能夠支撐三個億左右的端到端產(chǎn)品規(guī)模。

賈鵬：現(xiàn)在對于大模型來說，目前車端芯片最主要的瓶頸是內(nèi)存帶寬。

Q：現(xiàn)在理想端到端跟其他人的差別是什么？算力規(guī)模大概是什么樣？

賈鵬：大家現(xiàn)在真的都進(jìn)入到了無人區(qū)，其他廠商也沒說過自己的端到端是怎么做的。我們現(xiàn)在的端到端模型是生成軌跡，然后再加一些安全兜底。在模型能力沒達(dá)到上限之前，還是要處理一些特定情況，例如可能發(fā)生的智駕猛打方向盤。

云端算力這塊，理想大概是4.5EFLOPS。這個數(shù)據(jù)其實(shí)跟公司的開支有關(guān)系，背后還是要用利潤支撐。

郎咸朋：隨著智駕模型訓(xùn)練，未來算力需求會指數(shù)級上升。我們預(yù)計(jì)，如果做到 L3和L4自動駕駛，一年光是訓(xùn)練算力的花銷大概為10億美金。將來我們拼的就是算力和數(shù)據(jù)，自動駕駛做到后面其實(shí)還是拼錢，是企業(yè)盈利能力的比拼。

調(diào)教模型像煉丹，數(shù)據(jù)重要性的維度變多了

Q：在數(shù)據(jù)這一塊，如何更高效采集和利用？

郎咸朋：理想的一個優(yōu)勢，就是L系列車型長得比較像。好處是數(shù)據(jù)可以共用，除了車型有長短大小的區(qū)別，所有車上攝像頭配置和安裝位置都大體一致。而且我們從2019年第一代理想one開始，就開始做數(shù)據(jù)工作。當(dāng)時我們是在Mobileye的攝像頭旁邊，放了一個我們自己的數(shù)據(jù)分析和采集的攝像頭。從這個攝像頭開始，我們就在做數(shù)據(jù)的閉環(huán)研發(fā)，積累了大量經(jīng)驗(yàn)。目前我們有80萬車主，積累超過12億公里的有效訓(xùn)練數(shù)據(jù)。數(shù)據(jù)量是國內(nèi)最多的，沒有之一。

賈鵬：數(shù)據(jù)只要把傳感器原始數(shù)據(jù)和汽車的駕駛行為拿回來就夠了。

郎咸朋：一個完整的數(shù)據(jù)，是大概20秒到30秒左右的小視頻。它包含所有周圍攝像頭、激光雷達(dá)等傳感器的數(shù)據(jù)，以及這幾十秒之內(nèi)方向盤、油門、剎車等的車輛駕駛數(shù)據(jù)。

Q：數(shù)據(jù)工作最重要的部分是什么？

郎咸朋：模型和數(shù)據(jù)迭代相關(guān)聯(lián)，如果算法迭代，那么對數(shù)據(jù)的要求也會改變。但總之，需要的原始數(shù)據(jù)都是一樣的。

數(shù)據(jù)工作中，最重要的部分就是數(shù)據(jù)配比。舉個例子，今年早期測試的時候，發(fā)現(xiàn)模型平時開車表現(xiàn)還不錯。但一到等紅綠燈的時候，車就總想著變道。后來我們發(fā)現(xiàn)，是平時訓(xùn)練的時候刪掉了很多紅燈前等待的數(shù)據(jù)。這份數(shù)據(jù)的重要性在于，它讓模型知道等待的重要性，而不是一旦慢下來就要考慮變道。

訓(xùn)練端到端模型，跟古代煉丹沒什么區(qū)別。正確配比數(shù)據(jù)，直接影響自動駕駛的體驗(yàn)得分。認(rèn)識到數(shù)據(jù)配比的重要性后，我們還配套研發(fā)了用于后臺數(shù)據(jù)庫的數(shù)據(jù)挖掘小模型、場景理解小模型、數(shù)據(jù)查找等的一系列配套的工具鏈和基礎(chǔ)建設(shè)。這些小模型的意義，在于我們后臺系統(tǒng)能很快速挖掘或獲取某個特定數(shù)據(jù)。這也是我們多年積累的一個非常重要能力。某種意義上說，這種能力甚至大于模型的能力，沒有這些原始數(shù)據(jù)和基礎(chǔ)建設(shè)，在好的模型也難以訓(xùn)練出效果。

Q：發(fā)現(xiàn)紅綠燈的問題，再去定位數(shù)據(jù)缺失。這種訓(xùn)練方式跟以前有什么不同？

郎咸朋：我們有一套非常好用的工具鏈。比如發(fā)現(xiàn)一個Bad Case，會回傳到我們內(nèi)部的“分診臺”系統(tǒng)，自動分析到底是哪里的問題。這套模式并不是基于傳統(tǒng)意義上的分類，也是經(jīng)過模型訓(xùn)練給出的建議結(jié)果。有了結(jié)果之后，再根據(jù)建議找到類似的場景，或是告訴我們訓(xùn)練樣本需要補(bǔ)充什么樣的數(shù)據(jù)。然后在進(jìn)行下一步的訓(xùn)練。

最終還是回到數(shù)據(jù)“調(diào)配方”或是“調(diào)配比”的訓(xùn)練中來。

Q：整套優(yōu)化流程是否可以理解為，先發(fā)現(xiàn)問題，診斷完再找到更好的片段補(bǔ)充訓(xùn)練？

郎咸朋：對，而且我們整個過程就跟治病一樣。類比治病可以同時使用多種藥物，我們會同時訓(xùn)練多個模型。所以訓(xùn)練算力的重要性，再次提到了臺前。我們現(xiàn)在最多同時訓(xùn)練十來個模型，再經(jīng)過評分系統(tǒng)打分。

賈鵬：訓(xùn)練模型最重要的是兩個方面。第一是數(shù)據(jù)的配比，針對一些類似的場景，需要加多少數(shù)據(jù)才能把Case解決掉。這背后是對不同場景對數(shù)據(jù)要求不同的know-how。第二點(diǎn)是模型的超參。加入新的數(shù)據(jù)后，針對模型內(nèi)部的參數(shù)如何調(diào)整，我們一般會有5-6版模型同時訓(xùn)練，然后再看哪一版解決了問題，同時得分也更高。

Q：端到端模型最難的是解決什么問題？

賈鵬：端到端本質(zhì)上是模仿學(xué)習(xí)。數(shù)據(jù)端只要控制質(zhì)量，給了什么樣的數(shù)據(jù)，它就能模仿下來。但模型同時還有一定的涌現(xiàn)能力，所以從中模型會生成自己原本不知道的能力。就像環(huán)島一樣，模型自然而然就學(xué)會了。我覺得所有的控制量都在一頭一尾。

“一尾”現(xiàn)在是通過模型來考試。但我們團(tuán)隊(duì)現(xiàn)在花最大力氣的，是精確數(shù)據(jù)配比和保證數(shù)據(jù)質(zhì)量，解決“一頭的問題”。

因?yàn)槟Ｐ捅旧砟芡段沟臄?shù)據(jù)量存在上限，投喂太多，模型就開始遺忘了。所以最難的事情就在如何在限定的投喂數(shù)據(jù)量中，分配每個場景投喂的數(shù)據(jù)量，讓模型實(shí)現(xiàn)最大的兼容性?，F(xiàn)在我們做了很多的工具鏈。比如給數(shù)據(jù)打標(biāo)簽，這些標(biāo)簽打的越細(xì)膩，配比的時候就更容易精確“抓到”。針對不能容易智駕打出標(biāo)簽的，我們從中提取特征，判斷這段數(shù)據(jù)跟其他那一段相似度高。

這些能力都是外界很難看到的底層應(yīng)用，我們也是慢慢積累過來的。

Q：大模型接下來有什么打算？

賈鵬：我們目前的大模型分成了兩塊。一塊是車端VLM視覺語言大模型，就是系統(tǒng)二，是用于車端決策的；另一塊是云端的世界模型，用于系統(tǒng)一和系統(tǒng)二的考試和驗(yàn)證。將來可能在車端整合系統(tǒng)一加系統(tǒng)二，再加上云端這套用來考試的模型。再接下來，我們可能會整合一套理解加生成合一的超級大模型。這樣通過蒸餾或者強(qiáng)化學(xué)習(xí)的方式，把大模型的知識都放到車端。

郎咸朋：剛才賈鵬提到的構(gòu)想，實(shí)際上是我們RD（研發(fā)工程師）團(tuán)隊(duì)正在做的預(yù)研。

我們?nèi)ツ?月份在戰(zhàn)略會上，李想第一次明確了兩件事情。第一是智能駕駛是公司的重要戰(zhàn)略，第二是我們技術(shù)預(yù)研是走向未來人工智能領(lǐng)先的重要工作。對應(yīng)到我們自動駕駛團(tuán)隊(duì)內(nèi)部，我們一直都有一條交付的明線。另一條暗線則是預(yù)研。之前我們在交付上投入了大量的資源，但我們的算法和研發(fā)人員會自發(fā)的去做 RD工作。在交付最忙的時刻，還會對外發(fā)表一些技術(shù)論文。

所以結(jié)合近一年來理想智駕能力的變化。實(shí)際上我們在做百城NPN（神經(jīng)先驗(yàn)網(wǎng)絡(luò)）的時候，就已經(jīng)在做無圖的方案。今年1月份切到了無圖方案后，端到端就在做預(yù)研了。目前我們的端到端正在做一些后續(xù)的迭代和鳥蛋交付的工作。再下一步技術(shù)方向的預(yù)研，包括統(tǒng)一的大模型和我們對L4的探索。

與80萬車主，共闖大模型“端到端”

Q：理想端到端團(tuán)隊(duì)的規(guī)模大概是多少，包括之后組織上有沒有什么變化？

郎咸朋：我們組織主要是基于當(dāng)前技術(shù)和業(yè)務(wù)方案的變化，經(jīng)過了一些調(diào)整。

之前做無圖的時候，就在端到端的初步預(yù)研。起初我們參考華為擴(kuò)張智駕團(tuán)隊(duì)的模式，發(fā)現(xiàn)這樣需要全國各地都要鋪開，問題分析、研發(fā)工程師、測試人員都需要招人。但是結(jié)合剛才提到的智駕能力提升，擴(kuò)張團(tuán)隊(duì)不能解決智駕走到自動駕駛的根本問題。

所以我們回歸用戶需求。用戶具體的需求可能不是要智駕具體的接管率數(shù)值，而是一個像老司機(jī)一樣的智駕體驗(yàn)。如果這樣看的話，那么之前偏規(guī)則的方案可能永遠(yuǎn)都達(dá)不到。不管是模塊化架構(gòu)還是“分段式”端到端，只要涉及到規(guī)則，研發(fā)效率就會低，而且還會摻雜人為的理解。拿我們現(xiàn)在端到端和無圖兩個版本對比，端到端會在細(xì)節(jié)上更擬人化。例如轉(zhuǎn)彎操作，原來的方案是根據(jù)一些參照物生成確定性的轉(zhuǎn)彎路徑。但如果是人來操作，就會考慮通過路徑中的更多因素?？傊唧w存在的規(guī)則，會讓用戶實(shí)際體驗(yàn)覺得別扭。

所以我們看到，如果鋪人力用規(guī)則來做智駕的話，第一是需要大量的人，第二是這些場景還是做不過來。所以就要升維解決這個問題，用模型驅(qū)動的端到端方案?；诖?，我們年初跟李想討論，如果智駕技術(shù)走向下一階段，可能需要迭代整體技術(shù)和工作方案。同時，團(tuán)隊(duì)可能也不需要用到那么多人。

參考我們智能駕駛團(tuán)隊(duì)過往的決策和組織調(diào)整，都十分注重執(zhí)行效率。2021年，我們切入自研，2022年，拿掉了角雷達(dá)。2023年，我們技術(shù)進(jìn)化了三代，從有圖到NPN（神經(jīng)先驗(yàn)網(wǎng)絡(luò)）到無圖，再到現(xiàn)在的端到端。組織的決策速度和執(zhí)行效率，是我們一直以來的優(yōu)勢。對應(yīng)現(xiàn)在的組織規(guī)模調(diào)整，我們覺得完全可以參考特斯拉。特斯拉的軟件和策劃團(tuán)隊(duì)一直是比較小的規(guī)模，大概200人左右。我們比特斯拉的車型多，再加上智駕有max和pro兩個平臺。所以我們組織的人數(shù)，會比特斯拉多一些，但不會到幾千人那種規(guī)模。

所以本質(zhì)上還是組織跟著業(yè)務(wù)需求而變化。原先解決問題的人，現(xiàn)在變成了設(shè)計(jì)解決問題工具的人。

Q：接下來的交付預(yù)期？現(xiàn)在是否還有實(shí)車按照地區(qū)跑測試？

郎咸朋：我們不會按照地區(qū)開放功能。全國車主只要能更新，它就在各個地方都能跑。

接下來的推送節(jié)奏，我們還是以考試和成績作為主要參照?？荚囀紫鹊镁S度還是安全性，這部分不允許智駕丟分，其次再是能力和挑戰(zhàn)的題。智駕模型通過考試后，我們通過千人早鳥的方式，推到正式的用戶車上。當(dāng)然，在推送之前會跟內(nèi)測用戶溝通好風(fēng)險(xiǎn)和問題，并希望通過他們在實(shí)際道路上測試，我們再收集和解決問題。

至于能否使用接管率，統(tǒng)計(jì)學(xué)意義上的指標(biāo)來評價新版本是否可以推送。我們還在迭代具體的指標(biāo)。但具體下一步推送，千人之后可能會再推一個萬人。但總歸我們希望越早推送越好。用李想的話說，最快在今年，最慢也是明年上半年。

Q：咱們后面整個端到端技術(shù)升級的路線會分為哪幾個重要階段？階段的規(guī)劃是怎么樣的？

郎咸朋：目前我們現(xiàn)在的方案還沒看到上限。同時，我也認(rèn)為它可以幫我們走到 L3。在這個過程當(dāng)中，我們需要做的只有持續(xù)迭代自己的數(shù)據(jù)和算法。

Q：環(huán)島這種比較難的場景，在技術(shù)上要如何解決？什么節(jié)點(diǎn)能解決掉？

賈鵬：環(huán)島問題現(xiàn)在已經(jīng)解決了，我想分享一下這個過程中有趣的故事。我們起初投喂80萬clips的時候，還過不了環(huán)島。后來當(dāng)數(shù)據(jù)量達(dá)到100萬clips時，他自己就能過環(huán)島了。我覺得是100萬clips里頭剛好有一些環(huán)島數(shù)據(jù)的原因。模型確實(shí)很神奇，你喂了什么數(shù)據(jù)，他就能學(xué)會相應(yīng)能力。ETC場景也是類似，現(xiàn)在端到端的版本能自己過ETC。這是因?yàn)閂LM在理解文字和LED指示燈后，對汽車進(jìn)行了指引。

Q：這是否意味著，環(huán)島、掉頭等能力，只有端到端才能做？

賈鵬：如果是以前分段式的智駕，那就是首先要感知，然后讓規(guī)控生成各種假設(shè)。比如調(diào)頭的話，就要擬合出調(diào)頭線。但不同路口的掉頭場景不太一樣，生成的調(diào)頭線也不一樣。換句話說，難做到一套代碼把所有環(huán)島、調(diào)頭搞定，種類太多了。

郎咸朋：端到端本質(zhì)是能力。只要模型能力夠了，就能實(shí)現(xiàn)這種功能。就像是我們之前的經(jīng)驗(yàn)，沒有特意設(shè)計(jì)過環(huán)島，但一下子突然能過了。同樣，上個時代大家覺得ETC很難?，F(xiàn)在你會發(fā)現(xiàn)它自然而然就可以解決。我覺得這是技術(shù)或者維度的代際提升所帶來的變化。不過，端到端這一代技術(shù)也有自己的問題，我們也還在持續(xù)探索當(dāng)中。

Q：未來智駕商業(yè)化有什么考量？

郎咸朋：如果真到了L4階段的話，我相信可能會有一些變化。我們現(xiàn)在是不收費(fèi)的，用戶選擇AD Max版本時補(bǔ)了差價。我希望隨著我們產(chǎn)品力的提升，用戶對自動駕駛的認(rèn)可?；蛟S結(jié)合自動駕駛的安全性，包括商業(yè)保險(xiǎn)這一塊都可以進(jìn)行商業(yè)模式的探索。

但最重要的還是，端到端把智駕的門檻進(jìn)一步拔高。如果智駕玩家缺少數(shù)據(jù)和算力，那么它與領(lǐng)先的差距會越來越大。對應(yīng)到企業(yè)運(yùn)營上，就是更多的資源，資金的投入，車輛的銷售。

本文來自投稿，不代表增長黑客立場，如若轉(zhuǎn)載，請注明出處：http://m.gptmaths.com/cgo/122138.html

80萬車主，和理想共闖智駕“無人區(qū)”

做大模型端到端智駕，是在探索“無人區(qū)”

調(diào)教模型像煉丹，數(shù)據(jù)重要性的維度變多了

與80萬車主，共闖大模型“端到端”

關(guān)于作者

光錐智能

發(fā)表回復(fù)

80萬車主，和理想共闖智駕“無人區(qū)”

做大模型端到端智駕，是在探索“無人區(qū)”

調(diào)教模型像煉丹，數(shù)據(jù)重要性的維度變多了

與80萬車主，共闖大模型“端到端”

關(guān)于作者

光錐智能

增長黑客Growthhk.cn薦讀更多>>

AI時代，需要什么樣的服務(wù)器操作系統(tǒng)？

一群人的獨(dú)守與堅(jiān)持，溯源華為云的成長史

“ChatGPT的最強(qiáng)競品”爆火，就這？

誰在成為大模型的“AI運(yùn)營”？

谷歌殺瘋了，深夜放出生成式AI全家桶！

從融資燒錢到商業(yè)落地：中國AI大模型步入「實(shí)戰(zhàn)期」

發(fā)表回復(fù)

80萬車主，和理想共闖智駕“無人區(qū)”

做大模型端到端智駕，是在探索“無人區(qū)”

與80萬車主，共闖大模型“端到端”

AI時代，需要什么樣的服務(wù)器操作系統(tǒng)？

一群人的獨(dú)守與堅(jiān)持，溯源華為云的成長史

“ChatGPT的最強(qiáng)競品”爆火，就這？

誰在成為大模型的“AI運(yùn)營”？

谷歌殺瘋了，深夜放出生成式AI全家桶！