以城市領(lǐng)航輔助為代表的高階智駕功能,從2023年的初現(xiàn)端倪,再到2024年的大規(guī)模落地,如今已經(jīng)成為各大車(chē)企爭(zhēng)奪高階智駕話(huà)語(yǔ)權(quán)的焦點(diǎn)。
而高階智駕發(fā)展到今天的L2+級(jí)別,想要再上一個(gè)臺(tái)階達(dá)到L3級(jí)甚至更高,原有技術(shù)在面對(duì)復(fù)雜多變的城市道路時(shí)就顯得有點(diǎn)吃力了。
于是,“端到端”成了智駕領(lǐng)域最近一個(gè)階段被高頻提及的關(guān)鍵詞。
目前,官方宣布已經(jīng)落地端到端技術(shù)的車(chē)企越來(lái)越多,全球?qū)用娴牡谝粋€(gè)是特斯拉,國(guó)內(nèi)的第一個(gè)是小鵬。
今年3月,特斯拉推出了FSD系統(tǒng)的V12版本,該版本宣稱(chēng)刪除了幾十萬(wàn)行的人工規(guī)則代碼,采用了端到端自動(dòng)駕駛解決方案。
今年7月底,小鵬宣布向全球用戶(hù)全量推送AI天璣系統(tǒng)XOS 5.2.0版本,該版本采用了國(guó)內(nèi)首個(gè)量產(chǎn)端到端大模型,官方宣稱(chēng)其高階智駕系統(tǒng)提升到了“全國(guó)都好用”的水平。
在8月開(kāi)幕的2024成都車(chē)展上,極越宣布PPA智駕升級(jí)為百度ASD,采用“純視覺(jué)+端到端大模型”的高階智駕方案在極越07上實(shí)現(xiàn)首搭。
雖然更多的車(chē)企還沒(méi)有實(shí)現(xiàn)量產(chǎn)落地,但也在緊鑼密鼓地進(jìn)行著端到端技術(shù)的研發(fā)。蔚來(lái)在年中成立了大模型團(tuán)隊(duì),小米也將智駕技術(shù)研發(fā)團(tuán)隊(duì)的感知與規(guī)控兩個(gè)部門(mén)合二為一。
8月初,梅賽德斯-奔馳則在上海研發(fā)中心宣布,全新一代自動(dòng)駕駛系統(tǒng)的“無(wú)圖”L2++城市領(lǐng)航輔助已經(jīng)開(kāi)始測(cè)試,并且應(yīng)用了端到端大模型。
而在10月末,又有兩個(gè)新勢(shì)力品牌官宣了端到端落地的消息。
10月23日,理想汽車(chē)宣布全新一代雙系統(tǒng)智能駕駛解決方案“端到端+VLM視覺(jué)語(yǔ)言模型”正式全量推送。
到了10月28日,智己汽車(chē)宣布IM AD 3.0率先完成從“最像人”到“有直覺(jué)”的斷代式進(jìn)化,為智駕系統(tǒng)率先注入人工智能生成的“直覺(jué)”——基于智己汽車(chē)與Momenta聯(lián)合打造的“一段式端到端直覺(jué)式智駕大模型”。
至此,智己正式加入端到端陣營(yíng),而且還是國(guó)內(nèi)第一個(gè)官宣落地“一段式端到端”的車(chē)企。
01.“直覺(jué)”智駕與“一段式端到端”
究竟什么是端到端?這是高階智駕進(jìn)入端到端時(shí)代首先要理清的概念。
所謂的“端到端”,一端是傳感器,包括攝像頭、激光雷達(dá)等,它們就像眼睛一樣承擔(dān)輸入環(huán)境信息的作用;另一端是行駛軌跡,也就是系統(tǒng)接收了來(lái)自傳感器的信息后,會(huì)輸出規(guī)劃軌跡,從而控制車(chē)輛按照軌跡行駛。
以往,傳統(tǒng)的智能駕駛系統(tǒng)采用的是模塊化模型,將感知、預(yù)測(cè)、規(guī)劃分別為三個(gè)獨(dú)立的模型。每個(gè)模型的技術(shù)棧差異較大,處于下游的規(guī)劃模型需要依賴(lài)工程師編寫(xiě)大量代碼去制定行駛規(guī)則。在模塊化的技術(shù)架構(gòu)下,信息的傳遞會(huì)出現(xiàn)減損,系統(tǒng)的維護(hù)難度大,無(wú)法從容應(yīng)對(duì)復(fù)雜路況。 端到端大模型則截然不同,將感知、預(yù)測(cè)、規(guī)劃三個(gè)模型融為一體,無(wú)需程序員編寫(xiě)冗長(zhǎng)的代碼去制定規(guī)則,而是用海量數(shù)據(jù)去訓(xùn)練系統(tǒng),賦予機(jī)器自主學(xué)習(xí)、思考和分析的能力。端到端模型不會(huì)出現(xiàn)信息傳遞減損,能夠更好地處理復(fù)雜的駕駛?cè)蝿?wù)。
這就是我們常說(shuō)的系統(tǒng)具備了學(xué)習(xí)能力,可實(shí)現(xiàn)“邊看邊開(kāi)”,從而擁有了應(yīng)對(duì)復(fù)雜場(chǎng)景的能力。
按照智己官方的說(shuō)法,IM AD 3.0能以更接近人腦結(jié)構(gòu)的思考方式,生成本能反應(yīng)主導(dǎo)的直覺(jué)決策能力,可以能像人類(lèi)思維一樣做出瞬間預(yù)判,具備“十年老司機(jī)”的直覺(jué)駕駛體感。
這個(gè)所謂的“直覺(jué)”,其實(shí)就是端到端技術(shù)的核心價(jià)值——打破傳統(tǒng)架構(gòu)中模塊化方案的解決思路,不再依賴(lài)人工編寫(xiě)的規(guī)則,讓感知信息能夠更加無(wú)損地參與到每一次的路徑規(guī)劃,輸出更加類(lèi)人的駕駛策略。
因此,智己提到的這個(gè)“直覺(jué)”,其實(shí)也不算是新概念,而是對(duì)端到端技術(shù)最恰當(dāng)?shù)囊环N比喻。
據(jù)官方介紹,智己IM AD 3.0讓智能汽車(chē)首次擁有了綜合分析道路環(huán)境全局信息的能力,尤其在應(yīng)對(duì)突發(fā)狀況時(shí),能夠“腦補(bǔ)”出看不見(jiàn)、看不全的路況信息,像人類(lèi)高級(jí)思維一樣可以做出瞬間預(yù)判,即人們通常所說(shuō)的“直覺(jué)”或“下意識(shí)反應(yīng)”。
在具體場(chǎng)景方面,智己在發(fā)布會(huì)上展示了測(cè)試視頻,可見(jiàn)IM AD3.0能夠禮讓盲區(qū)橫穿的行人、可以繞行水坑等特殊障礙物;在面對(duì)人車(chē)混流的無(wú)保護(hù)左轉(zhuǎn)場(chǎng)景時(shí),能夠像老司機(jī)一樣老練博弈,而不再原地傻等;在錯(cuò)綜復(fù)雜的路口,即使面對(duì)無(wú)中線(xiàn)、超寬車(chē)等看不清的路況,也能流暢通行。
智己還表示,IM AD3.0已經(jīng)可以做到“全國(guó)都好開(kāi),全場(chǎng)景都敢用”。
其實(shí)從端到端技術(shù)的落地時(shí)間來(lái)講,智己并不算快,但此次官宣還有一個(gè)看點(diǎn),那就是“一段式端到端”的落地,這讓智己成為國(guó)內(nèi)首個(gè)具備這一技術(shù)的車(chē)企。
當(dāng)前,端到端大模型基本都采用分模塊智駕結(jié)構(gòu),也就是所謂的“兩段式”架構(gòu),分別為感知的端到端和規(guī)控的端到端,二者各自獨(dú)立。
為智己提供智駕方案的科技企業(yè)Momenta CEO曹旭東表示,在兩段式端到端中,感知的端到端一定需要這個(gè)物體對(duì)于人來(lái)說(shuō)是比較好定義的,這樣的話(huà)才能夠很好地搜集訓(xùn)練數(shù)據(jù),以及學(xué)習(xí)和驗(yàn)證。但是對(duì)于復(fù)雜的通用障礙物,比較難在感知的端到端里面做定義的,規(guī)控的端到端就無(wú)法收到對(duì)應(yīng)的輸入,進(jìn)而忽視掉重要的感知信息,做出一些誤判的駕駛行為。
“一段式端到端大模型”則取消了分模塊智駕結(jié)構(gòu),將感知與規(guī)劃整合進(jìn)一個(gè)大模型,通過(guò)數(shù)據(jù)飛輪提供的海量?jī)?yōu)質(zhì)數(shù)據(jù),訓(xùn)練一個(gè)完整的神經(jīng)網(wǎng)絡(luò),分析全局信息、隱含信息,學(xué)習(xí)優(yōu)秀的人類(lèi)駕駛行為,從原始數(shù)據(jù)輸入到規(guī)劃路徑輸出,形成了類(lèi)似人腦的高級(jí)思維“直覺(jué)”反應(yīng)。
曹旭東表示,一段式端到端的好處是感知的端到端和規(guī)控的端到端聯(lián)系在一起,哪怕未定義的物體出現(xiàn),在感知大模型的幫助下,仍然會(huì)做出合理避讓。
為了解決一段式端到端方案前期下限低的問(wèn)題,Momenta的端到端模型采用了短期記憶和長(zhǎng)期記憶的訓(xùn)練邏輯。其中,短期記憶的訓(xùn)練周期是以“天”為級(jí)別的,好的數(shù)據(jù)和好的方法得到驗(yàn)證之后再進(jìn)入長(zhǎng)期記憶的模型學(xué)習(xí)。
這是一個(gè)類(lèi)似于人類(lèi)大腦進(jìn)行學(xué)習(xí)的邏輯,當(dāng)一個(gè)新的數(shù)據(jù)進(jìn)來(lái),它會(huì)先進(jìn)入短期記憶,等到數(shù)據(jù)和方法被驗(yàn)證之后,才會(huì)進(jìn)入長(zhǎng)期記憶去學(xué)習(xí)。
根據(jù)官方數(shù)據(jù),這套智己與Momenta聯(lián)合打造的“一段式端到端大模型”在“長(zhǎng)短期記憶模式”架構(gòu)的助力下,將模型訓(xùn)練成本節(jié)省了10-100倍,同時(shí)還大幅提升了迭代速度。
02.“端到端”到底難在何處?
雖然官宣落地端到端的車(chē)企越來(lái)越多,但無(wú)論是在研發(fā)端,還是在市場(chǎng)端,業(yè)內(nèi)人士對(duì)端到端的觀(guān)點(diǎn)及判斷并不一致。
8月16日,在第四屆沈陽(yáng)智能網(wǎng)聯(lián)汽車(chē)挑戰(zhàn)賽上,同濟(jì)大學(xué)汽車(chē)學(xué)院教授朱西產(chǎn)表示:“特斯拉的端到端、人工智能讓自動(dòng)駕駛更加成為可能,端到端被特斯拉帶火了,國(guó)內(nèi)的車(chē)企都在說(shuō)端到端。但現(xiàn)在,誰(shuí)宣布端到端量產(chǎn)上車(chē)了,他的這個(gè)車(chē)你就別買(mǎi)。”
而在此一周之前,華為終端董事長(zhǎng)、智能汽車(chē)解決方案BU董事長(zhǎng)余承東評(píng)價(jià)特斯拉FSD到:“其商用版本進(jìn)步非常大,上限挺高,但下限也很低。我們?nèi)y(cè)試,路上停著靜止不動(dòng)的白色貨車(chē),不減速就直接撞過(guò)去了,還有綠色的貨車(chē),也是不減速就去撞。”
根據(jù)朱西產(chǎn)的解讀,端到端大模型雖然能夠提供強(qiáng)大的泛化能力,但是在安全性方面存在不確定性。國(guó)內(nèi)車(chē)企在數(shù)量和AI訓(xùn)練算力方面與特斯拉相比還有較大差距,所以近兩年端到端量產(chǎn)上車(chē)的可能性不大。因?yàn)榇竽P托枰母咚懔€很難在車(chē)端布置,并且大模型目前也很難解決“長(zhǎng)尾難題”。
所謂“長(zhǎng)尾難題”,就是指在自動(dòng)駕駛過(guò)程中那些發(fā)生概率較低、但種類(lèi)繁多的特殊場(chǎng)景所帶來(lái)的潛在風(fēng)險(xiǎn)。這些問(wèn)題涵蓋各種零碎、極端的情況和難以預(yù)測(cè)的人類(lèi)行為,例如:帶有凸出貨物的卡車(chē)、打傘的行人、倒在路中央的樹(shù)木,以及異形車(chē)輛、亂穿馬路的行人和自行車(chē)、雨雪等極端天氣、極暗的行車(chē)環(huán)境等。
同樣是在8月初,極越CEO夏一平也曾表達(dá)了對(duì)端到端技術(shù)的看法。他表示:“端到端很難一蹴而就,我不認(rèn)為現(xiàn)在市場(chǎng)上有任何一家是端到端,絕對(duì)不可能的,這個(gè)世界上現(xiàn)在沒(méi)有人是端到端,不要吹這個(gè)牛。特斯拉目前還是分段式的,真正端到端、完全視覺(jué)看到直接做執(zhí)行還很難。要知道,這背后的驗(yàn)證模型是巨大的投入。”
夏一平所提到的巨大投入,就是端到端大模型量產(chǎn)的最大難點(diǎn)——它的完善需要巨額的訓(xùn)練數(shù)據(jù)積累,由此帶來(lái)的人力、物力和財(cái)力的消耗也是非??捎^(guān)的。
以特斯拉為例,僅僅建設(shè)超算中心就花費(fèi)了40億美金,而端到端大模型越完善,也將意味著參數(shù)越多、數(shù)據(jù)越多,其中還包括圖片和視頻數(shù)據(jù)。

在數(shù)據(jù)采集方面,目前車(chē)企紛紛依靠用戶(hù)的車(chē)輛采集數(shù)據(jù),銷(xiāo)量越大也意味著數(shù)據(jù)越豐富。據(jù)業(yè)內(nèi)人士預(yù)測(cè),誰(shuí)的銷(xiāo)量先破100萬(wàn)輛,誰(shuí)就有可能在智能駕駛采集數(shù)據(jù)方面率先取得突破,而特斯拉在美國(guó)市場(chǎng)已經(jīng)銷(xiāo)售了170多萬(wàn)輛,它在數(shù)據(jù)積累上的體量是目前任何一個(gè)品牌都很難達(dá)到的。
朱西產(chǎn)認(rèn)為,根據(jù)國(guó)內(nèi)車(chē)企目前在智能駕駛開(kāi)發(fā)的數(shù)據(jù)能力和AI訓(xùn)練算力,先做到感知的端到端,在規(guī)控算法上保留安全準(zhǔn)則模型,這種分段式的端到端方案模型是比較合理的技術(shù)路線(xiàn)。以當(dāng)前的情況來(lái)看,已經(jīng)官宣落地的“端到端”大概率都是這個(gè)模式。
據(jù)極越官方表示,百度在AI和自動(dòng)駕駛領(lǐng)域擁有超過(guò)十年時(shí)間、超過(guò)1500億資金的持續(xù)投入,基于L4級(jí)自動(dòng)駕駛大模型Apollo ADFM打造了ASD。Apollo的L4級(jí)自動(dòng)駕駛里程已經(jīng)超過(guò)1億公里,并建立了超5.5EFLOPS的高算力訓(xùn)練集群,可以實(shí)現(xiàn)模型的高效訓(xùn)練和快速迭代。
在這一點(diǎn)上,智己與Momenta宣布“模型訓(xùn)練成本節(jié)省了10-100倍,并大幅提升了迭代速度”其實(shí)與之意思相同,那就是強(qiáng)調(diào)數(shù)據(jù)訓(xùn)練效率提升,已經(jīng)積累到了可以支持端到端落地的量級(jí)。
而至于小鵬、理想等品牌,目前尚未針對(duì)數(shù)據(jù)訓(xùn)練給出詳細(xì)的解讀信息。
03.L3量產(chǎn)只差臨門(mén)一腳
隨著端到端大模型的陸續(xù)落地,智能駕駛突破現(xiàn)有的L2級(jí)“限制”已經(jīng)迫在眉睫了。
智己在宣布“一段式端到端直覺(jué)式智駕大模型”量產(chǎn)上車(chē)的時(shí)候,也同步官宣了“同時(shí)具備L2、L3、L4級(jí)智能駕駛量產(chǎn)能力”的消息。
按照官方公布的信息,智己的L2+級(jí)高階輔助駕駛已在全國(guó)范圍內(nèi)開(kāi)通全系車(chē)型“無(wú)圖城市NOA”;歐洲市場(chǎng)的L2+道路測(cè)試也已啟動(dòng);L3級(jí)自動(dòng)駕駛已進(jìn)入量產(chǎn)倒計(jì)時(shí),智己在今年6月入選了全國(guó)首批“L3準(zhǔn)入及路試聯(lián)合體名單”,預(yù)計(jì)將于2026年正式具備L3級(jí)自動(dòng)駕駛方案的量產(chǎn)條件;預(yù)計(jì)將在年內(nèi)獲得首批“L4級(jí)無(wú)駕駛?cè)说缆窚y(cè)試牌照”,實(shí)現(xiàn)無(wú)人駕駛車(chē)率先上路。
智己表示,在隨著L3、L4級(jí)自動(dòng)駕駛相關(guān)法律法規(guī)的逐步出臺(tái),智己將最快落地全行業(yè)最領(lǐng)先的自動(dòng)駕駛體驗(yàn)。
比智己更早一點(diǎn)官宣的是華為,余承東在2024世界智能網(wǎng)聯(lián)汽車(chē)大會(huì)上表示,預(yù)計(jì)ADS 4.0將于2025年推出,將實(shí)現(xiàn)高速L3級(jí)自動(dòng)駕駛商用及城區(qū)L3級(jí)自動(dòng)駕駛試點(diǎn)。
而像小鵬、理想、蔚來(lái)、極越等具備了高階智駕能力的品牌,其實(shí)也已經(jīng)具備了突破L2級(jí)的技術(shù)積累,他們的智駕系統(tǒng)在功能上距離允許“脫手”也只差法規(guī)的松綁而已了。
因此,L3級(jí)智能駕駛的落地,已經(jīng)到了只差臨門(mén)一腳的時(shí)刻。
在6月15日舉辦的中國(guó)汽車(chē)藍(lán)皮書(shū)論壇上,華為智能汽車(chē)解決方案BU CEO靳玉志表示,汽車(chē)智能駕駛已經(jīng)在L2級(jí)停留了太長(zhǎng)時(shí)間,L3級(jí)自動(dòng)駕駛技術(shù)在高速公路等場(chǎng)景的應(yīng)用已經(jīng)較為成熟,應(yīng)該盡快允許商用。
雖然法規(guī)究竟何時(shí)可以“解綁”尚未可知,但端到端技術(shù)的逐步落地和持續(xù)完善無(wú)疑將起到助推作用。
從這一點(diǎn)來(lái)講,2024年末國(guó)內(nèi)車(chē)企頭部玩家端到端技術(shù)的扎堆落地,將成為自動(dòng)駕駛發(fā)展歷程中值得記錄的一筆。