Copyright 2017-2025 新車測(cè)評(píng)網(wǎng) 版權(quán)所有 ICP備18049689號(hào)-30
2025年被稱為“VLA上車元年”,以視覺語(yǔ)言動(dòng)作模型(Vision-Language-Action Model, VLA)為核心的技術(shù)范式正在重塑智能駕駛行業(yè)。
VLA不僅融合了視覺語(yǔ)言模型(VLM)的感知能力和端到端模型的決策能力,更引入了“思維鏈”技術(shù),實(shí)現(xiàn)了全局上下文理解與類人推理能力,革命性技術(shù)的落地將推動(dòng)智能駕駛從“功能時(shí)代”邁向“體驗(yàn)時(shí)代”,并可能在未來(lái)兩年內(nèi)改寫智能駕駛市場(chǎng)的競(jìng)爭(zhēng)格局。
我們從VLA的定義與核心價(jià)值、以及其對(duì)2025年頭部車企智能駕駛性能的影響展開深度分析。
01
什么是VLA,
為什么智能駕駛要切換到VLA?
● 什么是 VLA?
VLA 即視覺語(yǔ)言動(dòng)作模型(Vision - Language - Action Model),最早由 DeepMind 于 2023 年提出并應(yīng)用在機(jī)器人領(lǐng)域。它能夠輸入給定的文本和視覺數(shù)據(jù),輸出機(jī)器人可執(zhí)行的動(dòng)作,具有 AI 與物理世界交互的天然基因。
◎ 從整體框架來(lái)看,VLA 可視為 VLM(視覺語(yǔ)言模型)與端到端模型的結(jié)合體。
VLM 著重于圖像和場(chǎng)景的理解,為智駕決策規(guī)劃提供輸入;而 VLA 則將端到端與多模態(tài)大模型更徹底地融合,能夠根據(jù)感知直接生成車輛的運(yùn)動(dòng)規(guī)劃和決策,更接近 “圖像輸入、控制輸出” 的端到端智駕理想狀態(tài)。
Google 的 RT - 2 模型通過(guò)將 VLM 直接應(yīng)用于機(jī)器人控制,實(shí)現(xiàn)了視覺、語(yǔ)言和動(dòng)作的無(wú)縫銜接,提升了機(jī)器人的泛化能力和適應(yīng)性。
◎ 在自動(dòng)駕駛領(lǐng)域,VLA 模型可以從傳感器數(shù)據(jù)中提取豐富的環(huán)境信息,借助語(yǔ)言模型理解人類指令并生成可解釋的決策過(guò)程,最后將多模態(tài)信息轉(zhuǎn)化為具體的駕駛操作指令。
● 智能駕駛切換到 VLA 的原因
隨著城區(qū)NOA(Navigate on Autopilot)的普及,用戶對(duì)智能駕駛體驗(yàn)的需求從“能用”轉(zhuǎn)向“好用”。
傳統(tǒng)VLM或端到端方案雖然在感知與決策方面有了顯著提升,但在復(fù)雜路況下仍存在局限:
◎ 短視化問(wèn)題:現(xiàn)有系統(tǒng)通常只能應(yīng)對(duì)7秒內(nèi)的路況推理,而在突發(fā)情況(如交通指揮手勢(shì))中表現(xiàn)不足。
◎ 缺乏解釋能力:用戶對(duì)“為什么這么開”的需求未被充分滿足,導(dǎo)致體驗(yàn)層面信任不足。
◎ 決策全局性不足:面對(duì)動(dòng)態(tài)復(fù)雜場(chǎng)景,傳統(tǒng)方案難以統(tǒng)籌多重變量并實(shí)現(xiàn)安全優(yōu)化。
VLA的引入不僅補(bǔ)足了技術(shù)短板,也標(biāo)志著智能駕駛從探索期進(jìn)入規(guī)模化落地期。在2025年,VLA的量產(chǎn)落地預(yù)計(jì)將推動(dòng)城區(qū)NOA滲透率突破個(gè)位數(shù),進(jìn)一步縮短行業(yè)格局的技術(shù)差距。
智能駕駛領(lǐng)域的技術(shù)路線經(jīng)歷了重大變革。那些能夠迅速掌握并應(yīng)用VLA的企業(yè),已經(jīng)在競(jìng)爭(zhēng)中占據(jù)了有利位置,并展示了其在技術(shù)創(chuàng)新方面的前瞻性。
市場(chǎng)競(jìng)爭(zhēng)焦點(diǎn)從單純的功能實(shí)現(xiàn)轉(zhuǎn)向了更深層次的技術(shù)范式競(jìng)爭(zhēng),強(qiáng)調(diào)技術(shù)架構(gòu)的先進(jìn)性和可持續(xù)性發(fā)展。
VLA技術(shù)的應(yīng)用不僅推動(dòng)了企業(yè)在相關(guān)技術(shù)研發(fā)上的投入,還促使整個(gè)行業(yè)重新審視和制定相應(yīng)的標(biāo)準(zhǔn)與規(guī)范,以適應(yīng)新技術(shù)帶來(lái)的挑戰(zhàn),確保智能駕駛的安全性、可靠性和可解釋性,從而促進(jìn)該行業(yè)的健康穩(wěn)定發(fā)展。
能否及時(shí)跟上這一波技術(shù)革新潮流,成為了決定企業(yè)是否能在未來(lái)智能駕駛市場(chǎng)中脫穎而出的關(guān)鍵因素。
02
2025年VLA上車后,
智能駕駛頭部車企
的性能會(huì)拉開差距嗎?
2025年,隨著VLA技術(shù)的上車,智能駕駛頭部車企的性能將顯著拉開差距,主要體現(xiàn)在技術(shù)積累、數(shù)據(jù)規(guī)模和算力支持等方面,頭部企業(yè)在端到端和視覺語(yǔ)言模型(VLM)領(lǐng)域已有豐富的經(jīng)驗(yàn)積累,能夠更快實(shí)現(xiàn)VLA的研發(fā)和落地。
此外,通過(guò)爆款車型積累了海量駕駛數(shù)據(jù),為VLA的訓(xùn)練和優(yōu)化提供了堅(jiān)實(shí)基礎(chǔ)。英偉達(dá)Thor等高性能芯片的量產(chǎn)也為VLA的上車提供了強(qiáng)大的算力保障,頭部車企在芯片適配和優(yōu)化方面具備先發(fā)優(yōu)勢(shì)。
● “技術(shù)-數(shù)據(jù)飛輪”的競(jìng)速:
◎ 技術(shù)優(yōu)勢(shì)轉(zhuǎn)化為數(shù)據(jù)優(yōu)勢(shì):VLA技術(shù)所支持的長(zhǎng)時(shí)間推理與全局決策能力,將顯著提升城區(qū)NOA的實(shí)際使用頻率,進(jìn)而為車企積累更大規(guī)模、更高質(zhì)量的真實(shí)場(chǎng)景數(shù)據(jù)。
◎ 數(shù)據(jù)優(yōu)勢(shì)強(qiáng)化技術(shù)優(yōu)化:基于Scaling Law(規(guī)模律),數(shù)據(jù)規(guī)模的提升將反哺算法性能迭代,進(jìn)一步提升用戶體驗(yàn)。這種正向循環(huán)有望在短時(shí)間內(nèi)拉開頭部車企與第二梯隊(duì)之間的技術(shù)差距。
● VLA上車后,頭部車企的性能優(yōu)勢(shì)將在多個(gè)維度上顯現(xiàn):
◎ 場(chǎng)景覆蓋能力:VLA的強(qiáng)推理能力和泛化性使頭部車企的智能駕駛系統(tǒng)能夠應(yīng)對(duì)更多復(fù)雜場(chǎng)景,顯著提升用戶體驗(yàn)。
◎ 決策擬人化:VLA的“類人”思維使智能駕駛系統(tǒng)的決策更加擬人化,減少突兀的駕駛行為,增強(qiáng)用戶的安全感和舒適度。
◎ 系統(tǒng)可解釋性:VLA的高可解釋性增強(qiáng)了用戶對(duì)智能駕駛系統(tǒng)的信任,提升了品牌忠誠(chéng)度。
后發(fā)者當(dāng)然也可以通過(guò)正確的方法來(lái)一次系統(tǒng)性的趕超,當(dāng)然VLA的研發(fā)需要大量時(shí)間和資源投入,導(dǎo)致研發(fā)周期長(zhǎng),難以在短期內(nèi)追趕領(lǐng)先者,高性能芯片和VLA模型的部署大幅增加了研發(fā)和制造成本,這還是金錢的游戲。
2025年VLA的上車預(yù)計(jì)會(huì)引發(fā)新一輪的“智駕格局洗牌”,技術(shù)和數(shù)據(jù)的雙重優(yōu)勢(shì)將進(jìn)一步鞏固市場(chǎng)地位,而中小玩家則面臨更加嚴(yán)峻的技術(shù)和資金挑戰(zhàn),智能駕駛在2025有了技術(shù)范式的革新,也重新定義了市場(chǎng)競(jìng)爭(zhēng)的規(guī)則。
小結(jié)
智能駕駛行業(yè)正站在VLA技術(shù)引領(lǐng)的新起點(diǎn)上。從感知時(shí)代到?jīng)Q策時(shí)代,VLA為行業(yè)提供了更強(qiáng)的泛化能力、更優(yōu)的推理能力和更高的透明性。