omniture

  • <sup id="8old7"><fieldset id="8old7"></fieldset></sup><legend id="8old7"><span id="8old7"></span></legend><tt id="8old7"></tt>
      1. <td id="8old7"></td>
          四虎在线播放亚洲成人,亚洲一本二区偷拍精品,国产一区二区一卡二卡,护士张开腿被奷日出白浆,99久久精品国产一区二区蜜芽,国产福利在线观看免费第一福利,美女禁区a级全片免费观看,最新亚洲人成网站在线影院

          從"只會看路"到"情境感知":ICCV 2025自動駕駛挑戰(zhàn)賽冠軍方案詳解

          2025-11-19 17:09 1837

          北京2025年11月19日 /美通社/ -- 近日,在全球權威的ICCV 2025自動駕駛國際挑戰(zhàn)賽(Autonomous Grand Challenge)中,浪潮信息AI團隊所提交的"SimpleVSF"(Simple VLM-Scoring Fusion)算法模型以53.06的出色成績斬獲端到端自動駕駛賽道(NAVSIM v2 End-to-End Driving Challenge)第一名。

          SimpleVSF深度融合了傳統(tǒng)軌跡規(guī)劃與視覺-語言模型(Vision-Language Model, VLM)的高級認知能力,能夠理解復雜的交通情境,突破了現有端到端自動駕駛模型"只會看路、缺乏思考"的局限。這得益于兩大關鍵創(chuàng)新:一方面,引入VLM增強打分器,使打分器不再僅僅依賴于原始的傳感器數據,而是能夠理解深層的交通意圖和"常識",從而選出更安全、更合理的駕駛方案;另一方面,采用雙重軌跡融合決策機制(權重融合器和VLM融合器),進一步融合多個打分器選出的軌跡,確保最終決策不僅數值最優(yōu),而且語義合理。

          本篇文章將根據浪潮信息提交的技術報告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving",詳解其使用的創(chuàng)新架構、優(yōu)化措施和實驗結果。

          一、背景與挑戰(zhàn)

          近年來,自動駕駛技術飛速發(fā)展,正從傳統(tǒng)的模塊化流程(Modular Pipeline)逐步邁向更高效、更具魯棒性的端到端(End-to-End)范式。傳統(tǒng)的模塊化系統(tǒng)(感知、定位、規(guī)劃、控制)容易在各模塊間積累誤差,且面對復雜場景時,信息的層層傳遞往往導致決策滯后或次優(yōu)。端到端方法旨在通過神經網絡直接從傳感器輸入生成駕駛動作或軌跡,實現信息流的統(tǒng)一與優(yōu)化。然而,要真正讓機器像人類一樣在復雜環(huán)境中做出"聰明"的決策,仍面臨巨大的技術挑戰(zhàn)。

          NAVSIM框架旨在通過模擬基礎的指標來解決現有問題,具體方法是展開場景簡化的鳥瞰圖(Bird's-Eye View, BEV)抽象,并在一個較短的模擬時間范圍內推演出行車軌跡。為了超越僅在人類數據采集中觀察到的狀態(tài)下評估駕駛系統(tǒng), NAVSIM v2 挑戰(zhàn)賽引入了反應式背景交通參與者和真實的合成新視角輸入,以便更好地評估模型的魯棒性和泛化能力。

          目前針對該類任務的主流方案大致可分為三類。第一類是基于Transformer自回歸的方案,通過路徑點的逐一預測得到預測軌跡,代表工作是Transfuser[1]。第二類是基于Diffusion的方案,通過在去噪時引入各種控制約束得到預測軌跡,代表工作是DiffusionDrive[2]。第三類是基于Scorer的方案,通過對一個預定義的軌跡詞表進行打分篩選得到預測軌跡,代表工作是GTRS[3]。

          二、方法介紹

          浪潮信息AI團隊提出了SimpleVSF框架,其核心創(chuàng)新在于引入了視覺-語言模型(VLM)作為高層認知引擎,并設計了雙重融合策略,將VLM的語義理解能力高效地注入到軌跡評分與選擇的全流程中。

          圖1 SimpleVSF整體架構圖
          圖1 SimpleVSF整體架構圖

          SimpleVSF框架可以分為三個相互協(xié)作的模塊:

          基礎:基于擴散模型的軌跡候選生成

          框架的第一步是高效地生成一套多樣化、高質量的候選軌跡集合。

          • 技術選型:采用擴散模型(Diffusion-based Trajectory Generator)。
          • 作用:擴散模型基于自車狀態(tài)和環(huán)境的鳥瞰圖(BEV)表示進行條件生成。其優(yōu)勢在于能夠捕捉軌跡分布的多模態(tài)性,生成一系列在運動學上可行且具有差異性的錨點(Anchors),為后續(xù)的精確評估提供充足的"備選方案"。

          核心:VLM 增強的混合評分機制(VLM-Enhanced Scoring)

          SimpleVSF采用了混合評分策略,它搭建了高層語義與低層幾何之間的橋梁。其工作原理如下:

          A.語義輸入:利用一個經過微調的VLM(Qwen2VL-2B[4])作為語義處理器。VLM 接收以下三種信息:

          (i)前視攝像頭圖像:提供場景的視覺細節(jié)。
          (ii)自車狀態(tài):實時速度、加速度等物理量。
          (iii)高層駕駛指令: 規(guī)劃系統(tǒng)輸入的抽象指令,如"左轉"、"向前行駛"等。

          B.輸出認知指令:VLM根據這些輸入,輸出認知指令(Cognitive Directives)。這些指令是高層的、類似于人類思考的抽象概念,例如:

          縱向指令:"保持速度"、"加速"、"緩慢減速"、"停車"
          橫向指令:"保持車道中心"、"微調向左"、"大角度右轉"

          C.可學習的特征融合:這些抽象的語言/指令(如"停車")首先通過一個可學習的編碼層(Cognitive Directives Encoder),被巧妙地轉換為密集的數值特征。這個VLM特征隨后與自車狀態(tài)和傳統(tǒng)感知輸入拼接(Concatenated),共同作為軌跡評分器解碼的輸入。通過這種顯式融合,VLM的高層語義理解不再是模型隱含的特性,而是直接參與到軌跡的數值代價計算中。

          保障:雙重軌跡融合策略(Trajectory Fusion)

          為了實現魯棒、平衡的最終決策,SimpleVSF 采用了兩種融合機制來保障最終輸出軌跡的質量。

          A.量化融合:權重融合器(Weight Fusioner, WF)

          • 機制: 這是一個基于定量嚴謹性的主機制。它負責將來自多個評分器和多個模型(包括VLM增強評分器和傳統(tǒng)評分器)的得分進行高效聚合。
          • 融合流程:

          (i)指標聚合:將單個軌跡在不同維度(如碰撞風險、舒適度、效率)上的得分進行初次聚合。
          (ii)模型聚合:采用動態(tài)加權方案,根據當前場景的重要性,動態(tài)地調整來自不同模型(如多個VLM增強評分器)的聚合得分的權重。

          • 作用: 確保了在大多數常規(guī)場景下,最終的決策是基于多方輸入、統(tǒng)計學上最可靠的選擇。

          B. 質性融合:VLM融合器(VLM Fusioner, VLMF)

          圖2 VLM融合器的軌跡融合流程
          圖2 VLM融合器的軌跡融合流程

          • 機制:旨在通過VLM的定性推理能力進行最終的語義精煉。
          • 融合流程:

          (i)軌跡精選:從每一個獨立評分器中,選出排名最高的軌跡。
          (ii)LQR 模擬與渲染:這些精選軌跡通過 LQR 模擬器進行平滑處理,確保運動學可行性。然后,它們被可視化并渲染到當前的前視攝像頭圖像上,形成一個包含"潛在行動方案"的視覺信息圖。
          (iii)將包含渲染軌跡的圖像以及文本指令提交給一個更大、能力更強的 VLM 模型(Qwen2.5VL-72B[5]),并明確要求 VLM 根據場景和指令,定性選擇出"最合理"的軌跡。

          • 作用: 賦予了系統(tǒng)一道語義校驗關卡,確保最終決策不僅數值最優(yōu),更在高層認知和常識上合理。

          三、實驗結果

          為驗證優(yōu)化措施的有效性,浪潮信息AI團隊在Navhard數據子集上進行了消融實驗,結果如下表所示。以Version A作為基線(baseline)。

          表1 SimpleVSF在Navhard數據子集不同設置下的消融實驗
          表1 SimpleVSF在Navhard數據子集不同設置下的消融實驗

          在不同特征提取網絡的影響方面,浪潮信息AI團隊使用了三種不同的Backbones,即V2-99[6]、EVA-ViT-L[7]、ViT-L[8],分別對應Version A、Version B、Version C。結果表明,Backbones的選擇對性能起著重要作用。ViT-L明顯優(yōu)于其他Backbones。

          在VLM增強評分器的有效性方面,Version D和Version E集成了VLM增強評分器,Version D優(yōu)于對應的相同backbone的傳統(tǒng)評分器Version A,證明了語義指導的價值。雖然Version E的個體性能與對應的相同backbone的傳統(tǒng)評分器Version C相比略低,但VLM增強評分器的真正優(yōu)勢在于它們的融合潛力。

          在軌跡融合策略的性能方面,通過融合策略,浪潮信息AI團隊觀察到了最顯著的性能提升。WF B+C+D+E在Navhard數據集上取得了47.18的EPDMS得分。最終,浪潮信息AI團隊在Private_test_hard分割數據集上也使用了這四個評分器的融合結果。VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68,但由于提交規(guī)則限制,未在最終的排行榜提交中使用此融合策略。

          表2 SimpleVSF在競賽Private_test_hard數據子集上的表現
          表2 SimpleVSF在競賽Private_test_hard數據子集上的表現

          在最終榜單的Private_test_hard分割數據集上,浪潮信息AI團隊提出的SimpleVSF框架在排行榜上獲得了第一名,取得了53.06的總EPDMS分數。對于Stage I,它在TLC(交通燈合規(guī)性)上獲得了100分,在DAC(可駕駛區(qū)域合規(guī)性)和 DDC(駕駛方向合規(guī)性)上獲得了99.29分,這展示了模型的魯棒性及其對關鍵交通規(guī)則的遵守能力。對于Stage I和Stage II,浪潮信息AI團隊的NC(無過失碰撞)分數在所有參賽團隊中處于領先地位。雖然其他方法可能在某些方面表現出色,但浪潮信息AI團隊的SimpleVSF在指標上實現了綜合平衡。

          四、總結

          本文介紹了獲得端到端自動駕駛賽道第一名的"SimpleVSF"算法模型。SimpleVSF框架成功地將視覺-語言模型從純粹的文本/圖像生成任務中引入到自動駕駛的核心決策循環(huán),完成了從"感知-行動"到"感知-認知-行動"的升維。

          [1]    Chitta, K.;  Prakash, A.;  Jaeger, B.;  Yu, Z.;  Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 (11), 12878-12895.

          [2]    Liao, B.;  Chen, S.;  Yin, H.;  Jiang, B.;  Wang, C.;  Yan, S.;  Zhang, X.;  Li, X.;  Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047.

          [3]    Li, Z.;  Yao, W.;  Wang, Z.;  Sun, X.;  Chen, J.;  Chang, N.;  Shen, M.;  Wu, Z.;  Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025.

          [4]    Wang, P.;  Bai, S.;  Tan, S.;  Wang, S.;  Fan, Z.;  Bai, J.;  Chen, K.;  Liu, X.;  Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024.

          [5]    Bai, S.;  Chen, K.;  Liu, X.;  Wang, J.;  Ge, W.;  Song, S.;  Dang, K.;  Wang, P.;  Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025.

          [6]    Lee, Y.;  Hwang, J.-w.;  Lee, S.;  Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0.

          [7]    Fang, Y.;  Sun, Q.;  Wang, X.;  Huang, T.;  Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171.

          [8]    Dosovitskiy, A.;  Beyer, L.;  Kolesnikov, A.;  Weissenborn, D.;  Zhai, X.;  Unterthiner, T.;  Dehghani, M.;  Minderer, M.;  Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020.

           

          消息來源:浪潮信息
          China-PRNewsire-300-300.png
          全球TMT
          微信公眾號“全球TMT”發(fā)布全球互聯(lián)網、科技、媒體、通訊企業(yè)的經營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
          collection
          主站蜘蛛池模板: 西西人体44WWW高清大胆| 午夜福利激情一区二区三区| 久久不见久久见免费视频观看| 国产激情一区二区三区四区| 日韩国产av一区二区三区精品| 久久www免费人成看片中文| 德昌县| 少妇特殊按摩高潮惨叫无码| 闻喜县| 精品国产不卡在线观看免费| 国产精品免费第一区二区| 自拍偷在线精品自拍偷免费| 日韩国产成人精品视频| 汕头市| 欧美老少配性行为| 日本少妇被黑人xxxxx| 综合色在线| 欧美国产激情18| 亚洲乱码一区二区三区视色| 国产精品一区二区中文| 2022最新国产在线不卡a| 少妇人妻无码专区视频| 中文字幕av中文字无码亚| 国产精品自在自线视频| 国内精品自国内精品自久久| 无码人妻精品一区二区三区下载| 精品日本乱一区二区三区| 国产综合色在线精品| 东方四虎av在线观看| 免费a级黄毛片| 国产中文字幕精品免费| 精品人妻一区二区| 欧美精品国产综合久久| 国产最新AV在线播放不卡| 欧美乱大交aaaa片if| 亚洲线精品一区二区三八戒| 精品无码一区二区三区的天堂| 国产人伦精品一区二区三| 日本一卡二卡不卡视频查询| 日韩av一区二区三区不卡| 亚洲精品美女久久7777777|