首页 小说推荐 实时讯息 百科知识 范文大全 经典语录
您的位置: 首页 > 实时讯息 >

把世界模型装入座舱,绝影的体验有何不同?

0次浏览     发布时间:2025-04-27 15:14:00    

2025上海车展期间,商汤绝影携系列生成式AI汽车创新产品亮相。商汤绝影全面展示了生成式智驾R-UniAD技术方案,并发布近实时在线交互的4D世界模型“绝影开悟2.0”。

面向智能座舱,商汤绝影行业首发专为车载AIOS打造的AI内核“绝影千机”,助力车企打造下一代AIOS,“家庭新成员”New Member全新升级,车展现场可以沉浸式体验New Member多模态识人、深度思考、免唤醒多人多轮对话等功能。此外,商汤绝影的健康管家、安全卫士和3D交互等AI座舱创新产品也相继亮相,全场景守护出行体验。

如何把大模型“装进”座舱

包括Deepseek在内,大模型给智能座舱带来了怎样的体验?商汤科技联合创始人、首席科学家、商汤绝影CEO王晓刚对此表示,“Deepseek 的出现,通过强化学习和思维链,产生了很多中间结果。比如说在解一道题的情况下,有十种解法,其中人类有两种解法,它还有八种解法是通过强化学习找到的,这就扩大了人类的知识库和数据基础,打破了数据瓶颈。但其实,如果只是简单把Deepseek 连接到座舱里面,其实是不适合的,并不适合把中间这么多、这么长的结果展示出来。”

过去,chat GPT是一种端到端的技术路线,收集大量人类产生的数据,包括互联网上的数据,进行模仿学习,但遇到了一个瓶颈,当增加数据规模和增加模型时,收益就变得比较小,这可能是互联网上的数据价值被占用的差不多了。王晓刚说,希望Deepseek能够针对座舱场景中,说出很多金句,“一句顶一万句”,绝影在去年推出的new member是非常契合的,需要省去那些中间不适合在座舱中进行表达的,而是能够产生很多幽默的、生动的表达。

此外,商汤绝影也结合了多模态的模型,实现了多模态的深度推理,使得智能座舱能够更好认人识人。过去,用户在唤醒座舱时,它实际上并不知道你是谁,就只是简单回答你的问题。现在,商汤绝影座舱往前走了一步,通过人脸识别让机器人能够识别车里的人,能知道你的兴趣爱好,聊天时你生活当中经历的点点滴滴,都会形成记忆、形成共情,你和机器人“小影”待时间更久以后,它就能够给你更多情感共鸣。

甚至车内几个人一起对话,时突然问“小影”的意见,让它参与到讨论当中,那么小影就能对话,时刻都在观察你们,知道你们在讨论什么,能够立刻参与到讨论当中去。

在行业中,有观点认为,只做软件不赚钱,做硬件或者软硬结合的业务才能赚钱。王晓刚对此解释,事实上,商汤绝影的业务模式也不光是提供软件服务,未来云端研发占比会越来越高,通过“驾舱云三位一体”,提供AIDC云服务等,实现基础的模型工具链和云服务结合。此外,座舱也同样有软硬结合的场景。

他举例说,现有的车机芯片对大模型的支持还不是非常友好,而好的价格比较贵;围绕舱内摄像头,商汤绝影推出来的DOMS,以前DMS和OMS是两颗摄像头,今天就是一颗摄像头,也能够完成两样工作,这需要硬件和软件的结合能力。

如何超越人类驾驶水平

车展期间,商汤绝影展示了绝影开悟世界模型2.0,其中一大能力是“面向量产的数据生成”,具有多样性场景的可控生成的能力,能一键生成极端高风险场景,为模型训练提供了海量且丰富的训练数据。

无独有偶,最近地平线创始人余凯表示,在 AI 时代,90%的用户行为数据不值得学习。理由是,大部分人类司机的驾驶技术和习惯并不好。比如刹车太急、拐弯不够从容。目前,地平线推出了端到端VLA(视觉-语言-动作)大模型技术,实现全场景零接管的拟人化驾驶体验。

王晓刚对此表示认同。他认为,端到端的数据驱动,主要是对数据量和质量的依赖。因为它直接根据输入的图像视频去推测车辆行驶的轨迹。本质上是模仿人类驾驶的行为。

但是,人开车过程中,90%的人驾驶行为是不太好的,只有10%甚至1%的高水平数据才更具价值。

此外,端到端的自动驾驶还有一个问题,就是它的不确定性。王晓刚举例说,有一些问题场景其实是没有办法复现的,过去的解决方式是通过采集大量的类似的场景重新训练模型。模型更新之后,我们所关心的特定场景问题是否被解决,这个是不一定的,甚至有的已经解决的场景会出现回退现象。

王晓刚认为,随着对自动驾驶安全性、确定性要求越来高,会更加重视云端上的模拟仿真,包括大模型。下一个阶段自动驾驶到了生成式智驾阶段,这就需要世界模型,“世界模型是能够非常准确地重建,并且模拟泛化我们的现实物理世界。比如说,我们遇到一些问题,可以在3D 重建世界模型里面复现。”

尤其是针对一些采集成本过高、危险性过强的场景,需要通过世界模型进行模拟仿真。王晓刚认为,通过强化学习和世界模型,端到端模型能够突破人类驾驶行为的上限,它不光是在模拟人类,而是能够超越人类的驾驶水平。同时,有更多确定性,减少数据采集风险,降低数据采集成本。

“我觉得这也是受了Deepseek的启发,Deepseek也是通过强化学习,生成很多思维链的结果。只不过自动驾驶更复杂。它不光是一个语言文字的生成,还需要视频的生成,这就需要我们的世界模型把物理世界进行建模;也类似于像那 alpha zero,最早的时候alpha go是学习人类的棋谱,到了终极方案时,它是通过强化学习模型之间的对弈,这样能够去超越人类的水平,产生了很多人类没有产生过的棋谱。”王晓刚说。

相比之下,模拟下围棋易做,因为棋盘和规则是固定的;在自动驾驶场景,需要用世界模型模拟、生成物理世界,需要能够准确反映物理定律、交通规则、运动规律。

南方+记者 郜小平

【作者】 郜小平

【来源】 南方报业传媒集团南方+客户端

相关文章