徐立:人工智能正在进入“理解并重构世界”的新阶段
在2025世界人工智能大会(WAIC)主论坛上,商汤科技董事长兼首席执行官徐立发表了题为《人工智能的十年演进》的主旨演讲,系统梳理了人工智能技术在过去十年中的演进路径,并首次对外发布“开悟”世界模型平台,展望AI如何从感知、理解走向真实世界的重构与交互。
徐立指出,人工智能过去十年经历了三次关键跃迁:2012年起,深度学习推动感知AI落地;2017年,Transformer等技术引领生成式AI崛起;当前,以具身智能和世界模型为代表的新阶段,正在拓展AI对现实世界的影响力。
“智能从何而来?”徐立提出,这是商汤十年来持续探索的问题。他认为,第一代AI能力源于人工标注,第二代生成式AI基于互联网自然语言数据实现突破,而下一代AI则需要通过与现实世界的交互生成数据,推动智能持续演进。
在演讲中,徐立分享了商汤对“多模态思维链”的探索成果。团队发现,在加入丰富图文数据和高阶多模态推理能力后,模型不仅在语音交互和多模态任务中表现优异,其文本理解能力也同步增强。
“我们相信,真正通用的智能系统,必须能从原始、多模态的信息中抽象出知识。这不仅是生成力的来源,也是通往更深层智能的必经之路。”
面对自然语言数据资源逐渐枯竭的问题,商汤选择从主动交互与世界建模中寻找新动能。徐立首次公开介绍了商汤“开悟”世界模型,这一由日日新V6.5大模型赋能的视频生成系统,具备对时间、空间一致性的深度理解能力,能用自然语言生成复杂、多视角、可控的模拟视频,广泛应用于自动驾驶、机器人训练等高要求场景。
在实际演示中,“开悟”模型可生成逼真、符合物理规则的七路摄像头视角视频,甚至能还原如“加塞”等自动驾驶“长尾场景”,通过调节光照、天气、道路结构等变量,实现极高灵活度和训练效率。
徐立形容,“这就像是在真实街道上玩《极品飞车》。”未来,该能力还将进一步扩展至具身智能训练和复杂物理任务模拟,为AI在现实世界的深度落地提供强有力支撑。
演讲最后,徐立强调,AI的演进路径是从感知世界,到理解世界,再到生成并重构世界。他表示:“只有与现实世界形成主动交互,AI才能真正实现自主学习、自我成长,最终成为改变现实世界的创造力量。”他呼吁:业界共同探索AI的第三阶段,推动从“图像识别”走向“世界建模”的飞跃,让智能真正触达产业前线与人类生活的边界。
