游戏影视界开“卷”大模型,百度智能云押注“空间智能”
历经两年的持续进化,AI大模型进入产业落地阶段。其中,泛娱乐作为大模型应用的重要领域,备受行业关注。大模型将重构这些领域的效率提升、体验优化、模式创新等,已经成为业内的共识。
但AI大模型开发成本、精准度以及模型效率等是限制其落地的重要制约因素。大量的游戏、影视、AR/VR、3D生成等公司仍在探索,大模型应该以什么方式融入业务场景,才能带来真正意义上的降本增效,以及全新的科技新体验?
目前,这条落地路径率先被百度智能云找到了。11月22日,百度智能云在业内首次发布了“空间智能解决方案”,从底层的AI基础架构,到大模型应用开发层,再到上层的大模型AI应用,给予泛娱乐行业用户全面的业务支撑。
这套方案不仅吸引了Unity、米哈游、上影集团等游戏影视巨头前来合作,也吸引了哇嘶嗒(VAST)、智能AR眼镜Rokid、生数科技等不少明星初创公司的深度共创,发布会现场更是挤满了想要面对面交流的业内人。
在游戏、影视、3D生成等行业,百度智能云彻底破圈了。
何为空间智能
此次百度智能云的发布中,有一个概念备受关注:空间智能。
作为人工智能的下一个方向,空间智能既让人充满无限想象,也处于混沌之中。空间智能到底是什么,整个业界还未达成共识。
百度智能云泛科技业务部总经理张玮认为,空间智能是步入智能进化征程的起点,能够赋予AGI在多维空间中感知、理解、交互虚拟与现实互相映射的能力。
百度智能云泛科技业务部总经理张玮
不仅如此,张玮认为空间智能不局限于2D、3D,而是从2D到5D的全面智能化。
“2D和3D比较好理解,4D是在3D空间的基础上加上了时间,空间智能可以随着时间的变化,使空间的逻辑、物体的特征都随之变化,5D是把空间里的物理感知,如:触觉、嗅觉等,以及物理的反馈都加入进来了”,张玮表示。
大模型的快速发展为空间智能应用落地打开了新的大门。
大模型特有的推理和生成能力,能够很好地增强空间智能系统的环境感知能力,理解复杂的场景结构,如:室内布局、物体位置关系等,这对于实现精确的物体追踪和场景重建至关重要。同时,大模型也可以用来生成高质量的3D模型、纹理、动画等,从而丰富虚拟世界的细节。
结合空间智能,大模型还可以使虚拟角色或对象具备更高级别的交互能力。例如,通过训练大模型来理解用户的语音指令或手势,虚拟助手可以在AR环境中提供个性化的服务;或者在VR游戏中,NPC可以根据玩家的行为做出更加自然的反应等。
简单来说,现阶段大模型的出现,使得空间智能实现的可能性大大增强。不仅提升了虚拟内容的创造性和互动性,也为用户带来了更加丰富和沉浸式的体验。
正如张玮所说,大模型对于2D到5D全面理解之后,将为用户带来更多的消费内容和原先不可能达到的交互体验,并且基于这些新的交互体验衍生出新的硬件,从而提供新的娱乐方式。
对于游戏、影视、动画、AR/VR等泛娱乐行业来说,这无疑意味着全新的、广阔的市场空间。
空间智能落地充满挑战
空间智能的前景固然激动人心,但对于具体的行业来说,它到底意味着什么,该如何落地,能做到什么程度,所有人都在摸着石头过河。
哇嘶嗒(VAST)是一家致力于通用3D基础模型研发的明星初创企业,它在2023年底面世的一款3D生成工具——Tripo,成为全球3D-AIGC领域最具竞争力的产品之一。今年3月,VAST和Stablity AI联合推出的3D生成模型TripoSR,0.5秒就能通过单张图片生成3D模型,一上线就引爆了全球的游戏开发者。
事实上,3D动画、游戏、AR/VR蕴藏着千亿级市场势能,目前却受限于生成效率和成本,但VAST这种大模型技术公司的出现,无疑大幅提升了游戏、动画、影视等空间智能行业的创作效率,降低了内容制作的门槛,甚至可能创造出新一代的互联网应用。
与之类似的大模型技术公司,还有生数科技。作为国内最早布局多模态通用大模型的团队之一,今年4月,生数科技联合清华大学发布了国内首款全面对标Sora的视频大模型Vidu。市面上的主流AI视频工具在生成4秒左右的视频片段时,用户通常需要等待1到5分钟,而Vidu只需30秒。
这意味着在游戏制作、影视后期、动画设计、内容社交等空间智能场景中,用户可以在极短的时间内生成大量视频素材,将大大降低生产成本、提升效率。
这些丰富的行业大模型应用,正在一步步完善空间智能的版图。然而,技术和应用之间,始终隔着一道鸿沟,在技术向应用转化时充满荆棘。
首先,对于大模型技术本身来说,其生产效率还不够高,成本没有做到极致,对于人类意图的理解也还不够精准,转化成行业应用时就存在大量的优化空间。
例如,在VAST对3D大规模模型的训练过程中,就面临着训练周期冗长与成本高昂的双重挑战。
其次,游戏、影视等行业用户对大模型技术不了解,在使用过程中难以真正发挥大模型优势。同样,IT技术人员对于行业也不了解,双方需要长时间的去碰撞,才能打磨出适合行业的垂类大模型和相关应用。
事实上,技术和应用之间的鸿沟,谁能够先越过去,谁就能先抵达成功的彼岸。
百度智能云推出“空间智能解决方案”
对于这道难题,百度智能云已率先上马,迎难而上。
在百度智能云泛科技业务部总经理张玮看来,空间智能相关场景在使用大模型技术时,往往会遇到几大挑战:
首先,空间智能企业在落地大模型时,从集群创建、开发实验,到模型训练、推理的全旅程算力需求,需要应对超大规模GPU集群高成本、难运营的问题。
因此,百度智能云在AI基础架构层推出了【百度百舸AI异构计算平台】,包括:中心云服务、边缘云服务、实时互动RTC、AI数据服务等多种基础服务,提供面向万卡、十万卡集群的算力管理能力。
一方面,百舸预置了主流的大模型训练工具,能够实现工具层面的秒级部署,并将万卡集群运行准备时间从几周缩减至1小时,极大地提升部署效率,缩短业务上线周期。
另一方面,百舸提供可观测大盘,能够对多芯适配、集群效能、任务自动容错等方面进行全方位监测,提供直观决策依据,帮助用户更好地把控整体项目。
在万卡任务上,百舸4.0可以保障有效训练时长占比达到99.5%。针对目前国内芯片供应紧张的问题,为了保证企业供应链的安全和弹性,一云多芯是必然选择,目前在万卡规模上,百舸4.0将两种芯片混合训练下的效率折损控制在5%以内。同时,在跨地域的机房部署上,百舸4.0通过提供高效的拓扑结构、跨地域无拥塞高性能网络和高效的模型并行训练等方案,在横跨几十公里的多机房组成的万卡规模的集群上,把单一训练任务的性能折损控制在4%以内,保持业界领先。
目前,VAST、生数科技、Liblib、光魔科技等空间智能赛道的大模型公司,都选择了百舸作为其底层的AI计算平台。
例如,VAST基于百舸,解决了高性能计算、存储网络等基础设施的使用和运维。同时,基于百舸的AI加速套件,使用了大模型训练和推理场景的IO预处理优化、通信效率优化、显存利用优化和模型算法优化等功能,极大提升了分布式训练、推理的性能和效率。
再比如,光魔科技推出的AIGC创作平台“白日梦”,需要依托各种视频、图片的剪辑能力以及大模型的生成效果。基于百舸,光魔科技搭建了整套边缘算力节点,大幅降低了敏感算力的成本,并基于跨境专线CDN服务实现了海外加速。同时,基于百舸视频云,光魔科技将多张生成的图片,利用百度MCP产品的拼接能力,将无序的图片变换成一个连环短片。在大模型应用上,基于百度千帆大模型平台,实现了更加便利的生成剧本内容,以及对剧本内容进行理解并实现⼈设、分镜等功能。
其次,空间智能的业务场景相当复杂,需要高效的大模型工具链去满足复杂多样的需求。
对此,百度智能云推出了【千帆大模型平台】,它分为应用开发、模型服务、模型开发三层,为企业提供最易用的应用开发工具、最丰富的大模型和最全面的模型开发工具链,帮助企业将大模型深入到自己的生产力场景。
在应用开发层,针对空间智能落地大模型的高频应用场景,提供企业级RAG、企业级Agent、一句话创建企业应用等关键能力,赋能企业高效开发企业级大模型应用。
在模型服务层,除了支持文心大模型外,也支持语音识别、物体检测等传统模型,企业可以根据场景,合理搭配大小模型,通过直接调用大幅提高自己的业务效率。
在模型开发层,千帆大模型平台提供了完整的工具链,上线了DPO、KTO等模型训练算法和PTQ等模型量化算法,能够更高效地支持超大参数模型的微调和定制。不仅是大模型开发,升级后的千帆大模型平台3.0还支持CV、NLP、语音等传统模型的开发,并实现数据、模型、算力资源的统一纳管和调度,为企业提供一站式的大、小模型开发体验。
最后,不同的空间智能企业,在数据、场景和业务逻辑上呈现出行业差异,需要在通用大模型和行业大模型的能力基础上,进一步增强行业能力,让行业AI应用的开发事半功倍。
对此,百度智能云推出了完全适用于空间智能的AI应用及开发平台。
例如,在空间内容创造方面,围绕“人、场、物”多维互动打造空间智能新阵地。其中,空间智能Avatar能够制作虚拟分身,空间智能平台能够生成虚拟空间场景,数字创作中心能够实现多维数字的生成、分发、管理。
在空间智能交互方面,百度智能云提供从2D到5D的多维多模态实践平台,为打造全方位的空间构建提供了一站式的AI解决方案。
总的来说,百度智能云“空间智能解决方案”通过大模型+行业增强的能力,为空间智能的AI应用落地提供了真实的生产力——提高开发效率、降低开发门槛、实现快速创新,为空间智能领域多样化的场景需求提供了强大的技术支撑。
百度智能云“破圈”
百度智能云为何在泛娱乐行业里破了圈?
尤其是空间智能是一个全新的领域,所有人都还在摸黑前行,百度智能云却率先找到了一条切实可行的落地路径,这是为什么?
显然,这和百度一直以来对AI的追求息息相关。
凭借在人工智能领域长期的技术积累和高压强式、马拉松式研发投入,百度是国内最早推出AI大语言模型的企业,也是国内少有的能够早早预判AI发展大趋势的科技企业,这使得百度在AI领域总有“领先半步”的前瞻性。
过去2年,百度创始人李彦宏时不时因为“清醒发言”出圈,比如当国内还在聚焦百模大战时,李彦宏就说“不要卷模型,要卷应用”。百度对于大模型落地以及AI原生应用的深刻理解,使其在技术、产品乃至组织上都是AI原生的,为行业落地AI做好了准备。
比如,在AI基础设施上,百度智能云的算力、算法、数据是业界最全面的;在AI应用上,百度至今已推出100+AI原生应用,展示了其难以超越的AI产品开发能力。数据显示,已有超过60%的央企和大量的民营企业,在联合百度智能云进行AI创新,通过百度智能云千帆大模型平台,累计精调了3.3万个大模型,开发出了77万个企业级应用。
实实在在的数据,展示了百度智能云在帮助各行各业落地AI、打破大模型技术障碍的超强执行力。这也就不难理解,为什么百度智能云能够最先看到空间智能的市场潜力,找到和AI大模型结合的落地路径,并且能够快速地将相关的技术和解决方案推向市场。
不仅如此,面对空间智能这一新领域,百度智能云更是拿出了深耕的决心,愿意和行业客户一起去探索落地——研究业务场景,理解业务需求,将需求转化为技术进行落地,同时也愿意投入商业化资源去推广行业应用,与客户、生态伙伴一起将空间智能产业做大。
在百度智能云的商业生态版图中,未来的空间智能将涵盖游戏、电商、体育、智能设备、具身智能、教育、AI科技与影视动漫等多个行业,这将带来千亿级乃至万亿级别的产业规模。
随着大模型技术的成熟,空间智能应用进一步落地,必然会为企业降本增效、打开新的可能性,带来深远影响。
这一过程显然漫长而艰难,但对于百度智能云这样的“长期主义者”来说,这本身就是一种修行,能够沉下心去面对一切市场的喧嚣,撇去技术的泡沫。
正如百度智能云泛科技业务部总经理张玮所说,空间智能从概念到落地具体应用还有很长的路要走,希望能把产业联盟做得更完善,有更多的生态厂商一起来探索落地,“落地到有边界的场景、可以服务的客户、具象化的行业产品和功能,逐步去满足空间智能大部分的需求”。
或许在某个时刻,空间智能产业会临近奇点、迎来爆发,但技术带来的产业革命总是静默而深刻。当我们在未来回头望去,才会意识到,这场变革早已开始。