物理世界:AI Agent 的下一个战场

钛媒体 AGI-Signal
所有人都在讨论 Agent 能写多少行代码、提效多少百分比,但真正值得问的问题是:Agent 什么时候能替你开门、巡逻园区、调度工厂?

大模型变强,并不等于Agent在物理场景就能用了。

所有人都在讨论Agent能写多少行代码、提效多少百分比,但真正值得问的问题是:Agent什么时候能替你开门、巡逻园区、调度工厂?

答案是:还早。

Agent在数字世界的扩张速度确实惊人:OpenClaw 84天内Star数突破37.5万;57%的企业已部署多阶段AI工作流;86%的企业在生产环境中运行Agent。但当你问,有多少Agent在真正操控物理设备?答案是沉默的。

物理世界,才是Agent真正的下半场。大模型厂商和科技巨头正在押注这个未来。NVIDIA发布RTX Spark专攻端侧算力,Google DeepMind把大模型推理注入机器人控制,Amazon将Alexa升级为AI代理,Anthropic则用一次意外源码泄露展示了Agent系统内部的工程深水区。他们在定义规则、建设底层基础设施,争夺Agent时代的话语权。

但还有另一群人,他们并不打算定义规则。

他们已经深耕某个行业十年,手里攥着一堆私有协议文档、场景模板和行业客户,正在问一个更具体的问题:Agent在我的这个场景里,到底能不能用?怎么用才能真正省钱省力?

这是Agent落地的另一条路线。

通用路线的局限

在聊垂直落地之前,有必要先厘清一个认知陷阱:大模型变强,并不等于Agent在现实物理场景中就能用了。

Agent落地有业界常说的“五面墙”——成本、速度、安全、发散性和运维。在物理场景里,这五面墙的每一面都比数字世界更难翻。

成本上,一个实时运行的物理Agent需要持续的视觉和传感推理,每秒数十次调用,Token消耗是指数级的。速度上,数字Agent回邮件慢3秒没人在意,但物理Agent识别到有人闯入与触发告警之间慢3秒,可能就是安全事故。安全上,数字世界的错误可以回滚,现实物理场景中,控制错了门禁、放错了人,是不可逆的。发散性上,大模型输出的不确定性在文字对话里是优点,在物理设备操控里是灾难。运维上,几十个甚至上百个Agent同时跑在工厂或园区里,谁来保证它们每天都在正常工作?

这还不是最难的那面。物理世界还有第六面墙:设备碎片化。

数字Agent只需要面对API、文件系统、浏览器这几种标准接口。物理场景中呢?仅中国智能家居市场就有上百个品牌各自维护私有协议和SDK,一个通用的物理Agent如果要操控摄像头、门禁、传感器、报警器,理论上需要适配成百上千套私有协议。Matter协议(由CSA连接标准联盟主导的智能家居互联互通标准)正在试图解决设备互联问题,Matter 1.5+Thread 1.4首次实现了跨品牌设备的底层互通。但Matter只解决了“连接管道”,设备可以说同一种语言了,谁来理解它们背后的业务意图、谁来协调决策,仍然是悬而未决的问题。

这正是通用路线天然难以触达的地方——大模型厂商和硬件巨头的工具链很强,但它们不了解海康、大华的私有协议,不了解工厂AGV调度的业务规则,不了解园区安防的异常判定逻辑。

垂直赛道正在探索

与此同时,一批深耕物理场景的公司,正在绕开“谁能定义Agent操作系统”这个问题,直接在自己的地盘上做实验。

西门子、施耐德等工业巨头正在将AI Agent引入产线调度和能源管理,微软也在将Copilot能力注入IoT边缘设备。

但也仍有挑战。

在消费级IoT领域,萤石在刚刚过去的ECDC萤石云开发者大会上公开了一个令人意外的内部实验结论:公司鼓励全员使用AI编码工具,每月烧掉数十万Token,结果研发交付速度没有显著提升。萤石云首席架构师的原话是:“问题出在水面以下。”

AI工具普及了,但底层体系还是旧的。传统开发流程与AI开发模式不兼容,IoT场景需要匹配专属模型,海量私有协议脱离了通用AI的训练数据,人工需求表达的模糊性导致反复迭代——这四重困境叠加,让所有新工具的效率增益都停在了水面以上。

这在业界被称为“Harness工程”——Harness原意是马具,给AI这匹野马套上合适的马具,才能真正驾驭它。

萤石用了一年时间在内部做Harness工程的实战积累,然后把这套经验产品化,发布了两个平台:

一个是蓝海AIoT一站式工作台,核心是AI驱动的对话式开发。平台通过自然语言交互替代传统编码,将传统AIoT应用的开发周期从平均45天压缩到平均2天,最快15分钟可生成可预览原型,研发成本降至传统模式的五分之一。

关键是,平台内置了数十项AIoT专属技能包,兼容海康威视、大华、华为、霍尼韦尔等20多家主流品牌的视频、控制、传感设备,覆盖GB28181、JT808、eHome等多种IoT协议,开发者无需深入那些密密麻麻的私有协议文档,就能完成跨厂商设备集成。

另一个是AI巡检智能体开发平台。针对通用开源智能体落地IoT场景时成本高、启动慢、行为发散的问题,萤石专门做了代码重构和技术优化。目前,AI巡检智能体已在某大型跨城企业园区落地,覆盖20多个跨城园区、300多个消防通道、车库和商配巡检点位,实现7×24小时自主巡检,自动完成问题识别、上报、定位和复核全流程。

AIoT商业模式重构

5月8日,中国国家网信办、发改委、工信部联合发布《智能体规范应用与创新发展实施意见》和《人工智能终端智能化分级》(GB/Z 177—2026),确立了“灵肉双轨”的顶层设计——前者定义智能体软件主体,后者定义智能化硬件载体。L1(响应级)到L4(协同级)的四级能力阶梯出台后,AIoT产业有了统一的能力坐标系,L4“主动感知场景、跨设备协同、自主执行任务”被刻意留白,等待产业填写答案。

这个政策背景,正在加速IoT厂商的商业模式迁移。回看过去十年:IoT 1.0核心价值是联网,2.0走向认知(摄像头能认人脸、车辆、异常行为),3.0走向辅助决策(主动推送告警和分析),4.0正在浮出水面,核心是代理——Agent主动感知场景、跨设备自主决策执行。

从卖硬件,到“硬件入口+能力订阅+数据资产”的三元模式,Amazon Alexa+的AI代理订阅、西门子及施耐德等工业巨头的AI Agent化改造,都在响应这个大趋势。

工业领域的树根互联,也在验证类似的逻辑。这家三一重工孵化的工业互联网平台此前发布了售后服务智能体,其根灵工业大模型已于2026年初完成国家级备案。

面对挖掘机、焊接机器人、产线设备等重工业场景,树根互联的做法是把多年积累的设备运维数据、工艺知识和专家规则注入模型底座,让Agent完成故障诊断、维修建议和产线调度。把IoT场景模板、私有协议适配积累沉淀为平台能力,本质上是同一件事:把行业know-how转化为Agent可用的工程体系。

垂直场景的护城河,不在于连接了多少设备,而在于对行业逻辑理解的深度。零代码AIoT工作台把开发周期从45天压缩到2天,背后不是大模型有多聪明,而是多年积累的设备协议适配、场景模板沉淀、行业数据标注。

物理场景中Agent的落地,正处在一个最有意思的时间窗口。

大玩家在建底层,芯片、协议、基础模型,他们在定义Agent时代的基础设施。垂直玩家在做工程,Harness体系、行业协议、场景验证,他们在填补“能用”和“用了有效”之间的鸿沟。

两条路线是互补的,大模型的推理能力通过MCP/A2A协议被垂直平台集成,硬件厂商的算力方案给本地部署提供底座,Matter协议为设备接入提供通用语言。但这些基础设施能不能转化为在工厂、园区、商场里真正可用的Agent,取决于中间那层“行业工程体系”能不能被建起来。

没有工程体系托底,再好的工具也只是玩具。它同时也是一个方向:物理场景中Agent的竞争,最终比的不是模型参数,而是谁对这个行业的理解足够深,谁的工程方法论足够扎实,谁的交付结果足够真实。

这场比赛刚刚开始,还没有定局。(本文首发钛媒体APP,作者|AGI-Signal,编辑|秦聪慧)

请扫码关注数字化经济观察网
责编:左翊琦
参与评论
文明上网,理性发言!请遵守新闻评论服务协议
0/200