物理世界：AI Agent 的下一个战场

钛媒体 AGI-Signal

2026-06-16

人工智能

所有人都在讨论 Agent 能写多少行代码、提效多少百分比，但真正值得问的问题是：Agent 什么时候能替你开门、巡逻园区、调度工厂？

大模型变强，并不等于Agent在物理场景就能用了。

所有人都在讨论Agent能写多少行代码、提效多少百分比，但真正值得问的问题是：Agent什么时候能替你开门、巡逻园区、调度工厂？

答案是：还早。

Agent在数字世界的扩张速度确实惊人：OpenClaw 84天内Star数突破37.5万；57%的企业已部署多阶段AI工作流；86%的企业在生产环境中运行Agent。但当你问，有多少Agent在真正操控物理设备？答案是沉默的。

物理世界，才是Agent真正的下半场。大模型厂商和科技巨头正在押注这个未来。NVIDIA发布RTX Spark专攻端侧算力，Google DeepMind把大模型推理注入机器人控制，Amazon将Alexa升级为AI代理，Anthropic则用一次意外源码泄露展示了Agent系统内部的工程深水区。他们在定义规则、建设底层基础设施，争夺Agent时代的话语权。

但还有另一群人，他们并不打算定义规则。

他们已经深耕某个行业十年，手里攥着一堆私有协议文档、场景模板和行业客户，正在问一个更具体的问题：Agent在我的这个场景里，到底能不能用？怎么用才能真正省钱省力？

这是Agent落地的另一条路线。

通用路线的局限

在聊垂直落地之前，有必要先厘清一个认知陷阱：大模型变强，并不等于Agent在现实物理场景中就能用了。

Agent落地有业界常说的“五面墙”——成本、速度、安全、发散性和运维。在物理场景里，这五面墙的每一面都比数字世界更难翻。

成本上，一个实时运行的物理Agent需要持续的视觉和传感推理，每秒数十次调用，Token消耗是指数级的。速度上，数字Agent回邮件慢3秒没人在意，但物理Agent识别到有人闯入与触发告警之间慢3秒，可能就是安全事故。安全上，数字世界的错误可以回滚，现实物理场景中，控制错了门禁、放错了人，是不可逆的。发散性上，大模型输出的不确定性在文字对话里是优点，在物理设备操控里是灾难。运维上，几十个甚至上百个Agent同时跑在工厂或园区里，谁来保证它们每天都在正常工作？

这还不是最难的那面。物理世界还有第六面墙：设备碎片化。

数字Agent只需要面对API、文件系统、浏览器这几种标准接口。物理场景中呢？仅中国智能家居市场就有上百个品牌各自维护私有协议和SDK，一个通用的物理Agent如果要操控摄像头、门禁、传感器、报警器，理论上需要适配成百上千套私有协议。Matter协议（由CSA连接标准联盟主导的智能家居互联互通标准）正在试图解决设备互联问题，Matter 1.5+Thread 1.4首次实现了跨品牌设备的底层互通。但Matter只解决了“连接管道”，设备可以说同一种语言了，谁来理解它们背后的业务意图、谁来协调决策，仍然是悬而未决的问题。

这正是通用路线天然难以触达的地方——大模型厂商和硬件巨头的工具链很强，但它们不了解海康、大华的私有协议，不了解工厂AGV调度的业务规则，不了解园区安防的异常判定逻辑。

垂直赛道正在探索

与此同时，一批深耕物理场景的公司，正在绕开“谁能定义Agent操作系统”这个问题，直接在自己的地盘上做实验。

西门子、施耐德等工业巨头正在将AI Agent引入产线调度和能源管理，微软也在将Copilot能力注入IoT边缘设备。

但也仍有挑战。

在消费级IoT领域，萤石在刚刚过去的ECDC萤石云开发者大会上公开了一个令人意外的内部实验结论：公司鼓励全员使用AI编码工具，每月烧掉数十万Token，结果研发交付速度没有显著提升。萤石云首席架构师的原话是：“问题出在水面以下。”

AI工具普及了，但底层体系还是旧的。传统开发流程与AI开发模式不兼容，IoT场景需要匹配专属模型，海量私有协议脱离了通用AI的训练数据，人工需求表达的模糊性导致反复迭代——这四重困境叠加，让所有新工具的效率增益都停在了水面以上。

这在业界被称为“Harness工程”——Harness原意是马具，给AI这匹野马套上合适的马具，才能真正驾驭它。

萤石用了一年时间在内部做Harness工程的实战积累，然后把这套经验产品化，发布了两个平台：

一个是蓝海AIoT一站式工作台，核心是AI驱动的对话式开发。平台通过自然语言交互替代传统编码，将传统AIoT应用的开发周期从平均45天压缩到平均2天，最快15分钟可生成可预览原型，研发成本降至传统模式的五分之一。

关键是，平台内置了数十项AIoT专属技能包，兼容海康威视、大华、华为、霍尼韦尔等20多家主流品牌的视频、控制、传感设备，覆盖GB28181、JT808、eHome等多种IoT协议，开发者无需深入那些密密麻麻的私有协议文档，就能完成跨厂商设备集成。

另一个是AI巡检智能体开发平台。针对通用开源智能体落地IoT场景时成本高、启动慢、行为发散的问题，萤石专门做了代码重构和技术优化。目前，AI巡检智能体已在某大型跨城企业园区落地，覆盖20多个跨城园区、300多个消防通道、车库和商配巡检点位，实现7×24小时自主巡检，自动完成问题识别、上报、定位和复核全流程。

AIoT商业模式重构

5月8日，中国国家网信办、发改委、工信部联合发布《智能体规范应用与创新发展实施意见》和《人工智能终端智能化分级》（GB/Z 177—2026），确立了“灵肉双轨”的顶层设计——前者定义智能体软件主体，后者定义智能化硬件载体。L1（响应级）到L4（协同级）的四级能力阶梯出台后，AIoT产业有了统一的能力坐标系，L4“主动感知场景、跨设备协同、自主执行任务”被刻意留白，等待产业填写答案。

这个政策背景，正在加速IoT厂商的商业模式迁移。回看过去十年：IoT 1.0核心价值是联网，2.0走向认知（摄像头能认人脸、车辆、异常行为），3.0走向辅助决策（主动推送告警和分析），4.0正在浮出水面，核心是代理——Agent主动感知场景、跨设备自主决策执行。

从卖硬件，到“硬件入口+能力订阅+数据资产”的三元模式，Amazon Alexa+的AI代理订阅、西门子及施耐德等工业巨头的AI Agent化改造，都在响应这个大趋势。

工业领域的树根互联，也在验证类似的逻辑。这家三一重工孵化的工业互联网平台此前发布了售后服务智能体，其根灵工业大模型已于2026年初完成国家级备案。

面对挖掘机、焊接机器人、产线设备等重工业场景，树根互联的做法是把多年积累的设备运维数据、工艺知识和专家规则注入模型底座，让Agent完成故障诊断、维修建议和产线调度。把IoT场景模板、私有协议适配积累沉淀为平台能力，本质上是同一件事：把行业know-how转化为Agent可用的工程体系。

垂直场景的护城河，不在于连接了多少设备，而在于对行业逻辑理解的深度。零代码AIoT工作台把开发周期从45天压缩到2天，背后不是大模型有多聪明，而是多年积累的设备协议适配、场景模板沉淀、行业数据标注。

物理场景中Agent的落地，正处在一个最有意思的时间窗口。

大玩家在建底层，芯片、协议、基础模型，他们在定义Agent时代的基础设施。垂直玩家在做工程，Harness体系、行业协议、场景验证，他们在填补“能用”和“用了有效”之间的鸿沟。

两条路线是互补的，大模型的推理能力通过MCP/A2A协议被垂直平台集成，硬件厂商的算力方案给本地部署提供底座，Matter协议为设备接入提供通用语言。但这些基础设施能不能转化为在工厂、园区、商场里真正可用的Agent，取决于中间那层“行业工程体系”能不能被建起来。

没有工程体系托底，再好的工具也只是玩具。它同时也是一个方向：物理场景中Agent的竞争，最终比的不是模型参数，而是谁对这个行业的理解足够深，谁的工程方法论足够扎实，谁的交付结果足够真实。

这场比赛刚刚开始，还没有定局。（本文首发钛媒体APP，作者|AGI-Signal，编辑|秦聪慧）

责编：左翊琦

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：gaochanggong@szw.org.cn

今日头条号

搜狐号

订阅号

服务号

物理世界：AI Agent 的下一个战场