九天多模态通用大模型及规模应用
九天基础大模型包括语言、视觉、语音、结构化数据、多模态等全系列,覆盖从十亿到万亿参数量全规格,多项技术指标达到业界领先水平,是首个通过网信办大模型服务和算法双备案的央企大模型,入选“2024年度央企十大国之重器”,具有高安全、高可信、全国产、聚焦行业等重要特点及优势。基于九天基础大模型,中国移动已自主研发并发布超50款行业大模型,对内,网络、客服、营销、办公4款行业大模型实现生产级规模应用,助力企业数智化转型升级;对外,政务、能源化工、医疗、物联水利、社会综治、金融风控等多款行业大模型,与中国石油、中国中化、解放军总医院行业龙头形成超20项实质性合作;围绕近百个应用场景,创新打造AI智能助理“灵犀”、守护宝、AI+急救、AI+智慧港口、AI+工程设计等亮点应用。
一、案例背景
2022年12月,以chatGPT为代表的生成式大模型引爆全球。面对全球人工智能技术变革和激烈竞争的新形势,2023年初,中国移动坚定抢抓时代机遇,“九天”团队开始成体系、全链条从源头及底层开展大模型全栈技术攻关,2023年发布九天基础语言大模型1.0版本,成为央企首个全栈自主可控的基础大模型,也是首个通过网信办大模型服务和算法双备案的央企大模型。2024年九天大模型全面升级为2.0版本,集成文本、语音、视觉及结构化数据四模态处理能力,支持超十万字长文本解析、多方言实时交互、高精度影像生成与分钟级数据分析,多项关键技术指标达到业界领先水平,语音合成技术在INTERSPEECH全球顶赛中荣登榜首,多任务语言理解能力在权威BBH榜单上名列第二,图像内容理解对话和视频内容理解对话分别在MME-P榜单和MVBench榜单位列第二名和第三名,文生视频能力在VBench榜单位列亚军。2025年,面向重点行业和国家核心领域智能化转型,九天团队围绕“高安全、高可控、全国产、全行业”四大技术特性,坚定投入并持续深耕,于2025年世界人工智能大会成功发布九天基础大模型3.0。作为国务院国资委战略新兴产业“百大工程”成果,九天基础大模型3.0重点实现三大焕新:九天众擎语言大模型实现架构与性能双重跃迁、九天善智多模态大模型全面提升生成可控性与理解能力、模型及核心技术开源。未来,中移九天公司将持续迭代多模态“九天”通用大模型性能,建强自主可控、安全可信能力,做深做优行业大模型。
二、案例目标
基于国内首个超万卡国产智能算力集群上,构建构建国内首个达到信创级别的千亿级多模态基座大模型,在感知、认知和生成领域的十五项下游任务中达到国内先进水平,支持多模态内容理解与内容生成,基座大模型数据组织方式更适合模型学习专业知识,高质量数据集规模超10万亿词元,模型结构更适合行业智能化构建,支持面向行业模型场景的轻量化、低成本部署,通过安全控制和策略管控技术,确保训练数据、生成数据与国家安全及主流价值观的一致性。
在大模型赋能应用场景上,一方面大力推动大模型技术在通信网络运营管理、客户服务、企业管理、个人业务、家庭业务、政府和企业业务、新业务等各领域全面应用落地,促进各领域提质增效的同时,加快形成“AI+”新产品、新业态、新模式。另一方面,在打造面向国家核心领域和关键行业的基座大模型的基础上,结合有关行业数据,构建可融入复杂行业生产系统的行业大模型,建立基础模型、行业模型、应用系统间闭环协同系统,为国资央企开展“AI+”场景创新提供智力引擎,助力国资央企数智化转型,加快培育新质生产力助力我国国民经济主体行业加快解决复杂生产流程中智能化难题。
三、建设内容
九天团队聚焦大模型关键技术,从核心架构、数据架构、各模态大模型等难点,成体系、全链条从源头及底层开展全栈技术攻关。
预训练方面,团队深度融合Transformer、注意力机制及预训练-微调范式等主流技术架构,并针对实际效率与性能瓶颈实现多项突破性创新,包括TopP采样优化和专家动态分裂(MoE)等关键技术,显著提升模型的生成与理解能力。已自主研发从1B到628B参数规模的MoE模型共10余款,覆盖语言、语音、视觉与多模态方向,支持云、边、端全场景灵活部署。模型训练数据规模超过两万亿Tokens,深度融合多行业知识,具备优异的通用性和行业适应性。为优化千亿参数模型训练中的内存与计算效率,团队提出基于Micro Batch的选择性重计算技术(MSCH),在流水线并行基础上引入动态计算调度策略,智能选择重计算节点,有效缓解异构环境及层间负载不均带来的性能瓶颈,显著减少流水线气泡,大幅提升GPU集群利用率和训练吞吐,支持超大规模国产算力集群上的高效稳定训练。
后训练方面,团队系统设计了SFT阶段的数据架构,依据学科、场景和行业细化分类,构建了覆盖广泛且知识体系完整的高质量训练语料。通过层级化原则体系,将抽象伦理规范转化为可操作、可追溯的数据准则,建立起从“合规底线”到“卓越价值”的连续引导机制,并形成原则归纳-验证-演化的闭环,增强模型的可控性与可预测性。同时,团队引入基于强化学习的结果奖励机制,对模型输出实施精准评估,有效促进模型与下游任务的能力对齐与价值校准。
在视觉多模态大模型领域,九天团队自主研发九天智绘视觉大模型,其文生图/视频能力在光影、构图上达专业级水准;九天善智多模态大模型则依托复杂时空建模、流匹配图片视频渐进式联合训练、端到端局部可控注意力机制等核心创新,结合多模态理解信息与图文交织数据训练,既实现高质量图像视频生成,又支持多轮对话式高可控精确编辑(如图片多轮精准局部修改、文字/背景调整、元素增减),大幅提升视觉生成灵活性。同时,团队打造覆盖1.5B-200B全参数系列的可信多模态大模型体系,构建数据采集-标注-验证-清洗-训练全流程安全治理机制保障合规稳定,并创新提出统一生成与理解框架,打破模态壁垒、对齐跨模态语义,显著提升生成准确性与幻觉抑制能力。
在语音与音频大模型领域,九天团队具备全链路自主研发能力,核心技术覆盖语音生成、增强、匿名化、鉴伪与加密等多个关键环节。九天语荷语音大模型支持全双工交互与多方言翻译,具备高鲁棒性的打断恢复能力,可保持对话连贯性与意图一致性,精准识别用户情绪并生成个性化回复,已广泛应用于智能客服和个人助理等场景,曾获INTERSPEECH声码器赛道冠军,声纹识别支持百万级说话人规模。团队构建了基于集散标准的语音增强统一框架,支持降噪、去混响等6类增强能力,通过离散化表征与解码技术显著提升语音质量。在说话人匿名化方面,创新采用解纠缠表示学习与软离散编码机制,有效缓解跨语言内容失真,并建立多维度评估体系支撑迭代优化。多模态鉴伪技术融合语义、声学和行为特征构建Prompt,依托思维链推理实现音频真伪、说话人真伪及涉诈风险的综合研判。声纹加密通过密钥机制与损失函数优化,保障声纹模板不可逆恢复的同时维持识别准确率,已成熟应用于身份认证与反欺诈等业务。
在结构化数据大模型领域,九天团队自主研发了“九天数童”模型,创新构建结构化数据统一建模架构,突破传统大模型处理多源异构表格的瓶颈。该模型具备复杂结构解析、多表关联分析、自我驱动认知和智能可视化等能力,支持通信流量、能源能耗等行业场景的深度分析与预测,形成“高效理解-安全可信-多任务协同-全流程可溯”的全栈技术体系。团队集成慢思考、意图规划、代码生成与工具调用机制,实现对合并单元格、层次化表头和多维依赖的精准语义还原,并首创行业统一评测体系。
四、实施效果
项目团队积极推动大模型对行业的赋能。对内,客服、网络、营销、办公4款行业大模型实现生产级规模应用;对外,多款行业大模型与地方政府、央企、行业龙头形成超20项实质性合作,联合打造政务大模型、“昆仑”大模型、医疗大模型等行业大模型。围绕近百个应用场景,创新打造AI智能助理“灵犀”、守护宝、小移管家等多个亮点应用。


完成单位:中移九天人工智能科技(北京)有限公司
完成人:冯俊兰、邓超、袁向阳、金镝



