数据要素驱动产业升级！国内AI模型训练中文数据占比超60%

极客网极客AI

2025-08-25

国家数据局发布数据显示，当前国内多数AI模型训练所用中文数据占比已超60%，部分模型更是达到80%。中文高质量数据供给能力的持续增强，成为我国AI模型性能快速提升的关键支撑。

国家数据局局长刘烈宏指出，我国AI的高速发展离不开对数据工作的高度重视，数据作为AI核心要素，在推进“人工智能+”中作用关键，高质量数据集建设尤为重要。他还提到，AI时代的“Token（词元）”是文本处理的最小数据单元，类似互联网时代的“流量”。2024年初我国日均Token消耗量为1000亿，至2025年6月底已突破30万亿，一年半内增长超300倍，直观反映出国内AI应用规模的迅猛扩张。

截至2025年6月底，我国已建成超3.5万个高质量数据集，总体量超400PB（1PB约可存储5亿张2MB高清照片），该规模相当于中国国家图书馆数字资源总量的140倍。与此同时，AI模型训练带动数据交易需求攀升，各地高质量数据集累计交易额近40亿元，数据交易机构挂牌的高质量数据集总规模达246PB。

下一步，国家数据局将通过体系化布局推进高质量数据集建设，加快打造具身智能、低空经济、生物制造等重点领域数据高地，推动社会强化数据要素价值认同，促进数据要素价值共创，培育“为优质数据买单”的市场共识。

责编：左右

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：gaochanggong@szw.org.cn

今日头条号

搜狐号

订阅号

服务号

数据要素驱动产业升级！国内AI模型训练中文数据占比超60%