数据要素驱动产业升级!国内AI模型训练中文数据占比超60%
极客网
国家数据局发布数据显示,当前国内多数AI模型训练所用中文数据占比已超60%,部分模型更是达到80%。中文高质量数据供给能力的持续增强,成为我国AI模型性能快速提升的关键支撑。
国家数据局局长刘烈宏指出,我国AI的高速发展离不开对数据工作的高度重视,数据作为AI核心要素,在推进“人工智能+”中作用关键,高质量数据集建设尤为重要。他还提到,AI时代的“Token(词元)”是文本处理的最小数据单元,类似互联网时代的“流量”。2024年初我国日均Token消耗量为1000亿,至2025年6月底已突破30万亿,一年半内增长超300倍,直观反映出国内AI应用规模的迅猛扩张。
截至2025年6月底,我国已建成超3.5万个高质量数据集,总体量超400PB(1PB约可存储5亿张2MB高清照片),该规模相当于中国国家图书馆数字资源总量的140倍。与此同时,AI模型训练带动数据交易需求攀升,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达246PB。
下一步,国家数据局将通过体系化布局推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动社会强化数据要素价值认同,促进数据要素价值共创,培育“为优质数据买单”的市场共识。

责编:左右
免责声明:凡注明为其它来源的信息均转自其它平台,由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本站联系,我们将及时更正、删除,谢谢。联系邮箱:gaochanggong@szw.org.cn