
①政策直击训练数据“质量低、标准乱、适配弱”三大梗阻,而非泛谈数据要素化; ②数据集建设已不是技术配套,而是AI产业主权的争夺支点; ③问题不在有没有数据,而在能否把标注工人变成“数字炼金师”,将分散劳力转化为知识生产力。
《科创板日报》(评论员 田野) 今天, 国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》,首次在国家层面系统性锚定“数据作为AI核心生产资料”的战略地位。
可以看出,该政策不再宏观谈数据要素化,而是直击训练数据供给质量低、标注标准乱、场景适配弱三大梗阻,把文本、图像、音视频等多模态数据集建设,精准嵌入智能体、具身智能、世界模型等前沿赛道的技术攻坚链条。
这一部署绝非偶然。
近三年来,大模型快速发展,表面看是算力与算法的军备竞赛,实则暴露出“数据贫血症”:大量训练数据来自公开爬取,噪声高、版权模糊、行业语义缺失;医疗、制造、农业等垂直领域缺乏结构化、带机理、可验证的高质量数据集,导致大模型落地时频频“水土不服”。
更关键的是,数据标注长期处于作坊式状态,标注人员培训缺标准、标注工具缺协同、标注结果缺验证,形成事实上的“数据黑箱”。当全球AI竞争从“有没有”转向“好不好”,数据已不是原料仓库,而是决定模型智商上限的“知识熔炉”。
因此,本次政策最锋利的判断在于:数据集建设不是技术配套工程,而是新一轮AI产业主权的争夺支点。它将彻底扭转“重模型轻数据、重通用轻专用、重开源轻治理”的旧逻辑——未来竞争力不再只取决于谁的参数更多,而在于谁的电力系统数据能教会AI预测电网故障,谁的农机作业视频能让模型真正理解耕作节律,谁的手术影像标注体系能支撑外科机器人完成毫米级操作。
数据集由此升维为新型基础设施,其建设标准、产权规则、流通机制,将实质性重构AI产业链的价值分配。
回看历史,2001年欧盟启动“伽利略计划”并非只为造卫星,更是要掌握时空基准这一数字世界的底层坐标,今天布局高质量数据集,亦如当年抢滩导航权。
再观国际,美国NIST近年密集发布AI数据集评估框架,日本经济产业省设立“可信数据空间”专项,背后都是把数据集当作技术制高点来卡位。我国此次以“六大行动”打通供给—流通—应用闭环,尤其支持地方建设数据标注创新试验区,正是要将分散的数据劳力转化为标准化的知识生产力,让标注工人成为新时代的“数字炼金师”。
长远看,这标志着中国AI发展正经历一场静默却深刻的范式迁移:从追逐算力密度转向夯实知识厚度,从模仿通用大模型转向锻造行业大模型,从依赖数据流量转向构建数据质量护城河。
当每一座工厂、每一家医院、每一寸农田都能产出可标注、可验证、可复用的高质量数据资产,人工智能才真正告别“人工智障”的调侃,成为扎根中国大地的新质生产力引擎——数据集建设,终将被历史记为这场智能化跃迁中最沉默也最坚硬的基石。
栏目slogan:以创新视角观察变化,更快,更新、更锐。
小K快评是财联社、《科创板日报》旗下的深度评论栏目,以科创主线为核心、财经视角为基底、新闻时效为前提,聚焦中国科技创新、资本市场改革、产业经济升级等核心领域,针对热点事件、政策落地、产业变革、全球竞合等议题展开深度解读与理性评论。