专家解读 | 畅通数据汇聚、供给、利用堵点 凝力推进数据集高质量建设
高质量数据集建设面临“三低”难题
一是算法偏见导致原始数据遗失率高。在大模型训练过程中,数据呈现长尾分布,为提高训练成功率,多数大模型算法采用“去尾”方法,即训练过程中对原始数据进行选择性“忽略”,因而导致数据遗失问题,甚至造成对原始数据的破坏。二是数据使用率较低。据统计,2023年,在我国存储的数据中,一年未使用的数据占比约4成,企业一年未使用的数据占比为超过30%,大量数据被存储后便不再被读取和复用,成为“死”数据。三是数据价值挖掘不足。数据加工能力不足导致大量数据价值被低估、难以挖掘复用。据统计,2023年,全国数据产存转化率为2.9%,海量数据源头即弃。在开展数字化转型的大型企业中,实现数据复用增值的仅有8.3%,数据价值挖掘效率极低。此外,高质量数据集的价值实现路径不清晰也引发企业运营建设积极性降低。
从供给、标准、安全、价值四方面发力,推动高质量数据集建设赋能
(一)强化数据获取与共享,探索行业试点联合推进共建新模式。
一是加强物联网等数据接口开放,广泛汇聚高质量数据,提高原始数据直连比率。建立高质量数据集汇聚平台,推动重点行业高质量中文数据集、思维链数据集和主流价值数据集建设,支持行业专业机构深度参与数据集建设、训练、应用全流程。二是推动公共高质量数据集开放共享,搭建数据集共享平台,加快构建安全数字底座,支持由专业机构配合全流程数据开放合规工作,推动数据集高效安全开放共享。三是鼓励各地因地制宜出台指导意见,探索建立委托授权、模型训练知识产权保护豁免机制,试点行业间、地区间联合共建数据共享开放交流机制,逐步提升数据流通共享效率。
(二)完善质量与标准体系,推动建设重点行业数据集评价标准。
一是建立数据集质量评估标准,有机融入《国家数据标准体系建设指南》体系。加快研究制定《高质量数据集质量评测规范》等行业高质量数据集质量评估相关标准,建立安全风险、有害内容评估专业数据集,全生命周期把控数据集质量水平。二是制定重点行业、主流价值数据标注评估标准,规范数据集接口标准。加快研究制定《高质量数据集数据标注规范》,规范面向人工智能模型训练的高质量数据集数据标注流程。制定合成数据使用标准,平衡好合成数据与原始数据应用的“度”,助力共同发挥最佳作用。三是建立数据集流通应用质量评估标准。规范数据集使用、流通范围,明确数据集提供方、使用方、服务方权利义务,建设数据集应用效率评估体系,指导动态分配数据采集、标注资源,提升数据资源利用效率。
(三)加强数据隐私与安全保障,推动数据集安全评估能力建设。
一是强化数据集安全保障技术水平。加强数据伦理、风险评估监管判断技术工具研发,推动构建数据集隔离仓库、原始数据资源池、数据安全屋等措施,加强真实数据保护管理能力。二是建立对合成数据集的持续监控评估机制,加强多模态数据融合技术鉴伪能力,建设深度合成鉴伪检测平台,支持联邦学习、差分隐私、可信数据交换等AI安全技术工具发展。三是建立跨行业产学研合作平台,加强研究人员、数据工程师、行业专家多方紧密合作,增强算法与数据的匹配度。提高模型算法水平,在数据集处理全过程加入数据可靠性评估分析,提升数据资源利用效能。
(四)优化数据集运营模式,推动数据资源价值生态循环落地。
一是搭建全国一体化的行业高质量数据集供需对接机制和平台,建立数据集资源地图,促进高质量数据集供需对接,推动数据集的流通和共享。二是加强政策引导,完善数据集定价和收益分配机制,鼓励企业探索商业模式创新,实现数据集的可持续发展和应用。加快形成面向高质量数据集的价值循环体系,打造数据集产业生态。三是因地制宜挖掘优势产业,分类开展行业高质量数据集的建设运营及应用工作,以试点先行,逐步推广方式,推动实现区域、行业数据标注产业和数据集建设生态有序发展。发布高质量数据集建设典型案例,为行业和地方开展高质量数据集建设提供靶向支撑。