高质量数据集实践指南(1.0).pdf

本报告的撰写得到了数据智能领域、高质量数据集领域多家企业与专家的支持和帮助,主要参编单位与人员如下。
参编单位:大数据技术标准推进委员会、中国联通软件研究院、中国联合网络通信有限公司智能城市研究院、中国铁塔股份有限公司、中国移动通信集团有限公司、北京亦庄智能城市研究院集团有限公司、科大讯飞股份有限公司、中电数据产业集团有限公司、中国交通信息科技集团有限公司、中国航天标准化与产品保证研究院、中航信数智科技(北京)有限公司、蚂蚁区块链科技(上海)有限公司、联通数据智能有限公司、亚信科技(中国)有限公司、软通智慧科技有限公司、四川数通智汇数据科技有限公司、蓝象智联(杭州)科技有限公司、振华智造(西安)科技有限公司、上海市数字证书认证中心有限公司、东软集团股份有限公司、通用技术集团财务有限责任公司、重庆金山科技集团股份有限公司、中国医学科学院医学信息研究所、重庆祥富机电技术服务有限公司、普元信息技术股份有限公司、杭州数蜜科技有限公司、中国石油国际勘探开发有限公司
参编人员:白玉真、杨靖世、尹正、姜春宇、刘渊、王思佳、童锦瑞、袁博、康宸、王宇、武天富、李桐、孙亮、董正浩、杜鹏、韩丽、蔡伟霞、唐双林、路骁虎、石庆华、陈雷、杨鹏、王刚、方飞、时蒙福、李嘉宁、刘彬彬、王晶、莫洋、张蕊、刘晓玉、刘锴、叶可、孙晓峰、崔杨、张博、乔娇娇、蔡健生、王昊、陈亚乐、冯文、王立冬、林镇阳、胡鑫、张冰、李由、王超、奚瑜、李晓燕、王会、杨晶、许强、崔朝辉、祝旭明、方桂全、吴吉芳、李杰、吴思竹、曾祥富、万强、王仕亿、薛良、刘楚、李晓雄、王春红
随着人工智能技术迈入以大模型为核心的新纪元,数据已成为驱动模型能力跃迁与产业智能化升级的战略资源。DeepSeek的横空出世颠覆了“高算力和高投入是发展人工智能唯一途径”的固有认知,引领从业者高度重视数据质量与规模,高质量数据集成为人工智能发展的关键要素。然而,当前产业界面临着高质量场景数据供给不足、建设路径模糊、标准规范缺失、技术工具需提升、数据价值难以释放等多重挑战。
为推动高质量数据集建设,明确建设和运营方法论,加速赋能场景应用,总结未来发展趋势,大数据技术标准推进委员会牵头,联合行业专家共同编制《高质量数据集实践指南(1.0)》。本指南适用于从事数据管理、人工智能研发、数据产品运营的企业管理者、数据工程师、算法科学家及相关从业人员,旨在为其提供一套可参考、可落地的方法论与操作指引,助力业界构建并用好高质量数据集。有以下亮点:
一是“理概念”。从数据集的概念、数据集的分类、高质量的内涵深入阐述高质量数据集的概念内涵。
二是“建体系”。基于理论研究与产业实践,总结高质量数据集建设模式,提供一套覆盖数据集研发、交付、运维、运营全生命周期的建设方法论,并搭建建设运营的成效评估体系。
三是“促应用”。梳理分析高质量数据集的应用情况,并辅助具体场景实践案例为方法论落地实施提供参考。
四是“看趋势”。从建设运营能力成熟度、行业场景应用、协同生态建设等方面展望高质量数据集的未来发展趋势。
高质量数据集是快速发展的新兴领域,新问题、新理论、新技术、新方法层出不穷,我们将持续深耕研究。由于时间仓促,水平所限,本报告仍有不足之处,欢迎联系白玉真(18810275013)交流探讨。

 

 

本文来自知之小站

 

PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)