高质量数据集,简而言之,就是那些具有高价值、高密度且标准化的数据。在人工智能领域,它扮演着至关重要的角色。北京公开征集行业高质量数据集需求和建设成果的通知;国务院国资委发布了首批包含10余个行业30项的央企人工智能高质量数据集建设成果。随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。
高质量数据是AI应用可靠性的保障
数据集的质量直接影响着人工智能的“智商”。
政策层面的举措充分体现了高质量数据的重要性。国家数据局等17部门已联合印发《数据要素×三年行动计划(2024—2026年)》,鼓励科研机构和龙头企业共同打造行业共性数据资源库。
而在第八届数字中国建设峰会上,国务院国资委更是发布了首批涵盖多个行业的高质量数据集,为人工智能产业注入了新的活力。这不仅展示了央企在人工智能领域的积极探索和实践,更体现了高质量数据集对于推动行业发展的关键作用。这些高质量数据集为AI模型在相关行业的应用提供了坚实的基础,使得AI模型能够更准确地理解和处理复杂的业务场景,从而保障了AI应用在实际生产中的可靠性。
高质量数据集建设正处于探索阶段
《全国数据资源调查报告(2024年)》预测,2025年全国数据生产总量将突破50ZB。当前,高质量数据集主要面临目标定位模糊化、实施路径碎片化与技术底座薄弱三重挑战。
许多企业和机构在建设高质量数据集时,缺乏明确的目标和定位。这导致在数据采集过程中出现盲目性,收集了大量无关或低质量数据。
高质量数据集建设涉及多个环节,包括数据采集、清洗、标注等。目前,这些环节之间缺乏有效的协同和整合,导致实施路径碎片化。
高质量数据集建设需要先进的技术支持,如数据存储、处理和分析技术等。然而,一些企业和机构的技术底座相对薄弱,无法满足大规模、高复杂度数据处理的需求。
系统推进高质量数据集建设
国家数据局副局长夏冰强调,数据集的质量和效率提升对于人工智能赋能实体经济的推动作用不容忽视。因此,需要从多个维度系统推进高质量数据集建设工作。
首先,产业合作是推进高质量数据集建设的重要途径。不同企业和机构在数据资源、技术能力和专业知识等方面存在差异。通过合作,他们可以共享数据资源,整合各方优势,共同打造高质量数据集。
其次,数据标注是高质量数据集建设的关键环节。数据标注的质量直接影响到AI模型的学习效果。建立专业的数据标注基地,能够提供标准化、规范化的数据标注服务。
最后,建设数据平台是整合数据资源、提高数据管理效率的重要手段。数据平台可以将各个部门和系统中的数据进行整合和集中存储,采用先进的存储技术和安全机制,保证数据的安全性和可靠性。