人工智能作为新一轮科技革命和产业变革的重要驱动力量,正加速与各行各业深度融合。近日,国务院印发《关于深入实施“人工智能+”行动的意见》(以下简称《意见》),提出强化“人工智能+”行动基础支撑能力,加强算力、算法和数据供给。这是我国抢抓新一轮科技革命和产业变革机遇、培育和发展新质生产力的重大战略部署。而数据作为新型生产要素,其规模和质量直接决定了人工智能技术所能达到的高度和深度。破解当前高质量数据供给不足的瓶颈,是“人工智能+”行动落地见效的首要前提。因此,加快培育一个能够实现数据价值发现、促进高效流通、保障合规利用的数据要素市场,是落实《意见》的关键举措和赋能智能新时代、构筑国家竞争新优势的战略基石。
一、战略契合:数据要素市场支撑“人工智能+”行动的内在逻辑
数据要素市场的发展与“人工智能+”行动的推进,并非两条独立的平行线,而是相互需求、彼此成就的共生关系。其内在逻辑体现在以下三个层面。
一方面,人工智能技术范式对高质量数据供给的内生需求。国家数据局局长刘烈宏提出,“‘人工智能+’到哪里,高质量数据集就建设到哪里”。本轮先进人工智能模型,特别是大语言模型的发展仍遵循着“缩放定律”(Scaling Law)这一基本规律,即模型的综合能力与其训练数据的规模、质量和多样性直接相关。没有海量、高质量的数据“投喂”,再先进的算法也只是无源之水。数据显示,我国人工智能应用日均Token消耗量已从2024年初的1000亿激增至2025年6月底的超过30万亿,在短短一年半时间内增长了超过300倍。这种近乎无限的需求正催生巨大的数据市场供给缺口。可见,建立一个能够高效汇聚、治理并流通高质量数据的要素市场,是满足当前人工智能技术范式需求的必然选择。
另一方面,数据要素与人工智能形成双向赋能的“飞轮效应”。数据要素市场不仅是单向地为人工智能提供“燃料”,而是双方进一步形成一种双向赋能、相互促进、加速迭代的“飞轮效应”。一方面,高质量的数据要素是驱动人工智能应用性能跃升的关键。国家数据局数据显示,在对数据质量要求极为严苛的医疗健康领域,通过引入人工智能辅助标注的医学影像数据集,后续训练的疾病诊断模型准确率可提升超过15%。另一方面,人工智能应用也反向激发数据价值。据有关机构预测,未来合成数据将取代真实数据成为AI模型所使用数据的主要来源,这不仅能有效弥补真实数据供给的缺口,更能为数据要素市场注入持续的、高质量的源头活水。最终,当“数据要素+人工智能”这一强大组合的动能释放到实体经济中,将有效赋能千行百业,带来显著的生产力跃升,从而驱动形成飞轮效应,持续创造经济价值。
二、现实审视:我国数据要素市场赋能人工智能发展的机遇与挑战
在“人工智能+”的浪潮下,我国数据要素市场赋能人工智能已取得积极成效,在全球AI竞赛中展现出强大势能,产业、数据和场景优势日益凸显。
产业与市场活力持续释放。我国数据要素市场和人工智能产业已形成相互促进的良好态势。中国互联网络信息中心(CNNIC)数据显示,2024年我国人工智能核心产业规模已突破7000亿元人民币;同时,数据产业规模快速壮大,据国家数据发展研究院测算,2024年全国数据产业规模达5.86万亿元,同比增长15.8%,专业数据产品产值规模占比超过30%,产品和服务形态不断丰富。全国数据企业超40万家,专业化经营主体不断出现,产业吸纳就业能力稳步提升,市场活力不断增强,为“人工智能+”提供了坚实的产业基础。
数据资源基础不断夯实。我国数据资源总量实现跃升。国家数据局数据显示,2024年全国数据生产量达到41.06ZB,同比增长25%,增速较去年提高2.56个百分点;截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过400PB。随着人工智能快速发展,用于开发、训练和推理的数据量同比增长40.95%,智能家居、智能网联汽车等智能设备数据增速位居前列,分别为51.43%、29.28%,低空经济和机器人数据生产量增速超过30%。值得一提的是,我国国内主流大模型的训练数据中,中文数据占比已普遍超过60%,部分模型甚至高达80%,这为服务本土人工智能市场奠定了坚实基础。
应用场景优势深度拓展。我国超大规模市场和复杂多样的社会经济环境,为人工智能模型的训练、迭代和优化提供了全球独一无二的“试验田”和“练兵场”。这种优势正从消费端向产业端和社会治理端全面渗透,形成强大的“场景驱动”效应。在To C(消费)领域,我国拥有全球最大的网民和移动支付用户群体,催生了电商、社交、短视频等海量数据智能应用场景。在To B(产业)领域,我国作为全球唯一拥有联合国产业分类中全部工业门类的国家,正加速“人工智能+新型工业化”进程。在智能制造领域,已建成超过万家数字化车间和智能工厂;在自动驾驶领域,全国已开放智能网联汽车测试道路超过3.2万公里,测试里程累计超过1.2亿公里,复杂的路况和海量的真实路测数据是训练和优化自动驾驶算法模型的关键优势。
然而,挑战同样不容忽视。当前数据要素市场供给侧的短板与市场机制的不完善相互交织,形成了制约“人工智能+”行动向纵深发展的核心瓶颈。
一是高质量数据供给“量质齐缺”,模型源头活水不足。从“量”的方面看,全球高质量中文语料占比严重偏低。中国工程院研究表明,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。这种结构性失衡,导致国内许多AI模型在发展初期不得不依赖英文语料或质量欠佳的翻译数据,限制了其对中文世界的理解深度。从“质”的方面看,原始数据治理能力尚存短板,其中充斥着大量噪声、冗余和偏见,需要经过复杂的清洗、标注和治理才能用于模型训练。而我国在高端数据服务,特别是数据合成、合规审计、偏见检测等领域的产业生态尚不健全,高质量数据供给的“加工能力”有待提升。
二是价格与权益体系亟待完善,市场机制仍需加强探索。从价格机制看,数据作为一种特殊的生产要素,其价值具有高度的场景依赖性、可复制性和边际成本递减等特征,传统商品定价模型难以适用。当前,各地数据交易所虽在探索挂牌定价、协议转让、算法定价等多种模式,但仍缺乏一套被市场广泛接受的、公允的价值评估和定价机制。比如,某企业的一份销售数据,对自身而言可能仅用于复盘,价值有限;但对需要进行市场趋势分析的AI模型训练方而言则价值巨大。如何量化这种“场景溢价”并形成合理分成,是业界普遍面临的难题。从权益体系看,数据产权与合规问题构成底层制约。数据产权“三权分置”的落地问题仍不明晰,特别是大模型训练所涉及的海量数据,其版权授权链条复杂,企业获取数据的合规成本和法律风险较高,亟需在制度层面予以突破,为数据要素的合规、高效流通提供清晰的“游戏规则”。
三是“数据孤岛”与流通壁垒并存,要素价值难以释放。大量高价值数据沉淀在不同政府部门、行业和大型企业内部,形成“数据孤岛”和“数据烟囱”。由于权属界定、安全顾虑、标准不一等原因,数据难以实现有效的跨域流通和融合共享。此外,行业数据的市场化配置水平尤为不足。以制造业为例,国际数据公司(IDC)统计显示,目前制造业数据中结构化数据仅占约20%,大量蕴含工艺、流程知识的非结构化数据难以利用。更值得关注的是,工业数据交易规模占我国数据交易市场总规模的比重不足7%。这表明,能极大赋能实体经济的行业场景数据,正由宝贵的“生产资料”沦为沉睡的“数字库存”。
三、破局之路:数据要素市场有效赋能“人工智能+”行动发展的关键路径
为应对挑战、抓住机遇,必须多措并举、精准发力,通过强化供给、完善机制、创新治理、优化生态,构建支撑“人工智能+”行动的高质量数据要素市场。
(一)强化优质数据供给,筑牢战略资源储备
为从源头解决高质量数据不足的问题,应由国家层面统筹规划,加快推动气象、交通、医疗、科研等关键领域的公共数据,在确保安全的前提下,以统一标准、统一接口的方式有序向社会开放,打造一批具有全球竞争力的国家级和行业级人工智能公共训练数据集。同时,需高度重视战略语料资源的储备与开发,一方面,探索开展建设全国性大模型“红色语料库”,筑牢意识形态安全屏障;另一方面,强化对海外高价值、高频次、高可靠性战略语料的收储与市场化利用,增强我国在全球人工智能竞争中的核心优势,为我国人工智能长远发展筑牢战略根基。
(二)优化数据定价模式,完善利益分配机制
科学的价值分配机制是激活数据要素市场供给动力的核心。需加快探索构建一个既能体现政府指导、又能发挥市场作用的价格体系。在路径上,要理清公共数据的价值生成链条,即由政府授权的运营机构进行一级开发,形成标准化数据产品;再由市场主体进行二次开发,形成面向人工智能应用场景的精细化产品与服务。在定价上,将公共数据作为全社会数据定价之“锚”:在一级开发阶段,可采取政府指导下的成本补偿模式,覆盖数据治理与运营成本,推动海量公共数据“入场”;在二级市场,鼓励数据供需双方根据数据在具体人工智能应用场景中创造的价值,通过市场化方式协商形成价格,或建立合理的收益分享模式,让高质量数据的持有者能分享人工智能发展的红利,从而正向激励市场持续供给高价值数据。在分配上,探索建立公共数据授权运营的收益分配政策,将有偿使用收益部分纳入财政,用于反哺数据治理和公共服务,同时设置合理的分配原则,激励各参与方的积极性。
(三)明晰数据产权结构,创新安全治理模式
为解决数据共享中“不敢、不愿、不能”的难题,必须在制度和技术上寻求突破。制度上,要加快落实“数据二十条”提出的数据资源持有权、数据加工使用权、数据产品经营权“三权分置”要求,让数据在“可用不可见、可控不可得”的框架下安全流动,打消数据提供方的安全顾虑。技术上,探索运用数据可信凭证、深度伪造内容检测、AI生成内容标识等技术,为进入模型训练的数据打上“身份标签”,确保其来源可溯、权属清晰、授权明确。当模型生成内容引发争议时,能够反向追溯至源头数据,为权益分配和责任界定提供技术依据。此外,需前瞻性布局人工智能时代的知识产权规则,积极探索如何界定训练数据、AI模型及生成内容的版权归属与使用规范,建立公平的利益分配机制,为AI产业的长期健康发展提供制度保障。
(四)培育多元服务业态,构建协同产业生态
推动传统数据服务向价值链高端升级,使其紧密契合大模型等人工智能技术的新需求。一方面,要提升数据处理技术的专业化与精细化水平。特别是数据标注服务,需从过去简单的分类、拉框,向服务于大模型价值对齐的精细化、场景化标注迈进,重点覆盖指令遵从、偏好排序、逻辑推理等复杂任务,为模型注入真正的“智能”。同时,要大力支持高质量数据合成技术的研发与应用,将其作为破解特定行业数据稀缺、隐私保护和数据孤岛问题的关键手段,生成模型训练急需的、真实世界难以获取的边缘场景数据,提升AI系统的鲁棒性和安全性。另一方面,积极推动国家级人工智能应用基地建设,依托基地汇聚技术、人才和资本,促进数据服务商与AI应用企业的精准对接,并引导行业围绕上述新型数据服务,加快制定相应的技术标准、服务流程与质量评估规范。最终形成一个覆盖数据全生命周期的、多元化的服务产业生态,为“人工智能+”行动提供源源不断的高品质“数据燃料”。(国家发展改革委价格监测中心副主任 王建冬)