12月13日,在“2026中国信通院深度观察报告会”上,中国信息通信研究院云计算与大数据研究所所长何宝宏就面向AI的数据发展分享了自身思考和见解。

数据的规模、质量决定大模型的上限
谈及在AI大模型发展中,数据扮演的角色,何宝宏分别从AI和数据的发展两个角度进行了解答。他表示,早期的人工智能是基于规则,和数据关系不大;而这一波以大模型为代表的人工智能,数据扮演着非常核心的角色。
从数据的角度来看,大数据上一波的核心驱动主要是推荐算法,典型的应用包括一些用户画像,风险控制、市场获客等;而这一波数据的热潮主要是以人工智能驱动,可以说数据在这一波人工智能大模型的发展中,起着非常核心的作用。“数据的规模、数据的质量决定着大模型的上限,所以能看到数据是重中之重。”
人工智能发展对数据提出新的需求和挑战
2025年以来,人工智能的发展呈现出一些新特征,对数据也提出了一些新需求。比如语言大模型,它的边际效应递减已经非常明显,所以语言大模型要进一步提高它的能力,就需要更高质量的数据。另外一方面,除了语言大模型,越来越多的关注点开始转向了多模态,无论是对语言大模型的持续优化,还是对多模态模型等数据都提出了一些新的需求、新的挑战。
何宝宏指出,为了进一步提高语言大模型的能力,就需要发展更高质量、覆盖范围更广的数据。为了提升语言大模型推理能力,围绕推理甚至应用如Agent等,需要结合场景和应用等一些私域的、行业的、专有的数据。对于多模态大模型的发展来说,就不能仅仅只有文字类,还需要音频、视频等,这些数据如何对齐,在数据发展中也提出新的需求和挑战。
数据技术正以体系化的方式发生巨大变革
在何宝宏看来,为应对这些新需求、新挑战,数据技术正以体系化的方式发生巨大变革。
具体来看,一方面,现有数据体系需面向人工智能进行定制化转型与适配。以数据治理为例,以往通用的治理模式,如今需结合人工智能的专用场景进行调整优化;即便是已有的DataOps体系,也需要衍生出面向AI的专属分支(DataOps For AI),重点推进数据安全治理等相关工作,本质上是现有数据领域工作向AI适配的转型。
另一方面,人工智能的发展也催生了数据领域的新情况、新问题,这是以往未曾出现的。当前这一波人工智能以生成式AI为核心,其生成的结果本身也属于数据范畴。随着近年来生成式AI的快速迭代,如今的数据格局已发生改变——人类产生的数据、传统互联网数据与AI合成/生成的数据日益交融,难以精准区分。后续,如何应对AI合成数据带来的挑战,尤其是如何规范AI合成数据在模型训练与迭代中的应用,已成为数据领域亟待解决的新课题。
何宝宏进一步讲到:“除了数据资源层面的变化,数据技术层面也需同步迭代升级。”受上述数据资源体系变革的驱动,数据技术正迎来一系列新调整:在数据存算领域,宏观层面上存算架构逐步向分布式、存算分离的方向发展,而面向本地或就近数据处理的需求,近存计算模式也愈发重要;同时,由于数据体量激增,需根据数据“温度”(热数据、温数据、冷数据)进行分级存储,对应的存储介质也需随之优化。在数据库技术领域,人工智能的发展同样提出了新要求——随着AI向多模态方向演进,传统单模态数据库已显现出效率偏低、成本偏高的问题,因此向量数据库、多模态数据库成为技术升级的重要方向。
最后,何宝宏强调,受人工智能技术发展的驱动,当前数据技术正经历全方位的巨大变革,其核心目标是实现数智深度融合。 






































