本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘 要:现有数据管理技术难以解决跨域数据共享流通面临的跨域异质数据语义难统一、跨域共享流通隐私难保护、跨域数据查询性能难优化等问题,严重制约了数据共享流通的高效性。因此,跨域数据管理近年来受到了学术界和工业界的关注。介绍了跨域数据管理的基本概念与关键技术挑战,回顾了现有与跨域数据管理相关的研究,最后讨论了跨域数据管理的一些重要研究问题。
关键词:数据管理;跨域共享;数据流通
doi:10.12045/j.issn.1007-3043.2025.05.007
引言
数据是数字时代的关键生产要素,具有倍增效应、叠加效应,能够赋值、赋能社会经济发展全过程,驱动社会经济数字化转型、网络化重构和智能化提升。围绕数据价值的发挥,加快前沿数据技术融合和技术突破,有效支撑数据要素共享流通与价值释放,既是《关于构建数据基础制度更好发挥数据要素作用的意见》、《数字中国建设整体布局规划》等一系列国家层面战略规划共同关注的重点,也是培育数据要素市场和产业生态构建的迫切需求。
为了有效支撑这一系列国家层面的制度实践,培育数据要素高效共享流通的技术体系和产业生态十分迫切。以北京为例,围绕“数字经济国际标杆城市”和“数据基础制度先行区”建设,形成京津冀、长三角、粤港澳之间超大城市群的联动,亟需解决数据在城市治理复杂场景的共享流通与有效利用,从而以高质量的数据价值释放支撑高质量的经济社会发展。然而,随着数据要素共享流通规模的不断扩大和应用范围的不断扩展,越来越多的场景面临着因“跨域”而带来的数据管理难题。具体而言,在城市治理等复杂场景中,数据共享流通呈现出跨部门、跨层级、跨主体等显著的“跨域”特征,使数据管理的复杂度大大提升,同时面临严峻的高效性挑战,这对数据管理技术提出了新的要求。
为了有效应对数据跨域共享流通中的高效性挑战,跨域数据管理近年来受到了学术界和工业界的关注。传统的以数据库管理系统为代表的数据管理技术主要关注单一企业、部门等单域场景,侧重于对域内数据进行存储、查询和分析。而跨域数据管理是指对分散于不同域(部门、层级等)的数据进行统一的管理,实现数据在不同域间进行高效且安全的共享流通,并为不同的应用场景提供统一的查询方式。
为了更好地对跨域数据管理进行说明,这里以某市金融数据专区为例(见图1),这是某市大数据中心建设的全国首个公共数据专区,为多家金融机构提供数据服务,亟需解决个人/企业的大规模数据跨越公安、税收、民政等30多个部门高效共享流通问题。这里面存在一系列制约高效性的跨域数据管理问题。
图1 某市金融数据专区跨域数据管理示意
首先在供给侧,也就是跨域数据层面,需要融合社保、税收等多个数据项,这些数据源分散在多个部门的多个数据源中,存在大量异质数据模式,存在大量同名不同义、同义不同名问题,因此语义理解难,数据找不准。其次在供需间,也就是跨域流通层面,金融专区大量的数据是隐私敏感数据,跨越多个部门流通。数据流经不同域时的访问权限和隐私保护要求千差万别:有些可以公开访问,有些需要经过差分隐私,有些则需要通过多方安全计算。因此跨域协同保护慢,数据流通不畅。最后在需求侧,专区通过查询的方式提供服务,需要支持日均十万级调用、毫秒级响应需求。但数据来自政务云、教育云等领域的私有云等资源异构的底层数据管理系统,它们的软硬件环境不一,给数据的实时查询带来挑战。