C114讯 9月24日消息(水易)今日,2025年中国国际信息通信展览会开幕式在北京举办。在主论坛上,中国工程院院士邬贺铨发表《开发数据要素推进数实融合》的主旨演讲。
他表示,当前,我们正进入智能体时代,AI将是数实融合发展新阶段的最大变量,上云是支撑数实融合的关键,而数据作为推动数字化转型走深走实的抓手,数据要素的发挥决定了数实融合的成效。
不过,当前数据要素市场化面临多重挑战。据统计,72%的企业因权属不清而拒绝数据共享;数据资产评估误差幅度超过±300%;跨省政务数据调用平均耗时高达17天。另外,企业数据80%还要靠自身数据,同时企业生产数据中仅2.9%被存储,其中40%在一年内未被有效利用。
以上种种严重制约了数据要素的流通与价值释放。与此同时,企业对数据要素的开发仍存在困惑和顾虑,集中体现在不会用:需要专业技术支持;不敢用:涉及用户隐私和数据安全风险;不愿用:投入产出比不确定,回报周期长,麦肯锡预计平均超5年。
邬贺铨表示,破解上述难题,激活数据要素价值需要在技术、制度和生态上协同,可从完善数据全生命周期开发与安全技术及服务入手。通过数字网络基础设施、算力基础设施、数据流通利用基础设施和数据安全基础设施,完成数据预处理、数据资源调用、数据可信计算。
数据预处理是数据产业链的关键环节,包括数据生成、采集、存储、标识、编目、索引、清洗和标注等步骤。
数据采集(生成)可通过API、爬虫、传感器实现,但传感采集成本高昂,同时中文开源语料库不足,预计高质量语料将在2026年面临枯竭,此外原始数据的采集已跟不上AI训练的需求。因此,用AI生成数据成为必然趋势,但需注意反复迭代可能导致数据失真,需附加标记以示与原生数据区别,一定比例的原生数据仍是必须。采集完数据需要存储,存储需统一标准格式,便于结构化调用。
数据标识方面,网络层依靠IPv6,应用层依靠OID和UUID,但行业标识标准各异,如金融SWIFT、医疗HL7,需针对性定义语义。值得一提的是,标识字段如直接使用身份证号/手机号将导致隐私泄露,需采用哈希替代或采用UUID。
数据编目与索引方面,通过目录分类(结构化/半结构化、存储模式、敏感程度、来源、生成方式、使用频度、流规模、任务类型、预处理等)和索引规则,实现数据高效检索。
数据清洗需去重、补漏、逻辑校验,以及脱敏和匿名化,同时避免过度清洗或恶意保留错误数据。数据标准是为数据添加机器可读标签,如拉框打点,当前多依赖人力外包,需防范数据外泄和恶意代码注入风险。
数据资源调用前首先需要对数据供给/使用者进行接入认证,不仅需要源宿IP地址认证,还要采用属性基访问控制等方式提升安全性。
数据调用时,企业需明确自身数据需求,如财务分析、生产监控,选择云服务商完成数据预处理。调用第三方数据时需签名验证、PKI认证,可利用区块链确权,通过联邦学习实现“可用不可见”,需严格审核第三方服务商资质,防范配置错误、内部威胁等风险。
数据开发时可以利用数据集成、数据建模、工作流调度和数据治理等工具链提升效率,需防范凭证泄露等风险。模型与算力调用时,评估模型适用性,通过容器快速部署,根据任务类型调度算力资源。同时,需落实角色访问控制、安全审批流程,遵守《数据安全法》和《个人信息保护法》。
数据需要可信计算,通过可信计算、隐私保护、存证和审计等技术,形成可信数据空间。这是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施。
邬贺铨介绍,可信数据空间不仅有安全加密计算,还提供数据源认证和接入身份认证,提供数据资源目录,提供数据格式和协议的转换,对敏感数据提供过滤和去标识化,提供算力调用和数据挖掘工具链,提供可信计算平台和数据流通安全合规管理,支持联邦学习与隐私计算等等,破解企业不会用、不敢用、不愿用的“三不”难题。