第八届数字中国建设峰会期间,国务院国资委集中发布了首批10余个行业30项央企人工智能行业高质量数据集优秀建设成果。中国联通信息通信领域高质量数据集、医疗领域高质量数据集成功入选。
中国联通信息通信领域高质量数据集
中国联通立足信息通信行业,紧盯大模型训练和数智应用场景需求,充分发挥中国联通数据一点集中和数据治理能力领先优势,整合企业内部600PB的文本、音频、图像、视频等多模态数据资源,构建了覆盖网络运营、客户服务、智能终端、电信反诈、经营决策、管理办公、科研创新、政企服务8个高质量数据集,总规模超40TB。支撑联通元景大模型训练与微调,赋能网络运营、客户服务等AI场景应用30+。
与此同时,中国联通率先完成了数据中台面向AI多模态数据处理的智能化跃迁。新增AI数据集处理、管理、标注及知识管理4项能力,形成星瀚数壤平台。覆盖AI数据集“采集、清洗、标注、质检、使用、评测”全过程,面向数据清洗、标注、质检3个关键环节,上线35项智能处理算子、16项智能标注能力,用于提升AI数据集质量。目前,平台已具备行业领先的一站式数据集生产流水线与亿级多模态数据处理能力,服务软研院、数智、数科等9个子公司,24个省分公司,累计1300+人次。
展望未来,中国联通将以央企使命为引领,充分发挥人工智能产业链“链主”作用,紧抓数据要素在人工智能发展过程中作用日益凸显的关键时期,促进数据资源的优化配置与高效利用,助力数字经济与实体经济深度融合,为行业高质量发展注入强劲动能。
中国联通医疗领域高质量数据集
联通数据智能有限公司作为中国联通数智能力核心承载平台,锻造数据智能标注、数据增强等技术能力,建设可信数据空间,构建医疗高质量数据集。同时以数据之力,增模型之智,依托联通元景大模型为智慧医疗发展注入强劲动力。
规模大、维度全、安全可信的高质量数据集。中国联通联合国内多家顶尖医疗机构,构建了覆盖影像、诊疗、药品等全维度的高质量数据集,其中,数据集总规模达 100TB,胸部CT影像数据集标注2万余例,肺结核辅助诊断模型准确率超95%;耳部CT影像数据集标注5000余例,听觉障碍识别准确率达95%;肾脏病慢病管理数据集整合1万例患者全周期数据,风险预警模型准确率突破95%;药品说明书数据集涵盖58000份药品信息,实现用药风险智能解析与动态评估。
在数据治理与管理方面,中国联通依托北京市全民言息平台,构建医疗健康行业可信空间,制定数据脱敏规范,运用数据沙箱和隐私计算双引擎处理数据,确保“原始数据不出域、数据可用不可见”。建立11项数据治理全流程运营标准,通过多维度举措保障数据质量与安全。例如,在胸部CT影像数据标注中,采用双盲标注和专家抽样审核,确保标注一致性评估结果超95%,准确性达98%以上。
高效、准确的系列医疗专科智能体。基于该高质量数据集,中国联通研发了一系列医疗专科智能体。基于胸部CT影像的肺结核疾病筛查与诊断模型智能体,准确率超 95%,可实现分钟级快速检测;肾脏病慢病管理干预模型智能体、耳部疾病辅助诊断模型智能体,助力医务人员提高诊断效率及诊疗方案准确性;药品全生命周期智能评估模型智能体,为药品研发、监管等提供全链条数据支撑。
这些成果已在实际应用中展现显著成效,填补了多项技术空白,提升了医疗诊断效率与准确性。后续将通过医疗健康行业可信数据空间,建设数据能力开放体系;通过基层医疗机构推广优质大模型应用,持续推动医疗健康数据要素流通。
高质量医疗数据集是智慧医疗的基石,关乎国计民生。未来,中国联通将携手医疗机构、科研院所、央国企及医疗企业,持续构建高质量语料库,加速行业应用场景落地;打造可信数据服务商,推动数据资源“供得出、流得动、用得好、保安全”。