文档解析主要是指将扫描件PDF、多格式网页、图文混排电子书等非结构化、半结构化的文档,通过技术手段提取关键信息,并转化为机器可识别、可编辑的结构化数据的过程。其意义重大,是打通信息孤岛,将沉睡的数据变为能够深度挖掘、高效利用的数据资产的关键环节。
开源智能文档解析工具:MinerU的出现,大大提高了文档解析的效率。但MinerU在国产算力上部署难、成本高,成为业界痛点。联通元景万悟智能体开发平台通过技术攻关,发布了业界首个MinerU的昇腾910B NPU开源优化方案,目前已上线Github和华为昇腾技术社区,大大拓展和释放了MinerU文档解析工具在国产算力部署的应用场景,不仅让部署周期缩短一倍,性能更是直接提升50%!
联通元景万悟智能体开发平台基于原生MinerU,做了四大核心升级,实现了效率和性能的双重提升!对比分析如下:

性能飞跃背后的两大优化
元景万悟智能体开发平台通过两大技术优化,实现了推理速度的显著提升:
高效图模式推理:在首次推理过程中,创新性地将PyTorch的FX计算图无缝转换为昇腾GE计算图,实现了网络在昇腾NPU上的高效图模式推理。这一突破不仅大幅提升了模型运行效率与整体性能,更实现了“一键部署”的极致便捷,让MinerU在910B平台上的私有化部署周期缩短1倍以上,大幅提升开发部署效率,为规模化应用铺平道路。
前后处理深度优化:通过系统性去除冗余操作,并将更多关键计算算子下沉至NPU执行,实现了处理延迟的进一步降低。这一优化显著提升了端到端推理性能,使得模型推理性能相比其他部署方案提升高达50%,在实际业务场景中展现出卓越的性能表现。
使用TIps,轻松拿捏
接入MinerU文档解析服务,只需简单两步:
(1)导入服务:在元景万悟平台的【模型管理】中,新建模型服务,选择“联通元景”供应商。可接入云端或本地服务:【接入云端服务】接入联通元景MaaS平台云端的MinerU服务,配置URL及API key等信息即可完成接入(可前往https://maas.ai-yuanjing.com/ 申请API Key)。
【接入本地服务】接入本地部署的MinerU服务,无需填写API Key,仅需将URL填写本地服务调用地址即可完成接入。



点击确定后,回到模型管理列表中可以看到刚才接入的:MinerU文档解析服务,表示已经接入完成。

开启使用:在【知识库】中导入文件,解析方式选择【模型解析】,并选择已导入的MinerU服务,即可享受强大的解析能力!

效果验证,惊喜满满
升级后的元景万悟知识库,RAG智能解析与检索效果实现了质的飞跃!
无论是文档的标题结构、复杂图表,还是令人头疼的数学公式,都能被精准解析和还原。

多模知识的检索问答效果显著增强。
智能检索:根据问题精准检索公式,融合多模知识实现图文并茂作答。

智能问答:根据问题提参填槽,融合大模型推理实现公式精准计算。

一切精彩尽在元景万悟智能体开发平台,快来体验吧!
https://github.com/UnicomAI/wanwu
https://gitee.com/unicomai/wanwu
项目地址:








































