OpenAI 发布 Privacy Filter：1.5B 参数 PII 脱敏模型，Apache 2.0 开源上线

IT之家问舟

OpenAI 于 4 月 22 日发布了一款用于脱敏文本中个人身份信息 (PII) 的前沿模型 Privacy Filter。

该模型已以 Apache 2.0 许可协议在 Hugging Face 和 GitHub 平台同步开源，供开发者下载、定制及商业部署。

OpenAI 表示，开发者在自己的环境中运行这一模型后，可针对特定用例进行微调，在训练管线、索引流程、日志记录和审核环节中构建更强的隐私保护机制。

与传统依赖规则匹配的隐私过滤工具不同，OpenAI Privacy Filter 内置了更深层次的语言理解能力，能够根据上下文语境识别非结构化文本中的个人信息，在准确保留公开信息的同时，对与特定个体相关联的敏感数据进行遮盖或脱敏。

据 OpenAI 介绍，该模型采用了双向 Token 分类架构，版本总参数规模为 15 亿，但每次仅激活约 5000 万个参数，这一混合专家（MoE）设计使其能够运行于笔记本电脑甚至浏览器等资源受限的设备上。

该模型支持高达 12.8 万个 Token 的上下文窗口，单次前向传播即可对整个输入序列完成标注，并采用受限维特比算法解码出连贯的片段。

在隐私分类体系方面，Privacy Filter 可识别八类

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好