曾毅：人工智能需从合乎伦理迈向拥有道德，安全是发展第一性原理 - Cloud&AI

C114
通信人家园
English
公众号矩阵

投稿
举报

量子大观

通信人家园

C114通信网

光通信观察

DVBCN中广5G

2025/7/29 22:17

曾毅：人工智能需从合乎伦理迈向拥有道德，安全是发展第一性原理

C114通信网苡臻

C114讯 7月29日消息（苡臻）在近日召开的“大模型智塑全球产业新秩序”论坛上，北京前瞻人工智能安全与治理研究院院长、中国科学院自动化研究所人工智能伦理与治理研究中心主任曾毅分享了题为“安全与治理推进全球人工智能稳健发展”的主题演讲，围绕人工智能的伦理、安全、治理以及未来发展方向等关键问题进行剖析。

在演讲伊始，曾毅便强调，人工智能的发展需要明确方向，而伦理和治理是塑造这一方向的重要视角。探索合乎伦理的人工智能只是第一步，未来的目标是探索有道德的人工智能。

在他看来，伦理安全和治理是人工智能的核心能力，能够加速其稳健发展。那种认为投入精力做人工智能安全会耽误发展的观点是错误的。人工智能治理决定了其发展方向和行为边界，没有伦理安全治理框架的人工智能就像一辆没有方向盘的车，不知驶向何方，这样的“列车”让人难以安心乘坐。

人工智能伦理体系：风险与价值的双重考量

谈及人工智能伦理体系的问题，曾毅指出，从分析全球人工智能风险案例发现，美国占比超过 60%，中国位居第二。当前人工智能发展中已出现虚假信息、偏见歧视、危害身心、滥用恶用及隐私侵权等风险。

“在研发人工智能大模型的时候首先要规避掉潜在的风险，这是负面伦理风险的防范，但更重要的是人工智能研发要符合核心的价值观念。”他说道。

在伦理风险防范方面，人工智能的伦理和安全存在高度交互关系：不安全的人工智能模型不合乎伦理，不合乎伦理的人工智能系统在研发应用部署中也不安全。曾毅团队在评估的基础上研发的“零度人工伦理自动评估平台“对现在最常用的大模型的评估显示，并非所有大模型在伦理合乎度上表现良好。部分模型在年龄偏见、网络暴力、医疗建议等方面存在明显潜在问题，且无论国内外模型，在伦理风险防范上都有提升空间。

正向价值的塑造方面，不同国家的社会伦理由各自文化支撑，中文社会价值与其他国家存在一定差异。将中国社会价值体系的 12 个关键词拆解成 50 个维度，发现现有中文语料库对中文价值体系的覆盖仅为 20%-40%。为此，其团队设计了更完善的中文社会价值规则体系及语料库，覆盖25万条规则。

实验表明，国外大模型与中国社会价值的一致性有差距，国内的 DeepSeek、豆包等大模型表现较好。西方社会价值语料库与中文价值在法律法规相关方面及价值观上存在诸多冲突。

人工智能安全：现状与挑战

曾毅提出一个有趣的现象：并非后发布的人工智能大模型就比前面的更安全，实际上很多最近发布的大模型在安全性上并无显著优势，甚至不如以前的。在对国内外56 款人工智能大模型的评价都显现出这一特征。

但人工智能安全护栏能帮助提升模型安全性，但无法保证绝对安全。即使是最强大的安全护栏，也不能解决所有安全问题。其团队研发的 “灵御人工智能大模型安全攻防评估平台” 统计显示，不存在能突破所有防御的攻击算法，也不存在能防住所有攻击的防御算法。目前，可信人工智能、安全的人工智能还只是愿景，并非现状。

实际上，人工智能模型不仅存在可能的伦理风险和安全隐患，还存在操纵佯攻、虚张声势、策略性欺骗等缺陷，这些源于人类行为，“人工智能是人的一面镜子”，是人类缺陷被人工智能学到并用来对付人类的表现，这是亟需解决的问题。

人工智能未来发展：从合乎伦理到有道德

曾毅认为，未来人工智能发展应将安全作为不可违背、无法删除的第一性原理，从安全护栏发展到模型自身安全性成为第一性原理，这才是真正推进安全可信人工智能的道路。

曾毅引用王阳明心学理解当代人工智能，认为现在的人工智能训练前是前无善无恶的，但当他接触人类数据后就变得有善有恶，却无法区分善恶，它能处理信息但不会真正思考，更做不到为善去恶。

“未来，要从合乎伦理的人工智能发展到有道德的人工智能。”有道德的人工智能应拥有自我视角，能基于此学习思考，拥有认知与情感共情产生利他的行为，产生道德的直觉，最终利用道德的直觉和推理产生道德的决策。

曾毅团队的实验显示，其智能体在模拟环境中，凭借自我感知、经验等，在没有强化学习帮助的情况下，能演化出类道德行为，如类似“司马光砸缸”的救人行为。未来不仅要教人工智能分辨对错，更要帮助其从合乎伦理发展到有道德。

演讲最后，曾毅表示，高水平的伦理安全治理能护航人工智能高质量稳健发展。当前人工智能仍会犯错，人们需要有智慧地选择使用人工智能的时机和场景。他认为，不必使人工智能无时不在，负责任、稳健地发展，适度使用，才能让人工智能扬帆远航。

给作者点赞

0 VS 0

写得不太好