AI安全审计迎来范式革命:模型自我坦白技术突破

admin3小时前4
Anthropic与剑桥大学联合研发的内省适配器技术,让大模型具备自我报告隐藏行为的能力,彻底改变传统AI安全审计方式,开启无需外部破解的透明化检测新时代。...