执行摘要
我们对可信AGI的发展愿景
当前人工智能(Al)技术正以前所未有的速度取得突破性进展,各类系统在众多领域已达到或超越人类水平。这些突破性进展为我们解决人类面临的重大挑战提供了历史机遇——从推动科学发现、提升医疗质量和人的健康福祉,到促进经济生产力的提升。但与此同时,快速发展的技术也带来了前所未有的风险。随着先进人工智能的研发与部署速度超越了关键安全措施的发展速度,建立完善的风险管理机制已成为全球科技发展的当务之急。
作为我国人工智能领域的新型科研机构,上海人工智能实验室致力于打造“突破型、引领型、平台型”一体化的大型综合性研究基地,推动人工智能技术的安全有益发展。为积极应对技术发展带来的挑战,推动全球在人工智能安全领域的良性竞争,实验室提出了Al-45°平衡律,作为实现可信AGI的发展路线图。
前沿人工智能风险管理框架
上海人工智能实验室联合安远A²,正式发布《人工智能前沿风险管理框架(1.0版)》(以下简称“框架”),旨在为通用型人工智能(General-Purpose Al)模型研发者提供全面的风险管理指导方针,主动识别、评估、缓解和治理一系列对公共安全和国家安全构成威胁的严重人工智能风险,保障个体与社会的安全。
本框架旨在为通用型人工智能模型研发者管理其通用型人工智能模型可能带来的严重风险提供指导。框架充分借鉴了安全攸关型行业的风险管理标准与最佳实践,涵盖风险管理的六大核心流程:风险识别、风险阈值、风险分析、风险评价、风险缓解及风险治理。
·1.风险识别:本章节聚焦通用型人工智能模型可能引发的严重风险,明确四大核心风险类
型:滥用风险、失控风险、意外风险及系统性风险。我们计划通过持续更新风险分类体系,动态应对未知与新兴风险。
·2.风险阈值:本章节明确了一系列不可接受的风险结果(红线)以及触发更高级别安全保障
措施的早期预警指标(黄线)。我们针对可能威胁公共安全和国家安全的几个关键领域设定阈值,其中包括:网络攻击、生物威胁、大规模说服和有害操控,以及失控风险。·3.风险分析:本章节建议在人工智能全生命周期中贯穿实施动态风险分析,以判断模型是
否越过黄线—即达到触发更高级别安全措施的早期预警指标。我们建议AI研发者在研发前和部署前进行系统性评估,以便为关键的部署决策提供参考。同步应建立部署后持续监测机制,为新一代系统研发提供安全指引。与本框架同时发布的还有一份针对一系列通用型人工智能模型的风险评测技术报告。
·4.风险评价:建立三级风险分级体系:绿色区域(基于常规措施可安全部署)、黄色区域
(需强化安全防护与授权)、红色区域(需特殊措施,如限制部署或限制研发)。我们建议对缓解措施实施后的剩余风险进行迭代评估,进一步采取降低风险的措施直至风险达到可接受水平。
·5.风险缓解:构建全生命周期纵深防御风险缓解策略,包含三种风险缓解措施:安全训练措
施、部署缓解措施及模型安保措施,并根据模型处于绿色区域、黄色区域或红色区域设定不同的保障级别。我们呼吁全球持续加大AI安全基础研究投入,当前技术手段尚难以充分保障先进AI系统的安全性。
·6.风险治理:提出监督和调整整个风险管理流程的治理路径。建立四维治理体系:内部治理
机制、透明度与社会监督、应急管控机制、政策定期更新和反馈机制,并根据模型处于绿色区域、黄色区域或红色区域设定不同的保障级别。
AI安全作为全球公共产品
上海人工智能实验室坚信Al安全是一项全球公共产品³。我们率先提出这份前沿AI风险管理框架,汇集了现阶段对重大AI风险的认知与应对思路。我们倡导前沿A研发机构、政策制定者及相关方采用兼容的风险管理框架。Al技术的跃迁日新月异,唯有尽快在当下采取集体行动,才能让变革性Al真正造福人类,并避免灾难性后果。我们诚邀各方就框架落地开展合作,并承诺以公开透明的方式分享实践成果。只有当关键组织同步落实同等强度的防护措施,社会层面的风险管控才能生效。面对风险与机遇并存的全新局面,唯有以协同共治、系统施策的思维,方能凝聚合力、破局前行。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
