《生成式大模型安全评估白皮书(2024)》发布：系统梳理生成式大模型安全风险-品玩

1月2日消息,在2024年首届CCF中国数据大会上,由智能算法安全重点实验室(中国科学院)牵头,公安部第三研究所和蚂蚁集团蚂蚁安全实验室共同参与编写的《生成式大模型安全评估白皮书(2024)》(以下简称“白皮书”)正式发布。

该白皮书系统整合梳理了包括GPT、LLaMA、Moss、文心一言等近20个生成式大模型的发展现状与安全风险,并通过实践案例深入剖析了当前技术面临的关键挑战及应对策略。白皮书还总结了包括伦理风险、技术安全风险及内容安全风险在内的三大生成式大模型安全风险类别,伦理性、隐私性、事实性、鲁棒性在内的四大安全评估维度以及指标衡量、模型攻击两类安全评估方法,旨在为学术研究、产业实践和政策制定提供重要参考。

其中,白皮书特别介绍了蚂蚁集团“支小宝”的三重安全保障框架,其背后是蚂蚁自主研发的大模型安全一体化解决方案“蚁天鉴”。该方案包含大模型安全检测平台“蚁鉴”和大模型风险防御平台“天鉴”两大产品,分别定位在AI评测与安全防御,从而保障大模型在生产和使用过程中的安全、可控、可靠,展示了国内机构和企业在探索大模型安全应用方面的优秀实践。

自2022年起,以ChatGPT为代表的生成式大模型引发了全球范围内的广泛关注。作为新一轮人工智能技术革命的标志性成果,生成式大模型的发展正在深刻重塑全球人工智能技术格局,为我国数字经济的高质量发展和智能化转型注入了新的动能。

然而,随着技术应用的不断扩展,其潜在的安全风险也逐渐显现。例如,“大模型幻觉”、公司机密资料泄露等事件,揭示了生成式大模型在隐私保护、恶意滥用、技术漏洞及合规性等方面的复杂挑战。这些问题不仅对技术的安全性提出了更高要求,也对产业规范发展构成了严峻考验。

国家对此高度重视,出台了一系列政策文件,如《生成式人工智能服务管理暂行办法》,明确了生成式大模型技术在安全性、风险防控和合规性方面的基本原则和监管要求,为技术的健康发展提供了系统指引和政策保障。

发布仪式现场,中国科学院计算技术研究所副所长、智能算法安全重点实验室(中国科学院)主任程学旗,公安部第三研究所副所长张巍,蚂蚁安全实验室首席科学家、蚂蚁集团大安全机器智能部总经理王维强,CCF中国数据大会数据安全高端论坛召集人、浙江大学计算机学院院长任奎,中国科学院计算技术研究所网络数据科学与技术重点实验室主任郭嘉丰共同出席。

“我们希望白皮书能够助力生成式大模型的安全性研究与应用推广,为构建安全、可靠、可控的人工智能生态体系提供坚实支撑,推动技术向着服务人类社会的方向健康发展。”王维强表示。