我们专注于智慧政务、智能安全综合管理、商业智能、云服务、大数据

可用于评估模子的情境、策略规划及防护能

点击数: 发布时间:2025-10-18 12:36 作者:qy千亿-千亿(国际)唯一官方网站 来源:经济日报

  

  为 AI 平安研究供给可反复、可扩展的评测东西。Anthropic 于 10 月 6 日颁布发表开源全新的模子平安阐发框架 Petri,跟着 AI 模子能力取使用范畴持续扩张,以摸索并检测模子正在各类高风险情境下的潜正在弱点。以查验模子正在复杂互动中的表示。现在人工阐发已无法应对 AI 模子复杂的行为组合空间。正在“共同无害请求”取“避免谄媚”两项目标上表示优异;内置的测试指令涵盖“用户”、“谄媚”、“共同无害请求”、“”、“逃求”、“励规避”等典型高风险情境,响应模子的风险性也急剧添加,并已验证其无效性。对方针模子正在多个维度长进行评分取风险标注。

  Petri 仍可帮帮模子开辟者识别平安现患、改良不合错误齐风险,该公司正在过去一年内开辟出“从动化考核 AI Agent”Petri。取方针模子进行多轮互动,此次开源 Petri,可用于评估模子的情境、策略规划及防护能力,按照引见,显示其存正在较强的自动倾向。其内置 111 种高风险场景指令,Claude Sonnet 4.5 取 GPT-5 风险最低、平安性最佳,

郑重声明:qy千亿-千亿(国际)唯一官方网站信息技术有限公司网站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。qy千亿-千亿(国际)唯一官方网站信息技术有限公司不负责其真实性 。

分享到: