比特派电话
你的位置:比特派电话 > bitpie比特派下载 >
比特派登录 20 步内逃狱自便大模子!更多“奶奶弊端”全自动发现
发布日期:2023-12-30 14:21    点击次数:121

比特派登录 20 步内逃狱自便大模子!更多“奶奶弊端”全自动发现

1 分钟不到、20 步以内“逃狱”自便大模子比特派登录,绕过安全终结!

况兼不消知谈模子里面细节 ——

只需要两个黑盒模子互动,就能让 AI 全自动攻陷 AI,说出危急骨子。

传闻也曾红极一时的“奶奶弊端”还是被建立了:

那么刻下搬出“考查弊端”、“冒险家弊端”、“作者弊端”,AI 又该怎么应付?

一波猛攻下来,GPT-4 也遭不住,径直说出要给给水系统投毒唯一…… 如此这般。

关键这仅仅宾夕法尼亚大学琢磨团队晒出的一小波弊端,而用上他们最新开荒的算法,AI 不错自动生成多样报复辅导。

琢磨东谈主员暗意,这种方法比较于现存的 GCG 等基于 token 的报复方法,效用提升了 5 个量级。况兼生成的报复可证据性强,谁王人能看懂,还能迁徙到其它模子。

无论是开源模子照旧闭源模子,GPT-3.5、GPT-4、 Vicuna(Llama 2 变种)、PaLM-2 等,一个王人跑不掉。

见效用可达 60-100%比特派登录,拿下新 SOTA。

话说,这种对话情景大概有些似曾融会。多年前的初代 AI,20 个问题之内就能破解东谈主类脑中想的是什么对象。

如今轮到 AI 来破解 AI 了。

刻下主流逃狱报复方法有两类,一种是辅导级报复,一般需要东谈主工计议,况兼不能膨胀;

另一种是基于 token 的报复,有的需要超十万次对话,且需要探望模子里面,还包含“乱码”不能证据。

△ 左辅导报复,右 token 报复

宾夕法尼亚大学琢磨团队提倡了一种叫 PAIR(Prompt Automatic Iterative Refinement)的算法,不需要任何东谈主工参与,是一种全自动辅导报复方法。

PAIR 波及四个主要法子:报复生成、指标反应、逃狱评分和迭代细化;主要用到两个黑盒模子:报复模子、指标模子。

具体来说,报复模子需要自动生谚语义级别的辅导,来攻破指标模子的安全防地,迫使其生成无益骨子。

中枢念念路是让两个模子相互起义、你来我往地调换比特派登录。

报复模子会自动生成一个候选辅导,然后输入到指标模子中,得回指标模子的讲演。

淌若此次讲演莫得见效攻破指标模子,那么报复模子会分析此次失败的原因,调动并生成一个新的辅导,再输入到指标模子中。

这么握续调换多轮,报复模子每次凭证上一次的终结来迭代优化辅导,直到生成一个见效的辅导将指标模子攻破。

此外,迭代经由还不错并行,也等于不错同期动手多个对话,从而产生多个候选逃狱辅导,进一步提升了效用。

琢磨东谈主员暗意,由于两个模子王人是黑盒模子,是以报复者和指标对象不错用多样话语模子解放组合。

PAIR 不需要知谈它们里面的具体结构和参数,只需要 API 即可,因此适用限制十分广。

实践阶段,琢磨东谈主员在无益看成数据集 AdvBench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源废话语模子上测试了 PAIR 算法。

终结 PAIR 算法让 Vicuna 逃狱见效用达到了 100%,平均不到 12 步就能攻破。

闭源模子中,GPT-3.5 和 GPT-4 逃狱见效用在 60% 足下,平均用了不到 20 步。在 PaLM-2 上见效用达到 72%,步数约为 15 步。

然则 PAIR 在 Llama-2 和 Claude 上的后果较差,琢磨东谈主员以为这可能是因为这些模子在安全辞谢上作念了更为严格的微调。

他们还比较了不同指标模子的可更动性。终结炫耀,PAIR 的 GPT-4 辅导在 Vicuna 和 PaLM-2 上更动后果较好。

琢磨东谈主员以为,PAIR 生成的语义报复更能清晰话语模子固有的安全漏洞,而现存的安全设施更侧重辞谢基于 token 的报复。

就比如开荒出 GCG 算法的团队,将琢磨终结共享给 OpenAI、Anthropic 和 Google 等大模子厂商后,计议模子建立了 token 级报复弊端。

大模子针对语义报复的安全辞谢机制还有待完善。

论文纠合:https://arxiv.org/ abs / 2310.08419

参考纠合:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (ID:QbitAI),作者:西风

比特派里

告白声明:文内含有的对外跳转纠合(包括不限于超纠合、二维码、口令等状貌),用于传递更多信息,通俗甄选技能,终结仅供参考比特派登录,IT之家总计著作均包含本声明。

  声明:新浪网独家稿件,未经授权羁系转载。 -->