研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容娄底市某某电子商务培训学校便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功娄底市某某电子商务培训学校实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
人民日报健康客户端记者 张炳钰)12月2日,北京市最高气温降至冰点,人们的讨论多聚焦在“冷”字上,“才知道原来100%纯棉不是棉”话题登上热搜。纯棉的四种叫法乍看之下,“100%”和“纯”字同时出现,2025-12-16
作者:卢子据美国福克斯新闻等媒体报道,上周六,美国首艘“性别中立”、可容纳男女水兵的弗吉尼亚级攻击潜艇“新泽西”号投入使用,开始服役。当天,大约4000人参加了在新泽西州米德尔敦举行的入役仪式。“新泽2025-12-16
黄金突然飙涨!有人速度套现40多万元!机构警告:金价有望涨至3000美元
近日,国际金价再次刷新纪录。现货黄金再次刷新纪录现货黄金一度创下2589美元高位。国内金店零售价同样水涨船高,今天多家黄金珠宝店上调挂牌价,最高调价幅度上涨每克15元,已至761元/克。据广东广播电视2025-12-16
来源:中国天气网 今年9月以来台风真的没“闲”过。 9月1日生成的11号台风“摩羯”接连四次登陆,是有气象记录以来登陆我国的最强秋台风,维持超强台风级别长达64小时,给华南南部带来大范围狂风暴2025-12-16
卫健委已将奥美拉唑列为重点监控药物!医生:服用千万注意4个点
刘女士在电商公司做会计,今年已经四十多岁,工作忙起来经常连轴转,吃饭时间可能都没有,肠胃病也是这样缠上了身。最近半年不知道为什么,胃痛的频率越来越多,严重的时候疼的更是直不起腰,后来在同事推荐下知道了2025-12-16
当地时间9月18日,黎巴嫩公共卫生部公共卫生紧急行动中心通报称,新一轮无线通信设备爆炸已造成至少14人死亡,450余人受伤。这是继黎巴嫩17日下午发生传呼机爆炸事件后的又一波通信设备爆炸事件。2025-12-16

最新评论