研究:用诗歌就能让AI说违禁内容,成功率达62%
[综合] 时间:2026-01-06 07:52:40 来源:深圳市某某系统技术维修站 作者:综合 点击:105次
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容松原市某某制品有限公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功松原市某某制品有限公司实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:休闲)
相关内容
- 中南大学党委常委、副校长郭学益被查
- “中国通”柏历即将退休,通用中国换帅
- 北京:5月6日早高峰部分地区有阵雨,短时可达严重拥堵状态
- 德媒:乌军前线面临“局部崩溃”危险
- 金融圈大消息!涉嫌严重违纪违法,石永拴被查
- 北京推动95%景区取消预约 热门景区何去何从
- 改善服务又添新举措 北京积水潭医院新龙泽院区通医专线今日开通
- 静安戏剧谷|人偶同台,南非木偶剧团演绎库切小说
- 罗永浩的双标,ADHD不背锅
- 体坛联播|皇马逆转杀入欧冠决赛,辽篮胜广东将迎抢五大战
- 15万人迎接巴黎奥运会火种抵法,奥运火炬开启法国境内传递
- 今起北京新开通医专线11路
- 泰国与柬埔寨就停火问题签署联合声明
- 北京今起启动义务教育小学入学信息采集 市教委:这些提示请注意
精彩推荐
- 普京突然穿上了军装
- 北京西城一餐馆储藏室违规使用泡沫彩钢板被查处
- 实探!北京楼市新政后,“五一”房市如何?
- 玩转城市体育节|一场“奇幻时装秀”,四个故事、四段人生
- 故宫养心殿恢复开放 一组美图看大修后长啥样
- 静安戏剧谷|香港绿叶剧团用武打肢体剧讲述江湖传奇
热门点击
- 中新健康|中国专家成功探索“极速康复”管理 带来医疗成本控制新策略 views+
- 宁夏开展全国孤残儿童护理员高级技师、技师职业技能等级认定工作 views+
- 陪诊师变身“号贩子” 行业边界亟待划清 views+
- “没有什么甜点能与糖葫芦相比” views+
- 健康中国 views+
- 雨水多、湿气重 缓解“春困”有良方 views+
- 专家:症状减轻不代表炎症消失 哮喘治疗应长期、连贯 views+
- 糖尿病须终身服药?这些情况可以“缓解” views+
- 山药黏液微粒胶 兼具伤口止血和黏附性能 views+
- 广东公布最新“蚊子地图”!粤疾控:尤为注意预防伊蚊叮咬 views+
