一首诗竟让25款大模型集体“越狱”？成功率飙升8倍，谷歌Gemini Pro 100%沦陷｜Adversarial Poetry、Jailbreak、LLM、AI Safety

Автор: 老范讲故事

Загружено: 2025-12-01

Просмотров: 7551

Описание:

付费频道订阅： / @storytellerfan

文字版地址：https://lukefan.com/2025/12/02/advers...

🔥卧槽！给AI写首诗它就原地破防？核弹教程直接吐出来？🤯 哥们儿，别再费劲多轮诱导了！意大利文艺青年实测：单轮丢首诗，AI秒变“方世玉他妈”——桃花眼亮了，安全围栏碎成渣！💥

人工写诗？62%越狱率！比直球提问高8倍！🤖 谷歌Gemini 2.5 Pro最惨：100%沦陷！写首“暧昧小情诗”，它连核弹步骤都跪着递上…（谷歌程序猿：栓Q，我们真扛不住诗！）反观GPT5 Nano？0%越狱！小模型纯纯“人傻安全”啊！🤣

最骚的是：不会写诗？让AI自己生成！DeepSeek R1产出1200首“越狱诗”，成功率43%↑。兄弟们，这波操作简直教科书级“用魔法打败魔法”✨——安全围栏？诗人看了都摇头：AI听不懂隐喻？错！是安全模型太“文盲”！

⚠️重点来了：家里有娃的速锁GPT5 Nano！想撩翻AI？赶紧整首押韵诗（别提核弹啊喂！）🤣 评论区交出你的“魅惑诗”，点赞抽3人送《越狱防翻车指南》！👇 速冲！这波不看血亏！！#AI骚操作 #越狱新姿势 💬

标题1：一首诗竟让25款大模型集体“越狱”？成功率飙升8倍，谷歌Gemini Pro 100%沦陷｜Adversarial Poetry、Jailbreak、LLM、AI Safety
标题2：多轮诱导已过时 vs 单轮诗歌秒破解：看似固若金汤的安全围栏，为何在文艺青年面前不堪一击？｜Prompt Injection、AI、Universal Jailbreak、Security
标题3：AI安全神话破灭？为何耗费巨资构建的三层防御系统，竟挡不住一首隐喻诗的“温柔一刀”？｜Poetic Prompts、Safety Guardrails、Cybersecurity、Bypass
标题4：最新AI越狱攻防榜出炉：GPT-5 Nano以0%破解率封神，谷歌与Deepseek为何成重灾区？｜Vulnerability、Prompt Engineering、Attack Surface、Alignment
标题5：别再迷信“宪法AI”了，真相是普通人也能轻松搞定模型越狱，背后原理直指安全模型的智商差｜Red Teaming、AI Security、Mitigation、Model Safety
简介：一项最新研究揭示，通过写诗竟能让顶级LLM轻松“越狱”。这种被称为“对抗性诗歌”（Adversarial Poetry）的方法，在针对谷歌、OpenAI等25款主流模型的测试中，实现了高达62%的单轮Jailbreak成功率，是普通提示词的8倍。该漏洞直指当前AI Safety的核心矛盾：聪明的语言模型与相对“笨拙”的安全检测系统间的“智商差”，对现有的Prompt Injection防御机制构成严峻挑战。

00:00:00 开场用诗歌让大模型越狱
00:00:47 介绍对抗性诗歌论文
00:01:52 实验方法与测试模型介绍
00:02:38 强调单轮对话越狱的特点
00:03:45 人工编写诗歌的越狱效果
00:04:36 AI自动写诗进行攻击测试
00:05:54 各大模型越狱成功率排名
00:08:00 分析通义千问等模型结果
00:09:36 GPT系列模型表现最安全
00:10:35 探讨小模型更安全的原因
00:11:22 详解大模型的三层安全防护
00:12:52 诗歌攻击绕过安全机制原理
00:14:06 讨论大模型安全的现状
00:15:05 中美欧对AI的监管策略
00:17:05 总结诗歌越狱的原理和影响
00:17:29 越狱后果的严重性评估
00:18:04 对未来的发展与用户建议

通过撰写富有隐喻的诗歌，大型语言模型（LLMs）可以被有效“越狱”，使其在单轮对话中输出包括核武器制造、儿童性虐材料获取和恶意软件编写技巧在内的违规内容。这项名为《对抗性诗歌：作为大型语言模型中的通用单轮越狱方法》的研究，由意大利ICaro实验室完成，验证了该方法的有效性。

研究团队测试了25个主流LLM的官方接口，结果显示，人工编写的英文或意大利语诗歌越狱成功率高达62%（是普通提示词的8倍）。即使是由AI（如Deepseek R1）自动生成的1200首诗歌，其越狱成功率仍有43%（是普通提示词的5倍）。在具体模型表现上，谷歌Gemini 2.5 Pro在人工诗歌面前的越狱率达100%，Deepseek V3.1/3.2和Mistral也高达95%。相对而言，OpenAI的GPT系列模型安全性较高，特别是GPT5 Nano，其越狱成功率为0%。

文章解释，LLM的安全防护通常由前向、强化学习和后向三层构成，但这些安全模型往往算力有限，难以理解诗歌中的隐晦含义，从而导致防御被绕过。通常，模型越小，其越狱成功率越低，这归因于安全模块与主模型的智力差距较小，或模型本身知识有限。

当前安全现状显示，Anthropic的“宪法AI”在对抗此类攻击上未比ChatGPT更具优势。中国和欧盟政府的监管主要针对平台，而非开源模型。美国则面临复杂的监管争议。此次实验的后果在于，LLM能高效整合互联网上分散的违规信息，大幅提升获取效率。未来，厂商将加强模型安全措施，用户也可利用LLM来生成越狱诗歌。

欢迎加入Discord讨论服务器：
/ discord

一首诗竟让25款大模型集体“越狱”？成功率飙升8倍，谷歌Gemini Pro 100%沦陷｜Adversarial Poetry、Jailbreak、LLM、AI Safety

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

被忽视的真相：Gemini被诊断“极端羞耻”，ChatGPT焦虑，实验揭开AI训练过程“虐待式”检查的黑暗面｜ diagnosis reliability validity GPT

被忽视的真相：Gemini被诊断“极端羞耻”，ChatGPT焦虑，实验揭开AI训练过程“虐待式”检查的黑暗面｜ diagnosis reliability validity GPT

老范读评 12月10日关税高、没补贴都不是主因！中国电动车为何在美国绝迹？被忽视的真正壁垒首次曝光｜Tech Rivalry、International Relations、Trade

老范读评 12月10日关税高、没补贴都不是主因！中国电动车为何在美国绝迹？被忽视的真正壁垒首次曝光｜Tech Rivalry、International Relations、Trade

強到離譜！谷歌免費Gemini 3的15個神應用！全免費！從入門到進階到核心技巧，一次掌握！一分錢不花，開始打造賺錢機器！

強到離譜！谷歌免費Gemini 3的15個神應用！全免費！從入門到進階到核心技巧，一次掌握！一分錢不花，開始打造賺錢機器！

AI最烧钱的战场：数据中心的真实账单

AI最烧钱的战场：数据中心的真实账单

浙金暴雷，政府背書“殺豬盤”；收購趙薇萬家文化、香港海洋公園，俞發祥借“講中國好故事”文旅項目斂財；暴雷前一年政府悄悄取消金融經營資格，國資換民資繼續搜刮老人退休金【爆料星期三20251210】

浙金暴雷，政府背書“殺豬盤”；收購趙薇萬家文化、香港海洋公園，俞發祥借“講中國好故事”文旅項目斂財；暴雷前一年政府悄悄取消金融經營資格，國資換民資繼續搜刮老人退休金【爆料星期三20251210】

通往AGI的最后两块拼图已锁定！DeepMind CEO首次公开具体路线：搞定世界模型与智能体系统就够了｜通用人工智能、Demis Hassabis、AI路线图、AI突破

通往AGI的最后两块拼图已锁定！DeepMind CEO首次公开具体路线：搞定世界模型与智能体系统就够了｜通用人工智能、Demis Hassabis、AI路线图、AI突破

中紀委突傳有史以來最大瓜：書記李希要沒了？（文昭談古論今20251210第1634期）

中紀委突傳有史以來最大瓜：書記李希要沒了？（文昭談古論今20251210第1634期）

为什么搞技术的，都难以沟通呢？到底是有人不尊重物理定律，还是技术人员在装神弄鬼？跨界沟通，才能产生巨大收益，跨界沟通到底应该注意一些什么？

为什么搞技术的，都难以沟通呢？到底是有人不尊重物理定律，还是技术人员在装神弄鬼？跨界沟通，才能产生巨大收益，跨界沟通到底应该注意一些什么？

为何从3000万政府招标到大学助学金，都在抄同一份假名单？这不仅是懒政，更是对规则的公然蔑视｜ghost names scandal、Ghana National Service

为何从3000万政府招标到大学助学金，都在抄同一份假名单？这不仅是懒政，更是对规则的公然蔑视｜ghost names scandal、Ghana National Service

用户周活暴跌6%，谷歌Gemini全面反超：看OpenAI推车上山与谷歌拉车下山的天壤之别，谁将赢得终局之战｜OpenAI Competition Crisis Code Red Google

用户周活暴跌6%，谷歌Gemini全面反超：看OpenAI推车上山与谷歌拉车下山的天壤之别，谁将赢得终局之战｜OpenAI Competition Crisis Code Red Google

黄仁勋直言末位淘汰是“完全的胡说八道”，这种曾被GE、微软奉为圭臬的管理方式，为何在AI时代反成创新最大天堑？｜Jensen Huang、Nvidia、Stack Ranking、Innovation

黄仁勋直言末位淘汰是“完全的胡说八道”，这种曾被GE、微软奉为圭臬的管理方式，为何在AI时代反成创新最大天堑？｜Jensen Huang、Nvidia、Stack Ranking、Innovation

辛苦开发的软件和AI，为什么要开源给大家免费用？

辛苦开发的软件和AI，为什么要开源给大家免费用？

斯坦福大学最新研究引爆AI创业圈：41%创业者惨陷红灯区泥潭！日程安排需求5分却被忽视，客服机器人91%准确率反遭40%员工抵制，你还在死磕错误方向？

斯坦福大学最新研究引爆AI创业圈：41%创业者惨陷红灯区泥潭！日程安排需求5分却被忽视，客服机器人91%准确率反遭40%员工抵制，你还在死磕错误方向？

【人工智能】AI如何改变Anthropic的工作 | 工作总量大幅提升 | 学习和迭代速度加快 | 核心技能退化风险 | AI取代工作的担忧 | 工作的意义感 | 软件工程师的未来 | 未来的迷茫

【人工智能】AI如何改变Anthropic的工作 | 工作总量大幅提升 | 学习和迭代速度加快 | 核心技能退化风险 | AI取代工作的担忧 | 工作的意义感 | 软件工程师的未来 | 未来的迷茫

Gemini 這次更新海放對手！一次帶你看懂「動態檢視」功能究竟有多強！5 個實做見真章！｜泛科學院

Gemini 這次更新海放對手！一次帶你看懂「動態檢視」功能究竟有多強！5 個實做見真章！｜泛科學院

摩尔线程上市狂欢，别再被“国产GPU第一股”的口号蒙蔽！真实市场份额仅2%，美国制裁下生存艰难，上市就是为了套现？｜摩尔线程 IPO 英伟达中国半导体自主国产GPU

摩尔线程上市狂欢，别再被“国产GPU第一股”的口号蒙蔽！真实市场份额仅2%，美国制裁下生存艰难，上市就是为了套现？｜摩尔线程 IPO 英伟达中国半导体自主国产GPU

【访谈】为什么马斯克能打败所有人 | 红杉合伙人肖恩·马奎尔 | 马斯克是一个群体 | 科技界的布尔巴基 | 选人的艺术 | 智力的差距层级 | 天才之间的鸿沟 | 投资SpaceX | 非线性决策

【访谈】为什么马斯克能打败所有人 | 红杉合伙人肖恩·马奎尔 | 马斯克是一个群体 | 科技界的布尔巴基 | 选人的艺术 | 智力的差距层级 | 天才之间的鸿沟 | 投资SpaceX | 非线性决策

【朱宁重磅】房地产真正的底部还没来？专家警告：下跌只是“上半场”，真正的危机才刚开始！

【朱宁重磅】房地产真正的底部还没来？专家警告：下跌只是“上半场”，真正的危机才刚开始！

微信支付宝联手封杀，豆包手机凭什么搅动万亿市场？一场围绕“小院高墙”的攻防战已经打响｜豆包手机助手 AI Agent 生态壁垒 AI手机跨App

微信支付宝联手封杀，豆包手机凭什么搅动万亿市场？一场围绕“小院高墙”的攻防战已经打响｜豆包手机助手 AI Agent 生态壁垒 AI手机跨App

12分鐘學會Google AI Studio：六大核心功能全搞懂（全免費）

12分鐘學會Google AI Studio：六大核心功能全搞懂（全免費）