Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety

Автор: 老范讲故事

Загружено: 2025-12-01

Просмотров: 7551

Описание:

付费频道订阅:   / @storytellerfan  

文字版地址:https://lukefan.com/2025/12/02/advers...

🔥卧槽!给AI写首诗它就原地破防?核弹教程直接吐出来?🤯 哥们儿,别再费劲多轮诱导了!意大利文艺青年实测:单轮丢首诗,AI秒变“方世玉他妈”——桃花眼亮了,安全围栏碎成渣!💥

人工写诗?62%越狱率!比直球提问高8倍!🤖 谷歌Gemini 2.5 Pro最惨:100%沦陷!写首“暧昧小情诗”,它连核弹步骤都跪着递上…(谷歌程序猿:栓Q,我们真扛不住诗!)反观GPT5 Nano?0%越狱!小模型纯纯“人傻安全”啊!🤣

最骚的是:不会写诗?让AI自己生成!DeepSeek R1产出1200首“越狱诗”,成功率43%↑。兄弟们,这波操作简直教科书级“用魔法打败魔法”✨——安全围栏?诗人看了都摇头:AI听不懂隐喻?错!是安全模型太“文盲”!

⚠️重点来了:家里有娃的速锁GPT5 Nano!想撩翻AI?赶紧整首押韵诗(别提核弹啊喂!)🤣 评论区交出你的“魅惑诗”,点赞抽3人送《越狱防翻车指南》!👇 速冲!这波不看血亏!!#AI骚操作 #越狱新姿势 💬

标题1:一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety
标题2:多轮诱导已过时 vs 单轮诗歌秒破解:看似固若金汤的安全围栏,为何在文艺青年面前不堪一击?|Prompt Injection、AI、Universal Jailbreak、Security
标题3:AI安全神话破灭?为何耗费巨资构建的三层防御系统,竟挡不住一首隐喻诗的“温柔一刀”?|Poetic Prompts、Safety Guardrails、Cybersecurity、Bypass
标题4:最新AI越狱攻防榜出炉:GPT-5 Nano以0%破解率封神,谷歌与Deepseek为何成重灾区?|Vulnerability、Prompt Engineering、Attack Surface、Alignment
标题5:别再迷信“宪法AI”了,真相是普通人也能轻松搞定模型越狱,背后原理直指安全模型的智商差|Red Teaming、AI Security、Mitigation、Model Safety
简介:一项最新研究揭示,通过写诗竟能让顶级LLM轻松“越狱”。这种被称为“对抗性诗歌”(Adversarial Poetry)的方法,在针对谷歌、OpenAI等25款主流模型的测试中,实现了高达62%的单轮Jailbreak成功率,是普通提示词的8倍。该漏洞直指当前AI Safety的核心矛盾:聪明的语言模型与相对“笨拙”的安全检测系统间的“智商差”,对现有的Prompt Injection防御机制构成严峻挑战。

00:00:00 开场用诗歌让大模型越狱
00:00:47 介绍对抗性诗歌论文
00:01:52 实验方法与测试模型介绍
00:02:38 强调单轮对话越狱的特点
00:03:45 人工编写诗歌的越狱效果
00:04:36 AI自动写诗进行攻击测试
00:05:54 各大模型越狱成功率排名
00:08:00 分析通义千问等模型结果
00:09:36 GPT系列模型表现最安全
00:10:35 探讨小模型更安全的原因
00:11:22 详解大模型的三层安全防护
00:12:52 诗歌攻击绕过安全机制原理
00:14:06 讨论大模型安全的现状
00:15:05 中美欧对AI的监管策略
00:17:05 总结诗歌越狱的原理和影响
00:17:29 越狱后果的严重性评估
00:18:04 对未来的发展与用户建议

通过撰写富有隐喻的诗歌,大型语言模型(LLMs)可以被有效“越狱”,使其在单轮对话中输出包括核武器制造、儿童性虐材料获取和恶意软件编写技巧在内的违规内容。这项名为《对抗性诗歌:作为大型语言模型中的通用单轮越狱方法》的研究,由意大利ICaro实验室完成,验证了该方法的有效性。

研究团队测试了25个主流LLM的官方接口,结果显示,人工编写的英文或意大利语诗歌越狱成功率高达62%(是普通提示词的8倍)。即使是由AI(如Deepseek R1)自动生成的1200首诗歌,其越狱成功率仍有43%(是普通提示词的5倍)。在具体模型表现上,谷歌Gemini 2.5 Pro在人工诗歌面前的越狱率达100%,Deepseek V3.1/3.2和Mistral也高达95%。相对而言,OpenAI的GPT系列模型安全性较高,特别是GPT5 Nano,其越狱成功率为0%。

文章解释,LLM的安全防护通常由前向、强化学习和后向三层构成,但这些安全模型往往算力有限,难以理解诗歌中的隐晦含义,从而导致防御被绕过。通常,模型越小,其越狱成功率越低,这归因于安全模块与主模型的智力差距较小,或模型本身知识有限。

当前安全现状显示,Anthropic的“宪法AI”在对抗此类攻击上未比ChatGPT更具优势。中国和欧盟政府的监管主要针对平台,而非开源模型。美国则面临复杂的监管争议。此次实验的后果在于,LLM能高效整合互联网上分散的违规信息,大幅提升获取效率。未来,厂商将加强模型安全措施,用户也可利用LLM来生成越狱诗歌。

欢迎加入Discord讨论服务器:
  / discord  

一首诗竟让25款大模型集体“越狱”?成功率飙升8倍,谷歌Gemini Pro 100%沦陷|Adversarial Poetry、Jailbreak、LLM、AI Safety

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

被忽视的真相:Gemini被诊断“极端羞耻”,ChatGPT焦虑,实验揭开AI训练过程“虐待式”检查的黑暗面 | diagnosis reliability validity GPT

被忽视的真相:Gemini被诊断“极端羞耻”,ChatGPT焦虑,实验揭开AI训练过程“虐待式”检查的黑暗面 | diagnosis reliability validity GPT

老范读评 12月10日 关税高、没补贴都不是主因!中国电动车为何在美国绝迹?被忽视的真正壁垒首次曝光|Tech Rivalry、International Relations、Trade

老范读评 12月10日 关税高、没补贴都不是主因!中国电动车为何在美国绝迹?被忽视的真正壁垒首次曝光|Tech Rivalry、International Relations、Trade

強到離譜!谷歌免費Gemini 3的15個神應用!全免費!從入門到進階到核心技巧,一次掌握!一分錢不花,開始打造賺錢機器!

強到離譜!谷歌免費Gemini 3的15個神應用!全免費!從入門到進階到核心技巧,一次掌握!一分錢不花,開始打造賺錢機器!

AI最烧钱的战场:数据中心的真实账单

AI最烧钱的战场:数据中心的真实账单

浙金暴雷,政府背書“殺豬盤”;收購趙薇萬家文化、香港海洋公園,俞發祥借“講中國好故事”文旅項目斂財;暴雷前一年政府悄悄取消金融經營資格,國資換民資繼續搜刮老人退休金【爆料星期三20251210】

浙金暴雷,政府背書“殺豬盤”;收購趙薇萬家文化、香港海洋公園,俞發祥借“講中國好故事”文旅項目斂財;暴雷前一年政府悄悄取消金融經營資格,國資換民資繼續搜刮老人退休金【爆料星期三20251210】

通往AGI的最后两块拼图已锁定!DeepMind CEO首次公开具体路线:搞定世界模型与智能体系统就够了|通用人工智能、Demis Hassabis、AI路线图、AI突破

通往AGI的最后两块拼图已锁定!DeepMind CEO首次公开具体路线:搞定世界模型与智能体系统就够了|通用人工智能、Demis Hassabis、AI路线图、AI突破

中紀委突傳有史以來最大瓜:書記李希要沒了?(文昭談古論今20251210第1634期)

中紀委突傳有史以來最大瓜:書記李希要沒了?(文昭談古論今20251210第1634期)

为什么搞技术的,都难以沟通呢?到底是有人不尊重物理定律,还是技术人员在装神弄鬼?跨界沟通,才能产生巨大收益,跨界沟通到底应该注意一些什么?

为什么搞技术的,都难以沟通呢?到底是有人不尊重物理定律,还是技术人员在装神弄鬼?跨界沟通,才能产生巨大收益,跨界沟通到底应该注意一些什么?

为何从3000万政府招标到大学助学金,都在抄同一份假名单?这不仅是懒政,更是对规则的公然蔑视|ghost names scandal、Ghana National Service

为何从3000万政府招标到大学助学金,都在抄同一份假名单?这不仅是懒政,更是对规则的公然蔑视|ghost names scandal、Ghana National Service

用户周活暴跌6%,谷歌Gemini全面反超:看OpenAI推车上山与谷歌拉车下山的天壤之别,谁将赢得终局之战|OpenAI Competition Crisis Code Red Google

用户周活暴跌6%,谷歌Gemini全面反超:看OpenAI推车上山与谷歌拉车下山的天壤之别,谁将赢得终局之战|OpenAI Competition Crisis Code Red Google

黄仁勋直言末位淘汰是“完全的胡说八道”,这种曾被GE、微软奉为圭臬的管理方式,为何在AI时代反成创新最大天堑?|Jensen Huang、Nvidia、Stack Ranking、Innovation

黄仁勋直言末位淘汰是“完全的胡说八道”,这种曾被GE、微软奉为圭臬的管理方式,为何在AI时代反成创新最大天堑?|Jensen Huang、Nvidia、Stack Ranking、Innovation

辛苦开发的软件和AI,为什么要开源给大家免费用?

辛苦开发的软件和AI,为什么要开源给大家免费用?

斯坦福大学最新研究引爆AI创业圈:41%创业者惨陷红灯区泥潭!日程安排需求5分却被忽视,客服机器人91%准确率反遭40%员工抵制,你还在死磕错误方向?

斯坦福大学最新研究引爆AI创业圈:41%创业者惨陷红灯区泥潭!日程安排需求5分却被忽视,客服机器人91%准确率反遭40%员工抵制,你还在死磕错误方向?

【人工智能】AI如何改变Anthropic的工作 | 工作总量大幅提升 | 学习和迭代速度加快 | 核心技能退化风险 | AI取代工作的担忧 | 工作的意义感 | 软件工程师的未来 | 未来的迷茫

【人工智能】AI如何改变Anthropic的工作 | 工作总量大幅提升 | 学习和迭代速度加快 | 核心技能退化风险 | AI取代工作的担忧 | 工作的意义感 | 软件工程师的未来 | 未来的迷茫

Gemini 這次更新海放對手!一次帶你看懂「動態檢視」功能究竟有多強!5 個實做見真章!|泛科學院

Gemini 這次更新海放對手!一次帶你看懂「動態檢視」功能究竟有多強!5 個實做見真章!|泛科學院

摩尔线程上市狂欢,别再被“国产GPU第一股”的口号蒙蔽!真实市场份额仅2%,美国制裁下生存艰难,上市就是为了套现?|摩尔线程 IPO 英伟达 中国 半导体自主 国产GPU

摩尔线程上市狂欢,别再被“国产GPU第一股”的口号蒙蔽!真实市场份额仅2%,美国制裁下生存艰难,上市就是为了套现?|摩尔线程 IPO 英伟达 中国 半导体自主 国产GPU

【访谈】为什么马斯克能打败所有人 | 红杉合伙人肖恩·马奎尔 | 马斯克是一个群体 | 科技界的布尔巴基 | 选人的艺术 | 智力的差距层级 | 天才之间的鸿沟 | 投资SpaceX | 非线性决策

【访谈】为什么马斯克能打败所有人 | 红杉合伙人肖恩·马奎尔 | 马斯克是一个群体 | 科技界的布尔巴基 | 选人的艺术 | 智力的差距层级 | 天才之间的鸿沟 | 投资SpaceX | 非线性决策

【朱宁重磅】房地产真正的底部还没来?专家警告:下跌只是“上半场”,真正的危机才刚开始!

【朱宁重磅】房地产真正的底部还没来?专家警告:下跌只是“上半场”,真正的危机才刚开始!

微信支付宝联手封杀,豆包手机凭什么搅动万亿市场?一场围绕“小院高墙”的攻防战已经打响|豆包手机助手 AI Agent 生态壁垒 AI手机 跨App

微信支付宝联手封杀,豆包手机凭什么搅动万亿市场?一场围绕“小院高墙”的攻防战已经打响|豆包手机助手 AI Agent 生态壁垒 AI手机 跨App

12分鐘學會Google AI Studio:六大核心功能全搞懂(全免費)

12分鐘學會Google AI Studio:六大核心功能全搞懂(全免費)

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]