发布求助

文献互助智能选刊最新文献

图片越糊越危险？西湖大学发现多模态大模型「攻击舒适区」

机器学习算法与自然语言处理 2026-06-15 08:30

文章摘要

背景：随着多模态大模型（MLLMs）越来越多地通过视觉通道处理文本（如将文本压缩为图像），其安全对齐机制面临新的挑战。研究目的：西湖大学的研究团队旨在探究当有害文本被渲染成低清、模糊或带噪图片时，多模态大模型的安全防线是否会受到影响。结论：研究发现存在一个“攻击舒适区”（ACZ），即图像处于“刚好能看清但识别费力”的特定清晰度区间时，模型的安全机制反而最脆弱。其机制归因于“视觉认知过载”，即模型将主要计算资源用于辨认退化文字，导致安全审查延迟。该现象在多种视觉退化（模糊、噪声、扭曲等）及中英文场景中均存在。研究提出了“结构化认知卸载”防御策略，通过“先转写、后审查、再回答”的串行流程，能显著降低ACZ下的攻击成功率，但会带来额外的计算开销。

图片越糊越危险？西湖大学发现多模态大模型「攻击舒适区」

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

机器学习算法与自然语言处理

提示词工程已死，LoopEngineering来了！

提示词工程已死，LoopEngineering来了！. 14小时前

顶会开头怎么写？拆解956篇CVPRHighlight，一文搞定摘要与引言

顶会开头怎么写？拆解956篇CVPRHighlight，一文搞定摘要与引言. 14小时前

ICML2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击

ICML2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击. 14小时前

🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！

🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！. 14小时前

仅一行代码，Fable5复活了！

仅一行代码，Fable5复活了！. 2026-06-15

最新文章

🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！

🤔什么？SFT、DAgger、离线RL和OPD，竟然是同一张2×2表格上的四个格子！ 14小时前

ICML2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击

ICML2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击 14小时前

顶会开头怎么写？拆解956篇CVPRHighlight，一文搞定摘要与引言

顶会开头怎么写？拆解956篇CVPRHighlight，一文搞定摘要与引言 14小时前

提示词工程已死，LoopEngineering来了！

提示词工程已死，LoopEngineering来了！ 14小时前

热门类别

综合性期刊物理法学地球科学历史学

相关文章

文献速递 | 吉林师范大学刘春波教授团队SPT: 原位生长蜂巢状一体化S掺杂的g-C3N4-NiCo2O4全天候超高效活化PMS 蒸发材料0609丨西南民族大学SPT论文丨海蜇状多孔水凝胶三维蒸发器用于Cs⁺的高效选择性吸附文献速递|中国科学院南京土壤研究所ACB:Fe-Co双原子催化剂中协同作用的Fe-N4和Co-N4位点驱动PMS的高效活化 Nat Nanotechnol | “挤”进去的药物，中国科学技术大学王育才等揭示微转移灶如何通过压迫邻近血管帮纳米粒子“开门”？不得了，冷冻电镜直接造假，PNAS被撤稿，该杰出学者涉嫌篡改数据，先前Science子刊等8篇文章被撤回

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信

小红书