发布求助

文献互助智能选刊最新文献

原创丨多模态大模型看不清小目标？从数据到工程的优化方案

数据派THU 2026-02-25 17:00

文章摘要

本文探讨了多模态大模型在小目标识别任务中表现不佳的问题。背景是，尽管多模态大模型在处理大目标时表现出色，但在面对图像中占比小于5%的微小目标（如微小文字、医学病灶、工业缺陷）时，常出现漏检或误判，而这类识别在实际应用中至关重要。研究目的是分析其根本原因并提出分层优化方案。核心原因包括视觉特征压缩导致细节丢失、注意力分配失衡以及训练数据偏差。文章从数据、模型、推理、工程四个维度，按优先级从高到低，系统性地提出了优化方案：推理时通过图像裁剪和提示词优化快速提升；数据层面通过增强和细粒度标注补充特征；模型层面微调视觉编码器或增强注意力；工程层面通过分辨率适配和多尺度融合保障性能。结论是，通过“从易到难、分层优化”的思路，可以有效提升小目标识别准确率，并结合具体场景给出了实战案例和避坑指南，展望了未来自动化、高精度的发展方向。

原创丨多模态大模型看不清小目标？从数据到工程的优化方案

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

数据派THU

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力. 2026-02-25

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠. 2026-02-24

多模态Deep Research，终于有了「可核验」的评测标准

多模态Deep Research，终于有了「可核验」的评测标准. 2026-02-24

阅读7千万文章硅谷爆火：AI奇点已至，抛弃人类自我进化！

阅读7千万文章硅谷爆火：AI奇点已至，抛弃人类自我进化！. 2026-02-18

走出MMLU的高分幻觉：AI Agent的「斯坦利时刻」与职场生存法则

走出MMLU的高分幻觉：AI Agent的「斯坦利时刻」与职场生存法则. 2026-02-18

最新文章

原创丨多模态大模型看不清小目标？从数据到工程的优化方案

原创丨多模态大模型看不清小目标？从数据到工程的优化方案 2026-02-25

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力

【ICLR2026】缩放推理步数暴露短板：揭示并提升大语言模型中的步数泛化能力 2026-02-25

多模态Deep Research，终于有了「可核验」的评测标准

多模态Deep Research，终于有了「可核验」的评测标准 2026-02-24

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠

长上下文"记忆"的舒适陷阱：为什么更多记忆不等于更可靠 2026-02-24

热门类别

综合性期刊物理法学地球科学历史学

相关文章

Gemini3.1发布24小时，我给你整理了8种官方使用姿势！不是所有token都平等！谷歌提出真·深度思考：思维链长≠深度推理遭谷歌制裁，OpenClaw创始人怒怼：Anthropic会先打招呼，你们直接封禁政府采购能否改善企业创新信息披露刘梦非｜我国涉外协议离婚法律适用的困境及其疏解

联系我们：info@booksci.cn Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1

京公网安备 11010802042870号

Book学术文献互助

Book学术文献互助群
群号：604180095

Book学术官方微信