视觉对比及分类（大型视觉语言模型中对象幻觉的缓解：视觉对比解码（VCD））

阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了一种创新方法——视觉对比解码（VCD），有效解决大型视觉语言模型中的对象幻觉问题，同时为提升模型在复杂视觉任务中的性能开辟新路径。

在自然语言处理和计算机视觉领域，大型视觉语言模型（LVLMs）已经取得了显著成就，尤其是在图像和文本信息的交互处理方面。然而，尽管它们的高效能和多功能性，LVLMs 仍面临一个主要的挑战：对象幻觉。这个问题表现为模型生成与图像中实际不存在的对象相关联的描述，这直接影响了其输出的准确性和可靠性。面对这一挑战，业界探索了多种策略，但仍缺乏一种系统性的解决方案。

在本文中，我们介绍了一种名为视觉对比解码（VCD）的新颖方法，我爱线报网每日持续更新海量各大内部创业教程旨在有效缓解 LVLMs 中的对象幻觉问题。与以往方法不同，VCD 通过比较原始和扭曲视觉输入的输出分布，减少了对统计偏差和单模态先验的依赖。我们的实验结果显示，VCD 不仅减少了对象幻觉，还提升了模型在复杂视觉任务中的表现，无需额外训练或依赖外部模型。这一发现不仅为解决 LVLMs 中的对象幻觉问题提供了新视角，也为未来的研究开辟了新道路。本文的研究成果展示了视觉对比解码（VCD）在多个 LVLM 基准测试中的有效性，并进一步探讨了其在不同场景下的适用性。通过详细的实验和案例分析，我们证明了 VCD 作为一种纠正机制和对比式集成方法的潜力。

论文题目：

Mitigating Object Hal我爱线报网每日持续更新海量各大内部创业教程lucinations in Large Vision-Language Models through Visual Constrastive Decoding

论文链接：

https://arxiv.org/abs/2311.16922

项目地址：

https://github.com/DAMO-NLP-SG/VCD

一、引言1.1 背景介绍 & 研究动机大型视觉语言模型（LVLMs）已成为计算机视觉和自然语言处理交叉领域的核心，由于它们能够从视觉输入生成上下文相关的文本描述，因此在多种应用中发挥重要作用。这些模型以其捕捉和转换复杂视觉模式为特点，将其转化为连贯的语言表达。尽管这些模型取得了进步，但仍我爱线报网每日持续更新海量各大内部创业教程存在特定挑战，其中对象幻觉问题尤为突出，影响了 LVLMs 在各领域的可靠性和适用性。对象幻觉是指 LVLMs 生成与给定图像中真实对象不一致但语义上连贯的文本内容。这一挑战不仅揭示了 LVLMs 的基本问题，例如对统计偏差和单模态先验的过度依赖，而且对 LVLMs 的实际部署产生了直接影响。在需要生成内容精准可靠的应用中，对象幻觉可能导致错误信息、误解和错误决策。因此，解决幻觉问题对于提高 LVLMs 的完整性、可靠性和广泛适用性至关重要。1.2 主要贡献为了解决LVLMs中的对象幻觉问题，我们分析了视觉不确定性对对象幻觉的两个主要原因（即统计偏差（statistical bias）和单模态我爱线报网每日持续更新海量各大内部创业教程先验（unimodal prior））的影响，并提出了视觉对比解码（VCD），这是一种无需训练的技术，旨在缓解 LVLMs 中的对象幻觉。VCD 基于对原始和扭曲视觉输入的输出分布进行对比的原则，作为一种纠正机制，校准模型对集成 LLMs 的语言先验和 LVLMs 预训练语料库的统计偏差的过度依赖。我们的实验表明，VCD 在不同 LVLM 家族中一致地提高了多个对象幻觉基准测试的表现（例如，在 POPE 上提高了高达 + 7.4 的 F1 分数，在 MME 上提高了 + 18%），包括 LLAVA-1.5、InstructBLIP 和 Qwen-VL。此外，我们的方法也有助于提高 LVLMs 我爱线报网每日持续更新海量各大内部创业教程的视觉感知能力，证明了其在对象幻觉缓解范围之外的潜在适用性。

二、方法

本文提出了视觉对比解码（VCD），一种新颖的方法，用于解决大型视觉语言模型（LVLMs）中的对象幻觉问题以及提升 LVLMs 的视觉感知能力。

2.1 大型视觉语言模型的解码

LVLMs 通过结合文本和视觉输入来生成响应。然而，在解码阶段，由于错误分配概率给与视觉输入不一致的词元，常常出现对象幻觉。研究表明，这个问题的两个主要原因是：（1）训练数据中固有的统计偏差（statistical biases），（2）过度依赖集成在解码器中的大型语言模型（LLMs）的语言先验（language priors）。

2.2 视觉不确定性会放大幻我爱线报网每日持续更新海量各大内部创业教程觉

视觉输入的准确性对于 LVLMs 正确编码视觉特征和生成忠实输出至关重要。我们采用最基本的方法——向原始图像覆盖高斯噪声——来引入视觉不确定性。我们的实验表明，视觉不确定性会强化语言模型对语言先验的依赖，并增强由于预训练数据集中存在的肤浅对象相关性而导致的偏差，从而加剧对象幻觉。

2.3 视觉对比解码

基于上述观察，我们引入视觉对比解码（VCD）。VCD 通过对比从原始和扭曲的视觉输入生成的模型输出来对抗 LVLMs 中的统计偏差和语言先验。这一过程无需额外训练或外部预训练模型，使 VCD 成为一个高效且成本效益的解决方案。具体来说，对于给定的文本和视觉输入，模型生成两个不同的输出分布：一个基于我爱线报网每日持续更新海量各大内部创业教程原始视觉输入，另一个基于经过预定义扭曲（例如高斯噪声）的视觉输入。然后，通过利用两个初始获得的分布之间的差异，计算出一个新的对比概率分布。这个新的对比分布可以应用不同的采样策略，如 nucleus sampling 和 beam search。

2.4 自适应合理性约束

在 VCD 的对比分布形成中，可能会出现一个挑战，即错误地惩罚由扭曲视觉输入影响的模型整体输出行为。为了解决这个问题，我们实施了一个基于原始视觉输入的输出分布信心水平的自适应合理性约束。这确保了当模型对其与原始输入相关的输出非常有信心时，候选池被简化，通常保留概率高的单一输出词元。这种方法有效地中和了 VCD 可能带来的不利影响，我爱线报网每日持续更新海量各大内部创业教程防止它无意中促进不合理词元的生成，同时保持生成内容的完整性。综上所述，VCD 不仅是一个纠正机制，减少幻觉，而且也是一种对比式集成方法，区分了两种概率分布的对数。通过结合视觉对比解码和自适应合理性约束，有效地缓解了 LVLMs 中的对象幻觉问题，同时保持了生成内容的准确性和可靠性。

三、实验

本节详细介绍了我们对提出的视觉对比解码（VCD）在不同大型视觉语言模型（LVLMs）中的评估。

3.1 实验设置

3.1.1 数据集和评估指标POPE：一种评估对象幻觉的方法。它要求 LVLMs 回答特定图像中是否存在特定对象。该基准包括三种采样设置：随机、流行和对抗性，每种设置在构建负样本时各有特点。MME：旨我爱线报网每日持续更新海量各大内部创业教程在全面评估 LVLMs，包括多个与感知相关的子任务和四个认知焦点任务。LLaVA-Bench：包含多种场景下的 24 张图片和 60 个问题，用于评估 LVLMs 在更具挑战性的任务和新领域的适应性。3.1.2 LVLM基线模型我们在三个最先进的 LVLMs 上评估了 VCD 的有效性，包括 LLaVA-1.5，InstructBLIP 和 Qwen-VL。3.1.3 实验细节在实验中，我们设置了一些特定的参数值，并使用直接采样作为基线解码策略，以进行一致的比较分析。

3.2 实验结果

3.2.1 POPE结果VCD 在不同采样设置下的性能一致优于基线结果，这表明其在减少 LVLMs 中的对象幻觉我爱线报网每日持续更新海量各大内部创业教程方面发挥了关键作用。 3.2.2 MME幻觉子集结果在 MME 子集评估中，VCD 在处理对象级幻觉方面对所有模型均有统一提升。同时，VCD 对属性级“颜色”得分也有整体积极影响。3.2.3 MME全集结果VCD 在感知任务中表现出一致的增强，同时保持了 LVLMs 的原有识别能力。 3.3 进一步分析3.3.1 视觉不确定性对幻觉的影响我们进一步研究了视觉不确定性增加时 LLaVA-1.5 的对象幻觉变化。结果表明，随着视觉不确定性的增大，对象幻觉问题将变得更加严重。 3.3.2 GPT-4V开放式生成评估我们还将分析扩展到 LLaVA-Bench 上的开放式图片描述生成任务，并使用最新发布的 G我爱线报网每日持续更新海量各大内部创业教程PT-4V 进行评估。结果表明，VCD 在所有场景中对图片描述的准确度和细节程度都有一致的提升。 3.3.3 LLaVA-Bench案例研究我们展示了两个案例研究，说明了在相同提示和图像下，常规解码如何产生由预训练期间固有的统计偏差和语言先验影响的对象幻觉。相比之下，VCD 的实施显著缓解了这些幻觉问题，同时保持了输出文本的连贯性和信息性。这些实验结果表明，VCD 在减少 LVLMs 中对象幻觉方面具有显著效果，且对提高 LVLMs 的视觉感知能力有积极影响。我们将更多的实验结果（比如超参数的消融实验，VCD 在更大的 LVLMs 上的效果，VCD 在其他解码策略上的效果等）放在了论文补充材料中我爱线报网每日持续更新海量各大内部创业教程，如果您对此感兴趣，可以查看论文原文。

四、结论与未来工作

本文针对大型视觉语言模型（LVLMs）中的对象幻觉问题进行了深入研究。我们分析了视觉不确定性如何影响幻觉，特别是从统计偏差和语言先验的角度。研究发现，视觉不确定性会放大这些因素，导致更多的幻觉。基于此，我们引入了视觉对比解码（VCD），这是一种新颖的无需训练的方法，它通过对比分布来校准模型的输出，无需使用外部工具。我们在多个基准测试和 LVLM 家族上进行的广泛实验证实了 VCD 在减少幻觉方面的有效性，并展示了其增强 LVLMs 整体感知能力的潜力。尽管本研究采用了基本的高斯噪声方法来引入视觉不确定性，但更细致的技术，如对象级模糊，可能我爱线报网每日持续更新海量各大内部创业教程会带来更好的结果。此外，我们的研究仅限于处理图像和文本的 LVLMs，并未涵盖其在视频理解等新兴应用领域的使用。未来的研究方向包括探索不同的图像扭曲方法，并将视觉对比解码（VCD）框架扩展到更广泛的 LVLMs。

参考文献

[1] Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. Evaluating object hallucination in large vision-language models. EMNLP, 2023.[2] Chaoyou Fu, Peixian Chen, Yu我爱线报网每日持续更新海量各大内部创业教程nhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin,Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.[3] LLaVA-Bench, https://huggingface.co/datasets/liuhaotian/llava-bench-in-the-wild.我爱线报网每日持续更新海量各大内部创业教程[4] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.[5] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junq我爱线报网每日持续更新海量各大内部创业教程i Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general-purpose vision language models with instruction tuning. arXiv preprint arXiv:2306.04387, 2023.[6] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. ar我爱线报网每日持续更新海量各大内部创业教程Xiv preprint arXiv:2310.03744, 2023.[7] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. NIPS, 2023.[8] GPT4-V, https://openai.com/research/gpt-4v-system-cardIllustration From IconScout By Pablo Stanley-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.tech我爱线报网每日持续更新海量各大内部创业教程beat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作我爱线报网每日持续更新海量各大内部创业教程人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

>>> 添加小编微信！

关于我“门”▼将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

给力项目：吾爱网创会员可免费下载加入会员
友情提醒：请尽量登录购买，防止付款了不发货！
QQ交流群：226333560 站长微信：qgzmt2

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。用户必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版，购买注册，得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！

视觉对比及分类（大型视觉语言模型中对象幻觉的缓解：视觉对比解码（VCD））

二、方法

2.1 大型视觉语言模型的解码

2.2 视觉不确定性会放大幻我爱线报网每日持续更新海量各大内部创业教程觉

2.3 视觉对比解码

2.4 自适应合理性约束

三、实验

3.1 实验设置

3.2 实验结果

四、结论与未来工作

参考文献

五四运动是什么运动啊（五四运动里的“运动”，是movement还是campaign？丨达人分享）

四川发展总经理简历（四川省股权与创业投资协会副会长兼秘书长陈庆红：为企业和投资者搭建更加可靠、高效的服务平台）

二、方法

2.1 大型视觉语言模型的解码

2.2 视觉不确定性会放大幻我爱线报网每日持续更新海量各大内部创业教程觉

2.3 视觉对比解码

2.4 自适应合理性约束

三、实验

3.1 实验设置

3.2 实验结果

四、结论与未来工作

参考文献

五四运动是什么运动啊（五四运动里的“运动”，是movement还是campaign？丨达人分享）

四川发展总经理简历（四川省股权与创业投资协会副会长兼秘书长陈庆红：为企业和投资者搭建更加可靠、高效的服务平台）

请输入验证码

公告

....支付确认中....