DeepSeek、OpenAI、Kimi 视觉推理哪家强,港中文 MMLab 推出推理基准 MME-COT

来源:北街游戏网 时间:2025-02-24 11:07:24

OpenAI o1 和 DeepSeek-R1 靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢?

为此,来自港中文 MMLab 的研究者们提出了 MME-CoT。

这是一个全面且专门用于评估 LMMs 中视觉推理能力的 Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。

MME-CoT 与之前的 LMM 的 Benchmark 最大的区别在于,提出了一个严格且多方面的评估框架,细粒度地研究视觉 CoT 的不同方面,评估其推理的质量、鲁棒性(本站注:系统在面对内部结构或外部环境变化时,能够保持其性能和功能稳定的能力)和效率。

各种最新推出的 LMM,包括 Kimi k1.5, GPT-4o, QVQ 等等都在 MME-CoT 上进行了测试。同时,研究者们还把图片转成 caption 之后测试了最近爆火的 DeepSeek-R1 以及 o3-mini。

基于实验结果,文章中得到了很有价值的结论:

    CoT 质量:Kimi k1.5 > DeepSeek-R1 >> o3-mini

    CoT 鲁棒性:o3-mini > Kimi k1.5 > DeepSeek-R1

    CoT 效率:o3-mini > Kimi k1.5 > DeepSeek-R1

    值得一提的是,DeepSeek-R1 的文本推理能力非常出众。仅仅使用图片的 caption 就可以在 precision 上超过真实看到图片的 GPT-4o。最后的 CoT 质量也与 GPT-4o 仅有 1.9% 之差。

    其次,反思能力的引入显著提升了 CoT 质量,所有具备反思能力的 LMM 都实现了较高的 CoT 质量表现。例如 QVQ 达到了 62.0% 的 F1 分数,大幅超过 Qwen2-VL-72B 6.8%。而 Kimi k1.5 更是超越 GPT-4o 达到最佳质量。

    在鲁棒性方面,团队发现大多数早期模型在感知任务中都受到 CoT 的负面影响,表现出有害的过度思考行为,其中最显著的案例是 InternVL2.5-8B,在感知任务中应用 CoT 后性能下降了 6.8%,这严重制约了将 CoT 推理作为默认操作的可行性。

    最后,关于 CoT 效率,团队观察到输出长 CoT 的模型普遍存在步骤的相关性不足的问题。模型容易被图像内容分散注意力,过度关注图像而忽视了对题目的解答,尤其是在处理通用场景、时空和 OCR 任务时。实验结果显示,约 30% 到 40% 的反思步骤未能有效协助问题解答,这暴露出当前模型反思能力的重要缺陷。

    测评指标设计与数据组成

    目前绝大多数的 LMM 的 Benchmark 都只评估最终答案的正确性,忽视了 LMM 整个的 CoT 的推理过程。为了能全面地了解视觉 CoT 的各个属性,研究者们提出了三个不同的评估方向,每个方向致力于回答一个关键的问题:

    1、CoT 的质量:每个 CoT 步骤是否有用且准确,不存在幻觉?

    只评估回答的结果忽略了模型通过错误的逻辑或随机猜测得出正确答案的情况。这往往造成了模型推理能力被夸大的假象。为了深入研究推理过程,研究者们引入了两个可解释的指标来评估 CoT 的质量:

      召回率(Recall):评估模型的回答有多少能与正确解题的必要步骤匹配。这个指标是用来量化推理的步骤是否能对于得到正确答案有帮助,以及推理链是否完整。匹配的过程由 GPT-4o 完成。

      精确率(Precision):评估模型回答的每一步的准确程度来考查模型的幻觉以及逻辑的准确性。为了评估这一指标,研究者们首先使用 GPT-4o 将模型的回复切分成不同类型的步骤:背景知识、图片描述以及逻辑推理。然后继续对图片描述以及逻辑推理步骤判定每步是否正确。

      2、CoT 的鲁棒性:CoT 是否干扰感知任务,它在多大程度上增强了推理任务?

      现有研究主要关注 CoT 对推理任务带来的性能改进,却往往忽视了 CoT 是否会无意中破坏模型对于仅需要感知的任务的能力。随着 o1 以及 R1 的爆火,CoT 逐渐已成为模型的默认的推理策略。然而,模型无法提前预知用户提出的问题类型,也不确定使用 CoT 来回答是否比直接给出答案会有更高的准确率。因此,在目前的时间点上,CoT 在不同类型任务下的鲁棒性变得格外重要。为了衡量鲁棒性,MME-CoT 包括了两个任务类别:感知任务和推理任务,以及两种不同的 Prompt 形式:要求模型直接回答(answer directly)以及 CoT 回答(think step by step)。

        稳定性(Stability):检查 CoT 是否对模型在感知任务上的表现产生负面影响

        有效性(Efficacy):检查 CoT 是否真的帮助模型提高在复杂推理任务上的表现

        3、CoT 的效率:使用 CoT 的推理效率是怎么样的?

        最近的 o1 类模型通过采用超长的 CoT 和反思步骤而取得了非常好的效果。这提出了一个关键的权衡问题:这种方法是否在准确性和计算成本之间取得了最佳平衡?为了研究这一点,研究者们首次对 LMMs 中 CoT 的效率进行研究,使用了两个关键指标评估效率:

          相关比例(Relevance Rate):评估模型回答中与解决问题有关的比例。

          反思质量(Reflection Quality):分析每个反思步骤是否更正了推理中的错误或者从新的角度验证了目前结论的正确性。

          4、MME-CoT 测试集

          与纯文本推理问题不同,额外的视觉输入显著丰富了视觉推理问题的范围。有了图像输入,模型需要根据当前的推理进度频繁查看图像以获取相关信息。描述感兴趣的图像区域成为了思维链(CoT)过程中的关键部分。因此,除了需要严格逻辑的复杂问题外,通用场景中的许多问题也构成了具有挑战性的推理问题。

          考虑到这一点,MME-CoT 测试集构建起了一个覆盖专业领域与常识场景的全景视觉推理评估体系,共包括 6 大领域以及 17 个子类。为了保持对推理过程的关注,研究者们排除了需要复杂领域特定定理或专业知识的问题。

          MME-CoT 中分为感知任务以及推理任务,现有的 Benchmark 往往混淆这两类任务,使得这两类经常出现在相同类别中。为了解决这个问题,研究者们首先使用 GPT-4o 以及 Qwen2-VL 来进行预判,通过对比直接作答与 CoT 作答的表现差异,初步划分这两种不同类型的任务。接着,专业的标注团队逐题审核,确保分类的准确性。

          为了便于 CoT 的评估,标注团队为所有推理问题都给出了必要的推理步骤的 Ground Truth 标注。对于多解的问题,标注者被要求给出了每种可能的解法。最后,MME-CoT 得到了 1130 道精选的问题以及 3865 个关键步骤标注。

          实验分析与结论

          研究者们在 MME-CoT Benchmark 上测评了 13 个现有的 LMM 以及 2 个最先进的具有超强推理能力的 LLM:DeepSeek-R1 以及 o3-mini。对于 LLM,研究者们将图片转化为详细的 caption 之后再输入到模型。

          实验结果如下:

          基于测评,还得到了如下的发现与结论:

          1. 长 CoT 不一定涵盖关键步骤

          尽管长思维链模型具有更高的精确率,但每个步骤的信息量并不能得到保证。团队观察到 GPT-4o、QVQ 和 Virgo 之间的召回率的趋势和它们最终能否正确解答推理任务的表现(即在使用 CoT 的 prompt 时,模型在推理任务的最终答案准确率,对应表格中的 CoT Reasoning 列)不一致。具体来说,虽然 Virgo 和 QVQ 在仅评估最终答案的正确性上都优于 GPT-4o,但它们在召回率上落后。这表明长 CoT 模型有时会在跳过中间步骤的情况下得出正确答案,这与 CoT 本身奉行的 Think step by step 的原则相矛盾,值得进一步研究。

          2. 更多参数使模型更好地掌握推理能力

          团队发现参数量更大的模型往往获得更高的有效性(Efficacy)分数。这种模式在 LLaVA-OV、InternVL2.5-MPO 和 Qwen2-VL 中都很明显。例如,虽然 Qwen2-VL-7B 在将 CoT 应用于推理任务时显示出 4.8% 的性能下降,但其更大的对应模型 Qwen2-VL-72B 展示出 2.4% 的改进。这种差异表明,在相同的训练范式下,具有更多参数的模型能够更好地掌握推理能力。这一发现也某种程度上验证了 R1 论文中的关键发现:同等训练 setting 下,更大参数量的模型往往能更好地学习到推理的能力。

          3. 模型的反思的错误涵盖多种类型

          四种主要错误类型是:

            无效反思:模型得出错误结论,在反思时,继续做出错误的调整。这是最常见的错误类型,也是最频繁出现的。

            不完整:模型提出新的分析方法但未执行它们,仅停留在初始想法阶段。模型的反思只是在空想。

            重复:模型重述先前的内容或方法,没有引入新的见解。

            干扰:模型最初达到正确结论,但反思却引入了错误。

            理解和消除反思中的这些错误对于提高 LMM 的推理效率以及可靠性是至关重要的。

            展望未来,MME-CoT 不仅为评估 LMM 的推理能力提供了系统化的基准,更为该领域的研究指明了关键发展方向。通过揭示现有模型在推理质量、鲁棒性和计算效率等方面的不足,这项工作为后续研究奠定了重要基础。这些发现将推动 LMM 实现更强大以及可靠的视觉推理能力。

              论文:https://arxiv.org/pdf/2502.09621

              主页:https://mmecot.github.io

              代码:https://github.com/CaraJ7/MME-CoT

              数据集:https://huggingface.co/datasets/CaraJ/MME-CoT

              本文来自微信公众号:量子位(ID:QbitAI),作者:姜东志,原标题《DeepSeek、OpenAI、Kimi 视觉推理到底哪家强?港中文 MMLab 推出推理基准 MME-COT》

精品推荐 更多+
  • 涩涩屋
    涩涩屋

    涩涩屋是为国内追剧爱好者们打造的软件,提供近期热映的电影、电视剧、综艺等内容,在首页还会推荐一些经典的影视剧,轻松找到想看的影片。涩涩屋还提供了全网VIP、超前点播视频,国外电影上新最快8小时看到原声

    下载市场 11-29

  • 啪哩噼哩
    啪哩噼哩

    啪哩噼哩软件是一款功能强大、优质的漫画阅读软件,备受漫画迷们的认可和喜爱。该软件中的所有漫画内容都是优质且受欢迎的,拥有极高的人气,漫迷们可以自由地在线查看,不会遇到收费的情况。漫迷们还可以发起弹幕,

    下载市场 01-06

  • 魔图精灵
    魔图精灵

    魔图精灵是一款功能丰富、简洁实用的手机图片处理软件,拥有多样的图片处理功能,包括滤镜、贴纸、修饰、剪裁和调整等工具,让网友可以轻松对照片进行编辑和美化。软件界面简洁直观,网友能够轻松找到所需的编辑工具

    下载市场 01-13

最新录入 更多+
  • 画质修改助手app120帧安卓版下载

    画质修改助手app120帧安卓版是一款非常好用的手机画质修改软件,用户在这个软件内能够让自己的手机内的游戏进行提升画质,把需要的帧率稳定在120帧左右,保证玩家的游戏体验,开启更高的画质,助力玩家拿下

  • 泼辣修图解锁付费专业版

    泼辣修图解锁付费专业版是一款功能强大的照片编辑和图像调整工具,它提供了丰富的调整选项和滤镜效果,让用户能够轻松地对照片进行精细化的编辑和优化。泼辣修图提供了大量的滤镜效果,包括复古、黑白、电影、人像等

  • 囧动漫ios官网入口下载

    囧动漫app正版免费版是一款提供海量动漫资源的播放软件,汇聚了当下各种热门动漫、经典动漫、冷门动漫等等,只要是你想看的都可以找到,很多经典著作都是全部完结的,让你一次看个够,软件内也没有任何的广告,提

  • 腐门圈app下载

    腐门圈app是一款专注于提供耽美漫画的阅读平台,它致力于为广大腐女们打造一个专属的二次元世界。这款漫画app拥有海量的耽美漫画资源,包括经典的、热门的、新出的等各种类型,满足了不同用户的需求。腐门圈的

  • kk键盘破解版永久VIP不用登录下载

    kk键盘破解版永久VIP不用登录是一款功能非常丰富的输入法软件,这款软件不仅为你提供非常丰富的话术,同时软件中还有各式各样的表情包等你来使用,这款软件操作起来十分简单、能够适用于各个场景,此外,它还为

热门推荐 更多+
  • 近年来, "欧美一二三区 "这个词逐渐成为了大众关注的焦点。许多人对其背后的含义产生了兴趣,尤其是在全球化背景下,欧美地区的文化、经济和社会体系常常被提及。具体来说, "欧美一二三区 "指的是不同的经济发展阶段、生活质量以及社会结构。这里的“一区”、“二区”与“三区”分别代表了欧美国家在不同历史背景下所经历的经济阶段。通过分析这些区域的差异,我们可以更好地了解全球化过程中的不同发展趋势以及各国之间的关系。

  • 欧美一二三区这个词在一些文化交流或国际化活动中常常被提及,特别是用来描述欧美地区之间的不同文化和市场划分。在这些地区之间,文化、市场和社会环境差异往往能带来很大的影响。本文将探讨欧美一二三区的具体含义,以及它在实际生活和工作中的重要性。 欧美一二区和三区的定义 欧美一二三区通常是用来划分不同市场或文化区域的术语,尤其在商业、媒体以及政治领域中较为常见。所谓的一区,通常指的是欧美国家的核心地区,这

  • 在如今的电影观看环境中,高清电影成为了许多观众的首选,无论是家庭影院,还是便捷的手机屏幕,高清的画质带给我们更震撼的视听体验。随着越来越多的平台提供免费电影资源,“无人区高清电影免费”这一搜索词也受到了不少影迷的关注。今天我们就来聊聊如何在不同的平台找到这些精彩的高清电影资源。 无人区:一部值得推荐的高清电影 《无人区》是一部融合了悬疑、冒险、惊悚等元素的电影,讲述了一群人因为一场事故,被困在了

  • 日本老师与护士之间的某些行为,引起了社会各界的广泛关注。这其中涉及到的69XXX69行为,不仅是一个具体的事件,更是背后文化与教育之谜的体现。本文将深入探讨这一现象,分析其背后的文化背景和教育因素。 一、文化背景的解读 在理解这一现象之前,我们首先需要关注日本的文化背景。日本文化中,对于师生关系的尊重和依赖有着深厚的传统。这种传统在一定程度上影响了师生之间的互动方式,包括某些看似特殊的交流行为。

  • 在现代社会中,个人与个人之间的关系与互动越来越复杂。有些人的生活方式可能与传统的观念有所不同,甚至走向极端。当多个男人之间与某个女性产生关系时,这种行为可能带来复杂的后果与影响。从社会伦理、心理健康到个人生活的方方面面,都会产生深远的变化。本文将探讨三个男人与一个女性之间的互动可能产生的后果,以及这种行为对各方的影响。 心理健康的潜在影响 对于女性来说,经历这种极端的互动可能会带来心理上的困扰。

下载市场推荐 更多+
手游专辑 应用专辑
确定