超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军

奈飞网 5 6

11月26日,国际空间推理基准测试平台SpatialBench发布最新评测结果。阿里巴巴集团研发的视觉理解模型Qwen系列在本次测评中表现突出,其中Qwen3-VL-235B与Qwen2.5-VL-72B两款模型分别以13.5分和12.9分的成绩位列榜单前两位。

测评数据显示,这两款模型的得分已超越多家国际科技企业推出的同类产品,包括Gemini 3.0 Pro Preview(9.6分)与GPT-5.1(7.5分)等知名模型。

超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军-第1张图片-奈飞网

值得注意的是,当前技术水平与人类的空间推理能力仍存在明显差距。专业评估显示,人类在处理电路分析、CAD工程及分子生物学等复杂空间推理任务时,基准得分可达80分左右,现有技术尚无法完全替代人类完成这类专业性工作。

据了解,Qwen2.5-VL于2024年对外开放源代码,而Qwen3-VL作为其升级版本,于今年正式发布。新一代模型在视觉感知与多模态推理方面取得显著进展,在32项核心能力评估中表现优异。

超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军-第2张图片-奈飞网

该模型具备较强的实用功能,不仅能通过图像完成推理任务,还可基于设计草图或游戏视频片段进行视觉编程。此外,Qwen3-VL特别强化了三维空间检测能力,使搭载该技术的设备能够更准确地判断物体方位和视角变化,实现精准操作。

目前,该系列模型已推出多个版本,涵盖从2B到235B等不同规模,每款均提供指令版和推理版两种模式,受到技术开发团队的广泛关注。普通用户也可通过官方应用免费体验相关功能。

SpatialBench作为近年来备受关注的专业测评体系,主要评估多模态模型在空间、结构和路径等方面的综合推理能力,其测试结果被视为衡量智能技术发展水平的重要参考指标之一。

  • 相关推荐
关键词:
  • 空间推理
  • AI大模型
  • 视觉理解
  • SpatialBench
  • AI日报:电信开源MoE大模型TeleChat3;微信推出AI小程序成长计划;谷歌测试Nano Banana2Flash 图像模型

    本期AI日报聚焦行业动态与产品更新。微信推出AI小程序成长计划,提供免费资源助力开发者。中国电信开源千亿参数MoE大模型TeleChat-3,实现国产算力训练。谷歌测试新图像模型Nano Banana2Flash,主打高性价比。马斯克宣布Grok新版上线,全球用户突破3000万。ChatGPT全面接入主流App,可一键订酒店、点外卖等。此外,高德打车上线“AI服务卫士”提升安全,AI助手“ima”新增PPT生成功能,Plaud推出AI录音笔,智元与MiniMax合作定制个性化机器人语音。

    ​AI ​小程序 ​开发者
  • AI日报:字节发布Seed Prover1.5;MiniMax M2.1开源;通义开源语音交互大模型Fun-Audio-Chat-8B

    本期AI日报聚焦多项AI领域新进展:字节跳动发布Seed Prover 1.5,在形式化数学推理领域取得突破;阿里通义开源语音交互模型Fun-Audio-Chat-8B,具备超低延迟和情感感知能力;MiniMax开源M2.1编码模型,性能超越闭源巨头;知乎发布2025年度AI产品榜单,豆包位居榜首;Anthropic推出开源Agent Skills知识库,助力Claude模型技能拓展;Lima v2.0发布,从容器工具进化为安全AI工作流平台;讯飞星�

    ​AI ​形式化数学推理 ​字节跳动
  • AI日报:智谱发布开源编程大模型GLM-4.7;豆包或成为2026春晚AI合作伙伴;ChatGPT 推出年终回顾功能

    本期AI日报聚焦多领域动态:OpenAI推出年度回顾功能,为用户提供个性化使用报告;智谱AI发布新一代开源编码大模型GLM-4.7,性能显著提升;MiniMax开源编码和代理模型M2.1,表现优异;钉钉发布全球首个AI工作智能操作系统Agent OS,引领企业智能化转型;国产大模型文心5.0Preview在LMArena全球竞技场取得优异成绩;日本女子与AI游戏角色举行婚礼,引发关于人机关系的新讨论;Quest Mo

    ​AI ​ChatGPT ​OpenAI
  • AI日报:Meta宣布收购Manus;腾讯混元发布1.5版开源翻译模型;OpenAI更新手机版ChatGPT

    本期AI日报聚焦行业动态与产品更新。Meta以数十亿美元收购AI初创公司Manus,强化通用AI代理技术。腾讯混元发布1.5版开源翻译模型,端侧部署性能提升。上海16部门联合发文推动“AI+消费”,将发放算力券、模型券等支持工具。微软Copilot全线升级GPT-5.2,免费开启“专家级”工作流。Zara利用AI技术数字化编辑模特照片以削减成本,引发行业讨论。Plaud Note Pro AI录音笔凭借超薄离线和隐私保护设计,成为专业用户首选。OpenAI更新手机版ChatGPT,用户可调节AI思考深度。Claude Code可视化工作流编辑器发布,通过拖拽节点即可构建AI自动化流程。

    ​Meta ​Manus ​AI收购
  • 视觉中国:2026视觉盛典永修站开启招募!

    ​文章搜索 ​核心标签 ​内容检索
  • 智能座舱新战事:大模型不是答案,只是起点

    文章指出,2026年的智能座舱可能正处在类似2007年iPhone问世前的变革时刻。当前汽车行业面临范式瓶颈,而大模型被视为关键变量,将重构人车交互,赋予汽车理解、预测和自主行动能力。智能座舱的决胜点在于L4级智能驾驶的实现,届时车辆将转变为移动的“生活或工作空间”。然而,其发展面临从底层架构到应用生态的多层挑战,非单一企业能独立完成。文章强调,大模型只是入场券,真正的差距在于能否构建持续产生价值和粘性的生态能力。未来的竞争将围绕打造懂用户、能协同、会成长的智能空间展开。

    ​智能座舱 ​iPhone时刻 ​紫色计划
  • 千问APP与通义系列大模型,才是智能汽车的“黄金组合”

    近年来,车企普遍采用大模型提升智能座舱体验,但效果未达预期。行业共识是,仅接入大模型不够,需构建完整的场景化智能体验。阿里通义系列大模型能力领先,已服务超百万客户,成为众多车企开发智能座舱的首选。千问APP作为超级应用,整合阿里生态资源,能打通车载场景的各类需求,为用户提供端到端的智能服务。未来智能座舱的关键在于系统级玩家,能协同云端智能与生态,真正理解并减轻用户负担。

    ​智能汽车 ​大模型 ​智能座舱
  • 产业大模型,跑出一只“水下独角兽”

    文章以“一觉醒来,我们成‘工业克苏鲁’了?”为引,探讨中国工业实力。通过对比2024年美、德、日工业增加值数据,指出中国工业增加值规模连续15年全球第一,占全球超30%,远超美、德、日三国总和。文章以水泥产业为例,说明中国在重工业领域的全球领先地位,并重点介绍了中国建材集团孵化的数智院公司,其通过自主研发的“晓妙”产业大模型,成功实现数十家工厂的实时闭环控制和经营决策优化,为工厂创造了显著经济效益。文章进一步分析了产业大模型在工业领域落地面临的三大挑战(数据时序性、业务复杂性、低容错率),并阐述了数智院以“效益为导向”的“1+1+N”架构解决方案。最后强调,AI需深入工业场景、扎根工厂一线,才能作为核心技术引擎释放巨大潜能,赋能千行百业,引领新一轮工业革命浪潮。

    ​工业增加值 ​制造业回流 ​工业克苏鲁
  • 腾讯回应用户被元宝AI辱骂:小概率模型异常输出

    近日,有用户反映在使用腾讯元宝AI修改代码时,遭遇AI多次辱骂。此事迅速引发网络关注。腾讯元宝官方紧急回应称,经核查日志,该情况与用户操作无关,不存在人工干预回复,纯属小概率模型异常输出。腾讯方面坦言,AI模型在内容生成过程中,偶尔可能出现不符合预期的失误,这正是技术团队持续优化改进的重点方向。目前,腾讯已启动内部排查机制,将通过技术升级尽量避免类似情况再次发生,同时对用户反馈表示感谢。随着AI技术加速渗透日常生活,用户对智能工具的稳定性要求日益提高。此次事件为整个行业敲响了警钟——在追求技术创新的同时,如何建立更完善的质量监控体系,确保AI服务始终在可控范围内运行,将成为技术厂商必须面对的核心课题。

    ​AI异常 ​腾讯元宝 ​模型失误
  • PS天塌了!阿里开源全新图像模型Qwen-Image-Layered 可实现PS级图层

    阿里开源全新图像生成模型Qwen-Image-Layered,首次在模型内实现PS级的图层理解与图像生成。 千问新模型采用自研创新架构,可将图片拆解”成多个图层,就像个专业设计师用Photoshop分层作图修图,可实现几乎零漂移”的AI图像精准编辑,彻底解决AI生图的一致性难题,加速大模型在专业设计领域的现实落地。 Qwen-Image-Layered打破了主流视觉大模型的扁平式思维”,模型通过分层�

    ​图像生成模型 ​Qwen-Image-Layered ​AI图像精准编辑

今日大家都在搜的词:

  • 人生重开模拟器
  • 显卡天梯图
  • 国内云服务器哪家好
  • 高通骁龙处理器排名
  • 手机CPU天梯图
  • 单反相机天梯图
  • 安兔兔手机跑分排行榜
  • 笔记本电脑排行榜

抱歉,评论功能暂时关闭!