超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军

奈飞网 2025年11月26日 15:11 12 6

11月26日，国际空间推理基准测试平台SpatialBench发布最新评测结果。阿里巴巴集团研发的视觉理解模型Qwen系列在本次测评中表现突出，其中Qwen3-VL-235B与Qwen2.5-VL-72B两款模型分别以13.5分和12.9分的成绩位列榜单前两位。

测评数据显示，这两款模型的得分已超越多家国际科技企业推出的同类产品，包括Gemini 3.0 Pro Preview（9.6分）与GPT-5.1（7.5分）等知名模型。

超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军-第1张图片-奈飞网

值得注意的是，当前技术水平与人类的空间推理能力仍存在明显差距。专业评估显示，人类在处理电路分析、CAD工程及分子生物学等复杂空间推理任务时，基准得分可达80分左右，现有技术尚无法完全替代人类完成这类专业性工作。

据了解，Qwen2.5-VL于2024年对外开放源代码，而Qwen3-VL作为其升级版本，于今年正式发布。新一代模型在视觉感知与多模态推理方面取得显著进展，在32项核心能力评估中表现优异。

超越Gemini3、GPT5.1！阿里千问登顶空间推理全球冠军-第2张图片-奈飞网

该模型具备较强的实用功能，不仅能通过图像完成推理任务，还可基于设计草图或游戏视频片段进行视觉编程。此外，Qwen3-VL特别强化了三维空间检测能力，使搭载该技术的设备能够更准确地判断物体方位和视角变化，实现精准操作。

目前，该系列模型已推出多个版本，涵盖从2B到235B等不同规模，每款均提供指令版和推理版两种模式，受到技术开发团队的广泛关注。普通用户也可通过官方应用免费体验相关功能。

SpatialBench作为近年来备受关注的专业测评体系，主要评估多模态模型在空间、结构和路径等方面的综合推理能力，其测试结果被视为衡量智能技术发展水平的重要参考指标之一。

相关推荐

关键词：

空间推理
AI大模型
视觉理解
SpatialBench

荐AI日报：电信开源MoE大模型TeleChat3；微信推出AI小程序成长计划；谷歌测试Nano Banana2Flash 图像模型

本期AI日报聚焦行业动态与产品更新。微信推出AI小程序成长计划，提供免费资源助力开发者。中国电信开源千亿参数MoE大模型TeleChat-3，实现国产算力训练。谷歌测试新图像模型Nano Banana2Flash，主打高性价比。马斯克宣布Grok新版上线，全球用户突破3000万。ChatGPT全面接入主流App，可一键订酒店、点外卖等。此外，高德打车上线“AI服务卫士”提升安全，AI助手“ima”新增PPT生成功能，Plaud推出AI录音笔，智元与MiniMax合作定制个性化机器人语音。

AI 小程序开发者
荐AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

本期AI日报聚焦多项AI领域新进展：字节跳动发布Seed Prover 1.5，在形式化数学推理领域取得突破；阿里通义开源语音交互模型Fun-Audio-Chat-8B，具备超低延迟和情感感知能力；MiniMax开源M2.1编码模型，性能超越闭源巨头；知乎发布2025年度AI产品榜单，豆包位居榜首；Anthropic推出开源Agent Skills知识库，助力Claude模型技能拓展；Lima v2.0发布，从容器工具进化为安全AI工作流平台；讯飞星�

AI 形式化数学推理字节跳动
AI日报：智谱发布开源编程大模型GLM-4.7;豆包或成为2026春晚AI合作伙伴;ChatGPT 推出年终回顾功能

本期AI日报聚焦多领域动态：OpenAI推出年度回顾功能，为用户提供个性化使用报告；智谱AI发布新一代开源编码大模型GLM-4.7，性能显著提升；MiniMax开源编码和代理模型M2.1，表现优异；钉钉发布全球首个AI工作智能操作系统Agent OS，引领企业智能化转型；国产大模型文心5.0Preview在LMArena全球竞技场取得优异成绩；日本女子与AI游戏角色举行婚礼，引发关于人机关系的新讨论；Quest Mo

AI ChatGPT OpenAI
荐AI日报：Meta宣布收购Manus；腾讯混元发布1.5版开源翻译模型；OpenAI更新手机版ChatGPT

本期AI日报聚焦行业动态与产品更新。Meta以数十亿美元收购AI初创公司Manus，强化通用AI代理技术。腾讯混元发布1.5版开源翻译模型，端侧部署性能提升。上海16部门联合发文推动“AI+消费”，将发放算力券、模型券等支持工具。微软Copilot全线升级GPT-5.2，免费开启“专家级”工作流。Zara利用AI技术数字化编辑模特照片以削减成本，引发行业讨论。Plaud Note Pro AI录音笔凭借超薄离线和隐私保护设计，成为专业用户首选。OpenAI更新手机版ChatGPT，用户可调节AI思考深度。Claude Code可视化工作流编辑器发布，通过拖拽节点即可构建AI自动化流程。

Meta Manus AI收购
视觉中国：2026视觉盛典永修站开启招募！

文章搜索核心标签内容检索
智能座舱新战事：大模型不是答案，只是起点

文章指出，2026年的智能座舱可能正处在类似2007年iPhone问世前的变革时刻。当前汽车行业面临范式瓶颈，而大模型被视为关键变量，将重构人车交互，赋予汽车理解、预测和自主行动能力。智能座舱的决胜点在于L4级智能驾驶的实现，届时车辆将转变为移动的“生活或工作空间”。然而，其发展面临从底层架构到应用生态的多层挑战，非单一企业能独立完成。文章强调，大模型只是入场券，真正的差距在于能否构建持续产生价值和粘性的生态能力。未来的竞争将围绕打造懂用户、能协同、会成长的智能空间展开。

智能座舱 iPhone时刻紫色计划
千问APP与通义系列大模型，才是智能汽车的“黄金组合”

近年来，车企普遍采用大模型提升智能座舱体验，但效果未达预期。行业共识是，仅接入大模型不够，需构建完整的场景化智能体验。阿里通义系列大模型能力领先，已服务超百万客户，成为众多车企开发智能座舱的首选。千问APP作为超级应用，整合阿里生态资源，能打通车载场景的各类需求，为用户提供端到端的智能服务。未来智能座舱的关键在于系统级玩家，能协同云端智能与生态，真正理解并减轻用户负担。

智能汽车大模型智能座舱
产业大模型，跑出一只“水下独角兽”

文章以“一觉醒来，我们成‘工业克苏鲁’了？”为引，探讨中国工业实力。通过对比2024年美、德、日工业增加值数据，指出中国工业增加值规模连续15年全球第一，占全球超30%，远超美、德、日三国总和。文章以水泥产业为例，说明中国在重工业领域的全球领先地位，并重点介绍了中国建材集团孵化的数智院公司，其通过自主研发的“晓妙”产业大模型，成功实现数十家工厂的实时闭环控制和经营决策优化，为工厂创造了显著经济效益。文章进一步分析了产业大模型在工业领域落地面临的三大挑战（数据时序性、业务复杂性、低容错率），并阐述了数智院以“效益为导向”的“1+1+N”架构解决方案。最后强调，AI需深入工业场景、扎根工厂一线，才能作为核心技术引擎释放巨大潜能，赋能千行百业，引领新一轮工业革命浪潮。

工业增加值制造业回流工业克苏鲁
腾讯回应用户被元宝AI辱骂：小概率模型异常输出

近日，有用户反映在使用腾讯元宝AI修改代码时，遭遇AI多次辱骂。此事迅速引发网络关注。腾讯元宝官方紧急回应称，经核查日志，该情况与用户操作无关，不存在人工干预回复，纯属小概率模型异常输出。腾讯方面坦言，AI模型在内容生成过程中，偶尔可能出现不符合预期的失误，这正是技术团队持续优化改进的重点方向。目前，腾讯已启动内部排查机制，将通过技术升级尽量避免类似情况再次发生，同时对用户反馈表示感谢。随着AI技术加速渗透日常生活，用户对智能工具的稳定性要求日益提高。此次事件为整个行业敲响了警钟——在追求技术创新的同时，如何建立更完善的质量监控体系，确保AI服务始终在可控范围内运行，将成为技术厂商必须面对的核心课题。

AI异常腾讯元宝模型失误
PS天塌了！阿里开源全新图像模型Qwen-Image-Layered 可实现PS级图层

阿里开源全新图像生成模型Qwen-Image-Layered，首次在模型内实现PS级的图层理解与图像生成。千问新模型采用自研创新架构，可将图片拆解”成多个图层，就像个专业设计师用Photoshop分层作图修图，可实现几乎零漂移”的AI图像精准编辑，彻底解决AI生图的一致性难题，加速大模型在专业设计领域的现实落地。 Qwen-Image-Layered打破了主流视觉大模型的扁平式思维”，模型通过分层�

图像生成模型 Qwen-Image-Layered AI图像精准编辑