0次浏览 发布时间:2025-04-09 14:19:00
8日晚间,上海大模型独角兽企业阶跃星辰发布多模态推理模型Step-R1-V-Mini,这款模型支持图文输入和文字输出,能够高精度感知图像并完成复杂推理任务。
记者发现,DeepSeek-R1为代表的推理模型,大多都是大语言模型,主要用于文本对话领域。而Step-R1-V-Mini可在多模态基础上实现推理能力,相当于大模型不仅能进行文字思考,还能对“看懂”图片再进行思考。目前,用户已经可以在阶跃AI网页端体验,该大模型还面向开发者推出API接口。
据阶跃星辰介绍,Step-R1-V-Mini具有超强的感知能力和推理能力,能精准捕捉画面中的各种细节,并基于用户指令进行深度推理,用户也可以清晰地看到Step-R1-V-Mini的思维链路。比如上传一张家常菜照片并询问菜品做法,模型可以清晰地识别出加工前使用的菜品、蘸料,并给出“虾仁300g、大葱白2根”等细节丰富的操作方式。
阶跃星辰新模型的测试结果。
Step-R1-V-Mini的模型性能在多个公开基准评测榜单中表现亮眼,在MathVision等视觉推理榜单中位列国内第一,在视觉推理、数学逻辑和代码等方面表现优异。
阶跃星辰创始人、CEO姜大昕表示,多模态和推理是“智能体”两大必备要素,今年将重点发力智能终端,新发布的Step-R1-V-Mini则是今年战略主线的最新进展。
原标题:《上海“独角兽”发布多模态推理模型,又拿下“国内第一”》
栏目主编:李晔 题图来源:上观题图
来源:作者:解放日报 查睿