0次浏览 发布时间:2025-04-24 20:49:00
21世纪经济报道记者 林典驰 深圳报道
今年以来,人形机器人的产业化进展飞速。
从春晚上“福兮”的精彩表演,到首届人形机器人半程马拉松中“天工”的首次冲线,一时间“街头巷尾”都在讨论人形机器人。
要支撑人形机器人与环境感知交互,就离不开具身智能技术的持续突破。尤其是大语言模型(LLM)、视觉语言模型(VLM)以及视觉语言动作端到端模型(VLA)等关键技术的迭代创新,显著提升了机器人在交互感知和泛化能力方面的表现。
然而,具身智能前行之路并非坦途,在数据采集、机器人形态应用以及大小脑融合等方面仍面临诸多挑战。
因此,厂商们正在从不同的领域切入,解决以上痛点。比如,英特尔和东土科技等提出大小脑融合解决方案,采用单一芯片架构替代双系统模式,降低整体成本及软件开发、测试、优化与部署成本。
1950年,艾伦·图灵首次提出“具身智能”时,并未引起轰动,直到在近两年才成为科技圈的热词。
图灵给出的基本假设是,具身智能是通过与环境交互获得知识并泛化应用能力。英伟达创始人兼CEO黄仁勋则进一步诠释,具身智能是能够理解、推理并与物理世界互动的智能系统,预计其将成为人工智能的下一波浪潮。
如今具身智能进化到了哪一阶段?
近日,21世纪经济报道记者在英特尔推介会上了解到,现有的具身智能大模型融合了视-抓-放-移等能力,主要为小范围场景行为复现。而针对旋拧、插拔等力触动作、多指协同,柔性物操作仍相对困难。
当中的泛化能力(指将已学到的运动技能或决策,迁移到新的任务)主要来源于视觉语言模型,而动作轨迹尚缺少泛化性,非常依赖训练数据。这里的训练数据,指的是海量的带有物理世界属性的数据,但是目前行业面临数据匮乏的瓶颈。
跨维智能创始人贾奎谈道,有别于语言、图像等可以从网络上大量获取以形成通用能力的数据,三维数据,尤其是机器人在物理空间中的操作数据,需要经过精确标定,且采集过程中存在难度大、周期长、成本高等问题。
在他看来,基于3D生成式AI的Sim2Real仿真,将成为解决高通用性具身智能数据需求的最高效路径。
华为天才少年“稚晖君”则走了另外一条路径,智元机器人采用的是人力成本最高的“真机数据采集模式”。在上海近4000平方米的数据采集中心,上百名数据采集人员在对机器人进行重复练习,光是一个机器人从桌上把玩具抓起来放进篮子里的动作,便须训练数天,采集和审核上万条信息。在这个数采中心,智元一年能完成亿级数据采集。
也正是有了前期的数据积累,机器人的泛化能力正在被一步步突破。
3月10日,智元机器人发布了全球首个通用具身基座大模型——智元启元大模型(简称:GO-1)。这个集成了ViLLA架构的4D世界模型,能够将包括时间在内的整个物理世界囊括其中,可以实现小样本泛化。据介绍,机器人仅需千条以内的视频数据,即可掌握擦拭、倒水等复杂动作,训练成本骤降。
除了数据的挑战,机器人形态也是探讨的焦点。
过去二十多年,机器人经历了工业自动化、大模型以及端到端大模型三个阶段。英特尔的一位技术专家认为,这三个阶段并不是相互替代的关系,并不是机器人都要实现“端到端”,不同架构面对不同的应用场景和负载需求时有着自身优势和性价比。
在大模型阶段,主要是视觉大模型通过视觉泛化能力提升了机器人对环境的理解能力,并为机器人提供辅助信息,如今各大酒店的送餐机器人便是典型例子。
自去年下半年开始,学术界和产业界开始对端到端模型的研发投入了大量资源。视觉语言模型(VLM)以及视觉语言动作端到端模型(VLA)相继取得迭代创新,提升了机器人交互感知和泛化能力的表现。
所谓端到端大模型,是指融合多模态输入(视觉、语言)与动作输出,减少模块间信息传递的误差累积,提升整体决策效率。如向机器人传递请把桌子上的杯子递给我,机器人便生成对应动作,如抓取和移动,更符合人类“看想动”的连贯行为。搭载端到端大模型后,机器人的能力进一步增强,尤其是加速了人形机器人这一形态的发展。
但是多位业内专家向记者表示,人形机器人不等于具身智能,具身智能不等于人形机器人,但人形机器人仍是具身智能的最大需求者和最大挑战者。
究其原因,人形机器人短期内还很难做到像科幻电影当中描述的无所不能,满足人类对完美机械伙伴的想象。
深圳市人工智能与机器人研究院(AIRS)具身智能中心主任刘少山在接受记者采访时表示,人形机器人很大程度上在重复自动驾驶的叙事。“人形”是长期愿景,过程中会出现一些“中间态”,比如轮式、双臂、单臂等,也能在工业、应急等场景中承担一定的任务。但人类生来不是为了工业场景,人的形态经历了千万年的进化,人体的每一部分构造都是科学的、都有它的作用。目前的“中间态”能够帮助具身智能公司“续命”,通过“中间态”带来一定的营收,再在场景中不断打磨,慢慢还是会走向最终形态,即人形。
“在很多垂直领域,非人形的机器人,是更有机会,成长成为效率工具,可以把成本降得足够低,在一个细分领域,把能力训练得足够好。”影智科技CEO唐沐谈道。
以跨维智能推出的DexVerse具身智能引擎为例,该引擎已经在汽车、家电、工业、物流等30余个行业批量应用,在毫米级精度的抓取/操作任务下,其成功率超过99.9%。同时,跨维智能也正在将产品稳步落地于医疗、商业等更多半结构化及非结构化场景中。
此外,随着具身智能技术的发展,工程师们还发现大小脑通讯和协作延迟等问题,需要产业界共同提出解决方案。
一般而言,一台通用人形机器人本体分为大脑、小脑和肢体三部分,分别对应决策交互模块、运动控制模块和执行模块。大小脑由于互相独立,甚至所用的芯片和系统架构都是不一样的,这便导致大小脑在通讯和协作出现系统级别的延迟。
浙江人形机器人创新中心首席科学家熊蓉谈道,大小脑从硬件上分开,使得多种传感器很难融合。现在小脑不纯粹是执行控制,而是希望它具备视觉伺服等功能,能够对作业对象形成控制。如果大小脑分开,一些传感器基于大脑控制,它往小脑传输就会出现信息负荷过大,也会带来延时的问题。
因此,大小脑融合不失为解决办法之一,如英特尔和东土科技均提出了大小脑融合的解决方案。
大小脑融合指的是采用单一芯片架构来替代现有产品中常见的双系统模式,大小脑融合方案的系统在整体成本上无疑具有显著优势。“更有意义的地方是在于单系统会使软件研发、测试、优化与部署的整个开发成本显著降低。”英特尔技术专家谈到。
不过,实现大小脑融合并非易事,当中还有诸多难点需要克服。上述技术专家称,小脑主要负责实时运动控制及实时优化软件的运行,其计算需求聚焦于高反应速度、高性能及严格的执行时间确定性。
例如,在任务执行过程中,不仅要求系统能快速完成程序运算并及时反馈,更需确保工作周期在99%的时间内,所有任务能在1毫秒内完成。一旦系统出现峰值负载,若某个控制周期执行时间延长至10毫秒,将直接导致机器人运动过程中出现抖动、动作不流畅,甚至发生跌倒等状况,这是小脑控制层面的核心难题。
而大脑的工作负载主要围绕环境感知与决策规划展开。它需要接收来自摄像头、激光雷达及其他各类传感器的数据,通过传统计算机视觉算法以及当下热门的大语言模型、视觉控制大模型等进行信息处理,进而生成机器人运动规划与决策指令,并转化为机械臂实际运动所需的动作训练数据。
在此过程中,系统面临的主要挑战在于计算负载的动态变化:在常规状态下,计算需求可能较低,但当机器人机身移动或周围环境发生剧烈变化时,峰值计算负载会急剧上升。这对计算平台的性能提出了严苛考验,包括独立显卡、集成显卡及 NPU等AI计算单元的运算能力是否足以支撑,以及在集成显卡(iGPU)上运行相关算法时能否保障性能。
这也是为何在如今技术不成熟的前提下,主流的解决方案是将大脑与小脑分离为两个独立系统的原因所在。
也有厂商尽管未明确提及大小脑融合,但也给出了相似的解决方案。例如,4月,智平方在深圳正式发布新一代通用智能机器人AlphaBot 2。该机器人在软件层面,AI2R Brain升级为Alpha Brain,并搭载全域全身VLA系统,使机器人的认知决策与运动控制实现深度协同,大幅提升全场景交互能力。
值得一提的是,人形机器人和具身智能均在产业化的初期阶段。各家厂商由于自身技术背景不同,有的偏向于场景化落地,研发方向聚焦大脑。也有厂商聚焦高精度运动控制的小脑,将抽象指令转化为精准、流畅的肢体动作,确保机器人在复杂环境中的稳定运行。但市场需求终究会倒逼两种技术路线相互融合,机器人不仅能在特定场景中完成任务,还要求具备灵活的动作技巧和智能交互能力。
更多内容请下载21财经APP