三年前,人形机器人还处于阳春白雪的科研阶段,这两年发展迅猛。那么,人形机器人当前面临的问题是什么?突破的方向在哪里?未来的应用在哪里?前不久,在上海2025人形机器人产业高质量发展论坛上,地方共建人形机器人创新中心(简称“国地中心”)席科学家江磊介绍了他的看法,并提出与产业链共同打造出四位一体生态的观点。
人形机器人在各大证券市场已经有了概念股,从2024年1月开始,还是平平淡淡的发展,为什么到了8月,整个二J市场被急速拉动?
先,一定是人形机器人行业找到了一个技术突破、可发力的对象。
第二,政策方面,今年一开年,要设立相应的重大项目,原因可能是我们想缓解劳动力缺口,以及应对未来人口老龄化的挑战。
第三,从产品端看,人形机器人迎来了GPT时刻。此时尤其令我们自豪的是,在这个高科技领域的起步阶段,我国登上了世界舞台,已有一些有代表性的企业和样机。
第四,从行业角度看,千行百业都在关注。据统计,现在已有100家左右的整机公司,预计到今年年底会有200多家,还有数千家的核心零部件厂家,这构成了一个大生态。汽车行业、手机行业、制造行业、互联网、国央企都在投入。一个共性原因是:在一个行业处于发展的高峰期或瓶颈期,内卷就开始出现,因此这五大行业、企业都找到了发力点:人形机器人,认为是破解行业规律性周期性难题的一个主要动因。国外也是如此,今年年初,苹果、三星、现代等开始设立人形机器人的硬件团队。今年阿里也在张江模力社区(注:“国地中心”搭建)设立了智能机器人的硬件团队。
在此,“通用化”会成为一个经济活动的名词。过去人们会把通用化做成技术,所以业界一直在争论:是做专用机器人,还是做通用机器人?其实这种争论没有什么意义,因为技术都是为场景服务的。所谓的场景驱动就是有没有市场,厂家的产品能不能找到市场、销售出去。所以“通用化”更重要的是在一个新兴市场,单品能否过10万台的门槛。今年人形机器人单品可能会过1万台的门槛,但更期待未来是百万台、百亿台的产业规模。目前10万台将是一个重要的门槛。另一个角度,如果做一个产品,单品要10万台,它可用在哪些场景呢?这值得我们去深入思考,再从“通用化”来考虑产品定义和设计如何去做。
有一个高价值飞轮的理论。三年前,人形机器人是个万亿元的潜在赛道,因此发布了政策来加速促进人形机器人的发展,使其对于公众来说不再陌生,不经意间,在电视节目或某个商场的转角就能看到人形机器人,它正在形成一个巨大的产品市场。因此,今年是完成高价值飞轮的重要一年。那么能否实现规模和量产?高价值飞轮的核心驱动力还是来自于颠覆性的技术。
为什么2024年8月人形机器人的二J市场会被急速拉升?因为颠覆性技术起到了决定性的作用。
工信部提出了两大革命:“机器人+革命”与“人工智能+革命”,它们对应的都是新质生产力。“机器人+”是新质硬件生产力,“人工智能+”是新质软件生产力。可见,新质生产力是软硬一体化的典型代表。在这样的一个产业、技术、行业、规模、政策里,其中的线索一定是技术驱动了这次技术革命。
先,其背后的逻辑,以π0团队为代表,去年8月Physical Intelligence次发布了通用人形机器人的视觉-语言-动作模型(VLA)。现在VLA已经成为一个事实标准。如果回到去年8月之前,相信90%的专家会认为机器人的操作还不属于预训练(注:语言/ChatGPT是大模型,是预训练),我们双手的操作不是预训练,但是,从8月开始,π0团队发现它也是一个大规模预训练架构。大算力大模型也是大力出奇迹的一个行业,并被证明这种方式是可以的。
实际上,不仅π0发现,国内外同时十二个团队用10万的数据集、30万的数据集、现在用80万的数据集激励了以后,整个任务达成率也是直线上升。
我们坚信规模法则与后训练将会促进这一次人形机器人Z终的一个闭环。
当然还有一部分—智驾,例如,特斯拉的FSD V12帮助印证,现在也转向VLA。而之前做汽车的人是做端侧,发现VLA也很好用。
人们如果了解VLA的诞生,其完全不是为汽车设计的,是为谷歌的一款类人形机器人的构型设计,结果没想到VLA也撑起了智驾的半边天。
当然,还是要回到人形机器人,仅有VLA够不够?
去年Figure联合OpenAI造出了Figure 01,可以看到大模型是在人形机器人的Z上层,是采用大脑、小脑+肢体的分层类人架构来实现的。去年我国在“世界人工智能大会(WAIC)”上也推出了我国自己的大脑、小脑、驱动架构,今年正进一步完善。
人形机器人有没有一个通用的完全端到端的大模型?现在VLA解决了上层的,下层有一个控制模型是属于分层架构,但能不能用一个分层实现完全端到端?有一篇论文支持了这样的观点。因此,三年前,语言进入了大模型(例如ChatGPT),去年双手操作进入大模型(例如VLA),现在的问题是:下肢行走以及全身运动是不是一个大模型?坚信将来会有一个大模型,能够让人形机器人、四足机器人以及汽车来实现统一的驾驶。
人形机器人行业目前有四类:
汽车智驾的具身模型;
机器人上肢操作/VLA;
人形分层策略;
芯片/GPU。
整个具身智能产业正在爆发,所有路径都需要大数据,所以在去年“国地中心”组建了训练场来推动这件事。
“国地中心”的麒麟具身智能训练场有五项功能,除了收集数据,训练场的另外一个作用是对现在的大模型进行检测与评定,提出大模型的benchmark,例如,做一个什么样的大模型更适合人形机器人?现在需要一个行业的基准线。
目前人形机器人在跑得快、拿得准、训得好、通用化方面都有代表性公司。Z近业界在争论:是不是机器人都需要走跑跳?是不是应该进厂打工?实际上,目前有四类人在研究,跑得快的人不做抓取,做抓取的不做跑得快,做训练的人大多数都是人工智能的人,做“通用化”的人是做基础设施的。高动态的硬件平台、准确抓取的具身智能、训练的实训场、通用泛化的数据集—这四件事,哪怕有一件事做不好,人形机器人的软硬件的终极难题就落不了地,所以我们需要要发展生态。
回到发展的起点:人形机器人未来一定是进厂打工以及为我们养老。例如养老,还有八
项卡脖子技术没有打通。人们面对未来的通用化,一定不是针对八个问题建立八个模型,甚至建立几百个模型来解决,人们希望构造一个完全端到端的模型,来同时解决八项卡脖子技术,这样才能实现Z终通用化的梦想。
江磊老师有个激进的预测:做硬件平台的得去做小的机器人,这样迭代的速度更快。做具身智能现在很火,但是千万不要只做操作,行走大模型已成为今年国际竞争的热点。“国地中心”等做实训场的人一定要去做自己的世界模型,以及做数据集的人要用开源的方式来完成整个生态的构建。
人形机器人从当前的角度来看,四位一体的生态还没有完全建立。“国地中心”希望跟业界共同打造出我国的四位一体生态。
今年人形机器人是可以量产的,但真正的大规模的应用还没到来。我们加速建立四位一体的生态,才能加速人形机器人产业的到来。
![]() |
机器人底盘 Disinfection Robot 消毒机器人 讲解机器人 迎宾机器人 移动机器人底盘 商用机器人 智能垃圾站 智能服务机器人 大屏机器人 雾化消毒机器人 展厅机器人 服务机器人底盘 核酸采样机器人 智能配送机器人 导览机器人 |