太平洋科技要闻

人形机器人：通用之战和未解之题

钛媒体整合编辑：龚震发布于：2024-05-02 00:15

不论你接受与否，人工智能技术已经开始对于现实世界的重重改造。

消费电子领域，手机和电脑厂商们正在将不同种类的AI大模型，植入到各种终端产品中。这些公司普遍认为，AI能极大程度地改善困于创新瓶颈中的行业现状，重新激发用户的购买需求。汽车行业，特斯拉4月初向全美国的170万车主推送了FSD（完全自动驾驶）正式版本，端到端的神经网络AI系统让驾驶决策更像人类司机，比如连续跨越4车道转向。更为重要的是，目前为止特斯拉FSD还没有被曝出发生任何重大事故。

AI的下一站会在哪？习惯于捕捉趋势的风险投资人，开始在人形机器人行业集结共识。

在中国的一级市场，2023年10月，人形机器人初创公司逐际动力完成近2亿元的天使和Pre-A轮融资；同年12月，成立不到一年的智元机器人拿到6亿元的融资资金；2024年1月，成立不足半年的星动纪元宣布完成过亿元天使轮融资；2024年2月，宇树科技完成B2轮融资，金额达到10亿元。

“中国机器人行业的发展经历了好几轮起伏。2013-2014年，工业机器人的投资开始起步；2016-2017年，协作式机器人领域又掀起了一轮投资热潮。从2022年开始，通用人形机器人成为了行业关注的焦点。”

峰瑞资本副总裁颜黔杭对钛媒体APP表示，中国国产工业机器人的市场渗透率已经达到了1/3左右，整个机器人行业正在逐步成熟。而 AI 大模型产生的质变，让大家意识到机器人的智能化程度会越来越高，并逐步通用化。

至于通用人形机器人何时能够真正走上产线、走进家门，行业内的创业公司则有着不同的判断。逐际动力方面认为，通用人形机器人要代替产线上人类的精细操作，还需要5-8年；真正走向家用市场，则需要8到10年。宇树科技的创始人王兴兴则对钛媒体APP表示，“2025年底前，更加通用化的人形机器人会出现，我感觉已经看到了方向。”

马斯克，一呼百应

是什么点燃了人形机器人的“这把火”？几乎所有的受访者都给出了一致的答案，那就是特斯拉的创始人——埃隆·马斯克。

2022年2月，特斯拉完成了Optimus开发平台制造；7个月后的特斯拉人工智能日2.0上，马斯克带着Optimus平台研发的擎天柱机器人原型亮相，该款机器人已能够独立行走和搬运物品。2023年年底，第二代Optimus正式亮相，重量减轻10千克、行走速度提高30%，并拥有更灵巧的手和自由度更高的脖子。

马斯克入局之后，人形机器人的创业潮被彻底引爆。

特斯拉人形机器人 Optimus

2023年以来，包括宇树H1、智元远征A1、傅利叶GR—1、星动纪元“小星”、逐际动力CL—1、小鹏PX5在内的一批国内人形机器人产品被推出。二级市场，被称为国内“人形机器人第一股”的优必选，盘中股价一度上涨超过88%，尽管这家公司目前的主要收入来源并非人形机器人产品。

海外市场，2023年5月，挪威人形机器人初创公司1X宣布完成由OpenAI领投的2350万美元A2轮融资。几乎同时，美国人形机器人公司Figure拿到了7000万美元A轮融资。2024年1月，1X再次完成1亿美元B轮融资，投资方包括EQT Ventures和三星NEXT等。一个月之后，Figure宣布完成6.75亿美元B轮融资，投资方包括微软、OpenAI、英伟达等。

“2022年，OpenAI还没有发布ChatGPT，但马斯克可能先于行业看到了GPT的能力。”

王兴兴对钛媒体APP表示，马斯克之前不论是在汽车行业还是商业航天领域，都证明了他的成功。因此，当马斯克开始做人形机器人之后，政府、市场、资本机构都认为必须加快入场，不能等特斯拉真正做出来了大家再去追。当然，人形机器人受到关注的更本质原因是，AI大模型的出现。

据王兴兴介绍，此前宇树科技并未有涉足人形机器人赛道的想法，因为人形机器人太复杂，用传统算法根本没办法驾驭这种复杂机器。但是，目前AI技术的发展已经远超其预期。比如，以前一到两年才能让人形机器人学会走路，现在利用AI算法训练一个月就可以实现。

“传统人形机器人的训练算法，相当于是靠一些聪明的人类大脑去写一些数学方程式，然后去求解这个方程，制定机器人的运动轨迹。但这些方程式有很大的局限性，一旦环境出现变化，可能就没法用了，需要重新设计新的方程式。”

王兴兴进一步解释称，这样的训练方式会导致代码量非常大，而且当系统复杂到一定程度，单纯靠人力是无法维护这个系统的。但是对于AI来说，只要模型搭建得足够好，然后不断给AI投喂数据和算力，AI就可以不断地试错。利用强化学习算法中的奖励机制，AI就能自动把好的训练结果留下来，坏的扔掉，训练效率得到质的提升。

靠着AI带来的效率提升，宇树科技仅花了半年的时间，就推出了旗下的第一款人形机器人产品。在2024年GTC大会“压轴”环节，英伟达CEO黄仁勋与九个人形机器人一起登场。其中，左起第二个人形机器人就是是宇树科技旗下的Unitree H1。

图片来源：英伟达官网

需要注意的是，人形机器人的这波热潮，甚至倒逼了该领域的鼻祖——波士顿动力，做出改变。

波士顿动力是一家美国的工程与机器人设计公司，成立于1992年。2013年，波士顿动力在美国国防部竞赛中公布了人形机器人Atlas 。

多次迭代之后，Atlas可以实现完成各种复杂动作，比如快速奔跑、360 度旋转跳跃、翻越障碍物等。运动控制方面，Atlas采用的正是“大量方程式求解”的传统算法，并由液压装置提供动力。

“Atlas之前披露过的成本是200万美元左右一台。而目前市面上在售的人形机器人，宇树科技的产品售价约为60万元，傅利叶则为100万元左右。”星动纪元联合创始人席悦对钛媒体APP表示，这就是波士顿动力和新一代人形机器人在成本上的巨大差距。

2024年4月16日，波士顿动力宣布液压版Atlas正式“退役”。之后，波士顿动力推出了新款全电动Atlas，和目前所有的人形机器人产品一样，利用电池提供动力来源。接下来的控制算法，波士顿动力大概率也会引用效率更高的AI模型。

三大未解之题：大脑、小脑和本体

“人形机器人现在的热度，相当于是一个小火苗，才刚刚开始燃烧起来。如果AI和硬件每年都持续迭代，这个行业对于现实世界的颠覆将会非常强。”

王兴兴表示，到明年年底前，全球至少有一家公司可以把比较通用的机器人大模型开发出来。这个基础大模型就像是一个完整的积木，大语言模型只是其中一块，其他组成部分还包括视觉感知、力觉感知、决策和交互等。

不过，这样的判断在人形机器人行业中还未达成共识。更主流的观点认为，人形机器人想要实现更大程度的通用化，需要在大脑、小脑和本体上同时取得突破，这在短时间内几乎是无法完成的。

所谓大脑，指的是机器人的理解能力，也就是机器人对于人类指令的理解以及环境感知。小脑，是指机器人的精细化运动控制能力；本体，则是构成人形机器人原型的各类零部件，比如关节、四肢、头等。

“大模型的出现，主要提升了机器人的大脑能力。”峰瑞资本执行董事刘鹏琦对钛媒体APP表示。

颜黔杭则对钛媒体APP称，但就像“缸中之脑”一样，现在大模型只是一个向外输入和输出语言类或者多模态信息的大脑，独立于机器或本体存在。未来大模型到底应该接入什么样的身体，才能完全发挥通用化功能？目前，不管是投资人还是创业者，大家都在探索的一个过程中。

而在小脑方面，目前的人形机器人已经在直立行走方面取得了长足的进展，不论是平地还还是崎岖的山路。在细分场景中，Figure 01成为了第一个“拿起苹果”的人形机器人；斯坦福团队的Mobile ALOHA，则展现了不错的炒菜、收拾物品等能力。

图片来源：Figure官方

但是，人形机器人想要实现完全通用化，这些进展还远远不够。无论是拿苹果还是炒菜，体现的都是机器人的模仿学习能力，也就是通过一遍遍模仿人类动作，学习单一技能。

“机器人跟物理世界交互的高质量数据其实难获得，所以模仿学习有其用武之地——通过用人去教他，去积累一些数。不过当下的模仿学习只是单纯地教机器人复制人的动作，但它并不能理解每一个动作的驱动要素是什么。或者说，机器人不明白为什么动作要这么做。”颜黔杭表示，如果让机器人完成“端杯水然后加点糖”这类复杂的人类操作，模仿学习可能就无法实现。

“视觉传感器的引入，可能让机器人不再瞎了。但还有更多其他维度的感知能力，今天的机器人都是欠缺的。”颜黔杭称，比如触觉、力觉的传感器市面上虽然有，但现在目前并没有在机器人领域普及，主要原因是这些传感器集成度低、价格贵，体积相对与人形机器人来说也太大。

“强化学习就是不断试错的过程，相比于模仿学习有更强的泛化性。”

星动纪元联合创始人席悦对钛媒体APP表示，类似于自动驾驶的训练方式一样，强化学习可以通过构建仿真环境，让机器人在真实场景的模拟环境中进行训练，在不断地试错中优化自己的行为。“强化学习训练出来以后，机器人不仅能走楼梯，它也能走雪地，也能走草地，实现更好的泛化性。”

但需要注意的是，仿真环境与真实世界无法做到完全相同，现实世界的交互环境以及交互对象相比于仿真环境会更复杂。这就会导致，仿真训练结果迁移到真实世界会出现偏差，这也是目前整个行业面临的挑战。

钛媒体APP曾独家获悉，星动纪元已经将Humanoid-Gym训练框架进行开源。Humanoid-Gym开源后，用户可以借助该框架通过sim-to-sim转换接口，在更高精度的仿真环境Mujoco中进行机器人训练验证，继而提升sim-to-real（仿真到现实）转换的效率和成功率。

而除去大脑和小脑的训练之外，人形机器人能否走向通用的最后一道门槛，则是本体是否可以完全承接软件算法传递的动作指令。

“人形机器人的硬件技术产品主要围绕传感器、执行器和驱动器、能源管理及新型材料等开展工作。”

IDC中国研究经理李君兰对钛媒体APP表示，目前，尽管已有多种传感器被应用于人形机器人，但在精度、响应速度和集成度方面仍有提升空间。同时，人形机器人的能量消耗较大，高能效的能源动力管理和储能技术也是一个重要挑战。

“视觉传感器的引入，可能让机器人不再瞎了。但还有更多其他维度的感知能力，今天的机器人都是欠缺的。”颜黔杭称，比如触觉、力觉的传感器有很多，但现在目前并没有在机器人领域普及，主要原因是这些传感器集成度低、价格很贵，体积相对与人形机器人来说也太大。

也正是因为种种方面的掣肘，人形机器人的通用之路变得更加漫长。

更现实的当下，有可能的未来

当人形机器人的“通用时刻”还未到来时，如何活下去，成为了创业公司最真实的现实处境。

“我们公司商业化上的策略就是四个字——沿途下蛋。”

逐际动力方面称，具身智能（包括人形机器人、四足机器人等多种产品形态）的应用场景非常广泛，相比人形机器人，四足机器人的商业化落地能力会更强。而后者，则是逐际动力需要下的蛋——依靠四足机器人成熟的移动能力，去实现产品商业化落地。

目前，逐际动力产品包括人形机器人CL1，双点足机器人P1以及四（轮）足机器人W1。其中，双点足机器人P1以及四（轮）足机器人W1落地应用聚焦在工业巡检、物流配送、特种作业等领域。

图片来源：逐际动力官方

同样的，成立更早的宇树科技的主要营收也来自于四足机器人。这也是宇树科技创立之初发力的业务方向，目前已经有Go2、B2、Aliengo等多个产品。公开数据显示，目前宇树科技的四足机器人产品占全球出货量的60%以上，处于全球历年销量领先的位置。

星动纪元方面则表示，汽车和消费电子的细分场景，比如，工厂巡检、汽车总装产线的物流部分，是公司目前探索的商业化方向。同时，类似于商场迎宾等服务性质的工作，也存在商业化的可能。

“当然，对于人形机器人的创业公司而言，融资肯定是必须的。”星动纪元联合创始人席悦对钛媒体APP表示，因为人形机器人这个行业还太早期，技术门槛更高、研发周期相对来说也更长，早期肯定需要融资才能活下去。

事实上，人形机器人行业出现的此刻，也是国内自动驾驶行业经历的过去。

2017-2018年间，国内开始涌现大批的自动驾驶创业公司，并吸引了大量的风险投资机构进场。与人形机器人类似，自动驾驶领域也需要长周期的技术开发，所以在早期对于投资机构的依赖度很强。但很快，随着投资热潮的褪去，自动驾驶公司的商业化能力开始受到质疑。再之后，就是大批的自动驾驶团队解散、裁员，甚至是对簿公堂。

“从技术门槛、创始团队和行业影响力等方面来看，人形机器人和自动驾驶的确非常像。但是，这一轮人形机器人公司的估值普遍没有上一轮自动驾驶公司的估值高。”

一位同时在自动驾驶和人形机器人领域工作过的业内人士表示，这是一件好事，大家不用一味只去追求公司估值，而忽略了商业化。“人形机器人这一波的创业者，部分已经看到了上一波自动驾驶发展中的问题和风险，所以会对产品商业化的认知程度更高。”

除此之外，该人士还表示自动驾驶的创业潮中，大家习惯于单打独斗。

但在人形机器人产业中，更强调的是合作。比如，目前北京、上海、深圳都由政府相关部门牵头，成立了人形机器人的创新中心。由政府部门出面去拉通产业链的上下游，有做技术的，做机器人关节的，做商业化落地的。“大家形成一个实体，上下游公司均是股东单位，可以整个链条打通。”

通用人形机器人母平台“天工” 图片来源：官方

以北京为例，4月27日，北京人形机器人创新中心在北京经开区发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”，能以6公里/小时的速度稳定奔跑。“天工”身高163cm，轻量化体重达43kg，机器人配备多个视觉感知传感器，搭载了每秒550万亿次操作算力、高精度的惯性测量单元(IMU)和3D视觉传感器。

发布会上，创新中心总经理熊友军表示，为解决人形机器人行业通用问题，推动产业整体发展，北京人形机器人创新中心致力于行业关键共性核心技术研发，打造软、硬两个通用母平台。目前，已成功研发出通用人形机器人母平台“天工”。

北京经济技术开发区相关负责人介绍，作为北京市重要的机器人产业集聚地，北京亦庄目前汇集机器人生态企业110家，形成覆盖核心零部件、整机到应用的机器人全产业链体系。在人形机器人领域，不仅有小米、优必选等人形机器人头部企业落地发展，还有高精密减速器、伺服系统等人形机器人零部件产品。

而在机器学习的软件算法层面，特斯拉FSD（完全自动驾驶）的成功，也让人形机器人行业看到了有可能的未来。

在特斯拉最新的FSD V12版本中，FSD Beta更名为FSD (Supervised)。根据特斯拉官方的说法，在车主的监督下，最新版FSD Supervised几乎可以在任何地方驾驶特斯拉。

在FSD V12之前，特斯拉的自动驾驶方案一直依赖于规则判断，任何驾驶行为的背后都有代码作为支撑，FSD V11 C++代码多达30多万行。而在FSD V12版本版本中，依赖于手动编码规则的方案被彻底抛弃，转而全面采用端到端的神经网络AI系统，代码行业缩减到只有3000行。

特斯拉FSD的端到端方案，本质上是完全基于数据驱动。通过将上千万个甚至上亿个人类驾驶视频的高质量数据，压缩到了大模型中，特斯拉FSD就可以AI的方式去思考——遇到场景直接输入传感器数据，输出转向、制动和加速信号，而且这个过程中没有任何编码。

据特斯拉2022年10月公布的信息显示，Optimus人形机器人使用与特斯拉汽车相同的完全自动驾驶（FSD）电脑，以及Autopilot相关神经网络技术。

这也就意味着，人形机器人完全可以利用FSD同样的训练方式，走向通用之路。据王兴兴介绍，目前宇树科技人形机器人，从行走奔跑到舞蹈空翻等，已经完全采用类似端到端的解决方案，从视觉感知到腿部执行，一个模型就可以实现，没有任何中间过程和编码。

“人形机器人硬件部分的成熟，只是时间问题。最重要的，还是通用人形机器人的AI基础大模型。”王兴兴称，乐观的估计，基础大模型的突破可能会在明年年底前发生。但是，也有可能不会发生。“有时候技术的突破，需要看全球人类的运气。就像当年如果没有爱因斯坦，他的理论大概率也会有人发现，只不过会晚个几年到几十年。”

文章来源：钛媒体

人形机器人 AI大模型通用化

钛媒体

原创栏目