黄仁勋正在像押注OpenAI一样在中国押注未来的具身智能巨头。 在刚刚落下帷幕的2025世界机器人大会,英伟达携手众多中国机器人生态合作伙伴亮相,展示了其在物理AI与通用机器人领域的战略布局,宇树科技和银河通用位列其中。 这两家企业近期常被业内以“南宇树北银河”的说法同时提起,分别代表着硬件本体和软件大脑的两条核心技术路径。在这场大会上,英伟达Omniverse与仿真模拟技术副总裁 Rev Lebaredian、宇树科技创始人王兴兴与银河通用机器人创始人及CTO、智源学者王鹤罕见同框,三人围绕人形机器人领域的诸多热点话题展开了讨论。 ![]() 南宇树北银河 就像当年英伟达押注OpenAI一样,黄仁勋正在重注中国未来的具身智能巨头,但不同的是,黄仁勋这次把筹码分散下注在了多家中国机器人公司身上。 本次大会,众多英伟达的机器人生态合作伙伴亮相,除了上述银河通用和宇树科技,中坚科技、傅利叶智能、北京人形机器人创新中心、加速进化、星动纪元、逐际动力、优必选、乐聚机器人、星海图、众擎机器人等也悉数现身。 此前,英伟达在CES 2025一次性展示的 14 款人形机器人中,也有 6 款来自中国;在北京 2025WRC 现场,又把这些中国伙伴放到舞台 C 位,无疑再次凸显了英伟达利用中国供应链、场景与数据红利的策略 。 可以看到,英伟达的机器人生态并非简单采购关系,而是以“算力-仿真-数据”三环相扣的基础设施,把分散的硬件本体、垂直场景、算法团队编织成一张可快速商业落地的网络。 从英伟达的布局来看,涵盖了具身智能、机器人、多场景应用等多个关键领域。在技术层面,借助合作伙伴在硬件研发和软件算法的创新,结合自身的AI技术、仿真技术以及机器人超级计算机,构建从模型训练、仿真测试到终端部署的全栈机器人技术体系; 在市场应用方面,英伟达通过与不同特点的企业合作,覆盖工业制造、商业零售、物流、城市服务、教育、娱乐等多元场景,加速机器人在各行业的渗透和普及。 其中,银河通用自研的、内置英伟达Thor芯片的人形机器人Galbot,就在本次WRC大会上引起了关注。记者在大会现场的搬运任务展示环节看到,Galbot可快速滑步至货架,自主完成装卸动作,全程无需人工干预。 宇树则为其新型人形机器人R1部署了NVIDIA全栈机器人技术。 英伟达把专注不同环节的两家标杆性企业同时放进生态,或有对冲风险和加速收敛之意。 100万亿美元物理世界市场 本次三人对谈内容涵盖其大规模商用过程中的难点、面临的关键挑战、存在的技术瓶颈与发展风向,人形及双足设计的必要性,中国企业在物理AI与机器人领域的优势,以及预计将率先实现普及的应用场景等方面。 Rev Lebaredian率先抛出了主要论断:过去计算主要影响信息世界,而现在借助人工智能,计算能通过机器人进入物理世界,连接信息与物理世界,挖掘100万亿美元物理世界市场的潜力。 中国在AI人才(全球近半)、电子制造能力、制造业基础(提供机器人部署测试场景)上具有独特优势,是物理AI和机器人发展的理想之地。 在英伟达的机器人相关布局上,Rev Lebaredian表示,需打造机器人本体计算机(如Jetson Thor)、AI工厂计算机(如DGX系统)、仿真计算机三类计算机,分别用于机器人内部运行、开发“大脑”、生成数据和测试。 对人口与机器人关系的看法上,他认为,机器人数量与生育率无直接关联,但机器人可作为“人工人口”提升生产力,应对人口缩减带来的经济问题。 王兴兴将人形机器人视为通用机器人的重要载体,结构相对简单(由关节电机串联而成),未来有望像组装电脑一样普及,且通用AI成熟后对硬件要求会降低。 对于宇树的产品进展,王兴兴披露,此前发布的人形机器人售价9.9万元,新版本降至3.9万元,具备竞争力,外观可定制,现货供应且年底量产。 技术与应用上,利用NVIDIA的Isaac Sim平台训练机器人动作,但受硬件物理极限限制,复杂动作执行受限; 自主开发20自由度灵巧手,目标是让机器人执行日常任务;通过采集人体动作数据结合深度强化学习训练动作; 目前,机器人已在晚会表演、商业演出、机器人格斗赛等场景应用。 王鹤则表示,银河通用的目标是打造通用机器人,其核心要素包括本体、具身智能模型、数据支撑。 未来与商业化方面,银河通用商业化落地案例包括全球首个24小时智慧药房解决方案(签约超100家药店)、24小时智慧零售店项目(已在部分城市落地)。 他表示,未来十年人形机器人产值增长迅速,市场规模有望超越当前工业机器人。限制人形机器人规模化部署的关键是干活能力不足、任务类型有限,解决目标识别和定位问题后,市场规模可观。 ![]() 以下是精选后的三人媒体问答内容: 人形机器人商业化与技术瓶颈 1、 宇树R1定价3.99万元,这是否意味着硬件成本已不再是影响机器人商业化的障碍?现阶段,推动人形机器人规模化商用还存在哪些难点? 王兴兴:我一直认为,人形机器人商业化的关键不在成本和硬件。毕竟哪怕一台机器要10万、100万,只要能用,很多场景照样能落地。 现在最棘手的问题是具身智能模型的泛用性和实用性还不够。其实硬件在过去一两年就已经够用了,后续无非是在可靠性、成本上再优化,但它并非限制因素。 2、未来机器人在哪些场景会迎来大规模普及? 王兴兴:未来机器人会更实用,但发展周期较长,像新能源车一样,成熟需要时间。现在的机器人技术才发展两三年,和十几二十年前的技术水平完全不同,不能混为一谈,整体还需时间培育。不过行业成长迅速,未来几年人员和出货量有望每年翻倍。 若有更通用的AI大模型,机器人在工厂、家庭等更多场景的表现会更好,也更容易普及。整体来看,普及周期会更长,尤其是家用领域,难点不在技术,而在伦理、安全等要求高,导致普及门槛高。 3、今年,许多人形机器人已开始在汽车工厂进行训练。机器人真正能在工厂车间投入工作还需要多长时间?还有哪些关键挑战需要解决? 王鹤:今年,不少人形机器人已开始在汽车工厂接受训练。目前多数公司在工厂推广这类机器人,主要聚焦搬运和分拣两大方向。 搬运方面,银河通用近期展示的机器人视频显示,其搬运速度已接近人类,每小时搬运量与人类相当,现已非常接近实际工厂部署水平,预计今年年底可能有几十台投入车间实际应用。 但搬运只是开端,还需实现码垛的闭环能力。只有搬运和码垛均形成闭环,机器人才算真正胜任整套工作流程,否则任务只完成一半,效果会打折扣。 分拣则是更大的挑战。无论是从传送带取物还是从货架取货,当前最大的难题是速度。熟练工人取物速度很快,而机器人目前在模型和硬件层面,还难以达到这样的效率。 我们研发的零售机器人,从货架或桌面取物的技术本质与工业分拣类似,只是零售对节奏要求较低,拿错货的后果也较轻。但在工业场景,比如汽车制造厂,生产线停机一分钟就可能造成上万元损失,因此对分拣的精度和速度要求极高。 总的来说,分拣技术虽已有不小进步,但目前尚未达到人类工人的水平,仍需一定时间进行技术迭代和突破。 4、目前限制人形机器人规模化部署的关键技术瓶颈是什么? 王鹤:最核心的问题很简单:机器人干活能力还不够强,能做的任务类型有限。但如果能把这些有限技能做到足够通用,就能快速赋能很多场景。 银河通用目前最主要的突破在“抓取”和“移动”上。只要机器人能抓住任何物体,能在场景中完成下肢移动、上肢伸展,最后准确放置物体,这三个能力具备了,很多应用场景就能落地。这背后需要精准的目标识别和定位系统,我们目前正通过合成数据推进这项技术。 当然,就算解决了这个关键问题,仍有不少任务是机器人暂时做不了的。但只要攻克了目标识别和定位难题,人形机器人市场至少能达到千亿级规模,而且五年内就能看到成效。突破这个技术瓶颈后,有了庞大的市场投入,机器人肯定能解锁更多技能,向万亿市场迈进。 机器人形态与技术路线 5、国内外专家和企业对“人形”的必要性争议不断,有人认为人形是AGI的最终载体,有人认为未来十年人形机器人的占比只有10%,银河通用如何看待人形的必要性? 王鹤:长远来看,人形机器人必然要融入人类生活。从终局形态来说,要在人类环境中穿梭,既能够到一两米高的地方,又能触碰到地面,还能干活,除了人形,没有更合适的形态。 未来几年,人形机器人会从移动复合机器人逐步向终局形态演进。定点机器人只能处理眼前的事,局限性太大,所以移动能力是必须的;但光会移动的设备(比如工厂里的移动小车)只能运货,没法做任何操作。我们现在做的机器人,就是在移动平台上加装可升降、可折叠的双臂——两只手配合才能完成抱箱子等复杂操作,这样的设计更实用。 未来十年,人形机器人的市场占比会很可观。目前全球工业大机械臂总产值约1000亿元,而人形机器人按10万元一台算,销量不用太高就能超过这个规模。我预计它的产值每三年会翻10倍:现在头部企业卖1000台,三年后能到1万台,再三年到10万台;按每台几十万元算,10万台就能达到千亿元规模,超过现有工业机械臂的总产值。 所以未来十年,人形机器人市场规模会超过当前所有工业机器人;再往后十年,甚至可能达到万亿级,超越汽车、手机市场。不过这需要时间,不会一蹴而就。 6、针对具身智能大脑的基础模型,宇树科技主要聚焦哪些方向的探索?能否透露一些具体内容? 王兴兴:我一直认为,目前模型架构不统一是导致行业进展缓慢的原因之一。如果架构能更统一、方向更明确,结合当下的行业热度,突破速度会快很多,但现实是进展偏慢。 我们公司尝试过不少方向。比如去年探索用视频生成模型作为“世界模型”来驱动机械臂并实现动作对齐,取得了一些效果,但这类模型训练规模太大,受限于公司的算力和投入,没能大规模推进。而且我们发现其泛用性也没达到预期,后来就没再继续。不过最近谷歌发布的新视频生成模型物理对齐效果很好,还公开尝试将其作为世界模型用于机械臂和通用智能,这让我觉得这个方向值得重新探索。 受公司规模、算力和人才限制,我们只是初步尝试,没有深入。但谷歌的成果证明了其潜力——视频生成模型在时间维度、数据源和效果上已达到不错水平。比如生成机器人打扫全屋的视频后,理论上只要让机器人动作与视频对齐,就能实现类似效果,只是目前对齐工作仍复杂且有挑战。这个方向对机器人应用和视频生成技术本身都很重要,大公司也会持续投入优化。 此外还有其他方案。随着基础模型能力提升,很多潜力待挖掘。我们发现,在基础模型训练中加入机器人指令控制和空间理解训练,效果会明显提升。 我们的策略很简单:不断尝试新模型和想法,根据情况调整。新兴技术就该大胆探索,AI领域充满可能,一个灵感或许就能带来突破,也希望更多人参与探索。 7、机器人为什么要做双足?除了情感价值,双足在商业上还有哪些考虑? 王兴兴:其实我之前提过,更该思考的是“为什么不做双腿”。双腿设计相对简便,更重要的是能提供更强的通用性。运动能力本质上属于较弱的AI能力——你看小动物、蚂蚁这些,走路都很灵活,但AI能力其实很低。所以我认为,真正通用且能干活的具身AI模型里,移动能力或腿部功能只是附属的。 如果机器人能高效完成任务,腿的控制自然不会差;反过来,要是连腿都控制不好,说明还没达到真正通用的AI模型水平。所以双腿是一个重要的发展方向。对我们公司来说,深耕腿部技术顺理成章,而且这个方向本身也很有吸引力,大家普遍认可。再者,要是都去做轮式底盘,容易陷入同质化竞争,没必要。我们专注腿部研发,希望提升机器人的整体运动和作业能力,这个方向很有前景。 我也做过轮式底盘,清楚轮式和腿式各有优劣,且随着时间变化。目前轮式在工业开阔场景和货架间穿梭时,稳定性好、能耗低,但面对复杂环境可能受限;底盘做小了,稳定性又会下降。所以不同阶段,机器人下半身的方案必然不同。但我坚信腿是未来——它能让上半身触及更大范围,还能灵活调动腰部。不过不同阶段有不同的最优落地形态,我们不会局限于单一方案,现在同时用轮式底盘和人形机器人做全身控制研究。 仿真技术与物理AI应用 8、在像医疗和养老这样高精度应用场景中,NVIDIA Omniverse如何确保用仿真数据训练的机器人具备可靠性和安全性? Rev:如果你想构建一个能够在现实世界中行动且安全可靠的机器人系统,实际上唯一的选择就是使用仿真。举个例子,你希望系统足够智能,能够应对那些很少发生的特殊情况,甚至应对你希望永远不会发生的紧急情况。以自动驾驶为例,我们绝对不希望车撞到人或者孩子,但当街上出现小孩时,车辆的大脑该如何反应,如何获取训练这类系统的数据呢?唯一的办法就是通过仿真。因为我们绝不可能将孩子置于汽车前作为训练样本,这样做是不道德的、危险的,而且耗时且昂贵。 即使训练完系统,在将它部署到现实世界之前,也需要在这些相同场景中进行测试,确保在真正发生类似情况时,它能够正确反应。因此,真正的选择只有通过仿真实现,因为现实世界测试过慢、成本高且危险,我们不希望机器人在现实世界先失败。换句话说,如果我们无法让仿真足够准确以测试机器人,那么我们将无法制造出可靠的机器人。幸运的是,目前已有非常准确的仿真器。不过,这些仿真器计算量大且成本高昂,我们面临的真正挑战是如何提升仿真速度,使其在大规模系统构建中具有成本效益,这也是我们一直努力的方向。 9、未来几年内,驱动人工智能机器人的仿真领域会有哪些关键技术趋势将改变整个行业?能否分享一些中国生态合作伙伴如何利用NVIDIA仿真技术加速产品创新的案例? Rev:我认为目前最大的趋势,实际上是所有在常规人工智能领域出现的技术和发展,正被应用到物理人工智能中。其中最重要的突破是推理能力的提升。比如DeepSeek将推理能力带入了开源领域,现在我们也看到了其他各种模型。 我们在智能水平上实现了飞跃,将同样的技术应用到物理人工智能,是机器人领域的一个重大突破。如果我们要制造我们刚才谈论的那种机器人——比如能给你拿水的机器人——根据翻译理解,可能在今年年底或明年,我们的机器人将能更自然地与人互动,并完成复杂的多步骤任务。这是非常关键的能力。而将这种能力与仿真结合,我认为这是一个可能还未被广泛理解,但将成为重大突破的点。 目前我们面临的主要问题是人工智能极度依赖数据,而获取合适的数据非常困难。我们现有的推理模型,尤其是对物理世界的推理,现在可以帮助我们改善数据生成和数据创建的流程。 如今我们生成的数据,即使是合成数据,也需要大量人工参与,人工去构建虚拟世界和仿真环境,判断该生成哪些数据才能让智能系统更聪明。但是,如果我们把正在开发的人工智能技术用在数据生成流程中,就可以实现自动化,打造“自动驾驶”的合成数据生成。 如果我们拥有一个自动驾驶的合成数据生成工厂,就能直接将其接入训练流程,实现训练过程自动化,减少人为干预,让机器人大脑更聪明。至于中国的企业如何应用仿真技术及其带来的影响,我认为他们已经在积极探索和应用这些技术。 (文章来源:财联社) |