很抱歉,当前没有启用javascript,网站无法正常访问。请开启以便继续访问。对话智源研究院院长王仲远:具身智能“小组赛”还未结束,远没有到“淘汰赛”
对话智源研究院院长王仲远:具身智能“小组赛”还未结束,远没有到“淘汰赛”
2025.06.22 14:03 财联社记者 李明明

编者按:在这个智能体与物理世界深度融合、边界不断拓展的领域,机遇与挑战相互交织,技术迭代如闪电般迅速。《科创板日报》始终保持敏锐的洞察力,持续追踪并深入报道浪潮中的先行者,记录下他们或曲折、或惊艳的探索与蜕变历程。

本期访谈人物:

智源研究院院长王仲远

个人介绍

王仲远,博士,北京智源人工智能研究院院长。

获评2018年《麻省理工科技评论》“35岁以下科技创新35人”,长期从事人工智能前沿技术研究与实践,曾在快手、美团、Facebook、微软亚洲研究院等知名企业与研究机构担任重要技术及管理职务。

第一标签

人工智能领域探索者

机构简介

智源研究院是人工智能领域的新型研发机构。2018年11月14日,在科技部和北京市支持下,联合北京人工智能领域优势单位共建。

《科创板日报》6月22日讯(记者 李明明)被誉为“科技春晚”的智源大会,折射出每年的科技产业热点。今年的第七届智源大会上,宇树科技CEO王兴兴成为最受瞩目的嘉宾,显示出了具身智能的高热度。

智源研究院院长王仲远在大会上表示,人工智能正经历从以语言理解和推理为核心的“数字智能”,迈入与现实环境互动的“具身智能”阶段。也因此,智源研究院宣布从“悟道”(是由智源研究院主导研发的超大规模智能模型系统)时代迈入“具身智能”探索阶段。

相应的,智源研究院推出“悟界”系列大模型。包括原生多模态世界模型Emu3、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0等。

近日,就具身智能发展路线、多模态大模型落地应用等方面,《科创板日报》记者对王仲远进行了专访,他表示,具身大模型的发展仍处于非常早期的阶段,可类比大模型在 GPT-3 之前的技术探索期。当前行业仍处于“小组赛”阶段,远未到“淘汰赛”。

王仲远判断,目前,主流大模型多集中于C端的文本生成与语言对话等“数字智能”领域。然而,智源正致力于将AI拓展至更具挑战性和潜力的“现实世界”,涵盖机器人、操作系统以及世界模型的构建。

2025年人形机器人刚学会跑

《科创板日报》:类比 AI 大模型,智源新推出的跨本体具身大小脑协作框架正处于具身智能领域发展的哪个阶段?

王仲远:具身大模型的发展仍处于非常早期的阶段,可类比大模型在 GPT-3 之前的技术探索期。

当前具身智能面临与早期 AI 大模型类似的挑战。比如,技术路线尚未形成共识:学界与产业界对核心技术路径存在分歧,例如,仿真数据、强化学习、大小脑融合架构等方向仍在探索中,尚未形成统一方法论;又如产业落地尚需突破:尽管智源推出具身智能跨本体大小脑协作框架等成果,但离大规模商用仍有较长距离,需解决“感知-决策-行动”协同、多模态数据融合等基础问题。

在此阶段,如智源这类科研机构的价值在于通过开源框架、跨学科合作等方式推动技术路线探索,为产业界提供可验证的技术原型,而具体技术路径的成熟与产业落地仍需多方长期共同努力。

《科创板日报》:现在业内对于机器人是否做人形也有争论,请你谈谈关于走具身智能的路线。

王仲远:人形机器人从长期来看是一个很好的发展方向。整个社会是为人类构型打造的基础设施,双足机器人会更好地融入社会,但并不代表其他的构型就没有用武之地。

最早与行业专家交流人形机器人时,我听到一个很重要的说法是人形机器人提供的“情绪价值”,再往后深入做具身大脑时,发现人形机器人更有利于通过已有的各种数据进行学习。

从做模型的角度来讲,如果做四足或者轮式,这些数据远比从互联网上获取的海量数据难度大。

不同构型的机器人未来会共存,但是人形机器人一定是非常重要的发展方向,只不过它的成熟周期比其他的构型要慢。

2024年,人形机器人刚刚会走,2025年,刚刚会跑,能否走得稳、跑得稳,还在努力过程中。

具身智能“小组赛”还未结束,远没有到“淘汰赛”

《科创板日报》:如何破解具身智能数据稀缺问题?

王仲远:具身智能目前存在循环悖论,具身能力不足限制了真机数据的采集,数据稀缺导致模型能力弱、落地难,无法进一步提升能力。

破解问题的方法有很多,不同的参与方有不同的解法。比如,令硬件成本越来越低,如果能够做到几千块钱一台机器人,大家买的可能性比一百万一台机器人的可能性大很多。

真实世界的数据很重要,但是是否足以训练出来一个有价值的模型,这在学术界是有争议的,仿真数据是其中一条路径。

智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。例如,此前我观察一个小女孩是怎么学习的,她刷了很多短视频,就学会了拆糖果、撕包装纸,把5颗蓝莓串在一根牙签上,这是没有任何大人教给她的。她通过视频学习到可能的技能,再通过实践即强化学习去尝试,可能失败了几次继续尝试,最后成功完成了任务,这就是强化学习的本质。

所以,学习海量已有的数据,再通过强化学习和少量真实世界的数据不断训练它的能力,不断突破具身智能的发展上限,这和大模型发展路线不谋而合,基础能力到一定程度后通过强化学习进一步激发它的智能。

《科创板日报》:具身智能能否复制智能驾驶的发展模式,实现数据采集与模型训练经验的无缝迁移?

王仲远:具身智能与智能驾驶虽有共性,但差异不容忽视,直接复制智能驾驶路径于具身智能不可行。核心差异体现在用户需求、数据采集基础和操作空间复杂度。智能驾驶车辆即便未完全智能化,仍可作为代步工具被广泛购买,用户日常使用中自然积累海量数据,为模型训练提供支撑。而具身智能机器人若缺乏实用功能,难以被消费者接受,当前高价与低实用性导致其难以通过大规模商用采集数据,数据积累路径受阻。智能驾驶的操作空间相对有限,场景边界较清晰;具身智能需处理物理世界多样化任务,操作空间维度呈指数级增长,对感知、决策与行动的协同要求更高,技术复杂度远超智能驾驶。

在具身智能发展过程中,智源探索独特发展路径。一是数字智能物理化,通过大模型技术将数字世界的智能能力延伸至物理世界,推动机器人从“单一功能”向“通用智能”进化;二是低成本功能化,聚焦垂直场景,降低单台机器人成本并强化特定能力,通过规模化落地积累数据,逐步拓展应用边界,让小型机器人走进千家万户。大型人形机器人技术复杂度高,商业化周期长;小型专用机器人若能在细分场景实现极致性价比,可能率先渗透家庭与产业场景,为具身智能长期发展奠定基础。

《科创板日报》:目前许多智能驾驶车企正在进军具身智能领域,比如小鹏和理想,这些车企会在未来的具身智能竞争格局里占据什么样的位置?

王仲远:车企布局具身智能具备独特优势,但最终竞争格局尚未明朗。当前行业仍处于“小组赛”阶段,远未到“淘汰赛”。车企的核心优势体现在两方面:一是制造体系与产业链整合能力(如特斯拉依托工厂自动化需求与制造优势切入机器人领域);二是落地场景资源,其积累的交通、出行场景数据可赋能物流、服务机器人等初期应用。但需注意,具身智能技术复杂度远超智能驾驶,需融合感知、决策、行动等多维度能力,车企现有技术积累未必直接适用。

此外,行业目前仍处于多方参与的技术路径探索期,大模型机构、硬件厂商等不同领域玩家的技术路线仍在碰撞,最终突破方向尚未明确。

《科创板日报》:未来3年具身智能最可能在哪个领域产生突破性的规模化应用?

王仲远:最可能在相对封闭的工业场景落地,如工厂环境。不仅能规避当前具身智能不成熟的阶段,比如对人类可能的误伤等安全隐患,而且工厂环境有很多相对固定且枯燥的任务,不适合人类进行。因此,在这样相对封闭的场景会是具身智能最快落地的场景。

当然,今天车企的自动化程度已经相当高了,反而又有其他一些工业场景的自动化程度远没有那么高,这些是具身智能落地的机会。

多模态大模型尚未实现广泛普及与通用化

《科创板日报》:此前谷歌大会发布视频模型,行业认为这标志着多模态进入视频模型商业化阶段,你对此观点是否认可?当前多模态行业,尤其是技术层面存在哪些挑战?

王仲远:目前,多模态技术发展方向尚未完全统一。在文本生成图像、文本生成视频领域,基于Diffusion和Transformer的技术路线相对明确;而在多模态理解模型方面,多数采用“大语言模型+Clip”的架构,将语言模态映射至多模态处理。当下主流的视频生成模型,也大多沿用此类技术路径。

尽管模型性能持续提升,生成效果不断优化,商业化前景初现,但该领域仍存在诸多不确定性。以国内大模型发展为例,早在去年便有预测指出,2024年底国产大模型有望追赶GPT-4水平。如今DeepSeek的技术突破印证了这一趋势,即便没有DeepSeek,其他国产模型同样具备实现技术突破的潜力。

在技术路线相对明晰的背景下,产业界具备显著优势。丰富的数据资源、专业的工程团队及充足的算力支持,均有助于企业训练出更贴合实际应用、更具商业化价值的模型。

《科创板日报》:当前多模态大模型是否已进入全面落地应用阶段?

王仲远:多模态大模型已在部分特定场景实现落地应用,但尚未实现广泛普及与通用化。

在实际应用场景中,多模态交互需求普遍存在。以英语教学为例,需整合声音、图像及场景理解等多维度信息。然而,当前多模态大模型的性能与语言模型相比仍存在较大差距,导致实际应用效果难以达到预期。尽管产业界通过局部优化、功能补充等方式改善用户体验,但要实现根本性突破,仍需依赖更强大的基础模型。一旦多模态模型达到更高可用水平,将为产业发展注入新动能。

此外,当下主流大模型多集中于C端的文本生成与语言对话等“数字智能”领域。然而,智源正致力于将AI拓展至更具挑战性和潜力的“现实世界”,涵盖机器人、操作系统以及世界模型的构建。

《科创板日报》:近期国外多家厂商集中发布Agent产品,为何在这一时间节点出现该现象?哪些技术的成熟推动了这一趋势?此次技术演进在应用落地层面能达到何种程度?其实际效果是否如应用厂商宣传般强大?

王仲远:基础模型需达到或接近GPT-4的能力水平,才能满足实际应用需求,即不仅要具备良好的语言理解能力,还需拥有一定的逻辑推理能力。近年来,推理模型技术的进步显著提升了大模型的推理性能,推动大模型从“可用”迈向“好用”,进而加速产业应用发展。

Agent作为重要的产业落地形态,能够基于基础模型开发出满足用户实际需求的解决方案。对于创业公司而言,投入产出比(ROI)是关键考量因素。因此,在模型开发中需兼顾性能与效率,在保证能力的前提下,尽量缩小模型规模,提升推理速度。尽管当前仍存在技术瓶颈,但随着研究深入,这些问题有望逐步得到解决 。

5729特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。