虽然常青藤学生休学创业的故事已经不是新鲜事,但这次,休学创业已经轮到00后了,还是位发过顶刊顶会、直博耶鲁的中国学霸——AI大模型与具身智能赛场的火热,已经颇有种“再不创业就老了”的紧迫感。
杨丰瑜Fred Yang,江苏人,00后,全奖直博耶鲁,是具身智能公司UniX AI(优理奇科技公司)的创始人,该公司开发了一款能洗衣服、做汉堡、洗盘子的家庭服务机器人。
虽然说这么年轻就创业,但休学创业对杨丰瑜并不是出于冲动。首先,他高中时就想创业,本科时就有一些“小打小闹”的创业项目。其次,他称自己发的论文数量已经足够博士毕业了,休学并不是一个风险的决定。而且,他一直在积累创业资源,从本科时就开始在国内积累具身智能相关领域的学术界人脉,创业后在国内四处寻访机器人业内资深人士组建团队。
现在,他创办的UniX AI公司邀请到了上海交通大学特聘教授、机器人顶会IROS2025大会总主席王贺升作为首席科学家。
虽然已经发过国际顶刊论文、获得北美计算机协会杰出本科科学家称号,但作为初回国内创业的年轻面孔,杨丰瑜Fred Yang最开始招人时也常常碰壁。最开始搭建团队,邀请一些比自己年纪大二十岁的资深专家加入时,需要三顾茅庐,甚至一次聊超过8小时。
目前,UniX AI开发的轮式+双臂人形机器人,作为家庭服务机器人,可以自动识别你乱扔在家里各个角落的衣服,自动捡起并拿去洗衣机洗,还能在你吃完饭后给你收盘子、洗碗,还能清洁地板。
对于家庭场景来说,机器人手部的操作能力很关键。UniX AI自研的三指夹爪,可以夹圆珠笔、夹豆腐。UniX AI称,其首批100台人形机器人将于九月量产。
以下是《智能涌现》与具身智能公司UniX AI创始人杨丰瑜Fred Yang的对话。
智能涌现:对于人形机器人,目前业界并没有统一的定义,不同的公司的技术路径也不一样,有些公司一开始就做双足的人形机器人,有些公司做类人形,比如像你们公司的轮式+双臂形式。你是怎么样看待不同的技术路径?
杨丰瑜Fred Yang:这一个市场足够大,不同的公司扎根在不同场景。大家都是根据应用场景,反过来设计自己的机械结构与整体的软件和硬件方案。现在阶段,每一种技术方案都不难找到一种应用场景。我觉得没有对与错,大家都是从需求方面出发来考虑。
杨丰瑜Fred Yang:首先说双臂,在家庭场景,最重要的是手部的操作能力。家庭空间里很多东西的空间高度,都是为了人设计的。我们的仿生人形臂有7个自由度(能够理解为手臂有7个关节),可以做很多类人操作。
关于轮式,考虑到移动精度和安全性,我们第一步选择轮式进入家庭场景。大家还是根据不同的使用场景来反向设计自己的硬件方案。
杨丰瑜Fred Yang:我们的核心逻辑是从场景出发。硬件和软件对我们来说同等重要。
智能涌现:一般做具身智能的公司,在大脑、小脑和硬件本体之间会有公司自己的侧重点,你们会有自己的侧重发力点吗?
杨丰瑜Fred Yang:我们软件硬件都做,但如果从大脑、小脑和硬件三个里讲侧重点,我们更多偏重在硬件和小脑层面。
硬件是算法的基础,软硬件高度耦合,硬件要跟着场景走。举个例子,在家庭场景中,我们自己设计的三指夹爪有两个模式(三指模式和两指模式),三指可以旋转变成两指,用来夹细小的圆珠笔,甚至夹豆腐等。
另外,现阶段打牢小脑的基础也很重要。对于大家都关注的“可泛化”问题,泛化的过程可分为三个阶段:从单一任务的有限场景,到单一任务的开放场景,再到开放任务的开放场景。
(注:比如从只能在某一种家庭环境下做洗衣服这种单一任务,到能在不同空间环境的家庭环境下洗衣服,再到不同空间环境下做洗衣服、做饭、辅导孩子等多种任务)
现在行业内大家都还在从第一阶段到第二阶段努力,此阶段主要考验的是小脑能力。如果到后面做开放场景(第三阶段),本质上是在大脑层面做plan(任务规划),但现在第一个任务是在小脑层面打牢基础,首先解决操作层面的东西。
智能涌现:你的一个研究成果是触觉多模态大模型 UniTouch,到底什么是视触觉、什么是触觉大模型?视触觉对于推动人形机器人的技术有怎样的意义?
杨丰瑜Fred Yang:触觉在机器人操作体系里,甚至人的操作体系里,都很重要。从人的角度来说,触觉是最本能的感知模态,通过和物理世界真实交互获得反馈。举个小例子,从包里找钥匙,一般来说,人是不会依靠视觉,主要是依靠触觉来完成。
从机器人的角度来说,受到机械结构和传感器选型的限制,很多时候单独依靠视觉是远远不足的。打个比方,让机器人抓瓶盖,瓶盖非常小,机械臂抓上去时,已经被机械臂本身遮挡了。
这个时候,只能依靠触觉反馈来完成最后的抓取和验证。这种情况在可形变物体操作上尤为突出。当接触可形变物体时,物体形状发生改变,视觉先验能提供的信息就非常有限,必须依靠非常局部,但是高敏感度的触觉信息来感知和完成任务。
同时,触觉提供的别的信息,视觉没法提供,比如力量。视觉能够给大家提供机器人抓取位置,无法告知抓取力度。单纯的力传感器也有局限,比如捏碎一个杯子前,从力的角度讲看不出任何变化,哪怕杯壁已然浮现细微裂缝。但这时,触觉传感器能够捕捉到细微裂缝,能够判断出接下来继续操作是否会捏碎。
我之前发了一篇论文,做了全球第一个触觉多模态大模型,把触觉信息和视觉信息、其他语言模态信息交融在一起。每个模态都有自身的局限性,视觉也有自身的局限性,但是加入了触觉信息后,每个模态之间能够互补。
目前不少友商也在做触觉,但他们还是集中在硬件层面,比如说触觉传感器。但UniX AI要面向家庭用户,硬件必须有3-5年的寿命,现阶段很多高精度的触觉传感器在寿命方面还没有很好的方法满足商用需求。
智能涌现:你们首批100台人形机器人将从九月开始陆续量产,这一个数字对于人形机器人厂商来说是比较大的,Unix AI是怎么样才能做到的?供应链如何管理?
杨丰瑜Fred Yang:量产大多分布在在供应链方面。我们有从奔驰、海尔出来的一些供应链专家,他们有供应链方面的制造和成本把控的经验。还有来自传统机器人、消费电子、汽车行业、航空航天行业的一批富有量产经验的供应链成员。
杨丰瑜Fred Yang:机器人这样的领域,不是只靠一个技术栈就能打通,需要硬件、软件整体配合,也需要多元化的团队背景。整个具身智能行业非常新,我们的算法团队非常年轻,绝大多数都是海内外做机器人或人工智能的博士、博士后。
硬件方面,我们目前先切入了家庭场景,安全性肯定是最重要的因素。我们团队有来自家庭服务机器人的成员,来做不同家庭的复杂环境的避障任务,比如绕线、悬空障碍物等。具身智能相关的硬件,包括人形机器人的手臂、腿方面,我们也有能力过硬的科学家,作为硬件开发负责人。
智能涌现:你很年轻,是00后,这么大的团队需要很强的操盘能力,你是怎么招人的?
杨丰瑜Fred Yang:最开始招人确实困难。我本科在密西根大学,博士在耶鲁,在国外的具身智能圈子有知名度,所以我很快找到了国外一些做算法的朋友;但是机器人要做软硬结合,回到国内,大家不熟悉我们,我也碰了很多壁。每一个重要成员加入之前,我都跟他们聊了非常久,对于人才来说,要有“三顾茅庐”的精神。
智能涌现:人形机器人落地其实不简单,目前大部分都还处在卖给科研院所的阶段,扩大规模其实挺难,你们说直接一步到位to c,而且是消费级,今年量产100台,这是怎么做到的?
杨丰瑜Fred Yang:轮式人形机器人的量产没有双足人形机器人那么难。现在大家对于人形机器人的定义其实有分歧。对于双足人形机器人,我觉得还有一段路要走,还没有完全ready推向市场,因为安全性上有一些问题还没解决。但在家庭里最重要的是手部的操作能力,所以我们第一代推出的是轮式+双臂的机器人,轮式是很成熟的技术。
产品的迭代速度很重要。第一代就做出精品有难度,我们先快速出一版较为稳定可靠的、性价比较高的机器人,大面积铺向市场,再迅速反复迭代。我们内部一直讲,三代出精品。
杨丰瑜Fred Yang:一开始的个人用户,主要是我们身边的一些朋友、科技界的一些朋友,还有对前沿产品非常感兴趣的科技发烧友,类似于特斯拉刚刚推出的时候,愿意购买的目标人群,也是喜欢进行科技尝鲜的阶层。我们也会做一些focus group(焦点小组访谈),了解目标群体的具体需求。
智能涌现:家庭场景下的通用人形机器人,相比于垂直场景下的机器人(如商业服务、仓储物流、安防巡检等)来说,落地要难很多,对机器人的泛化能力要求高很多。你们的资料说UniX AI 人形机器人同时具备洗衣服、用餐助理、清洁、辅导孩子功课等功能,落地情况如何?
杨丰瑜Fred Yang:人形机器人的终局,当然是希望机器人什么样的事情都能干,但饭要一口一口吃,事情要一件一件做。在家庭场景,也是一步一步(落地的),从单一任务的有限场景,到单一任务的开放场景,最后才到开放任务的开放场景。
我们产品目前已经有若干成熟的场景点,比如洗衣服、餐后帮忙收盘子洗碗、3D清洁功能等。以洗衣服功能为例,你可以把衣服扔在各种不同的地方,机器人Wanda第一步会寻物,自主构建一张三维地图;第二步是抓取衣服,Wanda拥有的UniX AI自研夾爪能够通用地抓取柔性物体,第三步是使用洗衣机。
可泛化地使用洗衣机(对于不一样的种类的洗衣机,机器人都能操作)其实不难,我们大家可以调用不同的小模型来完成这个任务。
杨丰瑜Fred Yang:我不把自己定义为回国创业或者在美国创业,我们在美国和中国都有团队,只是大家利用不一样的区位优势。美国有顶尖的算法团队,国内有结构、硬件方面的同伴,我们在深圳也有团队,在上海也设立了研发中心,有很多同事在那里工作。