B体育做瑜伽分类货品特斯拉“擎天柱”人形呆板人再进化Get 新本领

2023-09-26 16:05:46
浏览次数:
返回列表

  B体育比拟 X 平台(前身为 Twitter) 流量下滑的失意,马斯克旗下的人形机械人 Optimus(擎天柱)风生水起。

  就正在方才过去的周日,Tesla Optimus 官方号正在 X 平台上分享了一段精粹的视频,展现了人形机械人擎天柱履行百般职业,席卷了做瑜伽和自愿按色彩对方块举行分类。

  譬如,正在视频中,这款机械人可能依靠雷同人类的速率轻松分类物体的才华,识别物品的区别色彩。再者,当人类干涉职业推广丰富性时,擎天柱也许急迅适宜这种蜕化并得胜竣事职业。

  然后机械人也能做出需求单腿站立并舒展手脚的瑜伽式样,展现其均衡性和乖巧性。

  遵照视频,擎天柱现正在也许自我校准它的手臂和腿。它还可能利用视觉和合节位子编码器正在空间中准确定位其肢体。这一功用使机械人也许更高效、更精确地竣事物理职业。这种水准的自我校准或许是开创性的,特别是正在需求对细节幼心隆重的境况中。

  值得留心的是,视频显示 TeslaBot 现正在运转与 Tesla 汽车不异的端到端神经搜集上,该搜集可能措置视频输入并天生统造输出,基于此,这种练习技巧可能使机械人也许以极高的精度履行职业。

  毫无疑义,这一视频的宣告代表了人形机械人获得了又一宏大冲破,对此,马斯克也利用了「Progress」(发展)做了评判。

  截至目前,Tesla Optimus 只是纯洁地分享了这一视频,并没有进一步表露其应用到的身手细节,可谓是吊足了机械人嗜好者的胃口。

  对此,也有许多人推测,这段视频是不是用CGI(揣测机天生图像)合成的,然而,NVIDIA 高级 AI 科学家、斯坦福大学博士 Jim Fan正在 X 上()分享了他对 Tesla Optimus 展现的视频举行逆向工程之后,自身对该身手客栈的阐述,最终得出一个结论:

  波士顿动力公司的 Atlas 惟有纯洁的抓手。从永远来看,擎天柱 那双灵便的五指手正在平素事情中将会显示得愈加卓绝。

  接下来,咱们可能看看其逆向工程获得的极少出现。对此,Jim Fan 也夸大道,没有内情音问,这里惟有他自身通过对视频的阐述与相干身手的明白B体育。

  最先,Tesla Optimus 人形机械人通畅的手部行动险些可能相信是通过人类操作员的仿造进修(举止克隆)练习出来的。另一种技巧是模仿加强进修,但这日常会导致行动震颤和手部式样不天然。

  基于此,Jim Fan 分析道,个中起码有四种技巧可能采集“人类演示”:

  Jim Fan 以为这是特斯拉团队最有或许采用的技巧。开源实例:ALOHA是斯坦福人为智能测验室()推出的一款低本钱双臂死板臂和长途操作编造。它能告终绝顶准确、灵便的行动,比如将 AAA 电池装入遥控器或操作隐形眼镜。

  操纵好莱坞片子中利用的 MoCap 编造来捉拿手部合节的轻细行动。Tesla Optimus 采用了与人类相仿的五指手,这是一个很好的计划决意,可能告终直接照射,由此与人类操作员之间不存正在整体差异。

  比如,演示者可能戴上 CyberGlove(),收拢桌子上的方块(如视频所示)。CyberGlove 将及时捉拿运动信号和触觉反应,并将其从新定向到 Optimus 上。

  另一种告终 MoCap 的技巧是揣测机视觉。英伟达™(NVIDIA®)公司的 DexPilot 可告终无符号、无需戴手套的数据采集。人类操作员只需徒手即可竣事职业。4 个英特尔 RealSense 深度摄像头和 2 个英伟达™(NVIDIA®)Titan XP GPU(2019 年参加利用)将像素转化为准确的运动信号,供机械人进修。

  将练习室形成 VR 游戏,让人类 饰演 擎天柱。利用原生 VR 统造器或 CyberGlove 统造虚拟的 Optimus双手。这拥有可扩展的长途数据采集上风——全国各地的解说者无需亲临现场也能做出功劳。

  VR 演示身手展示正在 iGibson 家庭机械人模仿器等查究项目中,Jim Fan 正在斯坦福大学插手了这项方案:。

  以上四种身手并不互相排斥。Optimus 可能遵照区其余利弊组合利用它们。

  其次,Tesla Optimus 采用了神经搜集机合。Optimus 是端到端的练习:视频输入,行动输出。对此,Jim Fan 吐露,“我很确定它是由一个多模态转换器告终的”,个中蕴涵以下组件:

  图像:高效 ViT 的某种变体,或者只是一个旧的 ResNet/EfficientNet 主干网 (。方块拾取和安插演示不需求丰富的视觉身手。图像主干的空间特质图可能很容易地符号化。

  视频:两种技巧。要么将视频扁平化为一系列图像并独立天生 token,要么利用视频级令牌天生器。高效措置视频像素的技巧有许多。你不必然需求 Transformer主干,比如 SlowFast Network()和 RubiksNet(,我正在 ECCV 2020 上的论文,高效的 CUDA 移位原语)。

  言语:尚不了然 Optimus 是否有言语提示。倘使有,就需求有一种技巧将言语表征 协调 到感知中。FiLM 是一个绝顶轻量级的神经搜集模块,可能告终这一主意()。

  行动符号化:Optimus 需求将接续运动信号转换为离散符号,以便自回归 Transformer 事情。有以下几种技巧:

  - 直接对每个手合节统造的接续值举行分类。[0瑜伽,0.01) - token #0,[0.01,0.02) - token #1,等等。这种技巧纯洁通晓,但因为序列长度较长,功用或许不高。

  - 合节运动互相高度依赖,这意味着它们攻克了一个低维的 状况空间。将 VQVAE 操纵于运动数据,可得到长度更短的压缩 Token 集。

  将上述个别组合正在沿道,咱们就有了一个 Transformer 统造器,它消费视频token(可选拔言语调造),并一步一步地输出行动 token。表格中的下一帧画面会反应给 Transformer,如此它就领略了自身行动的结果。如此就具备了演示中展现的自我订正才华。

  结果,Jim Fan吐露,“硬件质地给我留下了深远印象。行动通畅,体面大方。正如我上面提到的,紧跟人类状态是一个伟大的决意,如此正在仿造人类方面就没有差异了。”

  原来回看“特斯拉擎天柱”的成立,它初次是正在 2021 年特斯拉首个“人为智能日”(AI Day)上被马斯克揭晓,该项目旨正在创设一种通用仿人机械人,也许履行人类不肯履行的危境、反复或枯燥职业。该机械人计划得既友情又太平,需要时人类可能超越或顺服它。

  起首,表界并没有对这款“擎天柱”机械人有过太多的合怀。然而,近一年来,跟着 AIGC 操纵的大火,越来越多的人参与了人形机械人创业的海潮,席卷稚晖君参与创业公司「智元机械人(AGIBot)」半年之后便带来了首款智元具身智能机械人远征 A1 进而参与战局。

  相较之下,背靠特斯拉,“特斯拉擎天柱”机械人最吸引人的地方之一是它与特斯拉全自愿驾驶(FSD)身手的亲密合连。Optimus 机械人和特斯拉的 FSD 依赖于不异的人为智能编造和硬件,告终了无缝集成,并充沛运用了特斯拉正在神经搜集和自愿编造方面的现有专业常识。

  只然而,有些可惜的是,目前还没相合于 TeslaBot 何时计划好参加分娩或贸易利用的新闻。

  这真是个好东西。发展神速。我有一个挑剔的地方,那即是它的行动有极少缺陷,原来民多半人也会如此做,例如臀部的运动会牵连得手臂的运动。除非它不具备像人类那样挪动上背部的才华,不然没有需要向后挪动臀部。我提议再推广一个合节,除非它能正在没相合节的状况下竣事预订的事情。从物理学的角度来看,因为缺乏某些合节,以及正在人类演示无效行动的视频中领受练习,它的许多行动正在死板上都是无效的。这并不是什么大题目,除非无功效学形成的磨损会影响它的寿命。

  当机械人只是恣意地做瑜伽时,每个体都正在合怀它的分类才华,这是一项极其清贫的重量分派和微调节职业。直立均衡最先就绝顶清贫,而行走对机械人来说也是一个寻事。能做到这一点真是令人赞叹B体育做瑜伽分类货品特斯拉“擎天柱”人形呆板人再进化Get 新本领

搜索