B体育做瑜伽分类物品特斯拉“擎天柱”人形机械人再进化Get 新才力

2023-09-25 23:52:54
浏览次数:
返回列表

  B体育比拟 X 平台(前身为 Twitter) 流量下滑的失意,马斯克旗下的人形机械人 Optimus(擎天柱)风生水起。

  就正在刚才过去的周日,Tesla Optimus 官方号正在 X 平台上分享了一段精美的视频,涌现了人形机械人擎天柱实行各样职分,席卷了做瑜伽和自愿按色彩对方块实行分类。

  譬如,正在视频中,这款机械人能够仰仗相同人类的速率轻松分类物体的才能,识别物品的差异色彩。再者,当人类过问职分增添杂乱性时,擎天柱可以急速适当这种转变并得胜告竣职分。

  然后机械人也能做出必要单腿站立并蔓延手脚的瑜伽式样,涌现其平均性和敏捷性。

  遵照视频,擎天柱现正在可以自我校准它的手臂和腿。它还能够应用视觉和合节地方编码器正在空间中精准定位其肢体。这一功用使机械人可以更高效瑜伽、更精确地告竣物理职分。这种秤谌的自我校准也许是开创性的,加倍是正在必要对细节幼心翼翼的处境中。

  值得提防的是,视频显示 TeslaBot 现正在运转与 Tesla 汽车雷同的端到端神经汇集上,该汇集能够管束视频输入并天生把持输出,基于此,这种练习技巧能够使机械人可以以极高的精度实行职分。

  毫无疑难,这一视频的揭橥代表了人形机械人获得了又一强大冲破,对此,马斯克也应用了「Progress」(先进)做了评议。

  截至目前,Tesla Optimus 只是单纯地分享了这一视频,并没有进一步揭发其操纵到的时间细节,可谓是吊足了机械人酷爱者的胃口。

  对此,也有良多人料想,这段视频是不是用 CGI(打算机天生图像)合成的,可是,NVIDIA 高级 AI 科学家、斯坦福大学博士 Jim Fan 正在 X 上()分享了他对 Tesla Optimus 涌现的视频实行逆向工程之后,本人对该时间客栈的认识,最终得出一个结论:

  波士顿动力公司的 Atlas 惟有单纯的抓手。从很久来看,擎天柱 那双灵活的五指手正在平时做事中将会发扬得特别突出。

  接下来,咱们可以看看其逆向工程获得的极少挖掘瑜伽。对此,Jim Fan 也夸大道,没有秘闻信息,这里惟有他本人通过对视频的认识与相干时间的清晰。

  最初,Tesla Optimus 人形机械人通畅的手部行为简直能够相信是通过人类操作员的师法进修(动作克隆)练习出来的。另一种技巧是模仿加强进修,但这一般会导致行为震颤和手部式样不天然。

  基于此,Jim Fan 判辨道,个中起码有四种技巧能够网罗“人类演示”:

  定造长途操作编造--Jim Fan 以为这是特斯拉团队最有也许采用的技巧。开源实例:ALOHA是斯坦福人为智能实习室()推出的一款低本钱双臂死板臂和长途操作编造。它能告终特别精准、灵活的行为,比方将 AAA 电池装入遥控器或操作隐形眼镜。

  行为捕获(MoCap):使用好莱坞片子中应用的 MoCap 编造来捕获手部合节的微幼行为。Tesla Optimus 采用了与人类相仿的五指手B体育,这是一个很好的计规定夺,能够告终直接照射,由此与人类操作员之间不存正在简直差异。

  比方,演示者能够戴上 CyberGlove(),收拢桌子上的方块(如视频所示)。CyberGlove 将及时捕获运动信号和触觉反应,并将其从头定向到 Optimus 上。

  戴手套和标记笔会很呆笨。另一种告终 MoCap 的技巧是打算机视觉。英伟达™(NVIDIA®)公司的 DexPilot 可告终无标志、无需戴手套的数据网罗。人类操作员只需徒手即可告竣职分。4 个英特尔 RealSense 深度摄像头和 2 个英伟达™(NVIDIA®)Titan XP GPU(2019 年参加应用)将像素转化为精准的运动信号,供机械人进修。

  VR 头显:将练习室酿成 VR 游戏,让人类 饰演 擎天柱。应用原生 VR 把持器或 CyberGlove 把持虚拟的 Optimus 双手。这拥有可扩展的长途数据网罗上风——天下各地的评释者无需亲临现场也能做出孝敬。

  VR 演示时间展示正在 iGibson 家庭机械人模仿器等探讨项目中,Jim Fan 正在斯坦福大学出席了这项策划:。

  以上四种时间并不彼此排斥。Optimus 能够遵照差异的利弊组合应用它们。

  其次,Tesla Optimus 采用了神经汇集布局。Optimus 是端到端的练习:视频输入,行为输出瑜伽。对此,Jim Fan 显露,“我很确定它是由一个多模态转换器告终的”,个中包蕴以下组件:

  图像:高效 ViT 的某种变体,或者只是一个旧的 ResNet/EfficientNet 主干网 (。方块拾取和安置演示不必要杂乱的视觉时间。图像主干的空间特点图能够很容易地标志化。

  视频:两种技巧。要么将视频扁平化为一系列图像并独立天生 token,要么应用视频级令牌天生器。高效管束视频像素的技巧有良多。你不必然必要 Transformer主干,比方 SlowFast Network()和 RubiksNet(,我正在 ECCV 2020 上的论文,高效的 CUDA 移位原语)。

  讲话:尚不清爽 Optimus 是否有讲话提示。假设有,就必要有一种技巧将讲话表征 交融 到感知中。FiLM 是一个特别轻量级的神经汇集模块,能够告终这一主意()。

  行为标志化:Optimus 必要将一连运动信号转换为离散标志瑜伽,以便自回归 Transformer 做事。有以下几种技巧:

  - 直接对每个手合节把持的一连值实行分类。[0,0.01) ->

  token #0,[0.01,0.02) ->

  token #1,等等。这种技巧单纯清楚,但因为序列长度较长,出力也许不高。

  - 合节运动互相高度依赖,这意味着它们攻克了一个低维的 形态空间。将 VQVAE 使用于运动数据,可得回长度更短的压缩 Token 集。

  将上述局部组合正在一道,咱们就有了一个 Transformer 把持器,它损耗视频token(可选拔讲话调造),并一步一步地输出行为 token。表格中的下一帧画面会反应给 Transformer,如许它就领会了本人行为的结果。如许就具备了演示中涌现的自我修正才能。

  最终,Jim Fan 显露,“硬件质地给我留下了深入印象。行为通畅,体面大方。正如我上面提到的,紧跟人类状态是一个伟大的定夺B体育,如许正在师法人类方面就没有差异了。”

  实在回看“特斯拉擎天柱”的出生,它初次是正在 2021 年特斯拉首个“人为智能日”(AI Day)上被马斯克揭晓,该项目旨正在创造一种通用仿人机械人,可以实行人类不肯实行的风险B体育、反复或枯燥职分。该机械人计划得既友情又安好,须要时人类能够超越或取胜它。

  早先,表界并没有对这款“擎天柱”机械人有过太多的合怀。可是,近一年来,跟着 AIGC 使用的大火,越来越多的人插手了人形机械人创业的海潮,席卷稚晖君插手创业公司「智元机械人(AGIBot)」半年之后便带来了首款智元具身智能机械人远征 A1 进而插手战局瑜伽。

  相较之下,背靠特斯拉,“特斯拉擎天柱”机械人最吸引人的地方之一是它与特斯拉全自愿驾驶(FSD)时间的亲近联系。Optimus 机械人和特斯拉的 FSD 依赖于雷同的人为智能编造和硬件,告终了无缝集成,并弥漫运用了特斯拉正在神经汇集和自愿编造方面的现有专业学问。

  只能是,有些缺憾的是,目前还没相合于 TeslaBot 何时绸缪好参加出产或贸易应用的音讯。

  这真是个好东西。先进神速。我有一个挑剔的地方,那即是它的行为有极少缺陷,实在大大批人也会如许做,譬喻臀部的运动会牵涉得手臂的运动。除非它不具备像人类那样搬动上背部的才能,不然没有须要向后搬动臀部。我发起再增添一个合节,除非它能正在没相合节的境况下告竣预订的做事。从物理学的角度来看,因为贫乏某些合节,以及正在人类演示无效行为的视频中承担练习,它的良多行为正在死板上都是无效的。这并不是什么大题目,除非无成效学酿成的磨损会影响它的寿命。

  当机械人只是疏忽地做瑜伽时,每幼我都正在合怀它的分类才能,这是一项极其麻烦的重量分拨和微调剂职分。直立平均最初就特别麻烦,而行走对机械人来说也是一个离间。能做到这一点真是令人感叹B体育做瑜伽分类物品特斯拉“擎天柱”人形机械人再进化Get 新才力

搜索