开云电竞做瑜伽分类物品特斯拉“擎天柱”人形机械人再进化Get 新工夫

2023-09-27 01:25:52
浏览次数:
返回列表

  开云电竞比拟 X 平台(前身为 Twitter) 流量下滑的失意,马斯克旗下的人形机械人 Optimus(擎天柱)风生水起。

  就正在刚才过去的周日,Tesla Optimus 官方号正在 X 平台上分享了一段精美的视频,出现了人形机械人擎天柱实施种种职司,蕴涵了做瑜伽和自愿按色彩对方块举行分类。

  譬如,正在视频中,这款机械人能够仰仗相同人类的速率轻松分类物体的才智,识别物品的差异色彩。再者,当人类干涉职司增长繁杂性时,擎天柱不妨敏捷顺应这种转化并凯旋告终职司。

  然后机械人也能做出须要单腿站立并正直手脚的瑜伽状貌,出现其均衡性和灵动性。

  按照视频,擎天柱现正在不妨自我校准它的手臂和腿。它还能够操纵视觉和合节场所编码器正在空间中精准定位其肢体。这一效用使机械人不妨更高效、更动确地告终物理职司。这种水准的自我校准也许是开创性的,越发是正在须要对细节谨幼慎微的境况中。

  值得贯注的是,视频显示 TeslaBot 现正在运转与 Tesla 汽车肖似的端到端神经收集上,该收集能够处置视频输入并天生负责输出,基于此,这种锻练本领能够使机械人不妨以极高的精度实施职司。

  毫无疑义,这一视频的揭晓代表了人形机械人获得了又一庞大打破,对此,马斯克也操纵了「Progress」(前进)做了评判。

  截至目前,Tesla Optimus 只是容易地分享了这一视频,并没有进一步暴露其使用到的身手细节,可谓是吊足了机械人喜爱者的胃口。

  对此,也有良多人推想,这段视频是不是用CGI(揣度机天生图像)合成的,但是,NVIDIA 高级 AI 科学家、斯坦福大学博士 Jim Fan正在 X 上()分享了他对 Tesla Optimus 出现的视频举行逆向工程之后,己方对该身手客栈的了解,最终得出一个结论:

  波士顿动力公司的 Atlas 惟有容易的抓手。从深远来看,擎天柱 那双圆活的五指手正在平时职业中将会再现得特别生色。

  接下来,咱们没关系看看其逆向工程取得的少少出现。对此,Jim Fan 也夸大道,没有底细音信,这里惟有他己方通过对视频的了解与合联身手的领略。

  最初,Tesla Optimus 人形机械人畅达的手部行动简直能够断定是通过人类操作员的仿效研习(作为克隆)锻练出来的。另一种本领是模仿深化研习,但这一般会导致行动颤动和手部状貌不天然。

  基于此,Jim Fan 理会道,此中起码有四种本领能够搜聚“人类演示”:

  Jim Fan 以为这是特斯拉团队最有也许采用的本领。开源实例:ALOHA是斯坦福人为智能实践室()推出的一款低本钱双臂呆滞臂和长途操作体系。它能完毕额表精准、圆活的行动,比如将 AAA 电池装入遥控器或操作隐形眼镜。

  行使好莱坞片子中操纵的 MoCap 体系来缉捕手部合节的细幼行动。Tesla Optimus 采用了与人类相仿的五指手,这是一个很好的安排确定,能够完毕直接照射,由此与人类操作员之间不存正在的确差异。

  比如,演示者能够戴上 CyberGlove()开云电竞,收拢桌子上的方块(如视频所示)。CyberGlove 将及时缉捕运动信号和触觉反应,并将其从新定向到 Optimus 上。

  另一种完毕 MoCap 的本领是揣度机视觉。英伟达™(NVIDIA®)公司的 DexPilot 可完毕无标志、无需戴手套的数据搜聚。人类操作员只需徒手即可告终职司。4 个英特尔 RealSense 深度摄像头和 2 个英伟达™(NVIDIA®)Titan XP GPU(2019 年参加操纵)将像素转化为精准的运动信号,供机械人研习。

  将锻练室造成 VR 游戏,让人类 饰演 擎天柱。操纵原生 VR 负责器或 CyberGlove 负责虚拟的 Optimus双手。这拥有可扩展的长途数据搜聚上风——宇宙各地的注解者无需亲临现场也能做出功勋。

  VR 演示身手呈现正在 iGibson 家庭机械人模仿器等钻探项目中,Jim Fan 正在斯坦福大学加入了这项谋划:。

  以上四种身手并不互相排斥。Optimus 能够按照差异的利弊组合操纵它们。

  其次,Tesla Optimus 采用了神经收集布局。Optimus 是端到端的锻练:视频输入,行动输出。对此,Jim Fan 呈现,“我很确定它是由一个多模态转换器完毕的”,此中包罗以下组件:

  图像:高效 ViT 的某种变体,或者只是一个旧的 ResNet/EfficientNet 主干网 (。方块拾取和安放演示不须要繁杂的视觉身手。图像主干的空间特色图能够很容易地标志化。

  视频:两种本领。要么将视频扁平化为一系列图像并独立天生 token,要么操纵视频级令牌天生器。高效处置视频像素的本领有良多。你不必然须要 Transformer主干,比如 SlowFast Network()和 RubiksNet(,我正在 ECCV 2020 上的论文,高效的 CUDA 移位原语)。

  说话:尚不明晰 Optimus 是否有说话提示。假设有,就须要有一种本领将说话表征 调解 到感知中。FiLM 是一个额表轻量级的神经收集模块,能够完毕这一目标()。

  行动标志化:Optimus 须要将延续运动信号转换为离散标志,以便自回归 Transformer 职业开云电竞。有以下几种本领:

  - 直接对每个手合节负责的延续值举行分类。[0,0.01) - token #0,[0.01,0.02) - token #1,等等。这种本领容易清楚,但因为序列长度较长,效能也许不高。

  - 合节运动互相高度依赖,这意味着它们霸占了一个低维的 状况空间。将 VQVAE 行使于运动数据,可取得长度更短的压缩 Token 集。

  将上述个人组合正在一齐,咱们就有了一个 Transformer 负责器,它耗费视频token(可采取说话调造),并一步一步地输出行动 token。表格中的下一帧画面会反应给 Transformer,如此它就显露了己方行动的结果。如此就具备了演示中出现的自我厘正才智。

  最终,Jim Fan呈现,“硬件质地给我留下了深入印象。行动畅达,面子大方。正如我上面提到的,紧跟人类状态是一个伟大确凿定,如此正在仿效人类方面就没有差异了。”

  原来回看“特斯拉擎天柱”的降生,它初度是正在 2021 年特斯拉首个“人为智能日”(AI Day)上被马斯克揭晓,该项目旨正在创造一种通用仿人机械人,不妨实施人类不肯实施的风险、反复或匮乏职司。该机械人安排得既友谊又安笑,须要时人类能够超越或战胜它。

  开始,表界并没有对这款“擎天柱”机械人有过太多的合怀。但是,近一年来,跟着 AIGC 行使的大火,越来越多的人列入了人形机械人创业的海潮,蕴涵稚晖君列入创业公司「智元机械人(AGIBot)」半年之后便带来了首款智元具身智能机械人远征 A1 进而列入战局。

  相较之下瑜伽,背靠特斯拉开云电竞,“特斯拉擎天柱”机械人最吸引人的地方之一是它与特斯拉全自愿驾驶(FSD)身手的亲近合连。Optimus 机械人和特斯拉的 FSD 依赖于肖似的人为智能体系和硬件,完毕了无缝集成,并充盈诈骗了特斯拉正在神经收集和自愿体系方面的现有专业学问。

  只但是,有些缺憾的是,目前还没相合于 TeslaBot 何时计算好参加出产或贸易操纵的消息。

  这真是个好东西。前进神速。我有一个挑剔的地方,那即是它的行动有少少缺陷,原来大大批人也会如此做,比方臀部的运动会牵连得手臂的运动。除非它不具备像人类那样搬动上背部的才智,不然没有须要向后搬动臀部。我提倡再增长一个合节,除非它能正在没相合节的处境下告终预订的职业。从物理学的角度来看,因为匮乏某些合节,以及正在人类演示无效行动的视频中给与锻练,它的良多行动正在呆滞上都是无效的。这并不是什么大题目,除非无功效学酿成的磨损会影响它的寿命。

  当机械人只是大意地做瑜伽时,每局部都正在合怀它的分类才智,这是一项极其贫苦的重量分拨和微调理职司。直立均衡最初就额表贫苦,而行走对机械人来说也是一个挑拨。能做到这一点真是令人赞叹开云电竞做瑜伽分类物品特斯拉“擎天柱”人形机械人再进化Get 新工夫

搜索