人形机器人迈入「类人认知」时代！Figure发布首款通用VLA大脑Helix，零样本抓取任意家庭物品

2025-2-21 09:48| 发布者: mtwork| 查看: 3099| 评论: 0|来自: 快商业

摘要: 家庭环境被视为机器人技术的“终极考场”——散落的玩具、易碎的玻璃杯、褶皱衣物等随机场景远超工业场景的标准化。传统方案需针对每个物品编写代码或收集海量数据，成本高且扩展性差...

划重点：

全球首个通用VLA模型Helix：打破传统机器人“单一任务专用”局限，实现视觉-语言-行动统一决策，无需编程或演示即可操控数千种陌生物品。

类人双系统架构：独创“系统1（快思考）+系统2（慢思考）”架构，200Hz高频动作与语义理解并行，精准控制35个自由度上半身。

多机协作新范式：双机器人共享同一模型，仅凭自然语言指令完成杂货分拣等高难度协作，商业化部署成本锐减。

家庭场景破局者：从“人工智障”到“类人管家”

家庭环境被视为机器人技术的“终极考场”——散落的玩具、易碎的玻璃杯、褶皱衣物等随机场景远超工业场景的标准化。传统方案需针对每个物品编写代码或收集海量数据，成本高且扩展性差。而Figure AI最新发布的通用视觉-语言-行动（VLA）模型Helix，通过模仿人类“直觉反应+深度思考”的双系统模式，首次实现家庭场景的零样本泛化操作。

技术架构：类人认知的“双系统”革命

Helix的核心突破在于将人类认知机制拆解为两大互补系统：

系统2（慢思考）：基于7B参数开源视觉语言模型，以7-9Hz频率解析环境语义。例如识别“沙漠中的物品”时，迅速锁定玩具仙人掌并规划行动逻辑。

系统1（快思考）：8000万参数Transformer策略网络，以200Hz超高频将语义指令转化为35个自由度的连续动作，如调整躯干角度、计算手指弯曲力度等。

二者通过潜向量实时通信，实现“战略-战术”的无缝衔接。这种架构使Helix仅需500小时训练数据（不足同类5%），即可掌握开抽屉、冰箱收纳等复杂技能，且所有任务共享同一模型权重，无需微调。

突破性表现：抓取万物、多机共舞

在实测中，配备Helix的Figure机器人展现出三大颠覆能力：

零样本抓取任意物品：从玻璃杯到皱T恤，成功率超预期。当指令为“拿沙漠物品”时，精准锁定玩具仙人掌并调整抓握力度。

双机器人无脚本协作：两台机器人共享Helix模型，仅凭自然语言指令完成杂货分拣交接。例如“将饼干递给右侧机器人”，双方自主协调动作时序与空间路径。

全身协同控制：头部跟踪抓取目标时，躯干同步调整重心，手指以毫米级精度操作，打破传统机械臂“顾头不顾尾”的僵化模式。

商业化临界点已至：低功耗GPU直接部署

Helix首次实现全嵌入式部署——仅需双低功耗GPU即可运行，摆脱对大型算力中心的依赖。这意味着人形机器人可立即进入家庭、仓储等真实场景。对比特斯拉Optimus等竞品仍需特定演示学习，Helix的“开箱即用”特性大幅降低商用门槛。