划重点: 全球首个通用VLA模型Helix:打破传统机器人“单一任务专用”局限,实现视觉-语言-行动统一决策,无需编程或演示即可操控数千种陌生物品。 类人双系统架构:独创“系统1(快思考)+系统2(慢思考)”架构,200Hz高频动作与语义理解并行,精准控制35个自由度上半身。 多机协作新范式:双机器人共享同一模型,仅凭自然语言指令完成杂货分拣等高难度协作,商业化部署成本锐减。 家庭场景破局者:从“人工智障”到“类人管家” 家庭环境被视为机器人技术的“终极考场”——散落的玩具、易碎的玻璃杯、褶皱衣物等随机场景远超工业场景的标准化。传统方案需针对每个物品编写代码或收集海量数据,成本高且扩展性差。而Figure AI最新发布的通用视觉-语言-行动(VLA)模型Helix,通过模仿人类“直觉反应+深度思考”的双系统模式,首次实现家庭场景的零样本泛化操作。 技术架构:类人认知的“双系统”革命 Helix的核心突破在于将人类认知机制拆解为两大互补系统: 系统2(慢思考):基于7B参数开源视觉语言模型,以7-9Hz频率解析环境语义。例如识别“沙漠中的物品”时,迅速锁定玩具仙人掌并规划行动逻辑。 系统1(快思考):8000万参数Transformer策略网络,以200Hz超高频将语义指令转化为35个自由度的连续动作,如调整躯干角度、计算手指弯曲力度等。 二者通过潜向量实时通信,实现“战略-战术”的无缝衔接。这种架构使Helix仅需500小时训练数据(不足同类5%),即可掌握开抽屉、冰箱收纳等复杂技能,且所有任务共享同一模型权重,无需微调。 突破性表现:抓取万物、多机共舞 在实测中,配备Helix的Figure机器人展现出三大颠覆能力: 零样本抓取任意物品:从玻璃杯到皱T恤,成功率超预期。当指令为“拿沙漠物品”时,精准锁定玩具仙人掌并调整抓握力度。 双机器人无脚本协作:两台机器人共享Helix模型,仅凭自然语言指令完成杂货分拣交接。例如“将饼干递给右侧机器人”,双方自主协调动作时序与空间路径。 全身协同控制:头部跟踪抓取目标时,躯干同步调整重心,手指以毫米级精度操作,打破传统机械臂“顾头不顾尾”的僵化模式。 商业化临界点已至:低功耗GPU直接部署 Helix首次实现全嵌入式部署——仅需双低功耗GPU即可运行,摆脱对大型算力中心的依赖。这意味着人形机器人可立即进入家庭、仓储等真实场景。对比特斯拉Optimus等竞品仍需特定演示学习,Helix的“开箱即用”特性大幅降低商用门槛。 未来:模型扩大千倍后的想象 尽管已实现突破,Figure团队认为Helix仅展现冰山一角。当前模型参数规模(系统2的7B+系统1的80M)远未达AI大模型水平,未来千倍扩展后,机器人或将涌现更复杂的认知能力,如自主规划多步任务(“整理儿童房-分类玩具-清洁地面”)。 行业意义:通用机器人奇点临近 Helix的发布标志着人形机器人从“单一技能工具”向“通用家庭管家”的质变。随着成本下降与可靠性提升,2025年或成服务机器人规模化落地元年。据ABI Research预测,2030年全球人形机器人市场规模将突破千亿美元,而具备VLA大脑的玩家有望收割最大红利。 结语 当机器人学会“像人类一样思考”,其价值将不再局限于重复劳动。Helix的出现,或许正为“机器人走进每个家庭”按下加速键。
|
从“带薪躺平”到AI护梦:慕思掀起了一场全
2025揽胜运动版,在极限挑战中锻造的质量标