世界行动模型 MotuBrain

MotuBrain 基于原创的 UniDiffuser 框架与三流 MoT 架构,在底层实现了感知、规划与执行的统一建模,将"世界预测"与"动作生成"耦合于同一框架内。该模型可同时支持 VLA、世界模型、视频生成、逆动力学建模及视频-动作联合预测等任务,具备良好的多本体适配性、跨任务泛化能力与长程任务执行能力,可赋予机器人接近人类水平的物理直觉,从而在家庭、工业及商业等真实场景中完成复杂的端到端连续任务。

查看技术报告

真实任务演示

MotuBrain 可端到端地连续完成包含十个以上原子动作的复杂长程序列任务,并在子任务衔接与时序一致性上保持稳定;其所建模的物理行动规律具备高度普适性与跨本体可迁移性,能够在不同本体形态间实现统一泛化。

世界行动模型MotuBrain:开启具身智能多任务泛化与规模化演进新范式

在模型架构上,MotuBrain 基于 UniDiffuser 统一建模框架,通过跨模态先验融合(Cross-modal Priors Fusion),将视觉语言知识(VLM)、视频动态知识(Video Generation Model)与动作技能知识(Action Expert)整合进同一模型,实现语言、视频与动作的统一表达与生成,构建真正意义上的统一世界行动模型。

国际权威基准评测双项夺冠

两项国际主流基准评测均斩获第一,全面体现 MotuBrain 在感知、规划与行动统一建模上的综合优势。

RoboTwin 2.0 榜单

在 RoboTwin 2.0 中,MotuBrain 在 Clean 和 Randomized 两个场景下分别达到 95.8 和 96.1,同样排名第一,是榜单上唯一一个在随机环境下平均分超过 95 的模型,在大多数具体任务中也都取得了 100 或接近 100 的成绩。

WorldArena 榜单

在 WorldArena 上,MotuBrain 以 63.77 的总体 EWM Score 位居第一,并在 Motion Quality、Flow Score、Motion Smoothness 等多个关键运动维度上全面领跑。

Clean Randomized EWMScore