学术前沿

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

首次构建统一视觉-语言-动作模型,增强空间细节和动态信息理解。

论文

主体信息

首次构建统一视觉-语言-动作模型,增强空间细节和动态信息理解。

来源:RobotEra ERA-42 官网模型时间线,时间标记为 2025.1。