IT之家 1 月 23 日消息,如何将视觉语⾔基础模型(Vision Language Models, VLMs)应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题,这⼀⽬标的实现受两⼤关键挑战制约: VLM 缺少精确的 3D 理解能⼒:通过对⽐学习范式训练、仅以 2D 图像 / ⽂本作为输⼊的 ...
【提升机器人3D操作能力 北京大学与智元机器人联合实验室发布OmniManip】《科创板日报》23日讯,北大携手智元机器⼈团队提出OmniManip架构,基于以对象为中心的3D交互基元,将VLM的高层次推理能力转化为机器人的低层次高精度动作。针对大模型幻觉问题和真实环境操作的不确定性OmniManip引入了VLM规划和机器人执行的双闭环系统设计,实现了操作性能突破。OmniManip作为⼀种免训练 ...