
近日,软件学院举办“智能・软件・未来”论坛第14期:视频压缩与理解系列讲座第3期,邀请中国科学院计算技术研究所研究员王瑞平作题为“面向开放世界可泛化的具身连续学习”的学术报告。
当前,具身智能正从封闭专用场景逐步向开放通用场景跨越,过程中面临三大关键挑战:从被动响应向主动交互转变、从闭集任务向开集任务拓展、从静态环境向动态环境适应。传统“一次训练、终身受用”的学习范式存在显著局限,难以支撑智能体在开放环境中持续积累知识与精进技能,建立系统性的具身连续学习范式已成为领域发展的核心需求。针对这一痛点,王瑞平团队聚焦开放环境下智能体的泛化能力提升,在具身连续学习领域取得了一系列探索成果与技术突破,包括动态环境下的3D高斯自适应场景表示方法GS-LTS——可实现对动态场景的精准建模与实时适配、基于棋盘格表示的具身交互框架R2C——为智能体与环境的高效交互提供结构化解决方案、示教视频指导的机械臂操作代码生成框架RoboPro——打通“视觉示教”到“动作执行”的技术链路、基于空间网格表示的机械臂动作序列生成框架GAS-Robo——提升机械臂动作规划的精准度与灵活性、面向动态任务的模仿学习方法DBC-TFP——助力智能体快速学习并适配动态变化的任务需求等。这些技术成果为突破传统学习范式局限、提升具身智能在开放世界的泛化能力提供了关键支撑。
王瑞平,中国科学院计算技术研究所研究员,Pattern Recognition、Neurocomputing等国际期刊编委。长期深耕计算机视觉与模式识别领域,尤其专注于真实开放环境下的视觉场景理解研究,在国际顶级期刊与会议发表论文100余篇,谷歌学术引用量超10000次,获授权国家发明专利9项,带领研究生6次斩获本领域主流国际学术竞赛冠亚军,其团队成果还荣获CVPR2021 CLVISION Workshop最佳论文奖。曾获2015年度国家自然科学奖二等奖、2022年度中国图象图形学学会自然科学奖一等奖(第1完成人)。
(文/图:高艳博 责任编辑:刘士军)