南洋理工大学静永程博士受邀分享具身智能前沿进展，展望下一代通用视觉语言动作模型

作者：来源：BB贝博艾弗森发布时间：2025-11-11浏览次数：10

2025年11月6日晚，BB贝博艾弗森BB贝博艾弗森成功举办“具身智能”主题线上学术报告。本次讲座特邀新加坡南洋理工大学研究科学家静永程博士，围绕“具身智能规模化发展：下一代通用基础模型在物理世界中的感知、推理与行动”展开深入讲解，吸引了公司广大师生在线参与。

静永程博士首先系统回顾了视觉-语言-动作模型的发展历程，指出当前研究多聚焦于高层、慢速控制系统，尤其是在双臂机器人平台上取得显著进展。他介绍了如OpenVLA、Pi0、Gemini Robotics等主流VLA系统，并以上海AI实验室提出的通用模型VeBrain为例，阐述了如何将机器人控制任务转化为多模态大语言模型可处理的二维视觉任务，实现感知、推理与控制的统一。

在分析现有系统局限时，静博士指出，当前顶尖具身AI系统多为闭源，开源模型如OpenVLA在泛化能力上仍有不足。此外，多数系统为优化控制性能，往往牺牲了多模态推理等其他能力。他强调，构建兼具鲁棒性、高效性与通用性的具身智能系统，是推动其走向实际应用的关键。

针对“鲁棒性”挑战，静博士重点介绍了测试时适应技术，该技术可在无需标注的情况下，使模型在部署环境中实时自适应，提升在天气变化、传感器噪声等复杂场景下的稳定性。在“高效性”方面，他系统梳理了训练感知与训练自由两类优化方法，包括动态剪枝、量化、视觉令牌复用等策略，并分享了其团队在ICML 2025上发表的最新成果“检索增强感知”，该方法通过视觉RAG机制，显著提升高分辨率图像的理解效率，获得会议口头报告荣誉。

本次报告内容前沿、逻辑清晰，为控制科学与工程领域的师生提供了具身智能研究的最新动态与技术路径，激发了大家对机器人智能控制、多模态感知、模型轻量化等方向的深入思考。公司今后将继续组织此类高水平学术活动，推动学科交叉与创新人才培养。

静永程，现任新加坡南洋理工大学研究科学家，从事大语言模型高效推理方法研究。2023年于澳大利亚悉尼大学取得博士学位，师从澳大利亚科公司院士陶大程教授。已发表CCF/清华A类论文14篇，其中发表第一作者A类论文9篇；包括CVPR Highlight 1篇（前2.5%），CVPR Oral 1篇（前4.2%），AAAI Oral 1篇（前4.5%），ESI高被引1篇，ICML 2025 Oral 1篇（前1%）。第一作者论文单篇最高被引超过1000次，Github单篇第一作者论文代码仓库获得星标1600余个，4篇第一作者论文单篇被引超过100次，成果获得60余位院士、Fellow的正面评价。受邀担任CCF-A类会议ACM MM领域主席，IET Signal Processing期刊编委，获得中国教育部国家优秀自费职工奖（全球所有学科每年650名）、浙江省优秀硕士学位论文（浙江大学计算机领域唯一入选者）、CCF-A类会议CVPR颁发的CVPR Doctoral Consortium Award、清华大学AMiner 2025年度AI 2000最具影响力学者提名奖等。

实验教学平台

集团OA系统

集团邮件系统