1月20日,陕西省第七届丝绸之路青年学者论坛西北大学计算机学院分论坛在长安校区计算机学院1006学术报告厅顺利举行。中山大学计算机学院博士研究生王祎昊应邀为师生作了题为"视觉语言理解的细粒度语义对齐:以跨模态行人检索为例"的专题报告。计算机学院党委书记赵万峰、院长陈晓江及50余名师生代表共同参与,报告会由孟宪佳教授主持。
报告从多模态智能正成为下一代人工智能核心能力的背景切入,王祎昊博士首先系统梳理了当前视觉语言理解领域面临的关键挑战。他指出,跨模态行人检索作为细粒度视觉语言任务的核心挑战在于解决图像与文本间的"粒度差异"和"信息缺口"问题。针对这些挑战,王博士介绍了其研究团队提出的基于迁移学习的细粒度语义对齐方法(SAP-SAM)。该方法通过知识精解与迁移从大模型中提炼行人专用分割模型,精准捕捉文本短语与图像区域的一对一细粒度关联;进一步设计显式局部概念对齐与注意力跨模态解码模块,分别缓解粒度差异与信息缺口问题。该方法在CUHK-PEDES、ICFG-PEDES、RSTPReid三大主流数据集上均实现当前最优性能,Rank-1准确率分别达到75.05%、63.97%和62.85%。此外,王祎昊博士将技术应用场景延伸至无人机空中视角,构建了首个空中视角行人检索数据集,并通过信息论指导的点发现与视觉语义验证方法,实现了从检索到分割的智能推理延伸,展现出良好的技术延展性与应用潜力。
整场报告内容前沿充实、层层深入,充分激发了在场师生的学术兴趣。在交流环节,与会师生就细粒度对齐的工程实现、无人机场景的技术难点等问题与王博士进行了热烈讨论。本次报告有效增进了师生对视觉语言理解前沿技术的理解,充分展现了青年学者在多模态人工智能领域的创新活力与学术洞察力。
