智研档案·师者说｜新进教师：何淑婷

发布者：余未希发布时间：2025-07-09浏览次数：301

SUFE`SCAI

何淑婷

研究方向：计算机视觉、多模态大模型、三维场景理解、图像与视频分割等

现任职务：上海财经大学计算机与人工智能学院助理教授

Q：可以谈谈您的研究方向吗？

我的研究方向主要聚焦于计算机视觉，涵盖多模态大模型、三维场景理解、图像与视频对象分割、以及图像与视频中的行人行为分析等方向。

随着人工智能技术的飞速发展，视觉智能系统已经广泛应用于自动驾驶等实际场景，成为推动智能化社会发展的关键技术支撑。近年来，计算机视觉正与多领域深度交叉融合，例如，视觉与决策学习结合，使智能体在复杂环境中具备更强的任务执行能力。计算机视觉的前沿问题是多模态感知与场景理解，正在逐步从单一模态处理向跨模态融合、从二维图像识别向三维语义理解演进。

我致力于探索如何通过构建统一、多模态、可泛化的视觉模型，更高效地理解真实世界的复杂感知信息，并赋能具身智能系统的实际部署。我相信，未来计算机视觉不仅仅是图像的理解工具，更将成为理解空间、语义、人类行为和多模态世界的智能接口。

Q：可以谈谈您的研究成果吗？

博士期间的前半段，我主要关注的是图像与视频中的行人行为分析，特别是行人重识别问题（Person Re-identification）。这项技术在智能安防和公共场所行为理解中具有重要应用价值。我们提出了Transformer-based架构TransReID，引入结构化注意力机制与视角建模方法，有效提升了复杂场景下的匹配鲁棒性。该工作被ICCV收录，目前在Google Scholar上的引用已超过1200次，成为该领域的重要代表作之一，也引发了多个后续方法在Transformer结构与视觉表征上的进一步研究。

在瑞士苏黎世联邦理工学院（ETH Zurich）访学期间，我开始将研究兴趣从单一目标识别拓展到图像与视频对象分割，更加关注场景中的多目标理解与空间结构建模。当时正值自动驾驶、AR/VR等应用兴起，对高精度场景解析提出了新需求。我们在该阶段的研究中探索了多尺度语义融合机制和视频级时序建模方法，为后续3D场景理解与动态感知奠定了基础。

博士后阶段在新加坡南洋理工大学（NTU），我逐渐将研究重心转向多模态大模型与三维场景理解，尝试回答一个更为复杂但具有广泛现实意义的问题：如何让智能体在动态、复杂、甚至信息缺失的环境中，通过融合视觉、语言、动作等多模态信息进行稳健理解与决策？这一问题与近年来兴起的具身智能（Embodied AI）紧密相关，也正是我目前在上海财经大学持续拓展的主要方向。

在上财工作的这段时间，我在延续多模态融合与三维感知的基础上，更进一步将研究聚焦于具身智能系统中的感知与学习机制。近期发表的论文ReferSplat探究在三维高斯渲染场景中，基于自然语言描述进行目标感知，成果被ICML收录为Oral，接收率仅为1%。

Q：对学院的工作环境印象如何？

学院整体团队非常年轻，充满活力，大家在各自研究方向上都展现出了极强的探索精神与推动力。在与同事的日常交流中，不仅能够感受到学院开放、平等的学术氛围，也时常被大家的科研热情所感染。我很珍惜这样一个可以自由讨论、不断碰撞思想火花的环境。

我也特别期待未来能与学院内外的老师们展开更多深入合作，在多模态感知、具身智能、大模型等方向持续产出高质量成果。在这里开展科研工作，不仅有足够的自由度与支持机制，也有一群志同道合的同行，我对接下来的合作与成长充满信心与期待。

—— 何淑婷老师简介 ——

何淑婷，上海财经大学计算机与人工智能学院助理教授，上海市“浦江人才”入选者，主持上海市自然科学基金青年项目。2018 年本科毕业于厦门大学，2023 年于浙江大学获得工学博士学位。博士期间曾赴瑞士苏黎世联邦理工学院计算机视觉实验室（CVL）访学交流。2023 年在新加坡南洋理工大学从事博士后研究工作。研究方向包括计算机视觉、多模态大模型、三维场景理解、图像与视频分割等。近四年在 CCF A/B 类国际顶级会议与期刊（如 CVPR、ICCV、ICML 等）发表论文 30 余篇，其中第一作者论文 10 篇。担任计算机视觉会议BMVC的领域主席(Area Chair)、JCR一区期刊Mathematics的客座编辑(Guest Editor)。

谷歌学术主页：

https://scholar.google.com/citations?user=mO40IjIAAAAJ

编审｜王晓