ENGLISH

电子新闻

祝贺!清华电子系MSIIP实验室斩获CVPR PortraitCraft挑战赛Track 1冠军

发布时间:2026-06-09 点击数:

近日,2026年国际计算机视觉与模式识别会议(CVPR)在美国科罗拉多州丹佛举办。首届多模态人像构图理解与生成大赛 作为CVPR 2026官方挑战赛之一圆满落幕。 清华大学电子工程系MSIIP实验室参赛团队在Track 1中脱颖而出,斩获冠军!

参赛队伍成员:博士生朱洵,硕士生张正、陈希

指导老师:吴及、李淼

Track 1需要基于输入的人像图像,完成预测整体构图分数、判断13个细粒度构图属性的水平,并回答一个与图像内容密切相关的选择题三项任务,从“分数预测一致性”、“属性判断准确率”与“视觉问答表现”三个维度综合评估模型能力,考察模型能否像专业摄影师一样,对人像照片的构图进行结构化、多层次的拆解与评估,理解画面中的视觉重心、元素布局及美学表达。

针对任务难点,团队观察到模型在排序指标上表现优异,却难以匹配人工设定的绝对分类阈值。其本质上是模型擅长捕捉相对质量而无法对齐固定边界, 为此团队设计了数据驱动的阈值校准方法,在验证集上自动搜索最优决策边界,巧妙地将等级分类转化为对模型内部排序的最优匹配,大幅提升了属性判断的准确率。 同时,团队基于多模态大语言模型分别构建了分类式与回归式两种模型,以捕捉不同粒度的训练信号——前者更擅长总分预测与零样本视觉问答,后者在等级分类上更具优势。在推理阶段,通过多分辨率、图像翻转、多温度采样以及多提示模板等测试时增强策略,进行多模型集成。最终,方案还引入总分与各子分数的线性关系进行校准,输出稳健可靠的最终预测。

图为博士生朱洵作为队伍代表受邀进行口头报告

本届挑战赛由美图影像研究院联合巴斯大学共同举办,聚焦“人像构图”这一前沿研究方向,共同探索AI在人像美学理解与创作能力上的新突破。赛事吸引了来自全球高校、科研机构及产业界共295支参赛团队的广泛参与,其中Track 1 有208支队伍,Track 2有87支队伍展开激烈角逐。

MSIIP实验室简介

多媒体信号与智能信息处理实验室(Multimedia Signal and Intelligent Information Processing Lab)隶属于清华大学电子工程系(以下简称“实验室”),现主任为吴及教授。目前,团队研究方向聚焦基于深度学习算法、医疗自然语言处理技术以及大语言模型、大数据分析等技术的智慧医疗管理、智慧运动康养、临床诊疗数字化、垂直领域大模型四个方向。

团队于2015年开始聚焦智慧医疗领域,2017年8月,团队开发的“智医助理”医考引擎在 2017 年国家执业医师考试临床综合笔试的测试中取得远超合格线的好成绩,成为世界上第一个通过国家执业考试的智能系统,技术孵化的全科辅助诊疗AI技术服务于全国3万多家基层医疗机构,孵化的智慧医保AI解决方案服务于国家医保局和和地方医保局以及医疗机构,为促进医疗服务高效、公平、可及贡献“清华方案”。2023年,自主研发两个面向医疗和医保场景的专业级大语言模型初见成效:MedMaster大语言模型与开源多模态大语言模型TinyLLaVA。2024年,智慧运动健康方面采用非接触式传感技术,人体生理信号采集技术,构建非接触式信号采集识别的研究体系,为中国国家拳击队征战巴黎奥运会提供有力支撑。

供稿|信息认知与智能系统研究所

排版|陶旋姿

审核|余潇潇 沈 渊 李 洪


分享到: