本日(6月24日),2023年度国家科学技能奖揭晓,复旦大学打算机科学技能学院姜育刚教授、吴祖煊副教授、薛旭日教授与大数据学院付彦伟教授等共同完成的项目“多元协同的视觉打算理论与方法”获国家自然科学奖二等奖。

不是“预见”只是迎难而上!复旦这一AI项目获国家自然科学奖二等奖_视觉_数据 绘影字幕

“我的研究聚焦于视觉打算,它是人工智能的核心方向,旨在授予机器‘看’的能力。
大略来说,便是让机器像我们人一样能够准确识别出图像、***中的物体、场景、动作、交互等等,乃至能在此根本上预测几秒后发生的事宜。
”上海市智能视觉打算协同创新中央主任、复旦大学打算机科学技能学院姜育刚教授先容。

近期,复旦大学正推进AI4S传授教化与科研体系培植,打算机视觉是人工智能主要且热门的一大方向。
姜育刚团队成果与复旦将推出的“AI大课”中计算机视觉等核心课程息息相关,表示出最前沿的科技进展、最顶尖的科研履历与教诲传授教化的融汇贯通。

然而,谁能想见,17年前在AI并不那么受关注、乃至有些“冷门”时,姜育刚就进入视觉打算领域。
回望来路,站在领奖台的姜育刚说,“我们不是‘预见’,只是感兴趣,乐意迎难而上。

AI赋机器慧眼,

破解视觉数据“万花筒”

我们畅游短***时,有时下方小字会映入眼帘:***疑似AI天生。
***天生模型Sora的问世,更引发环球关注。
“***是不能P的”,这一说法受到冲击。
光怪陆离的***数据如“万花筒”,须要慧眼进行分辨剖析。

“只管最近十几年来视觉打算取得了较大的进展,繁芜动态视觉数据的理解这块硬骨头还没有被完备啃下。
”姜育刚说,“拿***数据举例,不同于静态图像,由于有了韶光这个维度,***蕴含非常丰富的时序、声音、文本等信息,这些多模态信息交织在一起给动态***数据的理解带来极大寻衅,这也是当前视觉打算领域亟待办理的难题。

视觉打算要充分挖掘视觉数据中多元信息间的关联,也便是要挖掘不同拍摄视角、不同模态特色、不同视觉语义之间的关系,创造并利用这些关联线索,提升视觉打算性能。
传统方法每每忽略春联系关系的建模,无法取得空想的结果。
AI天生的***中,沙滩上的椅子会飘在空中,忽略了真实天下的自然、物理规律。

“我们的想法是首先将多元信息解耦,然后在高维空间中施加约束,从而充分挖掘并利用多元信息间的关联关系,这对付繁芜视觉数据的理解特殊主要”,姜育刚先容。
这一想法独立于视觉打算架构本身,无论打算架构如何演进,从过去的统计机器学习方法、到卷积神经网络、再到最新的多模态大模型,都可以深入挖掘视觉数据的多元特性并进行关联建模。

“多元协同的视觉打算理论与方法”项目授予机器“慧眼”,让机器有识别与分辨的能力,不畏繁芜动态视觉数据之交织莫测,助力破解视觉打算领域的难题。
“机器能识别出沙滩、椅子,也能懂得椅子在沙滩上的自然规律,并基于多元信息间的关联关系,进一步施展拳脚、发挥浸染。

从高铁得手机,

视觉打算技能有广阔运用处景

手机拍照,身后有***入镜,或者对背景里的物品不满意怎么办?修图须要花费一定韶光,最近盛行的AI拍照“肃清功能”,只需手指一滑,便可轻松肃清。
这一华为手机运用,正来源于姜育刚团队的视觉打算研究。

“学术研究不能只是空中楼阁,而该当切切实实地办理生产生活中的痛点问题。
”姜育刚团队致力于将视觉打算技能的成果落地运用,牵头研制的系统多次做事关键举动步伐运营掩护等国家重大需求。

“铁路的根本举动步伐包括轨道扣件、电务线缆等,传统检测办法是人工巡检,效率特殊低,常常涌现漏检的情形。
”基于视觉打算的理论成果,姜育刚团队与铁道科学研究院根本举动步伐检测研究所联合攻关,研制的系统成功办理轨道扣件等高铁举动步伐的故障检测难题。
这一系统已实际运用多年,多次成功创造并打消了重大安全隐患。

此外,姜育刚团队与行业领先企业开展紧密的互助,致力于办理企业运用处景中的痛点问题。
例如,他带领团队与华为业务部门联合研发了领悟视觉与措辞的多模态检索技能,可以方便用户更好、更快地从海量的相册中找到自己感兴趣的图像、***,干系成果最近已在华为的旗舰手机中得到运用。

“我们刷短***时,时常以为推举的内容符合自己的心意。
”姜育刚说,“这背后有很多算法,它要识别到这些***里的内容是什么,然后根据你的过去一段韶光的喜好,来给你推举你感兴趣的东西。
可见视觉打算是有广泛运用的一个领域。

并非预见,

只是迎难而上17载

6月21日上海暴雨的早上,我们线上采访时,大洋彼岸的美国西雅图夜幕降临,姜育刚团队正在此参加2024年IEEE/CVF国际打算机视觉与模式识别会议(CVPR)。
这是人工智能领域的顶级会议,其论文集在谷歌学术环球出版物影响力榜单中位列第四名,团队已连续多年参加,与全天下前沿研究者济济一堂。

“算起来,我们的第一篇项目论文揭橥在2007年。
”在视觉打算的研究之路上,姜育刚团队已经走了17年,取得一系列具有国际影响力的创新成果,引发大量跟踪研究,干系成果被国内外同行评价为“具有首创性”。

为何在人工智能尚未肇兴时,团队研究如此具有超前的预见性?被问及此,姜育刚回答:“技能在一直地升级迭代,最近10年进步极快。
从过去的传统统计机器学习方法,再到2010年往后的深度学习,无论技能架构如何演化,在处理视觉数据的时候,都须要重视不同层次的多元关系建模,办理问题、提升性能。
我们并非‘预见’,只是感兴趣,乐意迎难而上。

大规模数据集是视觉打算至关主要的组成部分,对付模型的演习和性能提升起着关键浸染。
秉持着“开源开放是推动技能发展的主要办法”这一理念,姜育刚团队长期致力于数据集、工具集的开放共享,让更多研究者可以从中受益。

比较于大量的图像数据集,动态***数据集更少,其构建更有寻衅性。
一方面***数据的网络、存储更为困难,另一方面是给***数据进行标注非常耗时耗力。
只管耗时长、本钱高,姜育刚带领团队构建了多个高质量、大规模***数据集,如FCVID、CCV、THUMOS等,涵盖***识别、视觉匹配、动作定位等多个视觉打算任务,被斯坦福大学、加州大学伯克利分校、微软等千余家机构利用。

“我2014年在欧洲打算机视觉大会上揭橥的一篇文章用到了姜老师2013年构建的一个数据集。
开会时碰着了姜老师,我们针对***理解的寻衅性问题互换了良久,创造有很多共同感兴趣的方向。
”项目第四完成人付彦伟在英国伦敦玛丽女王大学读博期间,常基于复旦构建的数据集开展***理解方面的研究。
缘起数据集的火花碰撞为他们后续一系列富有成效的科研互助奠定了根本,2018年付彦伟返国加盟复旦。

基于构建的数据集,姜育刚团队在国际打算机视觉大会等会议组织了多个视觉打算技能评测。
“这里面最有影响力的是THUMOS人体动作识别与定位评测”,姜育刚说道。
THUMOS评测由复旦大学、中佛罗里达大学、谷歌公司、法国INRIA的研究团队联合组织,在2013至2015年期间与国际打算机视觉大会、欧洲打算机视觉大会联合举办,吸引了环球百余家机构同台竞技,至今仍是动作识别与定位任务的试金石。

在主理评测之外,团队还积极参与其他机构组织的国内外视觉打算技能评测,成绩喜人。
在刚刚结束的CVPR会议上,团队在大规模开放词汇目标检测等三个寻衅赛中斩获第一名。

团队也实现复旦大学在人工智能领域的多个打破:首位人工智能方向的教诲部长江学者特聘教授、首次获批国家科技创新2030“新一代人工智能”重大项目、首次荣获国家自然科学奖二等奖。

“科学研究的乐趣,每每就藏在那些看似不可能办理的问题之中。
”这是姜育刚和学生互换时常挂在嘴边的一句话。
教书育人十数载,在他看来,每位学生都是独一无二的,因此要挖掘并引发每个人的潜能。
不仅自己在视觉打算领域持续深耕,姜育刚更热衷将这份热爱与探索精神通报给自己的学生,让越来越多的年轻人在科研道路上武断前行。

项目的第二完成人吴祖煊曾是姜育刚和第三完成人薛旭日联合辅导的硕士生,他与导师一起提出了对***中的多元特色进行深度领悟的思路,并首次在国际有名的UCF101数据集上取得了超过90%的精度。
谈及复旦求学经历,吴祖煊说:“姜老师和薛老师是我学术生涯的启蒙人,我依然还记得在2014年春节的时候我跟姜老师大年初一在实验室里赶一篇投稿,他仔细地教我如何打磨论文。
这样的科研演习经历是十分宝贵的。
”2016年硕士毕业后,吴祖煊前往美国马里兰大学攻读博士学位,并于2021年返国加入母校。
2022年,吴祖煊入选国家级青年人才操持。

“姜老师治学严谨,对各种细节的把控十分令人钦佩。
”2022届博士生陈绍祥从大二起就加入实验室,揭橥多篇颇具影响力的学术论文,入选“中国图象图形学学会博士学位论文勉励操持”,在学术界崭露锋芒。

“我们正处在人工智能飞速发展、赋能百业的时期,视觉打算具有广阔的研究与运用前景。
”姜育刚说,“我们希望做的,是推动视觉打算技能进一步发展,为人类供应更多便利、创造更多代价。

未来,团队将进一步开拓视觉打算领域。
例如,以视觉内容理解助力海量视觉数据的检索与管理,让机器人更好地感知环境,这是当下火热的“具身智能”的核心技能;在视觉内容天生方面,助力大模型优化升级,通过自动天生高质量图像、***内容,可以快速实现不同的艺术风格,花开千朵,为大众生产生活插上想象的翅膀。

组稿|校融媒体中央

笔墨|胡慧中

图片|受访者供应

责编|章佩林

编辑|符梦苑