• chinamm2022@163.com

讲习班1:跨模态细粒度智能分析


简介


在传统计算机视觉研究中,图像分析的目标对象隶属类别通常是诸如“狗”、“车”和“鸟”等传统意义上的类别分类、检索等。而在许多实际应用中,图像对象往往来自某一传统类别下较细粒度级别的不同子类类别,如不同种类的“狗”:“哈士奇”、“阿拉斯加”、“比熊”;或不同种类的“车”:“奥迪”、“宝马”、“奔驰” 等。细粒度级别图像分析是针对此类问题的一个计算机视觉领域研究方向,且是计算机视觉领域的热门研究课题,其目标是对上述细粒度级别图像中的物体子类进行定位、识别及检索等视觉分析任务的研究,在智能新经济和工业互联网等方面具有巨大应用价值。随着细粒度图像分析的应用场景向多维领域快速发展,不可避免地将面临跨模态智能分析的挑战。本次讲习班将针对跨模态场景下的细粒度智能分析问题展开,介绍其在相关方面的研究进展和未来发展方向。

讲者希望通过该讲习班使听众能够了解:1)细粒度智能分析问题的定义及其背景介绍;2)经典细粒度图像分析的主要学习范式;3)跨模态细粒度分析的重要技术进展;4)跨模态细粒度分析的典型应用方面。在学术上,该讲习班可进一步增强听众对跨模态细粒度分析领域的关注度及其技术理解;在应用上,该讲习班可普及跨模态细粒度分析相关技术并在一定程度加速相应技术的落地应用。

组织者


魏秀参,南京理工大学计算机科学与工程学院教授。主要研究领域为计算机视觉和机器学习,在相关领域国际顶级期刊和会议发表论文五十余篇,Google Scholar Citations逾3000次,相关研究成果获得含iNaturalist在内的计算机视觉领域国际权威赛事共4项世界冠军。曾在CVPR等国际会议讲授“图像细粒度分析”为主题的短课程。著有《解析深度学习–卷积神经网络原理与视觉实践》一书。曾获中国科协青年人才托举工程、江苏省计算机学会青年科技奖、南京经开区中青年优秀人才、《中国科学:信息科学》优秀评审人等荣誉。任中国计算机学会高级会员、中国图象图形学学会高级会员、CCF计算机视觉专委会委员、中国图象图形学报青年编委。担任ICCV、IJCAI、ACM Multimedia等国际会议Workshop程序委员会主席,ACCV 2022 Tutorial主席,AAAI、IJCAI、BMVC等会议高级程序委员或领域主席。主持国家重点研发计划青年科学家项目等。

彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方向为跨媒体分析与推理、图像视频识别与理解、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术一等奖和2020年中国电子学会科技进步一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等20多个项目,发表论文160多篇,包括ACM/IEEE Trans和CCF A类论文70多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TCSVT等期刊编委。

报告嘉宾




魏秀参,南京理工大学
题目:细粒度图像识别与检索

报告摘要:细粒度图像识别与检索是视觉感知学习的重要研究课题,在智能新经济和工业互联网等方面具有巨大应用价值。本报告将首先介绍细粒度图像识别与检索的问题定义与相关背景知识,并结合细粒度图像识别与检索方向的代表性方法向听众介绍本领域的近些年发展与未来趋势。

嘉宾介绍:魏秀参,南京理工大学计算机科学与工程学院教授。主要研究领域为计算机视觉和机器学习,在相关领域国际顶级期刊和会议发表论文五十余篇,Google Scholar Citations逾3000次,相关研究成果获得含iNaturalist在内的计算机视觉领域国际权威赛事共4项世界冠军。曾在CVPR等国际会议讲授“图像细粒度分析”为主题的短课程。著有《解析深度学习–卷积神经网络原理与视觉实践》一书。曾获中国科协青年人才托举工程、江苏省计算机学会青年科技奖、南京经开区中青年优秀人才、《中国科学:信息科学》优秀评审人等荣誉。任中国计算机学会高级会员、中国图象图形学学会高级会员、CCF计算机视觉专委会委员、中国图象图形学报青年编委。担任ICCV、IJCAI、ACM Multimedia等国际会议Workshop程序委员会主席,ACCV 2022 Tutorial主席,AAAI、IJCAI、BMVC等会议高级程序委员或领域主席。主持国家重点研发计划青年科学家项目等。



黄岩,中科院自动化所
题目:细粒度图文匹配与生成

报告摘要:细粒度图文匹配与生成是当前视觉-语言理解领域的挑战难题,典型任务包括语言驱动的行人搜索等,在视频监控、用户创作等现实领域有较强应用价值。近年来,已有较多研究人员围绕相关任务进行了深入研究,特别是在视觉-语言预训练模型出现之后,相关任务的精度被迅速提升到高位。本报告将梳理相关任务的代表性方法,分析目前的主要技术难题,并探讨相应的解决思路和未来研究方向。

嘉宾介绍:黄岩,中科院自动化所副研究员,研究方向为视觉-语言理解和视频分析,在相关领域的国内外期刊和会议上发表论文共计80余篇,曾获CVPRWorkshop最佳论文奖、ICPR最佳学生论文奖,VOT和WIDER国际竞赛冠军,并担任CVPR和ICCV上3次多模态主题研讨会的共同组织主席。曾入选中国科协青年人才托举工程、北京市科技新星计划和微软铸星计划。获得中国人工智能学会优秀博士论文奖、中国科学院院长特别奖、百度奖学金、NVIDIA创新研究奖。



何相腾,北京大学
题目:细粒度跨媒体分类与检索

报告摘要:互联网数据具有图像、文本、视频、音频等跨媒体并存的特点,而现有跨媒体分类与检索技术通常聚焦于粗粒度的大类,难以满足医疗、交通等诸多领域的精细化需求。而细粒度跨媒体分类与检索旨在使计算机能够对跨媒体内容进行精细化分析。如何借鉴人脑的认知机理,模拟注意力机制学习多粒度的辨识性特征,突破细粒度跨媒体分类与检索难题,对于提高计算机的感知和认知能力至关重要。本报告将梳理细粒度跨媒体分类与检索方向的研究现状与进展,并探讨未来研究方向。

嘉宾介绍:何相腾,北京大学王选计算机研究所助理研究员。主要研究方向为跨模态分析、细粒度多模态分析、图像视频理解、计算机视觉、人工智能等,已发表论文17篇,包括国际顶级的IEEE Trans.和CCF A类论文13篇,其中IEEE TIP 2018入选ESI高被引论文;连续三年参加由美国国家标准技术局举办的国际评测TRECVID视频样例搜索比赛,均获第一名。担任北京图象图形学学会青年工作委员会委员,人工智能领域国际会议IJCAI 2021高级程序委员(SPC),CVPR 2022细粒度视觉分类Workshop共同组织者,IEEE TIP、TNNLS、TMM、TKDD、TCSVT、CVPR、IJCAI、AAAI、ACM MM等国际期刊和会议审稿人。获2020年CCF优秀博士学位论文奖(全国每年不超过10名获奖者)、2018年百度奖学金(全球每年不超过10名获奖者),2020年北京大学优秀博士学位论文奖,2020年北京大学优秀毕业生、2020年北京市普通高等学校优秀毕业生。