讲习班1:跨模态细粒度智能分析
简介
在传统计算机视觉研究中,图像分析的目标对象隶属类别通常是诸如“狗”、“车”和“鸟”等传统意义上的类别分类、检索等。而在许多实际应用中,图像对象往往来自某一传统类别下较细粒度级别的不同子类类别,如不同种类的“狗”:“哈士奇”、“阿拉斯加”、“比熊”;或不同种类的“车”:“奥迪”、“宝马”、“奔驰”
等。细粒度级别图像分析是针对此类问题的一个计算机视觉领域研究方向,且是计算机视觉领域的热门研究课题,其目标是对上述细粒度级别图像中的物体子类进行定位、识别及检索等视觉分析任务的研究,在智能新经济和工业互联网等方面具有巨大应用价值。随着细粒度图像分析的应用场景向多维领域快速发展,不可避免地将面临跨模态智能分析的挑战。本次讲习班将针对跨模态场景下的细粒度智能分析问题展开,介绍其在相关方面的研究进展和未来发展方向。
讲者希望通过该讲习班使听众能够了解:1)细粒度智能分析问题的定义及其背景介绍;2)经典细粒度图像分析的主要学习范式;3)跨模态细粒度分析的重要技术进展;4)跨模态细粒度分析的典型应用方面。在学术上,该讲习班可进一步增强听众对跨模态细粒度分析领域的关注度及其技术理解;在应用上,该讲习班可普及跨模态细粒度分析相关技术并在一定程度加速相应技术的落地应用。
组织者
魏秀参,南京理工大学计算机科学与工程学院教授。主要研究领域为计算机视觉和机器学习,在相关领域国际顶级期刊和会议发表论文五十余篇,Google Scholar Citations逾3000次,相关研究成果获得含iNaturalist在内的计算机视觉领域国际权威赛事共4项世界冠军。曾在CVPR等国际会议讲授“图像细粒度分析”为主题的短课程。著有《解析深度学习–卷积神经网络原理与视觉实践》一书。曾获中国科协青年人才托举工程、江苏省计算机学会青年科技奖、南京经开区中青年优秀人才、《中国科学:信息科学》优秀评审人等荣誉。任中国计算机学会高级会员、中国图象图形学学会高级会员、CCF计算机视觉专委会委员、中国图象图形学报青年编委。担任ICCV、IJCAI、ACM Multimedia等国际会议Workshop程序委员会主席,ACCV 2022 Tutorial主席,AAAI、IJCAI、BMVC等会议高级程序委员或领域主席。主持国家重点研发计划青年科学家项目等。
彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方向为跨媒体分析与推理、图像视频识别与理解、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术一等奖和2020年中国电子学会科技进步一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等20多个项目,发表论文160多篇,包括ACM/IEEE Trans和CCF A类论文70多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TCSVT等期刊编委。
报告嘉宾
魏秀参,南京理工大学
题目:细粒度图像识别与检索
报告摘要:细粒度图像识别与检索是视觉感知学习的重要研究课题,在智能新经济和工业互联网等方面具有巨大应用价值。本报告将首先介绍细粒度图像识别与检索的问题定义与相关背景知识,并结合细粒度图像识别与检索方向的代表性方法向听众介绍本领域的近些年发展与未来趋势。
嘉宾介绍:魏秀参,南京理工大学计算机科学与工程学院教授。主要研究领域为计算机视觉和机器学习,在相关领域国际顶级期刊和会议发表论文五十余篇,Google Scholar
Citations逾3000次,相关研究成果获得含iNaturalist在内的计算机视觉领域国际权威赛事共4项世界冠军。曾在CVPR等国际会议讲授“图像细粒度分析”为主题的短课程。著有《解析深度学习–卷积神经网络原理与视觉实践》一书。曾获中国科协青年人才托举工程、江苏省计算机学会青年科技奖、南京经开区中青年优秀人才、《中国科学:信息科学》优秀评审人等荣誉。任中国计算机学会高级会员、中国图象图形学学会高级会员、CCF计算机视觉专委会委员、中国图象图形学报青年编委。担任ICCV、IJCAI、ACM
Multimedia等国际会议Workshop程序委员会主席,ACCV 2022
Tutorial主席,AAAI、IJCAI、BMVC等会议高级程序委员或领域主席。主持国家重点研发计划青年科学家项目等。
黄岩,中科院自动化所
题目:细粒度图文匹配与生成
报告摘要:细粒度图文匹配与生成是当前视觉-语言理解领域的挑战难题,典型任务包括语言驱动的行人搜索等,在视频监控、用户创作等现实领域有较强应用价值。近年来,已有较多研究人员围绕相关任务进行了深入研究,特别是在视觉-语言预训练模型出现之后,相关任务的精度被迅速提升到高位。本报告将梳理相关任务的代表性方法,分析目前的主要技术难题,并探讨相应的解决思路和未来研究方向。
嘉宾介绍:黄岩,中科院自动化所副研究员,研究方向为视觉-语言理解和视频分析,在相关领域的国内外期刊和会议上发表论文共计80余篇,曾获CVPRWorkshop最佳论文奖、ICPR最佳学生论文奖,VOT和WIDER国际竞赛冠军,并担任CVPR和ICCV上3次多模态主题研讨会的共同组织主席。曾入选中国科协青年人才托举工程、北京市科技新星计划和微软铸星计划。获得中国人工智能学会优秀博士论文奖、中国科学院院长特别奖、百度奖学金、NVIDIA创新研究奖。
何相腾,北京大学
题目:细粒度跨媒体分类与检索
报告摘要:互联网数据具有图像、文本、视频、音频等跨媒体并存的特点,而现有跨媒体分类与检索技术通常聚焦于粗粒度的大类,难以满足医疗、交通等诸多领域的精细化需求。而细粒度跨媒体分类与检索旨在使计算机能够对跨媒体内容进行精细化分析。如何借鉴人脑的认知机理,模拟注意力机制学习多粒度的辨识性特征,突破细粒度跨媒体分类与检索难题,对于提高计算机的感知和认知能力至关重要。本报告将梳理细粒度跨媒体分类与检索方向的研究现状与进展,并探讨未来研究方向。
嘉宾介绍:何相腾,北京大学王选计算机研究所助理研究员。主要研究方向为跨模态分析、细粒度多模态分析、图像视频理解、计算机视觉、人工智能等,已发表论文17篇,包括国际顶级的IEEE
Trans.和CCF A类论文13篇,其中IEEE TIP
2018入选ESI高被引论文;连续三年参加由美国国家标准技术局举办的国际评测TRECVID视频样例搜索比赛,均获第一名。担任北京图象图形学学会青年工作委员会委员,人工智能领域国际会议IJCAI
2021高级程序委员(SPC),CVPR 2022细粒度视觉分类Workshop共同组织者,IEEE
TIP、TNNLS、TMM、TKDD、TCSVT、CVPR、IJCAI、AAAI、ACM
MM等国际期刊和会议审稿人。获2020年CCF优秀博士学位论文奖(全国每年不超过10名获奖者)、2018年百度奖学金(全球每年不超过10名获奖者),2020年北京大学优秀博士学位论文奖,2020年北京大学优秀毕业生、2020年北京市普通高等学校优秀毕业生。
讲习班2:多模多摄影像融合与视觉重建
简介
近年来,数据驱动的深度模型在各种底层视觉重建任务中表现出了优异的性能,包括图像去噪、去模糊、超分辨等,旨在从损坏的图像视频数据中重建干净的场景内容。然而,由于数据源单一、监督信息有限等原因,限制了它们在实际多媒体应用中的效果。此次讲习班将围绕“多模多摄影像融合与视觉重建”这一主题,介绍基于神经形态传感器、多摄影像融合的图像复原方法和应用,以及在低标注成本、非理想监督下的复原网络模型。
本期讲习班邀请了国内多媒体领域、计算机图像视频处理领域顶尖的专家和学者,旨在使学员了解非理想监督学习、多模多摄视觉传感器融合在图像复原中的技术进展和典型应用。在提高学术水平的同时,与该领域内优秀学者能够进行深入的学术交流。
组织者
任文琦,中山大学网络空间安全学院副教授。主要研究方向包括图像视频处理与网络空间内容安全,在本领域内国际主要期刊和会议IEEE TPAMI、TIP、TIFS、IJCV、CVPR、ICCV、NeurIP等发表CCF-A类学术论文50余篇,谷歌学术引用5000余次,5篇论文入选ESI高被引论文。担任《中国图象图形学报》青年编委。主持国家自然科学基金青年项目和面上项目等。获中国计算机学会优秀博士论文奖,微软亚洲研究院“铸星计划”等。入选2021年度吴文俊人工智能优秀青年奖和2022年度百度发布的全球高潜力AI华人青年学者榜。
任冬伟,哈尔滨工业大学副教授、博士生导师。2017年博士毕业于哈尔滨工业大学,主要研究方向为计算机视觉,包括图像和视频的复原与增强、目标检测与分割等,已发表论文30余篇,多数发表在IEEE TPAMI、TIP、TCYB、CVPR、ICCV、AAAI等计算机视觉顶级期刊和会议。主持国家自然科学基金面上项目、青年项目,2020年获黑龙江省自然科学一等奖(排名第五),入选哈尔滨工业大学“青年拔尖人才选聘计划”。
报告嘉宾
田永鸿,北京大学
题目:神经形态视觉重建:挑战问题与研究进展
报告摘要:神经形态传感器是近年来新兴的视觉传感器,具有高动态、高时域分辨率的特征。然而,与传统基于帧的“所见即所得”的成像范式不同,异步、连续的神经形态信号无法直观地被人们所理解。因此,如何根据神经形态信号连续采样的特性,从稀疏的神经形态数据流中重建出准确的连续视觉图像,是神经形态视觉亟需解决的重要问题。本讲座将围绕神经形态视觉传感器的采样原理和视觉重建两个方向,介绍神经形态视觉采样的主流方式,分析目前视觉重建的主要挑战问题与研究进展,并对神经形态视觉领域的未来发展趋势进行探讨。
嘉宾介绍:田永鸿,北京大学博雅特聘教授,博士生导师,IEEE Fellow,鹏城实验室网络智能部副主任兼云脑研究所所长,鹏城云脑技术总师,2018
年国家杰出青年基金获得者。主要研究方向为分布式机器学习、神经形态视觉和视频大数据。累计主持国家重点研发计划项目、国基金杰青/重点/重大仪器项目等国家、省部级与企业合作项目40
余项,累计发表学术论文280余篇,两获国际期刊和会议最佳论文奖;拥有美/中国发明专利90项,获国家技术发明二等奖1次、国家科技进步二等奖1次、教育部科技进步一等奖1
次、中国电子学会技术发明一等奖和自然科学二等奖各1次,是首届高校计算机专业优秀教师奖励计划获奖者。曾任国际期刊IEEE TCSVT/TMM/Multimedia等期刊编委,IEEE
MIPR2020/ICME2021大会主席,IEEE ICME2015/BigMM2015/ISM2015/
MIPR2018/MIPR2019程序主席,现任香港中文大学(深圳)和华中科技大学兼职教授、IEEE数据压缩标准委员会副主席兼IEEE
2941标准工作组组长、中国图象图形学会理事与交通视频专委会副主任等。他是科技部十四五重点专项“智能传感器”专家组成员。
左旺孟,哈尔滨工业大学
题目:深度图像复原网络学习:从单相机到多相机自监督学习
报告摘要:目前深度学习在图像复原中的成功往往依赖于大规模成对的训练数据。然而,全监督数据的获取往往十分困难,无监督和自监督学习因而成为更为可行的替代方法。因此,报告将首先介绍自监督图像去噪,基于深度上下文模型实现图像噪声估计模型和去噪模型的联合学习。在此基础上介绍图像去噪模型的无监督自适应,利用伪ISP和伪RawRGB噪声模型使得深度去噪网络能够自适应地调整应用于测试图像。进而,多相机系统使得利用高质量相机作为监督信号改善低质量相机成像质量成为可能。然而,高质量相机与低质量相机采集的图像往往在颜色和空域位置上存在一定的失配。报告将以人脸正面化和Raw图ISP和超分为例,介绍颜色不一致和空域配准不精确情况下深度网络的有效学习方法。最后,考虑到当前主流的智能手机已安装了多个相机,因而可以利用自监督学习充分发挥不同相机的相对优势实现高质量图像获取与增强。报告还将以基于Tele和短焦相机的图像超分辨、基于长短曝图像的图像复原为例,对多相机自监督学习进行介绍。
嘉宾介绍:左旺孟,哈尔滨工业大学计算机学院教授、博士生导师。主要从事图像增强与复原、图像编辑与生成、物体检测与目标跟踪、图像与视频分类等方面的研究。在CVPR/ICCV/ECCV等顶级会议和T-PAMI、IJCV及IEEE
Trans.等期刊上发表论文100余篇,谷歌学术引用30,000余次。曾任ICCV2019、CVPR2020/2021、ECCV 2022等CCF-A类会议领域主席,现任IEEE
T-PAMI和T-IP等期刊编委。
潘金山,南京理工大学
题目:图像去模糊:原理、方法及最新研究进展
报告摘要:近年来,随着各种智能成像设备的普及,人们对图像的画质要求越来越高。然而在实际成像过程中,受到诸多因素的影响,获取的图像质量较低。运动模糊是造成图像视频质量退化的一种关键因素,如何从低质量的模糊图像中有效地复原出高质量的图像成为当前学术界和工业界共同关注的热点。本课程将首先介绍图像去模糊的基本概念、理论模型以及目前最新的研究方法,最后对图像去模糊的研究趋势和挑战进行相关的探讨。
嘉宾介绍:潘金山,现任南京理工大学计算机科学与工程学院教授、博导。2017年毕业于大连理工大学数学科学学院,获博士学位。曾在哈佛大学和加州大学Merced分校访问研究两年。主要从事图像视频复原与增强等相关计算机视觉问题的研究。近年来,在CVPR、ICCV、ECCV等顶级国际会议以及IEEE
TPAMI、IJCV等顶级国际期刊上发表论文70余篇,其中CCF推荐A类期刊和会议论文50余篇,Google学术引用7000余次,H-因子36。根据Microsoft
Academic统计的近5年最具影响力的全球学者排位,位列图像去模糊领域第2位。获得中国人工智能学会优秀博士学位论文奖,辽宁省优秀博士学位论文奖,2019年获得国家优秀青年科学基金资助。担任计算机视觉领域顶级国际会议CVPR的领域主席(Area
Chair)以及人工智能领域顶级国际会议AAAI、IJCAI等的资深程序委员会委员(Senior PC)。
讲习班3:视觉Transformer和注意力机制
简介
用于计算机视觉各种问题的神经网络通常由两个部分组成,一是骨干网络,它主要负责从图像或视频中提取视觉特征,二是任务网络,它主要负责将骨干网络提取的视觉特征解译为具体任务需要的输出。传统上,前者主要基于卷积神经网络(CNN)实现,后者则由任务相关的具体头部网络来实现。从2020年开始,这两部分网络均逐渐被基于Transformer的方法所取代,其中前者称为视觉Transformer,主要对应于Transformer的编码器部分,而后者主要对应于Transformer解码器部分。无论Transformer编码器还是解码器,其中最核心的一个计算单元是注意力模块,包括自注意力和跨注意力。
本次讲习班将围绕每位嘉宾自己的研究,讲述视觉Transformer骨干网络、Transformer头部网络以及注意力机制在计算机视觉中的应用,演讲内容将包含丰富的维度和内容:从Transformer编码器到解码器,从预训练到下游任务,从过去的注意力机制到现在的Transformer整体架构,从图像视频到跨模态多媒体等等。
讲者希望通过这个讲习班让听众能够在深度和广度上,从历史现状和趋势上对于视觉Transformer的研究有一个整体的了解,也能希望听众能够了解国内这一方向上活跃的学者们的研究思路。
组织者
胡瀚,微软亚洲研究院视觉计算组研究员,西安交大兼职博导。主要研究兴趣包括视觉神经网络设计,自监督表征学习,以及视觉-语言联合表征学习等等,所提出的Swin Transformer荣获ICCV2021最佳论文奖(马尔奖),并被学界和业界广泛使用。他于2014年和2008年在清华大学自动化系分别获得博士和本科学位,博士论文获得中国人工智能学会优博奖。曾担任CVPR 2021和CVPR 2022领域主席。
报告嘉宾
胡瀚,微软亚洲研究院
题目:从视觉注意力到Swin Transformer
报告摘要:注意力建模是计算机视觉领域的一个经典方法,基于注意力机制的Transformer模型率先在自然语言处理领域取得流行,其影响力又逐渐溢回计算机视觉领域,促成了最近两年视觉建模的革命性变化。除了在各种视觉任务上取得显著的性能提升外,这一变化也促成了不同AI领域建模的趋同,以及各领域更紧密的结合与交互。本次报告将主要介绍研究小组过去五年对于注意力和视觉Transformer的探索,包括早期关于视觉注意力的研究,Swin
Transformer系列,以及用于视觉Transformer的自监督预训练方法SimMIM等。本次报告还将从讲者的视角讲述最近几年计算视觉领域关于基础建模和预训练方法的研究进程。
嘉宾介绍:胡瀚,微软亚洲研究院视觉计算组研究员,西安交大兼职博导。主要研究兴趣包括视觉神经网络设计,自监督表征学习,以及视觉-语言联合表征学习等等,所提出的Swin
Transformer荣获ICCV2021最佳论文奖(马尔奖),并被学界和业界广泛使用。他于2014年和2008年在清华大学自动化系分别获得博士和本科学位,博士论文获得中国人工智能学会优博奖。曾担任CVPR
2021和CVPR 2022领域主席。
王兴刚,华中科技大学
题目:基于Transformer的视觉目标检测和分割
报告摘要:视觉目标检测和分割是智能多媒体中的基础任务。近年来,各类型Transformer的出现给目标检测和分割的带来了诸多的发展机遇,例如:更加灵活和强大的视觉特征提取、全局上下文建模、基于Query机制的目标建模、大规模预训练Transformer的巨大潜力、灵活的跨模态目标表达等。围绕这些机遇点,本次报告中将介绍图像视频目标检测和分割中Transformer的发展脉络,展现出Transformer在目标检测分割任务中的超强性能,并展望这个领域未来的方向。
嘉宾介绍:王兴刚,华中科技大学电信学院教授,博士生导师。主要研究方向为视觉目标检测与分割,在IEEE
TPAMI、IJCV、CVPR、ICML等顶级期刊会议发表学术论文50余篇,谷歌学术引用次数12000次,在计算机视觉领域首次提出了空间稀疏自注意力机制(CCNet),该机制在Deepmind
AlphaFold中应用,对应的论文在ICCV19最具影响力榜单上排名第五,引用超过1200次。担任CVPR 2022领域主席,Pattern Recognition、Image
and Vision Computing 期刊编委。入选了国家“万人计划”青年拔尖人才,中国科协青年人才托举工程,获吴文俊人工智能优秀青年奖,CVMJ
2021最佳论文奖,湖北省自然科学二等奖等。
王利民,南京大学
题目:基于注意力机制的视频动作识别与目标跟踪
报告摘要:视频理解已经成为人工智能研究的热点和难点,其中动作识别和目标跟踪已经成为视频理解领域的关键技术。在本次报告中,我们主要介绍南京大学媒体计算组(MCG)在视频动作识别和目标跟踪方面的系列工作。首先,针对视频运动表征与建模,我们提出了基于注意力机制的时序建模模块,在计算效率和建模精度方面取得较优效果。其次,针对视频模型的表示学习,我们提出了基于掩码自编码器的视频高效学习方法VideoMAE,验证了MAE一种数据高效的Transformer自监督训练框架。针对视频目标跟踪技术,我们提出了更加简洁的单目标跟踪框架MixFormer,统一了特征提取和特征融合模块,在5个主流跟踪数据集都取得了目前最好的跟踪精度。最后将总结和展望注意力机制在视频动作识别和目标跟踪的发展趋势。
嘉宾介绍:王利民,南京大学教授,博士生导师,2011年在南京大学获得学士学位,2015年香港中文获得博士学位,2015年至2018在苏黎世联邦理工学院(ETH
Zurich)从事博士后研究工作。主要研究领域为计算机视觉和深度学习,专注视频理解和动作识别,在IJCV、T-PAMI、CVPR、ICCV等重要学术期刊和会议发表论文50余篇,根据Google
Scholar统计,论文被引用
14000余次,两篇一作论文取得了单篇引用超过2000的学术影响力,提出的TSN网络获得首届ActivityNet比赛冠军,已经成为动作识别领域基准方法。2018年入选国家高层次青年人才计划,曾获得广东省技术发明一等奖,世界人工智能大会青年优秀论文奖。入选AI
2000人工智能全球最具影响力学者榜单(计算机视觉方向),2022年度全球华人AI青年学者榜单,2021爱思唯尔中国高被引学者榜单。
讲习班4:可信多媒体计算
简介
近年来,随着人工智能的蓬勃发展,人工智能系统正在被广泛用的应用于各行各业,对人们的生活产生越来越多的影响。虽然人工智能系统在很多极具挑战性的任务上已经取得了接近人类水平的表现,但是大量研究表明现有人工智能系统还存在着诸多问题,对它们的可信性产生了巨大威胁。比如,被广泛使用的深度学习模型存在对抗和后门脆弱性,在实际应用中容易引发安全问题。同时,基于数据聚合的常规机器学习范式存在效率和隐私性问题,难以解决“数据孤岛”问题,而且会泄露用户的私有数据。可信机器学习和联邦学习旨在解决上述问题,发展鲁棒、安全、可解释、保护隐私、公平的人工智能研究。本讲习班将围绕可信机器学习和联邦学习,介绍相关领域的发展背景、研究进展以及尚未解决的挑战。
本讲习班将用两个小时的时间给大家介绍可信多媒体计算方面的研究,主要包括两个方面的内容:
1. 可信机器学习:过去、现在与未来。围绕对抗攻防、后门攻防这两个可信机器学习的核心研究方向,介绍可信机器学习的发展背景、研究现状以及未来的研究趋势。
2. 隐私、鲁棒和公平:
迈向可信联邦学习。围绕联邦学习,介绍联邦学习思想、不同的联邦方式、经典学习方法等基础知识。此外,介绍联邦学习依然存在的问题与挑战,包括联邦学习的隐私性、鲁棒性、公平性等。
本讲习班的目标是帮助研究者系统了解可信机器学习和联邦学习知识,了解相关研究所面临的挑战,思考未来的发展趋势,并推进基于多媒体数据的可信计算研究。
组织者
马兴军,复旦大学青年研究员、博士生导师。墨尔本大学博士、墨尔本大学博士后。主要研究领域为可信机器学习,重点关注机器学习算法与模型的安全性、鲁棒性、可解释性、隐私性、公平性和版权保护等。在国际知名会议和期刊发表论文30余篇,研究成果多次被顶级国际会议ICML和ICLR评为口头报告或亮点论文。在个人数据保护方面的工作获得国际知名媒体MIT Technology Review的报道。获得SISAP'21最佳论文和SSDBM'21最佳论文第二名。担任国际会议NeurIPS、ICML、ICLR、CVPR等程序会员会委员和国际知名期刊TPAMI、TIP、Nature Communications等审稿人。
报告嘉宾
马兴军,复旦大学
题目:可信机器学习:过去、现在与未来
报告摘要:近年来,随着人工智能系统在现实场景中的广泛部署,其所使用的机器学习模型的可信性问题也受到了越来越多的关注。相关研究催生了一个新兴研究领域:可信机器学习。在本讲座中,我讲带领大家一起了解可信机器学习的前世今生、最新的研究进展以及未来的发展方向。本讲座将围绕针可信机器学习的两个主要研究方向,即对抗攻防研究和后门攻防研究展开,并介绍相关研究在多媒体领域的进展。同时,我们会基于现有研究发现,深入思考可信机器学习研究所面临的现实挑战,以及未来的发展趋势。
嘉宾介绍:马兴军,复旦大学青年研究员、博士生导师。墨尔本大学博士、墨尔本大学博士后、迪肯大学助理教授。主要研究领域为可信机器学习,重点关注机器学习算法与模型的安全性、鲁棒性、可解释性、隐私性、公平性和版权保护等。在国际知名会议和期刊发表论文30余篇,研究成果多次被顶级国际会议ICML和ICLR评为口头报告或亮点论文。在个人数据保护方面的工作获得国际知名媒体MIT
Technology
Review的报道。获得SISAP'21最佳论文和SSDBM'21最佳论文第二名。担任国际会议NeurIPS、ICML、ICLR、CVPR等程序会员会委员和国际知名期刊TPAMI、TIP、Nature
Communications等审稿人。
桑基韬,北京交通大学
题目:可信媒体计算:“非语义特征”的得与失
报告摘要:随着深度神经网络的广泛应用,多媒体计算相关算法在单项测试中的准确率达到甚至超过了人类水平,正逐步实现从“不能用”到“可以用”的技术跨越。然而,在医疗诊断、无人驾驶等强安全性的应用领域,由于鲁棒性差、违背常识伦理、难以测试调试等问题,多媒体分析算法距离工业级大规模场景下的“很好用”要求仍有一段距离。我们尝试将这种“不好用”的原因归结为统计机器学习算法对人知识蒸馏的过程中学习到的两类“虚假相关性”:(1)欠蒸馏,数据不完备导致机器提取和利用任务无关特征,对应泛化性/公平性/因果性等问题;(2)过蒸馏,人和机器信息处理机制不同导致机器提取和利用非语义特征,对应对抗鲁棒性/解释性等问题。在这一理解下,可信媒体计算致力于提取和利用任务相关的语义特征:训练器学习任务相关特征,满足系统内部应用;解释器进一步筛选任务相关的语义特征,同时满足与人交互的应用;测试器检测两类虚假相关性,与训练器和解释器形成闭环,通过测试-调试共同保证算法从实验室级向工业级的可信赖应用。
嘉宾介绍:桑基韬,北京交通大学教授、计算机科学系主任。主要研究方向为社会多媒体计算、多源数据挖掘、可信赖机器学习等。曾获得2012年中科院院长特别奖、2016年ACM中国新星奖,作为负责人先后承担相关方向的国家自然科学基金重点项目、(首批)新一代人工智能重大项目课题和北京市杰出青年基金,第一/二作者论文7次获得CCF推荐国际会议主会的论文奖项,以第二完成人获得中国电子学会自然科学一等奖和北京市科学技术奖。
吴方照,微软亚洲研究院
题目:面向大模型的联邦学习
报告摘要:数据是AI的基础。近年来世界各国对于数据隐私保护的力度越来越大,相关法律越来越严。如何在保护数据隐私的前提下实现AI模型的训练,是一个重要且紧迫的研究课题。联邦学习是一种重要的面向隐私保护的机器学习框架,可以在不收集数据的情况下协同进行模型的训练,实现数据的“可用不可见”。AI已经来到大模型的时代,然而联邦学习和大模型的结合存在诸多严峻挑战,如计算代价、通信开销、隐私泄露、模型安全等。本次报告将分享联邦学习的基础知识和方法,以及解决这些核心挑战的相关工作。
嘉宾介绍:吴方照,微软亚洲研究院主管研究员,本科和博士均毕业于清华大学电子系。在Nature Communications, ACL, KDD, WWW, SIGIR, EMNLP等期刊和会议发表学术论文百余篇,被引用3200多次,H-index 33。曾获 NLPCC 2019优秀论文奖,WSDM 2019 Outstanding PC 和 AAAI 2021 Best SPC。AAAI 2022 领域主席,中国计算机学会高级会员。目前在微软亚洲研究院从事负责任AI、用户隐私保护、推荐系统、自然语言处理等方面的研究和实践。研究成果在 Microsoft News、Bing Ads 等多个微软产品中得到应用。