华为论坛:多模态预训练和识别
简介
近年来,跨模态内容的理解和生成收到越来越多的关注,也在多媒体领域创造了更多的机会。一方面,跨模态数据能够有效地拓展现有技术框架,突破单模态数据的认知局限性;另一方面,业界缺乏不同模态语义空间的对齐方法,因而跨模态理解和生成依然处于起步阶段。本论坛邀请多位在跨模态理解和生成领域有所建树的学者,围绕领域的新思路、新方法、新技术进行分享和讨论,旨在与参会者一起,探索跨模态技术在多媒体领域的应用前景。在后续的圆桌讨论环节,嘉宾们还将开拓思维,将讨论引向通用预训练模型及其牵引的人工智能的落地应用,促进人工智能和多媒体技术更好地落地于相关产业。
目的与意义
通过举办这次活动,邀请业界优秀学者围绕跨模态内容理解与生成的机遇和挑战展开讨论,能够搭建起多媒体应用和跨模态技术研究之间的桥梁,从而促进思想碰撞,产生新思维和新方法。
组织者
谢凌曦,华为云高级研究员。他分别于2010年和2015年于清华大学获得本科和博士学位,并且于2015年至2019年期间在美国加州大学洛杉矶分校和约翰霍普金斯大学担任博士后研究员。谢凌曦博士的研究兴趣覆盖计算机视觉的各个方向,主要包括统计学习方法和深度学习模型的应用。他的研究工作覆盖图像分类、物体检测、语义分割和其他视觉任务,并积极推动自动机器学习算法在上述领域的应用。谢凌曦博士已经在国际顶级的学术会议和期刊上发表超过60篇论文,谷歌学术引用超过6000次。他于2015年获得清华大学优秀博士论文奖,并于ICMR2015会议上获得最佳论文奖。
田奇,华为云人工智能领域首席科学家。本科毕业于清华大学,博士毕业于UIUC。2018年加入华为, 曾任诺亚方舟实验室计算视觉首席科学家。2002-2019 在德克萨斯大学圣安东尼奥计算机科学系担任助理教授、副教授、正教授; 主要研究方向是计算机视觉、多媒体信息检索、机器学习,发表国际期刊与会议论文600余篇。谷歌学术引用超过39000次,h-index为92。清华大学神经与认知中心讲席教授、教育部长江讲座教授、中科院海外评审专家、海外杰青,2016年当选 IEEE Fellow,2021年当选国际欧亚科学院院士。
嘉宾
报告嘉宾1:鲍秉坤,南京邮电大学,教授
报告嘉宾2:周文罡,中国科学技术大学,教授
报告嘉宾3:魏龙辉,华为云,高级研究员
圆桌讨论嘉宾:姜育刚,复旦大学,教授
鲍秉坤,南京邮电大学
题目:跨模态图像生成大模型探索与研究
报告摘要:近年来,随着跨模态预训练模型的兴起与发展,许多视觉与多模态问题正逐渐被研究者攻克。最近,基于大规模预训练的图像生成方法正在跨模态图像生成领域崭露头角,其生成的图像较以往的基于生成对抗模型(GAN)的方法更加逼真,更加生动。在本次报告中,我们将首先回顾基于GAN的跨模态图像生成的发展与本团队的研究。其次,总结介绍基于自回归模型与扩散模型等预训练方法在跨模态图像生成的代表性工作。最后,我们也将介绍本团队在结合GAN的大规模预训练上的探索,以及我们对于更快的跨模态预训练图像生成的思考。
嘉宾介绍:鲍秉坤,南京邮电大学通信与信息工程学院副院长,教授、博士生导师。入选中组部万人计划-青年拔尖人才、江苏省杰青、江苏省双创人才。研究方向为多媒体计算、社交多媒体、计算机视觉、人工智能等。主持国家重点研发计划:科技创新2030-人工智能重大专项、国家自然科学基金重点项目等。荣获2018年度电子学会科学技术(自然科学类)一等奖。荣获多媒体领域的ACM汇刊TOMM 2016年度最佳论文奖、IEEE MM 2017年度最佳论文奖、Multimedia Modeling 2019年度最佳论文Runner Up奖。荣获ICME 2020 Outstanding Areas Chair。
周文罡,中国科学技术大学
题目:BERT Pre-Training meets Sign Language Understanding
报告摘要:Hand gesture serves as a critical role in sign language. Current deep-learning-based sign language recognition (SLR) methods suffer insufficient interpretability and overfitting due to limited sign data sources. In this talk, we are dedicated to leveraging the BERT pretraining success from two different perspectives and modeling the domain-specific statistics to fertilize the sign language recognition (SLR). In our first solution, self-supervised pre-training is first conducted via reconstructing masked visual tokens from corrupted input sequence to take full advantage of available sign data sources. Then with the prediction head added, the encoder is fine-tuned for the downstream SLR task. In our second solution, we notice that sign language video is low-level and continuous, which is different from the semantic discrete word token and makes the original BERT not applicable. To this end, we attempt to tackle this issue via two following approaches, i.e., 1) changing its objective into regression with hand prior incorporated; 2) organizing the sign signal into units and tokenizing these units. Extensive experiments are conducted to validate the effectiveness of our proposed method, achieving new state-of-the-art performance on all four benchmarks with a notable gain.
嘉宾介绍:周文罡,中国科学技术大学电子工程与信息科学系教授、博士生导师,国家"优秀青年基金"获得者(2018)。2011年博士毕业于中国科学技术大学,2011~2013年在美国德州大学圣安东尼奥分校做博士后研究,2013年9月开始在中国科大信息学院任教。研究兴趣包括计算机视觉、多媒体信息检索、机器博弈,发表IEEE/ACM汇刊论文和CCF A类国际会议论文共100余篇,谷歌学术总被引7900余次,H指数43。曾获中科院百篇优秀博士学位论文奖、国际会议ICIMCS 2012最佳论文奖、2021年CSIG优博导师奖、2021年吴文俊人工智能科技进步奖一等奖(排名第3)。
魏龙辉,华为
题目:视觉与多模态预训练前沿技术
报告摘要:大规模预训练正在影响多个人工智能领域。近年来,跨模态预训练模型逐渐兴起,并且展现了其在视觉理解等方面的巨大潜力。在本次报告中,我将简单介绍视觉与多模态预训练技术的发展脉络,并专注于基于对比学习和基于掩码图像建模范式为主的前沿代表性工作。同时,我也将详细介绍华为云盘古团队在视觉与多模态预训练方向上的几个代表性工作,以及我们对多模态预训练和相关领域未来发展的思考。
嘉宾介绍:魏龙辉,华为云盘古团队高级研究员。2019年毕业于北京大学信息科学技术学院数字媒体所。魏龙辉的主要研究领域为行人重识别、自监督学习、视觉与多模态预训练技术等相关方向,至今已在CVPR、ECCV、NeurIPS、AAAI、ACM MM、T-MM等视觉或多媒体顶级会议与期刊发表相关论文十余篇,谷歌学术统计引用量已达1700余次。其中,中稿于CVPR’18的代表性工作PTGAN据谷歌学术统计至今已达1000余次。
圆桌讨论嘉宾
姜育刚,复旦大学
嘉宾介绍:姜育刚,复旦大学教授、博士生导师,教育部长江学者特聘教授。2022年1月起任校人事处处长,2020—2022年任计算机科学技术学院院长、软件学院院长。研究领域为多媒体信息处理、计算机视觉、鲁棒可信人工智能。国家科技创新2030“新一代人工智能”重大项目负责人。上海市智能视觉计算协同创新中心主任。发表的两百余篇论文被引用万余次,成果多次服务国家关键领域的重要任务。构建的开源数据和工具集如VIREO374、CCV、VCDB、THUMOS、FCVID被国内外学者及企业频繁使用。
技术论坛:新一代多媒体智能编码
简介
多媒体编码是多媒体通信和网络多媒体的基础性使能技术。网络流量的90%以上是多媒体数据,这些数据几乎全部以压缩编码的形式存储和传输。近年来,高清、超高清内容数据量指数增长,存储和传输代价巨大,迫切需要进一步提升编码压缩效率。另一方面,人工智能技术突飞猛进,特别是随着云计算、大数据、深度学习的成功应用,安防监控、辅助驾驶等领域的智能化程度迅速提高,相关研究受到空前关注。在这些典型应用领域中,多媒体编码同样是不可或缺的关键技术。
多媒体智能编码有两层内涵,一方面,运用大数据和深度学习等人工智能技术,能够显著提升编码压缩效率,突破传统编码技术面临的发展瓶颈;另一方面,面向安防监控、辅助驾驶等人工智能应用,亟需改造传统编码范式,提高多媒体编码的结构化、语义化表达能力。
本论坛聚焦多媒体智能编码这一新兴主题,邀请国内该领域包括长江学者、海外优青项目获得者、高新企业代表在内的青年学者作报告并参与圆桌讨论。报告内容涵盖基于神经网络的编码、语义结构化编码、信源信道联合编码、工业级智能编码框架以及视觉编码传输新体系等。论坛将向听众介绍领域最新前沿进展,讨论领域核心科学问题,凝聚专家集体智慧,推动领域向更深层次发展。
组织者
刘东,中国科学技术大学特任教授、博导、电子工程与信息科学系副主任,获得国家自然科学基金优青项目资助。2004年、2009年分别在中国科大获得学士和博士学位。2009年至2012年任职于诺基亚北京研究院。2012年至今在中国科大工作。研究领域为图像视频处理、编码、分析和数据挖掘。现任中国图象图形学学会多媒体专业委员会常务委员、IEEE电路与系统学会多媒体系统及应用技术委员会委员、IEEE 1857.11标准工作小组主席、VCIP 2022组委会委员等职。
报告嘉宾
纪雯,中国科学院计算技术研究所
题目:视觉端边云架构:支持人机融合智能的视觉编码传输新体系
报告摘要:随着信息化与工业化的深度融合,制造业的创新能力和工业基础能力的提升迫切需要机器装备技术的革新,对机器视觉设备产生庞大的数据如何有效处理已成为迫在眉睫的问题。新一代视频编码已拓展为视觉编码体系,分别通过面向人类视觉以及面向机器视觉的编码,从源头探索和解决机器与人类视觉数据的高效压缩。视觉端边云架构是同时为人类视觉和机器视觉提供融合智能处理、编码、传输、计算的新体系。本报告将介绍从机器视觉编码、融合人机视觉编码到视觉端边云架构的技术路线。并介绍视觉端边云系统的原理、亮点、对现有多媒体系统发展的影响。最后给出几种典型的实现方式,并以数字视网膜系统为例,介绍该架构的进化过程和未来发展趋势。
嘉宾介绍:纪雯,中国科学院计算技术研究所研究员、博士生导师,IEEE高级会员。长期从事智能多媒体编码和传输系统的研究工作,包括多媒体端边云系统、视频编码和传输、面向机器视觉的编码、视觉物联网、多媒体经济学、众智智能和群体智能等。近年来主持承担了国家重点研发计划课题、国家自然科学基金等多项科研项目的研究。在IEEE TMC, IEEE TMM, IEEE TCSVT等国际著名期刊和会议发表论文80多篇,授权20多项专利。受邀担任过IEEE JSAC、IEEE Wireless Comm.、ACM Trans. ECS等国际期刊专刊的客座编委。研究成果获2015年“北京市科学技术奖”、2016年“北京市科学技术奖”、2016年“中国专利优秀奖”、2017年“CCF科学技术奖”技术发明奖等。
范晓鹏,哈尔滨工业大学
题目:信源信道联合编码——从图像到任务
报告摘要:图像视频已占互联网流量的90%,且仍在不断增长。随着视频编码技术进步以及标准迭代,视频压缩效率不断提升。然而经过压缩的视频对于比特错误比较敏感,如何提升无线传输条件下视频抗噪能力,是目前仍然需要解决的问题。本报告将首先回顾传统信源信道联合编码、数模混合视频通信等技术,然后介绍新兴的为视频编码带来较大效率提升的AI技术,包括基于深度学习的视频编码、基于深度学习的多任务编码等,并探讨这些技术应用于信源信道联合编码的新思路和新途径。
嘉宾介绍:范晓鹏,哈尔滨工业大学计算学部长聘教授、博士生导师、数字媒体专业方向负责人、智能接口与人机交互研究中心主任、国家重点研发计划项目负责人,入选教育部长江学者、教育部新世纪优秀人才、哈工大青年拔尖人才、哈工大百人计划、微软亚研院铸星计划等。2009年于香港科技大学电子与电机工程系获博士学位;2013年获IEEE标准杰出贡献奖。主要研究兴趣包括数字媒体技术、人工智能等,发表IEEE TIP、IEEE TVCG、IEEE TCSVT、ACM MM、DCC等国际期刊和会议论文150余篇。获得发明专利20余项,18项技术被IEEE 1857/AVS标准采纳,主持开发了AVS第一个3D视频编码平台。2013年作为副主编及主要起草人之一,制定了IEEE 1857.2视频编码标准。作为程序主席主办了CCF推荐会议PCM 2017。
李礼,中国科学技术大学
题目:语义可伸缩图像编码理论及方法
报告摘要:本报告介绍一种新的图像编码方式——语义可伸缩图像编码,旨在渐进式编码图像的粗粒度语义信息、细粒度语义信息以及图像信号,以按需适配机器视觉和人类视觉的不同视觉任务。本报告首先介绍语义可伸缩图像编码的典型应用场景——按需调取;然后从信息论出发介绍语义可伸缩图像编码的基础理论——语义-信号结构化熵模型,将混沌的信号熵表达为结构化的语义熵;在此基础上进一步介绍两类实际的语义可伸缩图像编码方法:基于特征提取和基于信号分解的方法;最后基于有损语义和信号编码的特点介绍基于分支结构的语义可伸缩图像编码框架。
嘉宾介绍:李礼,中国科学技术大学特任教授,2011年和2016年在中国科学技术大学获得学士和博士学位,2016年至2020年在美国密苏里大学-堪萨斯分校从事博士后研究,2021年获批基金委海外优青项目。主要研究方向包括图像视频编码、点云编码与处理等。目前已发表学术论文70余篇,获授权中美发明专利10余项,被国际国内标准化组织采纳提案10余项。获得了2019年国家技术发明二等奖,2016年IEEE VCIP Top 10%论文奖,2019年IEEE ICIP Best 10%论文奖,以及2016年ICME首届光场压缩挑战赛冠军。是ICME 2021,VCIP 2016以及VCIP 2022的组委会成员。
贾川民,北京大学
题目:Entire Lifecycle of Neural Video Coding: Models, Systems, and Beyond
报告摘要:With the exponentially increasing volume of video data, the video compression technology is facing historical revolutions recently, advancing towards an intelligent-based era. The theme topic of this talk is on the entire lifecycle of intelligent video compression, which is a systematic framework that considers the enabling technologies in AI based video coding, ranging from data representation to model designation, to system development and deployment, finally to continuous monitoring and model upgrade. I will introduce this framework to render the general picture of intelligent video coding schemes including representative methods and a prototype-oriented case study, namely edge-computing device based intelligent video coding system. The horizon of video coding is then extended from software- to hardware-based lossy compression using more resource-constrained platforms. In addition, this talk will detail the advances in the standardization progress of intelligent video coding. Finally, the future research directions will also be envisioned and discussed.
嘉宾介绍:贾川民,北京大学计算机学院助理研究员。2015年和2020年分别获北京邮电大学学士、北京大学博士学位,2017至2018年任纽约大学访问学者,CSIG/CCF/IEEE会员,主要研究视频压缩与处理,联合北京博雅睿视科技共同开发了4K超高清智能编码系统。在国际期刊和会议发表论文40余篇,曾获PCM最佳论文、IEEE MM最佳论文奖、IEEE MIPR最佳学生论文奖、北京图象图形学学会优秀博士论文。主持国家自然科学基金青年基金,全国博士后创新人才计划,博士后面上和北京市科协青年人才托举项目。多项技术被国内外标准组织采纳,申请专利20余项,担任MPAI EEV标准组长、IEEE 1857.11工作组参考软件负责人。
李俊儒,字节跳动
题目:基于人工智能的视频编码框架探索与研究
报告摘要:激发创意,丰富生活是字节跳动的使命。字节跳动开发了一系列以视频内容为核心的产品,如抖音、西瓜视频等,广受欢迎与好评。视频数据量快速增长也给压缩和传输带来新的挑战。字节跳动多媒体实验室致力于研究高效媒体数据压缩、处理、传输、画质评估等技术,提升用户体验。本次报告介绍字节跳动基于人工智能的视频编码框架,将智能编码技术与传统视频编码技术紧密结合并相互赋能,大幅提升视频压缩效率,为新一代编码框架的设计提供思路。
嘉宾介绍:李俊儒,字节跳动多媒体实验室研究员,参与新一代视频编码标准技术与智能编码技术的研究工作。2021年于北京大学获得博士学位,从事多媒体信号压缩、处理等方面的研究。在TIP、CVPR、DCC等期刊及会议上发表论文二十余篇,三十余项视频编码技术提案被AVS3、VVC采纳,多次获得AVS产业技术创新奖。
圆桌讨论嘉宾
刘飞,OPPO
嘉宾介绍:刘飞,OPPO多媒体视频和流媒体领域负责人,从事多媒体相关工作10余年,在电视和手机端的多媒体有丰富的工程化落地的经验。在OPPO公司目前负责播放框架,视频/图像云端处理,实时音视频,云游戏,超低延迟多屏互动,视频后处理,多模态智能创作引擎等项目。
技术论坛:跨媒体内容智能理解与安全
简介
随着多媒体技术的不断普及和网络技术的迅猛发展,传统方法已难以准确表达具有人工智能属性的复杂知识结构,媒体数据感知与分析已经从文本、语音、图像以及视频等单一媒体模态向覆盖网络空间与物理空间的跨媒体融合转变。与此同时,现有的多媒体内容识别模型容易受到攻击,存在一定的安全隐患。因此,如何实现高精度的细粒度多媒体内容理解以及提高多媒体内容分析模型的鲁棒性已经成为当前的研究重点。本论坛将邀请跨媒体内容智能理解与安全领域的优秀青年专家介绍领域的前沿技术。思辨环节,嘉宾将和与会人员共同探讨跨媒体内容理解与安全技术落地应用过程中面临的机遇、挑战与未来发展趋势。
组织者
李兵,中科院自动化所研究员,博士生导师。国家优秀青年科学基金获得者,北京市杰出青年科学基金获得者,中国科学院青年促进会优秀会员,科技部“新一代人工智能”重大项目青年项目负责人,国家自然科学基金联合基金重点项目负责人。长期从事视频内容理解与安全方向的研究,在包括IEEE TPAMI/IJCV等人工智能权威国际期刊和会议上发表论文100余篇,曾获国家自然科学二等奖(3/5)。担任中国人工智能学会智能服务专委会委员、人民网技术委员会委员。主持研发的网络内容安全相关系统在政府企事业单位等实际部署应用,取得得了重要的经济和社会效益。
许倩倩,中科院计算所副研究员,博士生导师,国家优秀青年基金获得者。IEEE/CSIG/CCF高级会员,CSIG青工委/CSIG多媒体专委会/CAAI深度学习专委会副秘书长。研究领域为跨媒体计算、数据挖掘和机器学习,已在TPAMI、IJCV、TIP、TKDE、ICML、NeurIPS、CVPR、AAAI、ACM Multimedia等国际期刊/会议上发表CCF-A类论文50余篇。先后获得:吴文俊人工智能自然科学奖一等奖,CAAI最佳青年科技成果奖,CSIG石青云女科学家奖,吴文俊人工智能优秀青年奖,ACM中国SIGMM新星奖, CAAI优秀博士学位论文,中科院百篇优秀博士学位论文等奖励。担任国际期刊T-CSVT和ACM ToMM编委,CCF-A类国际会议ACM MM领域主席,AAAI和IJCAI SPC等。
吴金建,西安电子科技大学,教授,博导。国家优秀青年基金获得者、陕西省青年拔尖人才等。分别于2008、2014年获得学士、博士学位,2019年破格晋升教授。主要从事仿生成像、人工智能等方面工作。已发表学术论文100余篇,其中中科院一区SCI或A类会议论文40余篇,获国际会议最佳学生论文奖及提名奖等。主持/协同主持装发"十三五"预研、JKW创新、自然基金等多个项目,获国家自然科学二等奖、陕西省自然科学一等奖等。
宋井宽,电子科技大学教授,博士生导师,国家“青年特聘专家”。在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文180余篇,谷歌学术引用8000余次。2016年获模式识别国际会议ICPR最佳论文奖,2017获信息检索顶级会议SIGIR最佳论文提名奖,ADC最佳学生论文奖,获评2019 ACM China SIGMM学术新星奖、2020 AMiner AI 2000“多媒体最具影响力学者”提名,2021SIGMM Rising Star奖(全球年度唯一)。担任国际SCI期刊ACM TOMM等编委、WWW Journal、TMM、Pattern Recognition、ACM TDS等期刊的客座编委,主持/主研多项国家级和省部级项目。
甘甜,山东大学计算机科学与技术学院副教授、博士生导师、泰山学堂教授小组成员。其于2010年和2015年分别从华东师范大学和新加坡国立大学获得学士和博士学位,后任新加坡科技研究局资讯通信研究院(Institute for Infocomm Research, A*STAR)科学研究员。主持国家自然科学青年基金项目、面上项目、科技部重点研发项目子课题。已在多个相关领域的国际顶级学术期刊及会议CVPR、ACMMM、AAAI、CIKM、TCB、TMM等上发表多篇论文,并且担任多个国际顶级会议ACMMM、ICIP等程序委员,担任ICIMCS 2019、ACM MM Asia 2020出版主席。
报告嘉宾
操晓春,中山大学教授
题目:对抗环境下的计算机视觉
报告摘要:计算机视觉算法常常假设“看得清”、“无扰动”、“标注好”、“足够多”的图像视频输入,其鲁棒性难以保证、应用场景相对有限。考虑对抗环境下上述假设不满足,报告人拟介绍信工所团队在该方向学术探索的最新进展,以及搭建的一套视觉大数据价值挖掘系统。具体包括:标注数据质量计算、低质视觉质量增强、对抗样本攻击与防御等。
嘉宾介绍:操晓春,中山大学教授,国家杰出青年青年科学基金获得者,主要从事计算机视觉基础研究和网络空间内容安全应用研究。担任IEEE汇刊 TIP/TMM/电子学报的Senior Area Editor/Associate Editor/编委,NeurIPS/ICCV/CVPR/IJCAI/AAAI/ICPR的Area Chairs。获2019年中共中央办公厅技术进步一等奖(排名第1)。中国计算机学会优博、中国电子学会优博、中国科学院大学优博指导导师。
胡卫明,中国科学院自动化研究所
题目:面向图像、视频内容安全的智能检测与识别技术
报告摘要:浅谈网络内容安全与人工智能的关系;介绍报告人如下方面的工作:敏感图像视频检测、特殊头像识别、特定标志检测、文本与图像的多模态融合、基于笔画特征的特殊文字检测、恐怖图像视频检测、暴力图像视频识别、智能直播平台云审核系统、手机敏感视频检测装备、网络视频监管平台、网络直播监控平台等。
嘉宾介绍:胡卫明,中国科学院自动化研究所模式识别国家重点实验室研究员(二级)、博士生导师、视频内容安全研究团队负责人、人民中科智能技术有限公司创始人和首席科学家,国家杰出青年科学基金获得者、中组部万人计划科技创新领军人才入选者、科技部中青年科技创新领军人才入选者、人社部百千万人才工程国家级人选、国家有突出贡献中青年专家、享受国务院政府特殊津贴、国家863重点专项项目首席专家,IEEE Trans. on Cybernetics的Associate Editor。目前研究方向为网络多媒体敏感内容识别等,主持了国家自然科学基金重点项目、国家863重点专项项目、目标导向类课题等四十余项科研项目。已在PAMI、IJCV等国际刊物、国内一级刊物以及ICCV、ECCV、CVPR等重要国际学术会议上发表论文300余篇,获授权发明专利50余项。带领团队完成的敏感多媒体识别等技术实际应用于五十余家企事业单位,已在实战发挥作用,取得了显著的经济效益和社会效益。以第一完成人获国家自然科学二等奖、北京市科学技术(技术发明类)一等奖、北京市发明专利一等奖和吴文俊人工智能科学技术一等奖。
彭宇新,北京大学
题目:细粒度多模态分析与生成
报告摘要:互联网数据具有图像、文本、视频、音频等多模态并存的特点,而现有多模态分析与生成技术通常聚焦于粗粒度的大类,难以满足医疗、农业、海洋、交通等诸多领域的精细化需求。而细粒度多模态分析与生成旨在使计算机能够对多模态内容进行精细化分析与生成,例如将皮肤病图像细分为黑色素瘤、黑素细胞痣等各种子类别,根据细粒度文本描述自动生成各种鸟类图像等。其挑战在于不同类别差异小,相同类别差异大。如何借鉴人脑的认知机理,模拟注意力机制学习多粒度的辨识性特征,突破细粒度多模态分析与生成难题,对于提高计算机的感知和认知能力至关重要。本报告将介绍我们在细粒度多模态分析与生成上的相关研究进展,包括细粒度图像分类、细粒度跨媒体检索、细粒度文本到视觉内容生成。
嘉宾介绍:彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方向为跨媒体分析与推理、图像视频识别与理解、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术一等奖和2020年中国电子学会科技进步一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等20多个项目,发表论文160多篇,包括ACM/IEEE Trans和CCF A类论文70多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TCSVT等期刊编委。
徐常胜,中国科学院自动化所
题目:视频理解中的关系学习研究
报告摘要:随着便携式数码设备的普及和移动互联网的发展,海量的视频大数据亟需智能的视频理解技术。视频理解是一个融合视频底层特征信息和高层语义信息的过程,并服务于用户的不同需求。高效的视频理解技术可以使计算机智能地完成各种视频相关的任务,如视频监控、视频娱乐等。视频大数据具有(1)时空复杂,(2)底层特征与高层语义之间存在“语义鸿沟”,(3)类别丰富,(4)多模态,(5)个性化需求多样等特点。这些特点在视频数据中表现为纷繁复杂的关系信息,因此为视频的智能理解带来了巨大的挑战。事实上,针对视频中复杂而多样的关系模式进行学习对深入地理解视频内容是至关重要的。本报告围绕如何设计有效的关系学习方法来进行视频理解展开,自底向上地重点研究了视频中的三种关系结构信息:首先针对视频中的物体层面,研究了物体表观中的结构化关系建模;接着以物体为纽带,深入挖掘了视频中的物体-语义关系信息,从而实现了视频高层语义的自动提取;最后,探索了视频语义-用户兴趣之间的关系,完成了视频的个性化服务。
嘉宾介绍:徐常胜,中国科学院自动化所研究员,国家杰出青年基金获得者,国家万人计划领军人才,入选国家百千万人才工程和首都科技领军人才工程,科技部重点领域创新团队负责人,国家重点研发计划项目首席科学家,中国科学院王宽诚率先人才计划卢嘉锡国际团队负责人。国际电子电气工程师学会会士(IEEE Fellow),国际模式识别学会会士(IAPR Fellow),国际计算机学会杰出科学家(ACM Distinguished Scientist)。担任国际计算机学会多媒体专委会中国区(ACM SIGMM China Chapter)主席和中国计算机学会多媒体专委会副主任。担任国际期刊Multimedia Systems主编,担任过国际期刊“IEEE Transactions on Multimedia”和“ACM Transactions on Multimedia Computing, Communication and Applications”编委以及国际顶级多媒体会议“ACM Multimedia Conference”程序委员会主席。在多媒体分析,计算机视觉,模式识别,图像处理等领域发表论文400多篇,其中IEEE和ACM汇刊论文110余篇,国际顶级会议会议论文70余篇。在多媒体国际顶级会议和期刊上获得最佳论文奖10余次。获得2018年中国电子学会自然科学一等奖,2009年中国计算机学会青年科学家奖,7次获得中国科学院优秀导师奖。
殷绪成,北京科技大学
题目:面向互联网多媒体内容理解的开放集模式识别技术
报告摘要:模式识别是互联网多媒体内容理解的一个重要内容。然而,在互联网开放环境下,新数据、新模式、新类别不断涌现,模式识别/图像识别技术及应用出现新挑战。本报告首先简要回顾开放集模式识别的基本概念及主要技术;然后针对互联网多媒体内容理解真实应用场景,重点介绍一个新主题——“开放集文字识别”(Open-Set Text Recognition),较详细地阐述其基本定义、通用框架和典型算法;最后对互联网多媒体内容分析中的多语言多民族文字识别技术应用进行初步展望。
嘉宾介绍:殷绪成,教授、博士生导师,国家杰出青年科学基金获得者,本科、硕士毕业于北京科技大学计算机系,博士毕业于中国科学院自动化研究所,现为北京科技大学计算机与通信工程学院院长、模式识别与人工智能技术创新实验室主任,中国图象图形学学会文档图像分析与识别专委会副主任/秘书长。他长期从事模式识别、文字识别、计算机视觉及人工智能芯片技术研究与应用,在IEEE T-PAMI、IEEE T-IP、CVPR、ICDAR等学术期刊会议上发表近100篇论文;以第一完成人获2019年度北京市科技进步奖一等奖、2018年度教育部科技进步奖二等奖,带领团队连续四届(2013、2015、2017和2019年)荣获国际文档分析与识别大会技术竞赛共15项冠军。
技术论坛:新一代交互式新媒体技术
简介
随着元宇宙等概念兴起,新一代交互式新媒体技术开始得到产业界和学术界的广泛关注。交互式新媒体技术通过交互行为并以视觉、触觉、听觉等方式呈现信息,不仅可以向用户提供包括视角、光照、焦距、视场范围等多个视听维度的交互与变化,还可以通过“触觉交互”实现视听服务向三维视-听-触觉服务的革命性扩展。交互式新媒体技术能使千里之外的操作者有身临其境之感,并可通过网络远程改造物理世界,是下一代VR/AR应用的核心。本论坛邀请6位国内知名学者,围绕新一代交互式新媒体内容生产、传播和呈现等环节中存在的挑战,分别介绍跨模态图像生成、3D点云高效编码压缩、VR可靠传输与优化、视觉质量评价及其应用、触觉感知、交互式场景理解等方向的最新研究进展。最后,围绕该领域当下挑战及未来趋势开展讨论。
组织者
王旭,深圳大学计算机与软件学院长聘副教授,未来媒体技术与计算研究所所长助理,博士生导师。长期从事视频编码压缩、3D场景智能分析等方面的研究工作。作为项目负责人主持11项科研项目,其中包括国家自然科学基金面上项目1项、深圳市基础研究重点项目1项,获腾讯“犀牛鸟”深圳大学青年教师科研基金项目奖。发表学术论文等成果70余篇,Google Scholar论文引用数1800余次。
赵铁松,福州大学物理与信息工程学院教授,福建省媒体信息智能处理与无线传输重点实验室主任,福州大学人工智能研究院副院长。长期从事多媒体通信与机器视觉相关研究,主持国家自然科学基金面上项目2次,发表学术论文、发明专利等成果100余篇,获福建青年科技奖、教育部高等学校科学研究优秀成果奖二等奖、福建省通信学会科技奖二等奖等,入选国家青年人才项目及若干福建省人才项目。
报告嘉宾
王苫社,北京博雅睿视科技有限公司
题目:基于视觉描述的跨模态图像生成
报告摘要:同时理解语言与视觉信息,跨越语言和视觉之间的模态语义鸿沟,是人工智能系统从感知智能迈向认知智能的关键。在语言的众多表达形式中,视觉描述是与视觉内容联系最为紧密的一种语言形式。视觉描述根据其描述形式,可以分为基于语音的视觉描述和基于文本的视觉描述。本报告围绕基于视觉描述的跨模态图像生成问题,阐述从文本到图像的生成,语音到图像的生成,以及跨模态语义压缩的关键技术探索。
嘉宾介绍:王苫社,男,工学博士,北京博雅睿视科技有限公司创始人,董事长,北京大学数字媒体研究所副研究员。研究兴趣主要包括视频编码、智能视频处理与评价。作为主要完成人获得2020年度国家技术发明一等奖,2019年中国电子学会技术发明特等奖,入选2018年度高等学校十大科技进展获奖主要完成人之一。
马展,南京大学
题目:Learning for Efficient Point Cloud Compression
报告摘要:This talk will cover learning driven point cloud geometry (PCG) compression using multiscale sparse tensor representation. We start with the theoretical motivation and discuss the explorations along this avenue. Specifically, we first design the Sparse Convolution based Neural Networks (SparseCNN) that stacks sparse convolutions and voxel sampling to best characterize and embed spatial correlations. We then develop SparseCNN based Occupancy Probability Approximation (SOPA) model to estimate the occupancy probability in a single-stage manner only using the cross-scale correlation or in a multi-stage means by stage-wisely exploiting correlation among same-scale neighbors. Besides, we also suggest the SparseCNN based Local Neighborhood Embedding (SLNE) to aggregate local variations as spatial prior in feature attribute to improve the SOPA. Currently, our learnt PCG compressions offers state-of-the-art efficiency in comparision to the standard compliant solutions and numerous learning-based approaches. Our method is now under investigation in MPEG AI PCC group for next-generation PCC standard.
嘉宾介绍:马展,南京大学电子科学与工程学院教授,分别于2004年和2006年获华中科技大学学士和硕士学位,2011年获纽约大学(New York University)博士学位。2014年获登峰计划支持,加入南京大学。2011年至2014年分别在三星电子美国研究院,华为美国研究院从事下一代视频压缩技术的研究和标准化工作。目前主要从事计算成像、神经媒体压缩方向的相关研究。他曾获得2018年PCM最佳论文入围奖、2019年IEEE BTS最佳论文奖、2020年IEEE MMSP大挑战最佳图像编码解决方案奖和2020年SPIE ICMV相机照明竞赛一等奖。
卢汉成,中国科学技术大学
题目:面向VR应用的多波段协同无线边缘资源优化
报告摘要:针对VR点播应用设计了面向sub-6 GHz和毫米波的多波段协同无线边缘资源分配与优化机制。基于随机几何概率分析模型,以链路选择概率表征无线资源与边缘资源的耦合关系,将无线边缘资源优化问题解耦为边缘网络资源优化问题,并通过分支限界算法和差分凸规划算法分别得到最优和近似最优解。仿真结果验证了所提出算法的有效性,表明在sub-6 GHz基站缓存更多单目视点并在毫米波基站缓存更多立体视点能够有效提升VR传输的可靠性。
嘉宾介绍:卢汉成,中国科学技术大学信息科学技术学院副教授、博生生导师,合肥综合性国家科学中心人工智能研究院研究员,IEEE高级会员,入选微软亚洲研究院“访问青年教师计划”,美国纽约州立大学布法罗分校访问学者,主要研究方向包括多媒体通信、无线边缘网络、未来网络体系架构与协议等,在IEEE汇刊和IEEE INFOCOM等会议上发表论文50多篇,获得IEEEE GLOBECOM 2021、WCSP 2019、WCSP 2016最佳论文奖。
张云,中国科学院深圳先进技术研究院
题目:面向交互式三维视频系统的视觉质量评价及其应用
报告摘要:在“元宇宙”人与人沟通交流不是面对面,而胜似面对面,逼真的远程视觉呈现是最重要的核心技术之一。随着摄像、显示和数字计算技术的进步,视频技术朝着三维化和多自由度交互的方向发展,3D视频、虚拟现实(VR)和增强现实(AR)提供3D立体感、沉浸式、多自由度交互等全新视觉体验,在国家城市安全、教育医疗、文化影视、自动驾驶等领域有广泛应用前景。本报告将详细介绍课题组交互式三维视频质量评价方法的相关研究进展,并探讨质量评价模型在高分辨重建、编码潜在应用。主要包括:1)面向3DoF的交互式三维图像与视频质量评价;2)面向6DoF的交互式点云的质量评价;3)质量评价技术在三维视频重建、增强和编码的应用。
嘉宾介绍:张云,中国科学院深圳先进技术研究院,研究员,博士生导师,IEEE Senior Member,长期从事多媒体信号处理与通信的研究,包括三维视频技术,高效视频编解码,虚拟现实,人工智能等,已主持完成国家自然基金,广东省重大科技专项等项目,已在IEEE Trans. Image Process. IEEE Trans. Circuits Syst. Video Technol., IEEE Trans. Broadcast., IEEE Trans. Multimedia, IEEE Trans. Indust. Informatics等著名期刊发表SCI论文100余篇,其中IEEE Transactions系列汇刊40余篇,Google Scholar引用2900余次,出版学术专著《三维视频处理》一部,申请中/美/PCT发明专利40余项,授权20余项, AVS/MPEG标准提案10余项,曾获得教育部自然科学二等奖、教育部科技进步二等奖,浙江省科学技术一等奖,宁波市科技进步一等奖等。
刘倩,大连理工大学
题目:智能机器人触觉感知技术初探
报告摘要:随着技术的发展,机械臂所处环境及任务由高度确定性向开放、非结构化等非确定性转变。因此,对机械臂“灵巧性”的要求已成为不可回避的技术难点。面向提高智能机器人灵巧性需求,触觉感知技术近年来引起广泛关注。本报告重点介绍柔性触觉感知机理与机制、面向机械手仿人抓取的分布式柔性压力传感器设计、超分辨率触觉图像重建、基于触觉纹理的物体识别等方向的相关技术与成果。
嘉宾介绍:刘倩,大连理工大学计算机科学与技术学院,副院长,副教授。2016年获德国洪堡科研基金,主要研究方向为机器人触觉传感技术、视触觉多模态人机交互、无线多媒体通信等。近5年发表国际知名期刊和会议论文50余篇。曾获2018年辽宁省通信学会优秀通信科技工作者称号,获辽宁省通信学会学术论文一等奖3次,二等奖3次,国际会议 ICME 2012最佳论文奖。2017年和2018年IEEE触觉领域国际会议HAVE程序委员会联合主席, 2022年亚洲触觉大会程序委员会联合主席,现担任IEEE触觉编码标准工作组(IEEE p1918.1.1)秘书长。
胡瑞珍,深圳大学
题目:三维交互的几何表达与生成
报告摘要:人类智能是在和环境交互中进化的,因此对三维交互进行有效表达、分析和处理是实现类人智能的关键。本报告将介绍一种三维交互的几何表达方法,并在其基础上进行的一系列交互分析和生成方法,细致描述并准确识别了多层级交互(从场景到物体再到部件),定位了交互相关的几何特征,刻画了同一对象的不同交互方式,规划了交互的动态执行过程,实现了对三维交互的高层次理解和优化。
嘉宾介绍:胡瑞珍,深圳大学计算机与软件学院长聘副教授,博士生导师,可视计算研究中心副主任。她长期从事智能几何建模与处理方面的研究,以第一作者发表 ACM SIGGRAPH/TOG 论文十余篇;获广东省杰出青年项目资助,入选中科协青年人才托举工程;曾荣获亚洲图形学协会青年学者奖、几何设计与计算青年学者奖、时谛智能CAD&CG青年学者奖;担任SCI期刊IEEE CG&A和The Visual Computer编委;曾担任国际会议SMI 2020程序委员会共同主席,多次担任SIGGRAPH等大会程序委员会委员。
技术论坛:MM-CV高影响力论文赏析论坛
简介
在“大数据”背景和“人工智能”热潮的推动下,多媒体和计算机视觉领域得到了飞速的发展并取得了突破进展,近十年涌现出诸如ResNet、Inception、YOLO等具有里程碑意义的开山之作,这些方法的提出为目标识别、检测与分割等计算机视觉领域做出了巨大的贡献,成为一系列方法的先河,后续很多方法都受这些方法的启发,在深度学习领域带来了颠覆式的影响。人工智能领域的研究工作大多是方法和技术创新,在快速更新迭代的计算机学科中,如何开展有价值、有影响力的工作成为本次论坛的主要议题。本次论坛将以近几年模式识别和计算机视觉领域深度学习方法创新的一些成果为例,从多媒体和计算机视觉领域的前瞻性思想、关键问题、未来挑战等方面开展沟通和讨论,说明如何从面向问题或应用的理论、原理、通用模型与方法,如何开展有价值、有深度且有影响力的工作,旨在团结领域内外专家学者和相关科技工作者,共同促进多媒体和计算机视觉学习与认知领域的学术研究。我们期待在未来的计算机视觉领域,一定会有更多更强的工作,为我们的科研与生活带来更快更好的提升。本论坛拟邀请四位青年学者进行学术报告,时间约3小时。拟邀请100-300名专家学者和相关科技工作者参与。
组织者
韩军伟,西北工业大学脑与人工智能实验室教授,IEEE Fellow,获聘2018年度长江学者特聘教授,入选第四批国家“万人计划”科技创新领军人才,科睿唯安全球“高被引科学家”。主要研究方向是人工智能、模式识别、类脑计算、遥感影像解译等。在Proceedings of the IEEE,IEEE TPAMI,CVPR等领域顶级期刊/会议发表学术论文100余篇,论文被引用1.7万次。3篇论文入选年度中国百篇最具影响国际学术论文。荣获2021年度IEEE地球科学与遥感学会最有影响力论文奖、IEEE TCSVT 2021、IEEE BIBM 2018最佳论文奖。获陕西省科学技术一等奖等6项省部级科技奖,主持国家自然科学基金重点、国家重点研发计划等十余项国家级课题。担任IEEE TPAMI等期刊编委,CVPR等国际会议领域主席。
张鼎文,西北工业大学脑与人工智能实验室教授,入选中国博士后创新人才计划, 科睿唯安“全球高被引科学家”。所发表论文入选ESI高被引论文及热点论文十余次,1篇论文获2021 IEEE TCSVT最佳论文奖,1篇论文入选2018年中国百篇最具影响国际学术论文,获中国图象图形学学会优秀博士论文奖,国际计算机学会中国人工智能分会优博奖,陕西省优秀博士学位论文奖等。从事计算机视觉、模式识别、多媒体信息处理、机器学习。迄今为止,作为第一作者/通讯作者在领域内T-PAMI,、IJCV、CVPR国际重要期刊及会议发表学术论文30余篇。
王乐,西安交通大学人工智能与机器人研究所教授、博导、所长助理,入选“中国科协青年人才托举工程”。主要研究方向为计算机视觉、模式识别与机器学习。在IEEE T-PAMI、IEEE T-IP、ICCV、CVPR等领域顶级期刊和国际会议发表论文50余篇,谷歌学术引用1000余次。主持国家自然科学基金面上和青年项目等10余项。获西安交通大学“优秀博士论文基金”,2012年获ACCV“最佳应用论文奖”。担任ICCV 2025主办地主席,CVPR’2022领域主席,中国自动化学会青年工作委员会副秘书长。
朱磊,山东师范大学教授,博导,“多媒体智能计算”山东省青年创新团队负责人。主要研究方向是多媒体计算、信息检索、大数据挖掘。在顶级期刊和会议发表高水平论文84篇。谷歌学术引用3700多次,ESI高被引论文6篇。获得ACM SIGIR 2019和ACM MM 2019最佳论文提名、ADMA2020最佳论文奖,入选2019年中国百篇最具影响国际学术论文。任ACM MM领域主席,主持基金委青年/面上项目、山东省优秀青年基金项目等多项课题。获得ACM中国SIGMM新星奖、山东省人工智能优秀青年奖等。
韩龙飞,现任北京工商大学副教授,博士毕业于北京理工大学,攻读博士期间在卡内基梅隆大学交流访问两年,主要从事机器学习算法、计算机视觉等相关领域研究,代表性成果发表在IEEE CVPR, IJCAI, IEEE JBHI等国际权威会议和期刊。博士毕业后加入腾讯科技有限公司任高级算法工程师,从事计算广告相关工作,负责深度转化&用户生命价值周期预估、广告内容安全智能审核等项目,参与搭建腾讯广告推荐引擎的深度学习在线训练&推理框架等工作。
报告嘉宾
高联丽,电子科技大学
题目:视觉深度理解之场景图生成探索
嘉宾介绍:高联丽,电子科技大学教授,博士生导师,国家自然科学基金优青项目获得者,2020年获IEEE TCMC 新星奖,2019年获阿里巴巴达摩院第二届青橙奖,主要研究领域为计算机视觉与自然语言处理,专注于融合自然语言与知识的视觉内容深度理解方面的开放性问题。迄今为止,在在IEEE T-PAMI、TIP、CVPR、ICCV等顶级期刊和会议发表高水平论文90余篇。获得ADC最佳学生论文奖,在CVPR 2021年AI挑战赛等多项国际学术竞赛中荣获冠亚军成绩。
刘静,中科院自动化研究所
题目:基于注意力机制的图像语义理解
嘉宾介绍:中国科学院自动化所研究员/博导,中国科学院大学岗位教授,国家优青。研究方向图像语义理解、多模态预训练等。 在TPAMI、TIP、CVPR、ICCV等顶级期刊和会议发表学术论文150余篇,ESI高被引论文2篇,谷歌引用8000余次。其中CVPR2019论文首次提出了基于双重自注意力机制的图像语义分割方法(DANet),谷歌引用超过2600次,对应开源代码GitHub Star超过2000。曾获CSIG科学技术二等奖,在相关领域国际学术竞赛中荣获冠军8项。
付彦伟,复旦大学
题目:pixel2mesh: 基于深度学习的图像3D重建
嘉宾介绍:付彦伟:复旦大学青年研究员,青年千人,上海高校特聘教授,东方学者。主要研究方向为小样本识别、人脸识别及行人再识别,图像及视频理解及生成,基于图像的3D物体建模及生成等。在IEEE TPAMI、CVPR、ICCV等顶级国际期刊及会议发表论文共100多篇。任多个国际期刊、学术会议长期审稿人及程序委员会委员等。主持国家自然科学基金青年项目、面上项目、上海市科委青年扬帆计划,长光所-复旦合作基金项目、2019年上海市“科技创新行动计划”人工智能项目等。
王兴刚,华中科技大学
题目:十字交叉自注意力机制介绍
嘉宾介绍:王兴刚,华中科技大学,电信学院,教授,博士生导师。主要研究方向为目标检测与分割,在IEEE TPAMI、IJCV、CVPR、ICML等顶级期刊会议发表学术论文50余篇,谷歌学术引用次数1万余次,在计算机视觉领域首次提出了空间稀疏自注意力机制(CCNet),该机制在Deepmind AlphaFold应用,对应的论文在ICCV19最具影响力榜单上排名第四,引用超过1000次。担任CVPR 2022领域主席,Pattern Recognition、Image and Vision Computing 期刊编委。入选了国家万人计划青年拔尖人才、吴文俊人工智能优秀青年等。
技术论坛:视觉与语言的智能计算
简介
计算机视觉和自然语言处理是人工智能的两大分支,它们专注于在视觉和语言上模拟人类智能。此前,深度学习极大地推进了单模态学习在视觉和语言领域的发展,并在一系列任务上取得了先进的成果。语言和视觉在某种程度上都用于描述客观世界,只是表述形式不同,两者本身存在相当密切的关联,现实世界的问题往往是同时涉及视觉和语言两种模态的。关于视觉与语言的智能计算是两个领域的交叉点,旨在建立视觉和自然语言的双向桥梁,既可以从视觉生成文字,也可以从文字生成视觉。本论坛关注各种视觉语言任务的共性基础问题,例如推理、因果关系、可解释性、小样本问题等,邀请领域专家介绍其在图像视频描述、图像生成、视觉问答、指示表达定位、跨模态定位、视觉常识推理等任务上的最新理论与方法。此外,也将在Panel环节对大规模多模态预训练模型的未来,视觉与语言模型如何在实际应用中落地等问题展开深入探讨。
组织者
李亮,副研究员,研究方向为多媒体内容分析、计算机视觉和跨媒体智能等,在相关领域发表IEEE/ACM汇刊和CCF-A类会议论文40余篇,获国际会议最佳论文奖1次,3项工作入选ESI高被引论文。主持/参与科技部科技创新2030重大项目、973课题、NSFC应急管理重点项目、NSFC重点和面上项目等10余项,多次担任IEEE/ACM国际会议的组织委员会成员,ACM SIGMM中国执委,入选中国科学院青年创新促进会,获2020年吴文俊人工智能学会自然科学奖一等奖等。
颜成钢,教授,博导,国家级人才奖励计划特聘教授、国家重点研发计划项目负责人、“国家级人才奖励计划”青年学者,浙江省“钱江学者”特聘教授,浙江省杰出青年基金获得者,杭州电子科技大学科研处处长。近五年,在IEEE TPAMI在内国际期刊和会议等上发表论文100余篇,其中10篇入选ESI高被引论文,5篇入选ESI热点论文,5次获得国际会议最佳论文奖,研究成果获2018中国电子学会自然科学类一等奖、2019国家自然科学奖二等奖和2020吴文俊人工智能科技进步奖一等奖。
杨阳,电子科技大学计算机科学与工程学院教授、博导。澳大利亚昆士兰大学博士、新加坡国立大学博士后。研究领域包括多媒体检索、社交媒体分析和机器学习。在计算机领域知名期刊和会议上发表论文百余篇。目前主持国家自然基金企业联合重点项目1项、面上项目1项、科技部重点研发计划项目子课题1项,参与重点项目1项。担任CCF A类会议ACM Multimedia 2021程序委员会主席,多次任职国际SCI期刊(客座)编委。曾获ACM Multimedia 2017最佳论文奖、ACM Multimedia 2013最佳学生论文、ACM SIGIR最佳论文Honorable Mention、IEEE ICME World's FIRST 10K Best Paper Award、WISE最佳论文等学术奖项。2014年获电子科技大学校百人计划支持;2016年获国家青年特聘专家 ;2021年获聘教育部长江学者特聘教授。
查正军,教授,博导,中国科学技术大学类脑智能技术及应用国家工程实验室执行主任,国家优秀青年基金获得者,入选国家创新人才计划青年项目。主要从事计算机视觉、图像视频分析与理解、模式识别、类脑智能等方面研究。发表一系列ACM/IEEE Trans. 及CCF A类会议论文,多次获得国际会议论文奖励,包括顶级国际会议ACM Multimedia最佳论文奖、最佳学生论文奖等。担任IEEE TCSVT、ACM TMM等国际期刊编委。主持科技部创新2030-新一代人工智能重大项目、国家基金委联合重点基金等。
严睿,长聘副教授,博导,国家优秀青年基金获得者。2020年12月加入中国人民大学高瓴人工智能学院,入选北京智源人工智能研究院青年科学家,微软亚洲研究院铸星学者。至今共发表研究论文100余篇,累计引用4000余次,多次担任国际顶级学术会议的领域主席及资深程序委员会委员,曾多次受邀于国际顶级学术会议上宣讲讲习班教学报告(tutorial)。主要研究方向为自然语言处理,信息检索,文本挖掘,机器学习和人工智能。
报告嘉宾
姜育刚,复旦大学
题目:视频目标识别与篡改检测
报告摘要:视频已成为主流信息传播媒介,对海量互联网视频的分析与理解技术是人工智能领域的重要研究问题。本报告聚焦视频内容理解中的目标识别与篡改检测两个方向,介绍复旦大学视觉与学习团队在大规模视频数据集构建、快速视频识别、视频数据篡改鉴别等方面的工作进展。
嘉宾介绍:姜育刚,复旦大学教授、博士生导师,教育部长江学者特聘教授。2022年1月起任校人事处处长,2020—2022年任计算机科学技术学院院长、软件学院院长。研究领域为多媒体信息处理、计算机视觉、鲁棒可信人工智能。国家科技创新2030“新一代人工智能”重大项目负责人。上海市智能视觉计算协同创新中心主任。发表的两百余篇论文被引用万余次,成果多次服务国家关键领域的重要任务。构建的开源数据和工具集如VIREO374、CCV、VCDB、THUMOS、FCVID被国内外学者及企业频繁使用。
杨易,浙江大学
题目:大规模跨媒体检索、定位与生成方法
报告摘要:当前网络上跨媒体信息不仅体量巨大,而且存在着错综复杂的交叉关联,实现跨媒体数据的精确理解是高效利用互联网资源迫切需要解决问题。本次报告将结合团队的研究成果和参赛成果详细介绍存在未知物体的图像描述、视觉对话、EmbodiedQA、音频与图像结合的视频事件定位、视觉常识推理等一系列工作,讨论模型的效率、泛化性,并针对目前的研究瓶颈及发展趋势展开讨论。
嘉宾介绍:杨易,国家重大引才计划专家,浙江大学求是讲席教授,目前担任浙江大学计算机学院副院长、微软-教育部视觉感知重点实验室主任、人工智能省部共建协同创新中心副主任。曾获教育部全国优秀博士论文,浙江省自然科学一等奖,澳大利亚科研终身成就奖,澳大利亚研究理事会青年职业奖,澳大利亚计算机学会颠覆创新金奖,谷歌学者研究奖和AWS机器学习研究奖等二十余次人工智能领域国际奖项。Google Scholar 引用40000余次,H-index 100,入选2021年人工智能全球最具影响力学者榜单AI 2000中经典AI、多媒体、计算机视觉、数据库四个领域全球影响力前一百的最具影响力学者,近四年连续入Clarivate Analytics全球高被引学者。国际科研竞赛中累计获得40余次奖项,含20次世界冠军。担任7种重要国际期刊的副主编或领域主编,以及CVPR、ICCV、IJCAI,ACM MM等重要国际学术会议的重要职务等19次。
金琴,中国人民大学
题目:跨模态检索与生成
报告摘要:在通信和网络技术迅速发展的今天,不同模态的媒体数据如文本、图像和视频曾爆炸式的增长。这些不同模态的数据反映了人类世界的多样性。对于人工智能而言,具备像人一样感知和理解不同形式信息的能力是必不可少的。跨模态检索与生成是以一种模态的数据作为查询来检索或生成相关的其它模态数据的任务,是人工智能多模态理解的基础任务。在本次报告中,我将介绍我们在跨模态检索与生成方面的近期工作,包括:混合模态的图像检索,以及图像差异描述生成。
嘉宾介绍:金琴,中国人民大学信息学院教授,博士生导师。于清华大学获得学士、硕士学位,美国卡内基梅隆大学获得博士学位。主要研究领域包括多媒体智能计算、人机交互。在国际一流期刊及顶级学术会议上发表论文百余篇,蝉联多项国际权威竞赛冠军,包括: 2017-2021年TRECVID视频描述(VTT)评测冠军;2018-2020年CVPR ActivityNet Dense Video Captioning 竞赛冠军; 2017-2019年ACM Multimedia Audio-Visual Emotion Challenge (AVEC) 竞赛冠军; 2019年之江杯全球人工智能大赛视频内容描述生成冠军等。担任ACM Multimedia 2022 Technical Program Chair, ACM ToMM Associate Editor。
姚霆,京东科技
题目:从视觉表征学习到视觉-语言智能
报告摘要:本次报告将简要回顾近几年从视觉表征学习到视觉-语言智能的技术创新,受自然语言处理领域Transformer结构的启发,视觉表征学习从传统卷积神经网络架构(CNN)演变到Vision Transformer,同时在视觉-语言分析领域也涌现了一系列例如CLIP这样高质量的跨模态预训练模型。基于此,视觉-语言智能近几年遵循着不同模态间“自洽、交互到共生”的发展脉络,如今也已经迈入到基于跨模态预训练模型的共生阶段,因此本次演讲也将重点介绍如何在视觉-语言智能中高效的利用跨模态预训练模型。
嘉宾介绍:姚霆,博士,京东科技算法科学家,领导团队聚焦计算机视觉与多媒体领域的基础研究和技术创新,成果先后10余次被成功转化到京东的产品和服务中。他在顶级会议/期刊上已发表论文80余篇,先后10余次获得国际学术竞赛冠军,设计了视频分析领域标准的3D卷积神经网络范式(P3D),构建的大规模视频文本数据集(MSR-VTT)也被全球四百余研究机构的学者下载使用。姚博士在2019年同时被授予IEEE TCMC Rising Star和ACM SIGMM Rising Star,现任IEEE Transactions on Multimedia和Pattern Recognition Letters期刊编委。
张富峥,快手
题目:快手多模态大模型K7的构建和应用
报告摘要:近年来,大模型以及多模态大模型,逐渐成为国际人工智能前沿研究和应用落地的热点,各大科研机构和科技公司在此赛道上都有较大的投入,例如国外OpenAI的语言模型GPT-3和多模态模型DALL-E,以及国内阿里巴巴达摩院的多模态大规模预训练模型M6,都在预训练技术构建上和应用上有明显的进展。快手场景内存在包括短视频、直播、商业化广告、电商商品在内的海量复杂内容形态,并且各业务场景都需要对多模态内容进行深度理解,因此我们基于快手公司的数据特点和场景需要,构建了对应的多模态大模型K7。本次演讲主要讲解K7的技术构建思路和典型应用场景。
嘉宾介绍:张富峥博士,快手MMU NLP中心负责人,主要负责NLP及多模态相关技术在快手场景下的建设和应用。在此之前,张富峥博士担任美团知识图谱团队的负责人,以及在微软亚洲研究员担任研究员。张富峥博士长期关注NLP、知识图谱、搜索推荐等相关的技术建设以及在业务场景中的具体应用。他在KDD、WWW、ACL、EMNLP等相关领域的顶级会议/顶级期刊上发表论文60+,谷歌引用6000+,并长期担任相关学术活动的评委。 张富峥博士入选了2022年人工智能全球最具影响力学者榜单AI 2000中的数据挖掘领域排名前30的最具影响力学者。
技术论坛:食品智能分析及应用
简介
近来AI for Science得到越来越广泛的关注,AI+食品科学也不例外。物联网、社交网、互联网等泛在网络空间的繁荣发展产生了海量多媒体食品大数据,使得多媒体和计算机视觉等人工智能技术开始向食品科学和工业等食品相关领域渗透。海量多媒体食品数据所蕴含的新机遇以及当前迅速发展的多媒体和计算机视觉等技术催生了“食品计算”这一新的交叉研究方向。食品计算旨在用计算的方法综合分析和处理食品领域的文本、图像、视频等不同类型的多媒体信息,进而为食品科学、农学和生物学等食品相关领域的研究和应用提供信息化和智能化的支持。该论坛围绕食品计算,从食品品质评价、食品安全检测和食品营养评估等多个方面介绍最新研究成果,以期促进食品智能分析技术的发展,进一步在多媒体领域催生更多的食品相关的新应用和新服务,并反过来通过食品计算向食品科学领域的渗透,对食品相关学科发展产生积极影响。
论坛议程
时长:2个小时
形式:首先4位讲者轮流进行报告,然后通过思辩环节共同探讨该专题面临的机遇和挑战
组织者
闵巍庆,中国科学院计算技术研究所副研究员。主要研究方向为多媒体内容分析和食品计算。在Patterns (Cell Press)、ACM Computing Surveys、食品科学领域主流期刊Trends in Food Science & Technology、ACM/IEEE汇刊和CCF-A类会议长文上发表论文30余篇。连续两年分获国际多媒体领域主流期刊ACM TOMM和IEEE MM的年度唯一最佳论文奖。获北京市科技进步二等奖及ACM中国 SIGMM 新星奖。是 IEEE/CCF/中国食品科学技术学会高级会员,CCF多媒体专委会副秘书长,ACM MM’21/ICME’22 领域主席,国际期刊IEEE Multimedia和Neurocomputing的客座编委。作为主要组织者,在ACM MM’20 联合组织关于食品计算的讲习班,在ICCV’21上联合组织关于大规模食品分析的研讨会。
明朝燕,浙大城市学院特聘研究员,钱塘学者;新加坡国立大学计算机系博士、博士后,曾任美国迪吉彭理工大学副教授,新加坡国立大学-清华大学-英国南普敦大学联合研究中心智能健康项目负责人。从事多媒体和自然语言处理技术在医疗健康领域交叉研究,在TKDE、TOIS、TMM、SIGIR、AAAI等期刊和会议发表代表性论文35篇,Google Scholar H-index 19,引用1100余次。发布DietLens App和“知食AI营养师” 小程序,应用于新加坡临床营养研究所,浙江大学公共卫生学院,及杭州市卫健委等机构的科研和应用项目。
陈星,江南大学食品科学与技术国家重点实验室、食品学院副研究员,入选江苏省科协青年科技人才托举工程,《Current Research in Food Science》副主编。主要从事食品蛋白结构/胶体设计的基础理论研究,聚焦新型肉品、可食性副产品高值化、可持续食品蛋白加工等应用。主持国家、省部级等课题项目5项,在领域内权威期刊共发表SCI论文55篇(h-index 18);申报专利2项,参与制定标准2项,参译论著1部;获颁《Meat Sci.》期刊Meat Science Prize奖、金龙鱼青年教师奖等;现担任《J. Food Biochem.》《J. Agr. Food Res.》等国际食品期刊编委,《LWT》客座编辑,《食品工业科技》青年编委。
蒋树强,中科院计算所研究员,博士生导师,中科院智能信息处理重点实验室副主任,主持科技创新2030“新一代人工智能“重大项目、国家杰青等项目20余项;主要研究方向是多媒体内容分析与多模态智能,任CCF多媒体专委会秘书长, ACM ToMM、JCST、计算机研究与发展等期刊编委,先后获北京市、中国计算机学会、中国图象图形学学会、中国人工智能学会等科技奖励和国际学术竞赛冠军奖励十余项。
报告嘉宾
崔晓晖,武汉大学
题目:基于人工智能技术的未来食品探索与优化
报告摘要:随着时代的进步和经济的发展,我们国家对于食物的要求已经从“吃饱”转型成“吃得好和吃得健康”,因此人们更加关注食品风味和食品营养,传统的食品科学技术逐渐不能满足这些需求。而新兴的人工智能与大数据分析技术给食品领域带来了更加全新更加科学的分析方式。将人工智能与大数据技术融合到传统食品科学领域中,可以创新食品生产、智能推荐、追踪溯源食品、分析用户口味偏好、监控食品安全等,使得食品科学获得更大发展,并为人们提供更好服务。本报告阐释了当前食品领域大数据与人工智能交叉融合发展现状,分析了其面临的挑战并讨论可行性解决方案,并展望了食品科学大数据与人工智能技术未来发展趋势。
嘉宾介绍:崔晓晖,武汉大学国家网络安全学院二级教授,博士生导师。美国路易斯维尔大学讲习教授、食品安全区块链联盟负责人、国家“食品安全大数据关键技术“重点研发计划首席科学家、教育部软件工程教学指导委员会委员、国家留学基金委项目评审委员会委员。长期从事大数据、集群智能、区块链、食品计算、社会计算研究。主持了国家重点研发计划、国家自然基金、军委装发重点基金等10余项研发项目。研究成果被美国MSNBC新闻、美国时代自由杂志、英国新科学家杂志以及人民网、中国青年报、央广网等国内外媒体报道。
李海生,北京工商大学
题目:食品大数据技术与应用
报告摘要:介绍团队围绕食品大数据方面开展的一些工作,包括“互联网+食品监管”、食品安全知识图谱构建、以及粮油质量安全溯源控制体系构建等。围绕食品安全抽检需求,构建国家食品安全抽样检验信息系统,运用人工智能、深度学习、数据挖掘、可视分析等技术保障食品安全抽检的科学性和真实性;对国家食品安全抽检监测数据、食品安全相关社交网络数据及部分食品安全标准数据集处理分析,构建跨媒体的食品安全领域知识图谱,为食品安全监管提供技术支撑;以粮油质量安全为例,介绍研发的区块链技术驱动的粮油质量安全溯源控制系统。
嘉宾介绍:李海生,工学博士,教授。现任北京工商大学计算机学院执行院长,计算机科学与技术一级学科带头人,中国图学学会第七届理事会理事,中国计算机学会杰出会员,北京高教学会计算机教育研究会副理事长,中国人工智能学会智能服务专业委员会副秘书长。曾获北京市高等教育教学成果一等奖一项,二等奖四项,北京市科技进步三等奖一项。主要研究方向是食品安全大数据处理及可视分析等。主持国家自然科学基金面上项目、国家重点研发计划课题、科技部创新方法工作专项课题、北京市自然科学基金面上项目、北京市自然科学基金-丰台轨道交通前沿研究联合基金资助项目等。
郭志明,江苏大学
题目:农产品品质安全物联感知与智能评价
报告摘要:农产品品质安全的快速无损检测是保证农产品品质、减少产后损失的重要技术支撑,为此,研究仿生智能算法的光电特征信号提取方法,构建稳定高精度的预测模型,开发农产品主要品质安全指标快速、高精度、无损伤、可在线、智能化的检测系统;研究农产品腐败变质发生发展过程多环境影响因素与品质变化耦合的作用规律,建立多源环境因素与品质间的时空动力学模型和环境影响因素交互影响的预警判别模型,综合应用物联感知和互联网技术,建立农产品智能化实时监测、评价、预警技术。保障农产品保质减损、加工增值,提升农产品生产加工的智能化水平。
嘉宾介绍:江苏大学食品与生物工程学院教授,专注食品农产品品质安全光电快速无损检测技术与装备研究。入选江苏高校“青蓝工程”优秀青年骨干教师,兼任江苏省食品科学与技术学会副秘书长、中国农业机械学会农副产品加工机械分会委员等。主持了国家重点研发计划(课题和任务)、国家自然科学基金(面上和青年)、江苏省重点研发计划、江苏省产学研合作项目等国家/省部级项目10余项。申请/授权专利40余件,软著8件;发表SCI检索论文60余篇,其中ESI高被引论文6篇。成果获2020年教育部自然科学二等奖、2016年江苏省科学技术一等奖、2020年中国轻工业联合会技术发明三等奖和2021年中国商业联合会科技进步特等奖等。
任广旭,农业农村部食物与营养发展研究所
题目:基于AI算法的血脂异常预测及功能研究
报告摘要:血脂是血浆中的中性脂肪(甘油三酯)和类脂(磷脂、类脂、类固醇)的总称,广泛存在于人体内,过高的血脂会对身体造成损害。基于小鼠的实验,我们可以通过小鼠模型的数据模拟出人类数据。近年来,基于机器学习的数据分析方式越来越受重视。本次研究通过机器学习模型探索数据,利用综合学习+特征筛选得到了关键因素对血脂的影响。当单独考虑时,Ruminiclostridium、Lachnospiraceae、Akkermansia和Peptoccus对血脂有较大的影响。在代谢方面,meta3347、meta1037、meta1598、meta2475 可以影响真实的血脂数据。
嘉宾介绍:任广旭,农业农村部食物与营养发展研究所,副研究员,复旦大学上海医学院博士,德国杜伊斯堡_埃森大学联合培养,曾供职于中科院微生物所。从事食物营养与健康研究。主要从宿主肠道微生物的角度探索食物及其功能性物质调控人体健康的机制,先后主持国家自然科学基金、北京自然科学基金面上项目、中央级公益性科研院所基本科研业务费专项以及农业部行业标准制定项目等在内的多项国家以及省部级课题;参与撰写国家重大专项建议书,并获中央领导批示3项、省部级领导批示2项;曾参与《国民营养计划(2017-2030)》计划的编写工作。
技术论坛:虚实融合的未来空间关键技术及应用
简介
新冠肺炎疫情的爆发及持续流行促使人们慢慢适应了远程办公、在线学习等生活方式,虚拟数字世界与现实物理世界间的界线逐渐模糊,人类社会虚拟化的临界点在越来越快地抵达,虚实融合已然成为一个必然趋势。而近年来5G、AI、云计算、XR、数字孪生、区块链等技术迅速发展,让人们对于可极大程度提升未来工作、生产以及生活效率并能赋予人们全新式交互体验的虚实融合有了更高的期待,但如何让虚拟世界变得更加三维化、沉浸化、交互化、场景化,真正实现虚实融合、时空跨越,完善形成体系的路途尚且遥远。为了促进学术界和产业界关于虚实融合关键技术的分享和交流,探讨最新发展动态,激发多角度探索,推动技术发展及应用,特在ChinaMM 2022举办虚实融合的未来空间关键技术及应用论坛。本论坛邀请多媒体及相关领域知名专家及学者围绕虚实融合的前沿技术、应用探索等进行分享,共同探讨未来空间关键技术的机遇与挑战等。
组织者
马思伟,北京大学计算机学院教授,国家杰出青年科学基金获得者。主要研究方向视频处理与编码。自2002年起参与AVS系列国家标准的制定,担任AVS视频组长组织制定了新一代AVS3视频编码标准,研制的AVS2/AVS3超高清编解码器,支撑了央视CCTV-4K/CCTV-8K超高清频道的开播。曾获国家技术发明奖一等奖、国家技术发明奖二等奖、国家科学技术进步奖二等奖等奖励。
武亚强,联想研究院研发高级总监,主任研究员,中国图象图形学学会文档图像分析与识别专委会常务委员,计算机学会多媒体专委会执行委员,教育发展战略学会教育大数据分会理事,目前负责联想乐学教育技术平台及方案的产品研发及技术创新工作,专注于人工智能在教育领域的应用,拥有超过100多项海内外专利,带领团队获得过十多次海内外学术竞赛冠军,曾获吴文俊科技进步二等奖和北京市科技进步二等奖。
报告嘉宾
马思伟,北京大学
题目:沉浸媒体表示技术与标准
报告摘要:沉浸媒体应用发展迅速,应用前景广阔。相比于传统自然视频内容,沉浸媒体虚实内容的表示、编码、传输、解码和交互都需要新的技术、标准支撑。本报告主要围绕MPEG-I标准对沉浸媒体的高效表示和编码技术展开介绍,以及AVS标准相关工作,希望通过本报告可以对沉浸媒体技术标准有较为系统的认识和了解。
嘉宾介绍:马思伟,北京大学计算机学院教授,国家杰出青年科学基金获得者。主要研究方向视频处理与编码。自2002年起参与AVS系列国家标准的制定,担任AVS视频组长组织制定了新一代AVS3视频编码标准,研制的AVS2/AVS3超高清编解码器,支撑了央视CCTV-4K/CCTV-8K超高清频道的开播。曾获国家技术发明奖一等奖、国家技术发明奖二等奖、国家科学技术进步奖二等奖等奖励。
蒋树强,中科院计算所
题目:先验知识驱动的视觉导航
报告摘要:不论真实环境还是虚拟环境,导航都是智能系统的一项重要能力。在静态且可充分探索的环境中,借助地图定位智能系统能达到令人满意的导航性能。然而对于动态且未知环境,现有技术由于缺乏准确的地图而无法进行高效的导航。相比于机器,人类依赖于对目标先验知识(如视觉信息,上下文环境布局等),可以轻松在未知动态环境中高效地寻找目标物体。如何将人类的视觉导航能力赋予机器是视觉导航任务所关注的问题。本报告将人类对区域与物体间关联关系的认知进行建模,并基于此建立一种先验知识,以帮助智能体在未知环境中执行物体导航任务。本报告还进一步讨论面向未知环境中未知类别的物体导航问题,以拓展现有物体导航任务的外延。最后介绍物体导航从虚拟到真实环境的适配并给出演示。
嘉宾介绍:蒋树强,中科院计算所研究员,博士生导师,中科院智能信息处理重点实验室副主任,主持科技创新2030“新一代人工智能“重大项目、国家杰青等项目20余项;主要研究方向是多媒体内容分析与多模态智能,任CCF多媒体专委会秘书长, ACM ToMM、JCST、计算机研究与发展等期刊编委,先后获北京市、中国计算机学会、中国图象图形学学会、中国人工智能学会等科技奖励和国际学术竞赛冠军奖励十余项。
刘均,西安交通大学
题目:跨媒体问答方法研究
报告摘要:智能问答是在虚拟教学环境中不可或缺的功能。与目前视觉问答不同,在线教育中的很多问题具有“示意图+文本”跨媒体形态,并且推理求解过程具有高阶、多跳特点与可解释性需求。对此,在国家重点研发计划、国家自然科学基金等项目的支持下,围绕跨媒体问答问题,研究了“示意图+文本”跨媒体表征、逻辑公式抽取与表征、规则引导的多跳推理等模型与方法。研究工作发表在IEEE TKDE、TIP、TNNLS、SIGIR等国际期刊与会议上,取得了初步的成果。
嘉宾介绍:刘均,西安交通大学计算机学院教授,博导;斯坦福大学高级访问学者;陕西省天地网技术重点实验室主任;入选国家“万人计划”科技创新领军人才、教育部“新世纪优秀人才”;IEEE高级会员。担任IEEE TNNLS 编委,ACM TOMM、Information Fusion等客座编辑。近年来,承担了国家重点研发计划项目、国家863课题、国家自然科学基金项目。授权发明专利20项;获国家科技进步二等奖、国家教学成果二等奖、中国自动化学会科技进步特等奖;在IJCV、VLDB J、IEEE TKDE、ICDE、AAAI等重要期刊与国际会议上发表论文百余篇,出版学术专著2部。研究方向:自然语言处理、计算机视觉、智慧教育。
武亚强,联想研究院
题目:超空间计算关键技术及应用探索
报告摘要:超现实空间计算与交互是元宇宙时代实现数字世界与物理世界互联互通、无缝切换的关键技术,使人类打破物理和数字时空边界、在虚实融合的3D空间下进行临场感沟通与协同互动成为可能。针对如何让两个世界中的“人机物”能够互相感知、理解和交互的问题,在科技部“新一代人工智能2030”和科技部国家重点研发计划等国家重点研发计划支持下,研究了非接触式3D空间多人行为与交互感知、虚实融合的多通道自然人机交互、6DoF交互式自由视点超高清实时音视频通讯等技术方法,研究工作发表在ACM CHI、ACM UIST、IEEE Transactions on Industrial Informatics等国际期刊与会议上,取得了初步的成果。
嘉宾介绍:武亚强,联想研究院研发高级总监,主任研究员,中国图象图形学学会文档图像分析与识别专委会常务委员,计算机学会多媒体专委会执行委员,教育发展战略学会教育大数据分会理事,目前负责联想乐学教育技术平台及方案的产品研发及技术创新工作,专注于人工智能在教育领域的应用,拥有超过100多项海内外专利,带领团队获得过十多次海内外学术竞赛冠军,曾获吴文俊科技进步二等奖和北京市科技进步二等奖。
叶龙,中国传媒大学
题目:心流体验评价:一种用于衡量虚实空间设计质量的方法
报告摘要:心流体验是指人们在做事情时,对于该事情产生的全神贯注、沉浸其中的忘我状态。元宇宙的高沉浸感属性,决定了心流体验可以作为一种衡量元宇宙虚实场景构建、交互空间设计等环节的一种有效评价方式。本报告将系统梳理并总结影响心流发生的因素,心流的现有应用场景,心流的产生过程以及评估量化,并在此基础上分享团队在使用心流体验评价虚实空间设计质量的探索。
嘉宾介绍:叶龙,教授、博士生导师,中国传媒大学数据科学与智能媒体学院副院长,媒体融合与传播国家重点实验室研究员,中国人工智能学会智能传媒专委会秘书长,中国通讯学会青年工作委员会委员,新一代人工智能产业技术创新战略联盟理事。主要研究领域为智能媒体分析与计算。主持并参与国家重点研发计划课题1项、国家自然科学基金重点项目2项、面上项目3项、青年项目1项,科技支撑计划1项。发表SCI、EI检索论文70余篇,申请专利20余项。
刘武,京东探索研究院
题目:基于单目相机的实时人体3D模型重建技术与应用
报告摘要:随着元宇宙浪潮席卷全球,围绕虚拟体验的研究也吸引了大量学术界和工业界的关注。基于单目相机的3D人体模型重建技术,成为了研究热点之一。该技术无需昂贵、复杂的动捕设备,仅通过单目相机(如手机),即可获取人体的3D姿势和形状,这一特性将极大地提高使用便捷性,用户可以随时随地驱动虚拟形象,体验虚拟社交活动,具有广阔的应用前景。然而,在实际应用场景中使用该技术,仍存在运行效率低和遮挡鲁棒性差等挑战。本报告将详细介绍我们针对以上挑战,提出的单阶段像素级单目3D人体重建算法,以及基于以上技术研发的多模态虚拟数字人、多人在线虚拟聊天室等落定应用。
嘉宾介绍:刘武,博士,现任京东探索研究院资深研究员,研究方向为多媒体与计算机视觉,在IEEE CVPR、ACM MM、IJCAI、AAAI等重要国际会议和期刊上发表文章90余篇,曾获得了IEEE多媒体领域三大国际旗舰期刊和会议最佳论文奖。刘武还曾获得了天津市科技进步特等奖、ACM中国新星奖、中科院优秀博士论文奖、中科院院长特别奖等奖项,并带领团队在相关国际竞赛中4次获得第一名。刘武在京东参与打造了智能结算台、智慧园区重识别系统、智能供应链人工智能开放创新平台等产品。同时,刘武还担任了多媒体旗舰会议IEEE ICME 2022和ACM MM Asia 2021技术委员会主席,多媒体旗舰汇刊IEEE TMM副主编,以及国际顶级会议ACM MM、AAAI、CIKM、ACL等领域主席。
技术论坛:因果推理与多媒体泛化学习
简介
现阶段机器学习尤其是深度学习的主要特点在于数据驱动、关联学习、和概率输出。例如,训练数据中狗在草地上的图片占大多数,数据驱动和关联学习的深度模型会将草地学习成识别狗的特征,对于不同分布的测试数据(如狗在沙滩上,狗在水中),模型的预测结果差异很大。为什么算法会将草地学习成识别狗的特征?为什么对于不同分布的测试数据,模型输出就谬以千里?模型难以解释且不可泛化是深度学习面临的重大挑战。
这些问题的主要根源在于因果机制尚未融入机器学习和多媒体学习。因果推理通过发现数据中的因果关系揭示数据背后的规律与机制,为构建可解释与可泛化机器学习模型提供了有效途径。因此,我们需要从传统关联分析跨越到因果推理,将因果引入机器学习,从而实现深度学习和多媒体学习的可解释性和可泛化性。
本论坛将从因果推理出发,探讨大数据背景下因果推理和因果发现的挑战和最新前沿,介绍如何将因果引入机器学习,实现因果启发的稳定学习理论与方法,重点围绕多媒体学习的可解释性和可泛化性等问题,介绍细粒度多媒体内容分析与推理,因果域适应学习,因果指导的多媒体学习和内容理解等内容。
组织者
况琨,浙江大学计算机学院副教授,博士生导师,人工智能系副主任。2019年获得清华大学计算机科学与技术专业博士学位,2017-2018年访问美国斯坦福大学。获2021年度中国科协青年人才托举工程项目支持,2021年度中国电子学会科学技术奖(科技进步)一等奖,2020年度中国人工智能学会优秀博士学位论文提名奖。主要研究方向包括因果推理、人工智能、因果指导的可信机器学习。在数据挖掘和机器学习领域已发表近50余篇会议和期刊文章,包括KDD、ICML、MM、AAAI、TKDE、TKDD、Engineering等。
报告嘉宾
崔鹏,清华大学
题目:因果启发的稳定学习
报告摘要:近年来人工智能技术的发展,在诸多垂直领域取得了性能突破。但当我们将这些技术应用于医疗、司法、工业生产等风险敏感领域时,发现当前人工智能在稳定性、可解释性、公平性、可回溯性等“四性”方面存在严重缺陷。究其深层次原因,当前统计机器学习的基础——关联统计自身不稳定、不可解释、不公平、不可回溯可能是问题的根源。相对于关联统计,因果统计在保证“四性”方面具有更好的理论基础。但如何将因果统计融入机器学习框架,是一个开放并有挑战的基础性问题。本报告中,讲者将重点介绍将因果推理引入预测性问题所提出的稳定学习理论和方法,及其在解决OOD泛化问题方面的机会和挑战。
嘉宾介绍:崔鹏,清华大学计算机系长聘副教授,博士生导师。研究兴趣聚焦于大数据驱动的因果推理和稳定预测、大规模网络表征学习等。在数据挖掘及人工智能领域顶级国际会议发表论文100余篇,先后5次获得顶级国际会议或期刊论文奖,并先后两次入选数据挖掘领域顶级国际会议KDD最佳论文专刊。担任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等国际顶级期刊编委。曾获得国家自然科学二等奖、教育部自然科学一等奖、CCF-IEEE CS青年科学家奖、ACM杰出科学家。
张含望,新加坡南洋理工大学
题目:群表示论,因果关系和无偏视觉模型
报告摘要:如果模型学习到了“输入”和“输出”的因果关系,那么该模型的预测就一定是无偏的。但如何学习因果关系,还是一个没有定论的开放问题。目前学界对无偏模型的研究都是建立在假设的因果模型上,然后去拟合该模型的“因”和“果”。此种研究方法有两个悬而未解的基础难题。其一,假设因果模型一定正确吗?其二,如果保证模型里面的变量之间是解耦的(干预其中一个变量,不会影响其他的变量)?本报告中,我们用群表示论来消除关于因果关系模型正确性的定义问题,并且指出如何解耦变量的技术问题。之后,我们会利用耦后的因果模型,来学习一些无偏的视觉模型。
嘉宾介绍:张含望是新加坡南洋理工大学的“南洋”助理教授。张教授于2009年本科毕业于浙江大学“竺可桢学院”,2014年博士毕业于新加坡国立大学,随后留校从事博士后研究工作。2017年赴美国哥伦比亚大学担任博士后研究院,随后于2018年加入南洋理工大学任教并创立“机器推理学习”实验室(MReaL)。他的研究方向是利用因果论来处理计算机视觉和自然语言处理中的数据偏见问题。其研究成果多次获得学界的认可,比如新加坡2021年青年科学家总统奖, 电子信息学会2020年“十大”AI青年学者,以及多项最佳论文奖。
李泽超,南京理工大学
题目:多媒体内容细粒度分析与推理
报告摘要:图像视频大数据智能分析与识别在多种实际应用中具有至关重要的作用,比如无人驾驶、网络空间内容安全以及社会公共安全等。然而实际应用中多媒体内容类别粒度多样。为此,我们研究了开放环境下多媒体内容细粒度分析与识别问题,主要是小样本细粒度识别、弱监督多媒体细粒度分析、细粒度哈希等,提出了基于知识迁移的小样本识别、深度协同因子分解模型、基于区域定位哈希的细粒度图像检索、基于注意力金字塔特征的细粒度小样本识别方法等。最后介绍一些相关的实际应用。
嘉宾介绍:李泽超,南京理工大学计算机科学与工程学院/人工智能学院教授、博士生导师,“社会安全信息感知与系统”工信部重点实验室副主任,分别于2008年和2013年毕业于中国科学技术大学和中国科学院自动化研究所。研究兴趣主要是媒体智能分析、计算机视觉等。发表ACM/IEEE Transactions或者CCF A类会议论文70余篇;入选“万人计划”青年拔尖人才、爱思唯尔中国高被引学者(2020、2021年)等;获得三次省部级一等奖、2018年吴文俊人工智能优秀青年奖、ACM MM Asia 2020最佳论文奖等;主持国家自然科学基金联合基金重点项目、江苏省杰出青年基金等;担任IEEE TNNLS、Information Sciences编委。
蔡瑞初,广东工业大学
题目:因果性学习初探
报告摘要:探索和发现事物间的因果关系是数据科学的一个核心问题。在过去的近十年中,因果关系在基础理论、算法设计及实际应用方面获得了很大的发展,引起了相关领域学者的关注。本报告拟从因果性学习角度探讨了因果关系发现与机器学习方法相结合的一些思路,包括基于先验因果结构的因果性学习方法、基于因果发现的因果性学习方法等,并介绍其在领域自适应的等场景中的初步探索。
嘉宾介绍:蔡瑞初,教授、博士生导师、数据挖掘与信息检索实验室主任、国家优秀青年基金获得者。蔡教授专注于因果关系发现与因果性学习、深度学习等领域的理论与应用研究。在上述领域先后主持国家优秀青年基金、科技部”科技创新2030“重大项目、省杰出青年基金、省特支计划等项目;提出了因果关系发现与因果性学习系列理论与方法,在ICML、NIPS、AAAI、IJCAI等领域重要会议和TNNLS、TKDE等国际著名期刊发表论文100余篇;解决了因果故障定位、因果决策优化、因果个性推荐等应用难题,相关成果在华为、网易、腾讯、滴滴、唯品会、南方电网、南方通信建设等企业实施,取得了良好的经济和社会价值;获得省科学技术二等奖(第四完成人)、省科学技术一等奖(第三完成人)、国家发明专利奖优秀奖(第三完成人)等奖项;指导学生获得NeurIPS 2019解耦学习算法大赛第一名、亚太因果推理大会推理大赛第一名等奖项;先后担任NeurIPS、ICML等会议的Area Chair,IJCAI、AAAI等会议的SPC等。
俞奎,合肥工业大学
题目:因果结构学习及应用
报告摘要:因果推断通过发现数据中的因果关系揭示数据背后的规律与机制,为构建鲁棒的机器学习模型提供了有效途径。在Pearl的结构因果模型框架下,因果关系推断的核心任务是因果结构学习与因果效应计算。本报告首先介绍因果关系推断面临的挑战,然后探讨因果结构学习在因果效应计算中的重要作用,最后介绍团队利用因果结构学习解决多标签数据分类与领域适应方向的初步研究工作。
嘉宾介绍:俞奎,合肥工业大学计算机与信息学院黄山学者特聘教授,博士生导师,研究方向为因果推断与机器学习。2013年6月毕业于合肥工业大学计算机与信息学院,获工学博士学位。2013年-2018年分别在加拿大和澳大利亚从事全职研究工作,2018年8月入职合肥工业大学。 在IEEE TPAMI、IEEE TKDE、IEEE TNNLS、ICML、KDD、AAAI等国际权威期刊与国际顶级学术会议发表学术论文50多篇。曾获中国计算机学会(CCF)优秀博士学位论文获与加拿大PIMS博士后奖。安徽省人工智能学会副理事长,认知智能与知识工程专委会主任;担任多个国际人工智能领域顶级会议的领域主席与程序委员会委员。目前主持科技部科技创新2030新一代人工智能重大项目课题一项,子课题一项,以及国家自然科学基金面上项目一项。
况琨,浙江大学
题目:基于工具变量的因果可泛化学习
报告摘要:当因果推断遇上大数据,会面临高维连续变量,混淆变量观测不全等诸多挑战,导致传统因果推断方法在大数据环境下失效。这次报告,我们主要从工具变量视角出发,介绍如何利用机器学习赋能大数据因果推断。同时利用工具变量回归消除数据中存在的偏差和虚假关联,恢复因果关联,利用因果关联的稳定性赋能机器学习,探索因果可泛化学习机制。
嘉宾介绍:况琨,浙江大学计算机学院副教授,博士生导师,人工智能系副主任。2019年获得清华大学计算机科学与技术专业博士学位,2017-2018年访问美国斯坦福大学。获2021年度中国科协青年人才托举工程项目支持,2021年度中国电子学会科学技术奖(科技进步)一等奖,2020年度中国人工智能学会优秀博士学位论文提名奖。主要研究方向包括因果推理、人工智能、因果指导的可信机器学习。在数据挖掘和机器学习领域已发表近50余篇会议和期刊文章,包括KDD、ICML、MM、AAAI、TKDE、TKDD、Engineering等。
技术论坛:多媒体大数据异常检测及应用
简介
随着智能时代的到来,各类传感器、移动设备的大量普及和应用,微型化、数字化、智能化的传感器迅速地被普及,进而改变我们的生活方式。大量的传感器数据,尤其是文本、图像、视频、声音、电信号等的快速获取,使得如何从多媒体大数据中挖掘有用信息成为了各行各业聚焦的问题。而异常检测是其中最引人关注的问题之一。随着深度学习的快速发展,基于多媒体大数据的特征学习及异常检测被广泛应用于交通、建筑、医疗等各行各业,并取得了巨大的成功。但在实际的应用中,如何使得科研和落地应用实际融合,提升科研成果的落地转化是目前大众创业、万众创新的关键点和难点。本论坛旨在为学术界和产业界搭建一个沟通交流的平台,尤其是贵州本土代表性企业,通过论坛交流实现科研成果和产业需求的互通融合,为双方拓展科研合作和产品落地的思路和契机。
组织者
岑翼刚,北京交通大学信息科学研究所教授、博士生导师,物联网工程专业责任教授。主要从事计算机视觉、图像处理、信号处理等方面研究。主持国家重点研发计划(中塞政府间国际科技创新合作重点专项)1项、国家自然学科基金等国家级省部级项目共计23项,在TIP、TMM、CVPR等国内外期刊会议上累计发表学术论文近100篇。交通运输部交通数据科学与先进计算技术创新团队骨干成员,获2020年IEEE Computer Society年度优秀论文奖第二名(runners-up)、2022年“北京交通大学青年英才培育计划I类”、 2021年度江苏省人工智能学会技术应用奖、2018年“北京市图象图形学学会优秀导师奖”、“北京交通大学红果园“双百”人才培育计划”等。部分成果在安防、公路交通等领域获得应用,取得了良好的效果。
张乾,贵州民族大学教授。主持国家自然科学基金项目1项,主持完成贵州省自然科学基金项目2项,主持完成贵州省统计局项目1项,主持完成国家民委教学改革项目1项,主持完成教育部协同育人项目1项,主持贵州省教学改革项目1 项,参与完成国家自然科学基金2项,参与完成贵州省自然科学基金5项。
金一,北京交通大学计算机学院教授,博导,院长助理。研究方向为交通视频语义理解、视频行为分析、人脸防伪及面部识别、行人再识别等。发表学术论文70余篇,其中包括IEEE/ACM汇刊等领域重要期刊和CCF A类会议CVPR,AAAI,ICCV,IJCAI,ACM MM等。任中国图象图形学学会(CSIG)交通视频专委会副秘书长,多媒体专委会委员,中国计算机学会YOCSEF总部AC委员,多媒体技术专委会执委。任CCF A类会议AAAI2021-2022高级程序委员会成员、ACM MM2021-2022、IEEE国际学术会议国际信号处理(ICSP)2020会议程序委员会委员等。申请国家发明专利20项,国际发明专利1项,参编国家标准1项。获2020年度IEEE Computer Society年度最佳论文奖提名奖,2020年度中国计算机学会科学技术奖科技进步优秀奖。
安高云,北京交通大学信息科学研究所教授,博士生导师。主要从事图像理解和人体行为分析相关领域的研究,近五年共主持或以核心成员参与国家重点研发计划、国家自然科学基金等国家级、省部级项目7项,累计发表学术论文100余篇,其中包括IEEE Trans. NNLS、IP、MM和CSVT以及Pattern Recognition国际权威期刊论文7篇,拥有国家发明专利2项,曾获北京市科学技术奖二等奖1项、北京市教学成果奖一等奖和二等奖各1项,曾入选北京市高等学校青年英才计划,北京交通大学五四奖章获得者,IEEE、IET会员,IEEE Trans. NNLS、CSVT和Cybernetics期刊审稿人。
报告嘉宾
王滨,海康威视
题目:基于密码的多媒体数据隐私保护技术
报告摘要:随着人工智能、大数据、云计算等技术的发展,视频监控、网络视频等基于多媒体大数据的业务得到快速发展和深度应用。由于多媒体数据中包含大量隐私信息,如何对海量异构多源的多媒体信息其进行隐私保护成为了数据安全中的一个难题。为了解决当前多媒体大数据面临的隐私风险,将密码应用于多媒体数据隐私保护,构建以密码为基石的多媒体数据隐私保护安全体系,保障多媒体大数据的隐私安全。
嘉宾介绍:王滨,海康威视副总裁、首席安全官,浙江省多维感知技术应用与安全重点实验室主任、国家人工智能开放创新平台副主任、视觉感知技术研发与应用国家地方联合工程研究中心副主任。主要从事物联网安全、人工智能安全、密码学等方面的技术研究和产品研发工作,近5年主持国家自然科学基金重大、国家科技攻关计划、国家重点研发计划等10余项国家级项目。获省部级科技进步一等奖2项,二等级3项。
林芝平,新加坡南洋理工大学
题目:Unsupervised anomaly detection in multivariate time series
报告摘要:Unsupervised anomaly detection for time series signals is challenging, due to the imbalanced distribution of data and the lack of ground-truth labels. In this talk, we discuss several recent methods for unsupervised anomaly detection in multivariate time series. Specifically, we present a multiple temporal context embedding (MTCE) method, and an improved extreme learning machine and mutual information (ELM-MI) method. The core of the MTCE method is to construct a unified representation of the multiple temporal contexts of data, which is achieved by learning a set of base features to reconstruct the hidden features within existing anomaly detection networks. In the ELM-MI framework, we combine it with a dynamic kernel selection method, which performs a hierarchical clustering procedure on unlabeled training data and utilizes the clusters to determine the kernels in ELM-MI. Extensive experiments are conducted on public datasets as well as our collection of real-life 4G Long-Term Evolution data.
嘉宾介绍:Zhiping Lin received Ph.D. degree in information engineering from the University of Cambridge, UK, in 1987. Since 1999, he has been an associate professor at the School of EEE, Nanyang Technological University, Singapore. Prior to that, he worked at DSO National Labs, Singapore and Shantou University, China. Dr. Lin was the Editor-in-Chief of Multidimensional Systems and Signal Processing for 2011-2015, and he served as an associate editor for several other international journals. He was a Distinguished Lecturer of the IEEE Circuits and Systems Society for 2007-2008. His research interests include signal processing and machine learning. He has published about 200 journal papers and over 200 conference papers.
方凯,中国铁道科学研究院
题目:铁路客运站智能视频感知平台
报告摘要:针对当前客站视频监控设备数量多、分布散造成的人员盯控难度大的问题,铁路客运站智能感知系统结合生产作业计划,基于AI人工智能算法,对站内的运营态势进行智能的实时安全评估,为客运工作人员提供精准的决策数据。该系统囊括站台越线、端部入侵、扶梯异常、客流密度、排队检测、重点人员跟踪、视频联动、警戒区域徘徊、标准化作业检测、到岗检测等功能,通过全景式跨屏展示实现“一图知全站”的智能化作业模式,精准直观地为工作人员显示报警区域和报警信息,并提供即时复核机制,使得辅助决策数据更加精准。
嘉宾介绍:方凯,研究员,铁路客运相关信息系统研发核心成员,发表相关论文若干篇。主要从事铁路客站相关智能化技术研究,主持开发铁路客站旅客服务与生产管控平台,系铁路实现智能客站的核心系统,并在全铁路逐步推广建设。主持京张高铁智能化服务关键技术与示范项目、中国国家铁路集团有限公司科技研究开发计划课题、中国铁道科学研究院集团有限公司重大、重点科研项目等,获天津市科学技术进步特等奖一项(2019)。
黄彦森,贵州联建土木工程质量检测监控中心有限公司
题目:基于深度学习的边坡形变智能识别技术
报告摘要:贵州省属于典型的内陆岩溶山区,地形地貌、地质构造复杂脆弱,岩溶发育,沉积岩广泛分布,倾斜坡和顺层斜坡较多,大面积出露地层为碳酸盐类和玄武岩风化带,岩体破碎,坡面松散土层较厚,地质灾害点多面广,是全国地质灾害的重灾区之一,具有“全、重、多”的特点。城市建设用地由于地理位置和地质情况的不同,很多场地在天然条件下是不能满足建设要求的,尤其在山区地形的限制下,使得很多场地的利用都离不开场地开挖,而开挖势必带来边坡,边坡的稳定性和安全性又是场地利用所带来的的新问题,极大程度上决定了场地的使用价值,进行边坡稳定性的形变识别显得尤为重要。本报告基于深度学习、数字图像处理技术,自主研发高精度自动寻靶边坡形变视觉监测技术,充分考虑边坡稳定性在形变监测数据之间、原因量与效应量之间、变形与施工过程之间、变形量和预警预报值之间、监测智能化和防灾减灾精确度之间、监测信息化和应用广泛性之间的相关关系,进而动态判断边坡施工、运行过程中的安全健康状况,提出实时、有效和可靠的形变监测和趋势预测方法。
嘉宾介绍:黄彦森,男,1986年生,贵州安顺人,硕士研究生(博士在读),高级工程师,贵州联建土木工程质量检测监控中心有限公司总经理,贵州省市场监管局检验检测机构资质认定评审专家、贵阳市科技技术局科技专家、贵阳市工程系列专业职称评审专家。先后主持和参与了《贵州省典型高边坡地质灾害发生预警预报技术研究》、《基于5G和机器视觉技术的智能机器人在隧道监测中的应用技术研究与示范》、《基于机器视觉的建构筑物安全检测技术研究》、《建筑工程结构全寿命周期健康监测技术研究》等科技计划项目,主要研究方向为城市基础设施安全与防灾减灾监测预警技术。
房建武,长安大学
题目:智能驾驶场景表征与预测关键问题研究
报告摘要:智能驾驶中的场景感知与理解是自主驾驶、辅助驾驶系统中的核心问题之一。其中涉及交通参与者检测、跟踪、轨迹预测、意图预测、事件推理等任务。然而,复杂、动态、开放的驾驶环境导致不同任务面临诸多挑战。本报告围绕轨迹预测、意图预测、事件推理进行智能驾驶中的表征与预测关键问题研究,旨在分享的智能驾驶场景表征及预测中的一些思路。
嘉宾介绍:房建武,副教授,西交大人机所博士后,CAA混合智能专委会委员、副秘书长,CSIG交通视频专委会委员,中国指控学会高级会员、青工委委员,长安大学长安学者骨干教师。现为长安大学运输工程学院大数据管理与应用系系主任。近年来主持参与国家/省部级项目15项,在领域内国际顶级期刊,如IEEE-TITS、IEEE-TNNLS、IEEE-TIE、IEEE-TCYB、IEEE-TCSVT、IEEE-TMM及权威会议,如AAAI、ICRA、ITSC上发表学术论文60余篇。获得2022陕西高等学校科学技术研究优秀成果一等奖,获ICAUS2021最佳海报论文奖。获《无人系统技术》期刊2019、2020年度优秀青年编委。担任《Remote Sensing》SCI期刊客座编辑、《无人系统技术》青年编委、西安市人工智能智库专家、西安市人工智能创新产业联盟副秘书长、西安市科技局科技专家。
圆桌讨论嘉宾
施维俊,OPPO
嘉宾介绍:施维俊,OPPO高级系统工程师,长期从事多媒体领域工作包括Player、Streaming Engine等,参与过HLS,DASH等自适应流媒体引擎在全球的首批商业化,对消费类电子领域的多媒体技术解决方案和产品落地方案,有着大量的设计和实现经验,和较为深入的理解和思考。目前在OPPO多媒体与互联开发部作为视频及流媒体领域架构师,主要负责相应领域的架构设计、优化及技术课题规划等工作。
技术论坛:多模态信息的情感计算技术与应用
简介
情感计算的目的是通过赋予计算机识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高的智能。人的情感受思维活动的影响,也和人的性格、文化和所处环境等因素密切相关,同时情感的表达也需要通过人的生理参数和行为参数的变化来体现,这些给情感计算的研究带来很多困难。
本次专题论坛旨在通过研究和探讨多模态情感计算相关领域的最新科研成果,邀请在情感计算领域的多名国内外知名专家,为大家带来一系列在情感计算领域的前沿研究与先进技术,将通过阐述国内外情感计算技术的最新研究动态,对这一技术所面临的挑战性问题和可能的解决思路进行较为深入的分析和探讨,提高情感计算领域在国家和国际学术的影响力,促进学科发展和产学研转化。
组织者
郑文明,东南大学二级教授,江苏省特聘教授,博士生导师,现任儿童发展与学习科学教育部重点实验室主任、IEEE高级会员、中国计算机学会高级会员、中国图象图形学学会高级会员、中国认知科学学会理事、中国图象图形学学会情感计算与理解专业委员会第一届常委。2004年9月博士毕业于东南大学无线电工程系信号与信息处理专业。先后在微软亚洲研究院、香港中文大学、美国伊利诺伊大学香槟分校、剑桥大学从事访问研究。主要研究方向为多模态情感计算、人工智能、计算机视觉,机器学习。2005年入选教育部新世纪优秀人才支持计划,先后获首届微软青年教授奖、全国优秀博士学位论文提名奖、江苏省杰出青年基金等荣誉。担任《IEEE Transactions on Affective Computing》、《Neurocomputing》、《Visual Computer》、《图学学报》等国内外期刊编委。主持国家自然科学基金重点/联合重点项目、科技部973课题等项目,获《IEEE情感计算汇刊》(IEEE Transactions on Affective Computing)最佳论文奖、国家技术发明二等奖、教育部自然科学二等奖和江苏省科技进步二等奖等奖项。研究方向包括情感计算,模式识别,机器学习,计算机视觉,人工智能。
毛启容,教授,江苏大学,博士生导师,现任江苏大学计算机科学与通信工程学院院长。江苏省“333高层次人才培养工程”第二层次,江苏省“青蓝工程”中青年学术带头人,江苏省第十批“六大人才高峰”培养对象,国家一流专业负责人,江苏省 “大数据泛在感知与智能农业应用”工程研究中心主任,江苏省一流课程和全英文精品课程负责人。在情感计算、多媒体信息处理方面主持国家自然科学基金5项,江苏省重点研发计划等省部级项目5项,研究成果在JCR-1区杂志和中国计算机学会规定多媒体A类会议等权威国际(内)学术会议和期刊上发表论文30余篇,授权发明专利14件。主要研究方向:视觉语音情感计算,智能信息处理,包括复杂环境下的图像、声音以及跨媒体融合处理。
黄晓华,教授,南京工程学院,江苏省特聘教授,硕士生导师,现任计算机工程学院副院长(主持工作),IEEE会员、中国计算机学会会员、中国图象图形学学会会员、江苏省计算机学会会员。2014年毕业于芬兰奥卢大学(University of Oulu)计算机科学与工程学院,获工学博士学位;于2015年至2019年在芬兰奥卢大学机器视觉与信号分析中心担任高级研究员,2018年6月至11月在英国剑桥大学Affective Intelligence and Robotics Lab担任Research Associate。担任多个国际期刊审稿人、客座编委,学术研讨会的组委会成员,在国际期刊上发表SCI论文收录24余篇和在国际会议上发表24余篇。主持国家自然科学基金面上项目、芬兰Finnish Cultural Foundation、芬兰Kaute Foundation项目、江苏省人才专项、江苏省教育厅中外合作办学平台联合科研项目、南京市留学人员科技创新项目主要研究方向:模式识别、计算机视觉、深度学习、表情识别、微表情识别和群体行为分析等
宗源,东南大学讲师,东南大学“至善青年学者”。一直从事表情/微表情分析、语音情感识别、多模态情感识别、精神障碍辅助诊断等方面的研究。在IEEE Transactions期刊和CCF A类会议发表论文20余篇,其中3篇入选ESI高被引论文,论文Google Scholar总引用1600余次;授权国家发明专利6项;目前主持国家自然科学基金青年基金项目1项,获2019年ACM多模态交互大会EmotiW国际情感识别竞赛冠军、2020年东南大学优秀博士学位论文、南京市2020年留学人员科技创新项目择优资助。
赵群,讲师,南京工程学院。2016年9月至2021年6月在河海大学计算机学院进行硕博连读,攻博期间参与2项国家重点研发计划,发表十余篇论文专利,参与多次国际会议,并获CSC资助于2019年9月至2020年9月赴美国亚利桑那州立大学计算机学院DMML(Data Mining and Machine Learning)实验室进行公派联合培养。主要研究方向为数据挖掘,智能数据处理等,发表SCI论文4篇,EI会议论文4篇,高质量中文核心期刊2篇,申请发明专利7项。
周玲,助理教授,澳门科技大学,硕士毕业于华中科技大学计算机学院,博士毕业于江苏大学计算机科学与通信工程学院。曾任职于联发科(MediaTek)软件有限公司,担任高级工程师。研究方向为情感计算,包括表情分析与微表情识别。在相关领域国内外权威期刊以及会议(如Pattern Recognition、ICME以及FG)发表高质量论文多篇,担任ACM MM、 FG、TAFFC等多个会议与期刊审稿人。
报告嘉宾
韩琥,中国科学院计算技术研究所
题目:视觉情感与生理信号感知及其在精神疾病诊断中的应用
报告摘要:人的视频图像除了呈现表观特征外,还蕴含着生理体征、情感状态等微弱视觉生物特征信号,这些微弱视觉生物特征信号往往“隐藏”于显式的表观特征信号之中,信噪比很低,因而这些视觉信号的抽取和表示都面临很大挑战。报告将简要介绍视觉情感与生理信号感知的发展趋势,并从微弱信号解耦、弱/半监督特征表示学习等方面介绍研究组在面部AU识别、遥测式心率估计等方面进行探索以及在精神疾病诊断中的初步应用。
嘉宾介绍:韩琥,中科院计算所研究员,博士生导师。2011年博士毕业于中科院计算所,之后分别在美国密歇根州立大学和美国谷歌总部从事生物特征识别研究工作,曾担任谷歌Abacus项目核心研发成员,2015年回到中科院计算所工作。主要研究方向为计算机视觉及模式识别、生物特征识别、医学影像分析,特别是由表及里的“表观-隐藏-内在”多层次生物特征分析与识别,及其在身心健康监测和疾病预测治疗中的应用。在IEEE TPAMI / TIP / TIFS / TBIOM、PR、CVPR、ECCV、NeurIPS、MICCAI等领域权威国际期刊与会议上发表学术论文80余篇,谷歌学术引用4700余次,H-Index: 35。研究工作获得5项论文奖,包括2020年度IEEE信号处理学会 (IEEE SPS)最佳论文奖,以及4次会议最佳论文/最佳学生论文/最佳海报论文奖(含国际会议IEEE FG2019最佳海报论文奖),4次获国际竞赛冠亚军。担任国际期刊Pattern Recognition Associate Editor,国际会议ICPR2020 Area Chair,IJCAI 2021 Senior PC, ISBI2022 Session Chair,以及VALSE 常务AC,7次在ICCV / CVPR / FG / WACV等国际会议上组织主会特别会议和学术论坛。
洪晓鹏,哈尔滨工业大学
题目:智能微表情分析的现状、挑战与趋势
报告摘要:微表情是一种持续时间非常简短的自发人类脸部表情,往往反映了人们希望隐藏的真实情感,不容易被假冒。因此自动检测并识别这些转瞬即逝的面部微小运动在安防、医疗、商业等许多领域都具有广泛的应用前景。本次报告将围绕智能微表情分析任务,简要介绍在微表情视频预处理、微表情检测与识别等方面的的主要工作,重点汇报近期基于深度学习的一些最新进展,并对一些发展趋势进行探讨和预测。
嘉宾介绍:洪晓鹏,教授,博导。历任芬兰Oulu大学博士后、Docent(芬兰副高、博士生导师)和西安交通大学特聘研究员,澳洲国立大学访问学者和美国马里兰大学帕克校区访问教授。在深度连续学习、视频监控、多机器人策略分配和脸部微小运动分析等方面开展了多年研究。先后主持国家重点研发计划课题、面上基金、芬兰信息技术学会博士后基金等项目。在IEEE会刊和CCF A类会议上发表论文50余篇。在面部微小运动分析方面的相关工作见诸美国《麻省理工技术评论》等国际权威媒体专文报道并获IEEE芬兰区最佳学生会议论文奖。带队获ECCV20 Visdrone挑战赛无人机航拍多目标追踪赛道等多项重要国内外比赛的冠亚军。中国图象图形学学会情感计算与理解专业委员会副秘书长,视觉与学习青年学者研讨会(VALSE)执行领域主席。受邀担任PRL和SIVP等期刊的客座编委和主流国际会议IJCAI、AAAI、ACM MM和ICME的AC或SPC。
贲晛烨,山东大学
题目:Video-based Facial Micro-expression Analysis: Datasets, Features, Algorithms, and Challenges
报告摘要:In this talk, I first highlight the key differences between macro- and micro-expressions, then use these differences to guide our research survey of video-based micro-expression analysis in a cascaded structure, encompassing the neuropsychological basis, datasets, features, spotting algorithms, recognition algorithms, applications and evaluation of state-of-the-art approaches. For each aspect, the basic techniques, advanced developments and major challenges are addressed and discussed. Furthermore, after considering the limitations of existing micro-expression datasets, we present and release a new dataset — called micro-and-macro expression warehouse (MMEW) —containing more video samples and more labeled emotion types. We then perform a unified comparison of representative methods on CAS(ME)2 for spotting, and on MMEW and SAMM for recognition, respectively. Finally, some potential future research directions are explored and outlined.
嘉宾介绍:贲晛烨,教授,博士生导师,齐鲁青年学者。IEEE Senior Member、中国电子学会高级会员、中国电子学会青年科学家俱乐部成员、中国电子学会信号处理分会委员、中国自动化学会混合智能专委会委员、山东省人工智能学会理事、山东省神经科学学会人工智能与类脑研究分会常务理事、Valse执行领域主席、中国图象图形学学会会员、PeerJ Computer Science副主编、《应用科技》编委、《中国图象图形学报》青年编委、《吉林大学学报(工学版)》青年编委、《智能系统学报》助理编委、《中国电子学会会员通讯》编委、International Journal of Computer Applications in Technology客座编委。主要研究方向为图像处理、模式识别、机器学习、情感计算、数据挖掘、人工智能等。
Abhinav Dhall,Monash University
题目:Multimodal deepfakes detection
报告摘要:Deepfake are audio or visual samples manipulated and/or generated using deep learning-based techniques. In Spite of a large number of useful applications of deep fakes, they. pose a considerable challenge to financial authentication systems. Further, misinformation can be easily spread with deepfake. In this talk, I will discuss the issues, which may arise due to nefarious use of deepfake and a brief on how to identify deepfake? Later I will discuss our recent work in deepfake detection, which is inspired from human implicit and explicit signals.
嘉宾介绍:Dr Abhinav Dhall is leading the Centre for Applied Research in Data Science and Assistant Professor of Computer Science at IIT Ropar. He is an adjunct Senior Lecturer at Monash University. He received PhD from the Australian National University followed by postdoc fellowship at University of Waterloo and University of Canberra. His research interests are in Human-Centred AI, computer vision and affective computing. His research can be accessed at https://scholar.google.com/citations?user=ypusncAAAAAJ&hl=en&oi=ao
多媒体高峰论坛:元宇宙与未来媒体
简介
近年来,随着5G、虚拟现实、人工智能等新技术的发展,“元宇宙”作为一种新型互联网应用和社交形态,在教育、智慧城市、数字化等方面具有重大的实际价值和应用前景。然而, “元宇宙”技术仍处于初期起步阶段。作为虚拟世界与现实世界之间的媒介,当前“元宇宙”的交互技术往往还不够成熟,如VR、AR、MR技术不够轻便、透明,并且价格昂贵;海量的网络资源,以及云存储、云计算、云渲染等技术对客户端设备和服务器性能都提出了很高的要求。“元宇宙”的出现不断地激发人类对未来媒体的思考。本论坛旨在邀请多媒体领域的专家学者,围绕“元宇宙”概念和相关多媒体新技术进行讨论和分享,探讨当下媒体与未来发展走向的标示。
目的与意义
通过举办这次活动,邀请多媒体领域的专家学者,围绕“元宇宙”、“未来媒体”等相关主题展开讨论和分享,从而向听众介绍多媒体领域的最新进展、促进学术和思想的交流。
组织者
洪日昌,合肥工业大学计算机与信息学院常务副院长,合肥综合性国家科学中心数据空间研究院副院长。
姜育刚,复旦大学人事处处长,上海市智能视觉计算协同创新中心主任。
报告嘉宾
庄越挺,浙江大学
题目:大规模多模态预训练模型与跨媒体推理的研究
嘉宾介绍:庄越挺,浙江大学计算机学院教授,国家杰出青年科学基金获得者(2005年),“百千万人才工程”国家级人选者(2006年),教育部长江学者特聘教授(第十批,2008年),浙江省特级专家(2014年),973首席科学家(2011年),享受国家政府特殊津贴(2000年),浙江省有突出贡献的中青年专家(2013年),浙江省“151人才工程”第一层次培养人员(2000年),教育部“网络多媒体智能信息处理技术”创新团队带头人,中国人工智能学会(CAAI)会士(2018,编号E660600103F)、常务理事,中国图像图形学学会会士(2019,首批),浙江省计算机学会理事长,中国计算机学会(CCF)2018中国计算机大会(CNCC 2018)程序委员会主席。目前,担任SCI期刊Frontiers of Information Technology & Electronic Engineering(中国工程院子刊)副主编,中国人工智能产业发展联盟(AIIA)开源开放推进项目组组长,浙江大学教育部人工智能协同创新中心主任。
黄惠,深圳大学
题目:智能图形与感知计算
嘉宾介绍:黄惠,深圳大学腾讯冠名特聘教授、计算机科学与技术学科带头人,国家万人计划科技创新领军人才,科技部中青年科技创新领军人才,英国皇家牛顿高级学者,广东省杰出人才,广东省自然科学基金研究团队负责人。目前,担任深圳大学计算机与软件学院院长,可视计算研究中心主任,广东省3D内容制作工程技术中心主任。主要研究领域包括:计算机图形学在三维获取与多源融合、几何建模与形状分析、智能感知与场景理解等前沿研究领域的应用。黄惠教授于2016年创建可视计算研究中心(VCC),以计算机图形学、计算机视觉、可视化、人机交互、机器人、机器学习为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、3D内容生成与仿真渲染、复杂场景重建与识别理解、移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学技术研究。
纪荣嵘,厦门大学
题目:跨媒体内容合成与鉴别
嘉宾介绍:纪荣嵘,厦门大学信息学院教授,国家杰出青年科学基金获得者。担任CVPR 2021-2022、ACM Multimedia 2018-2022领域主席,《中国科学:技术科学》副编辑,VALSE (视觉与学习青年学者研讨会) 2017大会主席、IEEE MMSP 2015、ACM ICMR 2014、IEEE VCIP 2014、ACM MMM 2015、IEEE ISM 2015等国际会议本地/专题/领域主席,AAAI 2015、CVPR 2013、ICCV 2013、ACM Multimedia 2010-2015等四十余个国际会议的程序委员会委员,IEEE Multimedia Communication技术委员会Visual Analysis and Content Management for Communications专家组主席(2014至今)。主要研究方向包括计算机视觉、多媒体技术和机器学习。目前,已有百余篇论文被国际期刊PAMI、IJCV、TIP和国际会议CVPR、ICCV、IJCAI、AAAI、ACM Multimedia接受。曾获2007年微软学者奖、2011年ACM Multimedia最佳论文奖、2015年黑龙江省自然科学二等奖、2016年教育部技术发明一等奖、2018年福建省科技进步一等奖、2020年福建省科技进步一等奖。
许彬,香港科技大学
题目:抢滩元宇宙,重构新城市
嘉宾介绍:许彬,香港科技大学计算媒体与艺术教授,元宇宙与计算创意研究中心主任,英国皇家工程院国际院士,ACM杰出科学家。许教授已发表400余篇学术论文(引用量超过22,000次),在增强现实、移动计算和数据科学领域已拥有30余项专利。曾担任众多顶级国际会议的高级程序委员会/组委会/程序委员会成员,包括ACM WWW、ACM SIGCOMM、ACM Mobisys、ACM MobiCom、ACM CoNext、IEEE Infocom、IEEE PerCom、IEEE ICNP、IEEE ICDCS,IJCAI、AAAI、UAI、ICWSM等。曾担任期刊IEEE Transactions on Mobile Computing (2014-2019)和IEEE Transactions on Cloud Computing (2014-2018)的副主编;担任IEEE Journal on Selected Areas in Communications (JSAC)、IEEE Transactions Secure and Dependable Computing、IEEE Communications Magazine、Transactions on Multimedia Computing, Communications, and Applications等期刊的客座编辑。
圆桌讨论嘉宾
汪萌,合肥工业大学
嘉宾介绍:汪萌,博士,合肥工业大学教授,博士生导师,IEEE Fellow,国家杰出青年科学基金获得者,合肥工业大学学术委员会委员,安徽省人工智能学会理事长,现任合肥工业大学计算机与信息学院(人工智能学院)院长,合肥工业大学软件学院院长,国际模式识别协会会士(IAPR Fellow),共青团安徽省委副书记。主要从事多媒体信息处理研究。主要研究方向为多媒体信息处理,在其研究领域发表论文150余篇。担任包括Information Sciences在内的5份国际SCI期刊编委以及CCF推荐会议International Conference on Multimedia Modeling指导委员会成员。获得六次国际会议最佳论文奖,其中包括2009和2010连续两届多媒体领域顶级会议ACM Multimedia最佳论文奖。
青年论坛:智能3D信息处理
简介
3D数据在媒体制作、数据可视化、沉浸式应用、场景分析、行为分析等领域得到越来越广泛的应用。原始的3D数据一般体量比较庞大、没有规整的结构、含较多噪声、缺失局部信息、且/或欠缺充分的语义表达。因此,面向不同的应用,需要从数据的优化、表示、抽象、分析等多方面对于3D数据进行智能化的处理,这也是本论坛所关注的内容。本论坛将邀请智能3D信息处理领域的优秀青年学者嘉宾做学术报告介绍相关方向的前沿知识以及嘉宾的科研成果,且与参会学者共同讨论该领域的热点问题以及未来发展趋势。学术报告和讨论所涉及的具体研究方向包括三维模型检索、行为识别与预测、场景流预测、三维点云编码、3D图像复原等。
组织者
彭京亮,济南大学信息科学与工程学院,教授。1992-1997,北京大学计算机系,本科;1997-2000,北京大学计算机系,硕士;2001-2006,美国南加州大学,博士;2007-2009,美国 Digital Products, Inc. 以及 Qualcomm, Inc.,高级软件工程师;2009-2020,山东大学软件学院,教授、博导;2020年至今,济南大学信息科学与工程学院,教授、博导。曾获2010年度教育部“新世纪优秀人才计划”支持。主要研究方向包括数字几何处理、智能视觉计算。在ACM SIGGRAPH, IEEE International Conference on Computer Vision, ACM Transactions on Graphics, IEEE Transactions on Visualization and Computer Graphics, IEEE Transactions on Image Processing等国际学术会议与期刊中发表论文80余篇。
赵秀阳,男,1974年11月出生,博士,教授。担任中国计算机学会(CCF)计算机辅助设计与图形学专业委员会委员;中国图学学会大数据专业委员会委员;中国工业与应用数学学会几何设计与计算专业委员会委员。主要从事数字几何处理和智慧医疗等方向的研究。近年来,作为项目负责人承担国家自然科学基金面上项目1项,山东省自然科学基金等省部级项目5项,其它项目及企业委托项目8项。获山东省高等学校优秀科研成果奖2项。在《Computer-Aided Design》、《Applied Soft Computing》和《中国科学》等国内外期刊发表论文50余篇。
报告嘉宾
白静,北方民族大学
题目:基于深度学习的多模态三维模型检索
嘉宾介绍:白静,博士,教授,硕士生导师,美国普渡大学访问学者。目前主要从事CAD&CG、机器学习领域研究工作,研究三维模型检索、深度学习,并取得了良好的研究成果。宁夏青年拔尖人才,国家民委中青年英才,宁夏回族自治区优秀教师,CCF高级会员,CSIG专委会委员,国家专利局咨询技术专家。主持国家自然科学基金项目3项,省部级科研项目6项,承担国家级项目5项,作为主要成员参与多项科技部、工信部产业项目。在Computer-Aided Design、计算机辅助设计与图形学学报等国内外顶级期刊和ECCV等重要国际学术会议上发表学术论文60余篇,其中SCI、EI检索论文40余篇,申请发明专利13项,已获授权9项;获自治区教学成果一等奖1项,二等奖1项。
陈思衡,上海交通大学
题目:基于3D骨架图的行为识别与预测
嘉宾介绍:陈思衡现任上海交通大学未来媒体网络协同创新中心长聘轨副教授、博士生导师,上海人工智能实验室双聘教授,入选国家重大人才工程青年项目,于美国卡内基梅隆大学 (CMU) 获得博士学位。研究兴趣包括图计算、群体协作智能。陈思衡曾参与图信号处理(graph signal processing)领域的开拓工作,在国际上首次提出图结构数据采样理论,突破性地论证图结构数据采样的可行性和基础限制,获IEEE信号处理协会最佳年轻作者论文奖,入选高被引论文。提出一系列基于图信号处理理论的可解释图神经网络,发表数十篇顶级人工智能期刊和会议,包括T-PAMI, NeurIPS oral, CVPR oral, AAAI oral等。基于图计算相关工作,提出无人自主系统感知和预测技术,应用于优步公司(Uber ATG)无人车。在三菱电机实验室(MERL)就职期间,参与scene-aware interaction项目研发,获得三菱电机总统奖。此外,陈思衡还获得ASME协会结构监测方向最佳期刊论文runner-up奖,以及IEEE GlobalSIP最佳学生论文奖。
李冰,沙特阿拉伯阿卜杜拉国王科技大学
题目:面向三维时空点云的场景流预测
嘉宾介绍:李冰博士毕业于中国科学院计算技术研究所,先后在美国南加州大学和沙特阿拉伯阿卜杜拉国王科技大学进行博士后研究。长期从事图像/视频处理、多媒体数据分析、立体计算机视觉等方面的研究。申请人以第1作者在国际会议和期刊上发表论文15篇,包括CCF-A类论文8篇,ACM、IEEE汇刊论文5篇, 申请人拥有授权中国发明专利5项。
元辉,山东大学
题目:基于模型的三维点云几何-纹理码率分配方法
嘉宾介绍:元辉,博士,山东大学教授(破格)/博导,IEEE Senior Member。2006年6月和2011年3月获得西安电子科技大学学士学位和博士学位。2011年4月加入山东大学;历任讲师/师资博士后(2011.04-2014.12)、副教授(2015.01-2016.08)、教授(2016.09-至今)。2012年8月入选中国人社部 “香江学者”计划,并与2013年1月-2014年12月赴City University of Hong Kong从事博士后研究工作;2015年6月入选山东大学首批“青年学者未来计划”;2016年9月获得山东省自然科学杰出青年基金资助;2017年11月至2018年2月作为Research Fellow赴City University of Hong Kong从事研究工作;2019年入选欧盟地平线2020 “居里学者”计划,并赴英国De Montfort University从事研究工作,2020年12月入选山东省“泰山学者”青年专家。主要从事图像/视频/沉浸式(虚拟/增强现实)媒体的高效编码、智能处理、可靠传输、计算机视觉等研究工作。
曾进,同济大学
题目:3D Image Restoration with Graph-based Processing and Learning Techniques
嘉宾介绍:曾进,现任同济大学软件学院预聘助理教授。2012年于南京大学获学士学位,2018年于香港科技大学获博士学位。博士期间曾在日本国立情报学研究所访问两年。博士毕业后在商汤科技智能影像组工作,任高级研究员。2021年9月加入同济大学,入选上海市启明星计划(扬帆专项)。主要研究方向为三维视觉、图像处理、图信号处理等,并发表多篇国际期刊与会议论文,包括IEEE T-IP,IEEE T-SP,CVPR,ECCV,3DV等。
青年人才论坛:从优秀学子到顶级OFFER
简介
随着智能多媒体领域的前沿研究和产业落地的发展,越来越多的年轻学子投入该领域进行学习和研究,越来越多的公司、高校、研究院所也迫切的需要招聘到智能多媒体领域的优秀人才。本论坛邀请领域内近期的优秀毕业生来介绍来给广大的多媒体领域学生分享他们在求学和求职的成功经验。
论坛的主要内容为来自于华为、腾讯、京东、智源研究院、字节跳动等五家国内顶级的研究机构的新入职研究员来做学术、求学、求职方面的分享,并针对智能多媒体领域的广大学子关心的问题展开圆桌讨论。
论坛的目标在于优化多媒体领域广大学生的求学求职路径,建立学校与公司/研究院之间的更好的沟通途径,并促进ChinaMM在广大多媒体学子之间的影响力。
组织者
王兴刚,华中科技大学,电信学院,教授,博士生导师。主要研究方向为视觉目标检测与分割,在IEEE TPAMI、IJCV、CVPR、ICML等顶级期刊会议发表学术论文50余篇,谷歌学术引用次数12000次,在计算机视觉领域首次提出了空间稀疏自注意力机制(CCNet),该机制在Deepmind AlphaFold中应用,对应的论文在ICCV19最具影响力榜单上排名第五,引用超过1200次。担任CVPR 2022领域主席,Pattern Recognition、Image and Vision Computing 期刊编委。入选了国家“万人计划”青年拔尖人才,中国科协青年人才托举工程,获吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖等。
孔涛,字节跳动人工智能实验室高级研究员,主要的研究方向为视觉感知与机器人学习,长期致力于建立理解并与现实世界交互的智能机器人系统。他与合作者一起在CVPR、TPAMI、ICRA等计算机视觉与机器人的顶级期刊会议上发表论文三十余篇,公开授权国际发明专利多项,其中包括HyperNet、SOLO等代表性的工作。孔涛博士毕业于清华大学计算机系,导师孙富春教授,其学位论文被提名为中国人工智能学会CAAI优秀博士论文奖,并获得IROS国际智能机器人抓取与操作比赛冠军等荣誉。
张炜,京东资深研究员,主要研究方向为图像识别与生成,在CVPR、ICCV、ACM Multimedia、T-PAMI等发表了多篇高水平学术论文,研究成果多次获得CVPR 19/20商品识别竞赛冠军,并成功应用于商品识别、工业视觉、数字人等产品。曾获得ACM Multimedia 21最佳展示论文奖、ACM-HK Openday最佳展示论文奖、吴文俊人工智能自然科学奖二等奖、CCF-腾讯犀牛鸟科研基金等,担任ICME、MMM、VCIP 等学术会议研讨会/领域主席。
代季峰,在清华大学自动化系于2009年和2014年分别获得学士和博士学位。2012年至2013年间,他在加州大学洛杉矶分校访学。2014年至2019年间,他在微软亚洲研究院(MSRA)视觉组工作,曾担任首席研究员、研究经理。2019年至2022年,他在商汤科技研究院工作,担任基础视觉、通用智能两个二级部门负责人,执行研究总监。他的研究兴趣为计算机视觉中的通用物体识别算法和跨模态通用感知算法。他在领域顶级会议和期刊上发表了30多篇论文,根据谷歌学术统计获得了20000多次引用。他于2015、2016年获得领域权威的COCO物体识别竞赛一等奖,后续历届冠军系统也均使用了他提出的可变形卷积模块。他在商汤科技工作期间,曾经担任本田-商汤自动驾驶研发项目的技术负责人。他是IJCV的编委,CVPR 2021和ECCV 2020的领域主席,ICCV 2019的公共事务主席,AAAI 2018的高级PC成员,北京智源人工智能研究院的青年科学家。
报告嘉宾
潘滢炜,京东科技
嘉宾介绍:潘滢炜,京东科技视觉技术创新部算法工程师,京东博士管培生。潘滢炜2018年博士毕业于中国科学技术大学信息与通信工程专业,主要研究方向为多媒体内容理解和计算机视觉。在顶级会议/期刊上发表论文50余篇,谷歌学术引用率4000余次,创新成果多次成功转化到京东的产品和服务中(例如拍照购),也多次在视觉内容分析和理解的国际学术竞赛中获得冠军。2015年获得微软学者奖学金,2018年获中国科学院院长优秀奖和北京市优秀人才培养资助青年骨干个人项目,2019年被授予ACM SIGMM China最佳博士论文奖和ACM中国优秀博士论文提名奖。其在多媒体内容理解方向的成果获ACM Multimedia 2019最佳演示系统奖和ACM Multimedia 2021最佳开源项目奖。
荆雅,字节跳动
嘉宾介绍:荆雅,字节跳动人工智能实验室算法工程师。荆雅2021年博士毕业于中国科学院自动化研究所智能感知中心,主要研究方向为图像-语言跨模态理解。在CVPR、ECCV以及TIP等顶级会议/期刊上发表多篇相关论文,并担任CVPR 、AAAI和TPAMI的审稿人。加入字节跳动后主要进行主动学习与多模态导航相关的机器人研究,希望探索更多语言理解对于机器人学习的帮助作用。
廖明辉,华为
嘉宾介绍:廖明辉,华为算法研究员。2021年在华中科技大学获得博士学位。研究方向为计算机视觉和OCR。以第一作者发表顶会顶刊论文十余篇,其中ESI高被引论文两篇。GitHub开源代码star总数超过4000,谷歌学术引用数超过2900。担任十余个顶级期刊和会议的审稿人。曾获得互联网+大学生创新创业大赛国赛金奖、CSIG自然科学奖一等奖、CCF-CV学术新锐奖、AI华人新星百强等荣誉。入选了AI 2000人工智能全球最具影响力学者榜单,在经典AI领域排名Top-50。
黄子龙,腾讯
嘉宾介绍:黄子龙,腾讯应用算法研究员。2020年博士毕业于华中科技大学,导师为刘文予教授和王兴刚教授。主要研究方向为图像/视频语义分割、高效视觉模型设计等,在包括TPAMI、TIP、CVPR、ICCV在内的计算机视觉顶级期刊与会议上发表论文10余篇,谷歌学术总引用超过2000余次。他提出的语义分割算法CCNet,单篇引用超1000次,并被应用于DeepMind蛋白质结构预测模型AlphaFlod2等。他曾在UIUC访学,导师为Thomas Huang教授。他多次在国际计算机视觉竞赛中获得冠军,曾获评2021年百度AI华人新星百强,2021年中国图像图形学学会优秀博士论文奖。
王文海,上海人工智能实验室
嘉宾介绍:王文海,上海人工智能实验室青年科学家,2021年博士毕业于南京大学。在顶级国际期刊和会议上发表学术论文20余篇(含3篇IEEE T-PAMI), 3次获得CVPR/ICCV/IJCAI oral,谷歌学术总引用3000余次。PolarMask、PVT和SegFormer分别入选CVPR 2020、ICCV 2021和NeurIPS 2021的Top-10 Influential Papers。在Waymo 2022, ICDAR 2019以及NAIC 2020竞赛中取得冠军。是IJCAI 2021资深程序委员会委员。
多媒体女性菁英论坛
简介
近年来,女性科技人才队伍不断壮大,在各个领域都涌现出杰出代表。但在多媒体领域乃至整个计算机领域,相比于男性,高层次女性科技人才比例仍然较低。2021年7月,中国科技部等十三部门印发《关于支持女性科技人才在科技创新中发挥更大作用的若干措施》,强调女性科技人才是我国科技事业十分重要的力量,并指出要着力培养造就高层次女性科技人才。为了加强多媒体领域女性科研工作者之间的交流,促进女性科研工作者的发展,特在ChinaMM 2022举办女性菁英论坛。本论坛邀请多媒体及相关领域优秀女性学者围绕领域内新理论、新技术、新方法进行分享,旨在为领域内女性树立榜样,促进领域内女性合作,鼓舞更多女性投入到多媒体及相关领域的研究工作中来。在后续的圆桌讨论环节,嘉宾学者将和与会人员共同探讨我国女性科技工作者的发展环境,并针对人工智能时代女性的新机遇、新优势、新超越等问题,展开主题讨论,以期提供一个思想碰撞的盛宴。
目的与意义
通过举办“女性菁英论坛”活动,邀请优秀女性学者围绕多媒体领域的新理论、新技术、新方法和相关典型应用进行分享,搭建女性学者和广大学者们互动交流、探讨学术成果、碰撞学术思想的平台,激发女性科研工作者的研究热情,凝聚女性科研工作者的智慧力量,促进我国多媒体学术界和产业界女性科研工作者的发展。
组织者
陈静静,复旦大学计算机科学技术学院副教授。上海海外高层次人才计划、浦江人才计划入选者。入选全球人工智能 2000 位最具影响力学者。2018年在香港城市大学获得博士学位,2018年9 月~2019年7月在新加坡国立大学从事博士后工作,2019年7月被复旦大学计算机科学技术学院引进为青年副研究员。主要研究领域为多媒体内容分析与计算机视觉。主持/参与了包括国家自然科学基金、国家重点研发计划、上海市行动创新计划等多项科研项目。在 ACM Multimedia, CVPR,ICCV,AAAI,ICME,ICMR,IEEE TIP,IEEE TMM等重要国际会议、期刊上发表论文 40 余篇,曾获得ACM Multimedia 2016最佳学生论文奖、Multimedia Modeling 2017 最佳学生论文奖。担任多个国际知名期刊审稿人、国际会议领域主席/程序委员会委员。
魏忠钰,复旦大学大数据学院副教授,智能复杂体系实验室双聘研究员,博士生导师,复旦大学数据智能与社会计算实验室(Fudan DISC)负责人,香港中文大学博士,美国德州大学达拉斯分校博士后。现任中文信息学会情感计算专委会副秘书长,社交媒体处理专委会常务委员兼秘书,青年工作委员会执行委员。在自然语言处理、人工智能领域的国际会议、期刊如CL,ACL,SIGIR,EMNLP,ICML, ICLR, AAAI,IJCAI等发表学术论文70余篇。担任多个重要国际会议及期刊评审,是EMNLP 2020 多模态领域主席,EMNLP 2021 论辩挖掘与情感计算领域主席,IJCAI 2021年程序委员会高级委员(SPC)。曾获得2017年度上海市青年扬帆计划,2019年度中国中文信息学会社会媒体处理新锐奖,2020年度华为技术优秀成果奖,2021年上海市启明星计划等。
姚鸿勋,哈尔滨工业大学长聘岗教授,博士生导师,全球人工智能 2000 位最具影响力学者(AMiner机构发布2019,2020,2021),中国AI女性前12位,“黑龙江省政府特殊津贴”专家,教育部"新世纪优秀人才",教育部“计算机优秀教师”奖。任中国图象图形学学会理常务理事,图像情感计算与理解专委会主任,黑龙江省人工智能常务理事,中国计算机学会多媒体专委会执行委员。主要研究领域为计算机视觉智能、多媒体数据分析与理解、视频监控、情感计算。在高影响因子国际期刊和顶级国际会议发表学术论文300余篇,H 指数 47。主持参与国家自然科学基金重点项目、国家“863”、“973”项目、科技部2030人工智能重大专项课题、黑龙江省百千万工程科技重大专项等数十项,获黑龙江省自然科学二等奖2项,黑龙江省教学成果奖2项等。
论坛议程
时长:3.5小时
形式:学术报告+圆桌讨论
报告嘉宾
黄萱菁,复旦大学
题目:人工智能的可解释性分析--以自然语言处理为例
报告摘要:机器学习和深度学习的可解释性指的是以受众可理解的,直截了当的方式解释模型预测值的程度。近年来,深度学习已经在自然语言处理中取得成功应用,大幅度提升了各种任务的性能,但由于其内在复杂性,可理解性和可解释性不够令人满意,也妨碍了深度学习方法的进一步推广。该报告首先介绍什么是可解释性分析,自然语言处理中有哪些可解释性分析任务,可解释性分析的目的,然后从理解模型部件的功能属性、解释模型预测的行为、模型诊断三个方面介绍可解释性分析在自然语言处理领域的发展现状,最后讨论了未来的研究趋势。
嘉宾介绍:黄萱菁,复旦大学计算机科学技术学院教授、博士生导师,主要从事自然语言处理、信息检索和社会媒体分析研究。兼任中国中文信息学会常务理事、社会媒体专委会副主任,中国计算机学会自然语言处理专委会副主任、学术工作委员会委员、AACL执委。在高水平国际学术期刊和会议上发表了百余篇论文,负责的多个科研项目受到国家自然科学基金、科技部、教育部、上海市科委的支持。入选由清华—中国工程院知识智能联合研究中心和清华大学人工智能研究院联合发布的“2020年度人工智能全球女性”,“2020年度AI 2000人工智能全球最具影响力提名学者”及“福布斯中国2020科技女性榜”。
陈雪锦,中国科学技术大学
题目:脑显微图像三维目标重建和结构分析中的自学习方法
报告摘要:近年来,微米、纳米分辨率的显微成像技术支持对大脑进行神经元级别到突触级的观测,大力推动了脑科学的发展,然而,TB级甚至PB级脑显微影像数据的处理和分析成为了制约神经科学发展的瓶颈。利用人工智能技术,对脑显微图像中神经元、线粒体等亚细胞结构进行自动三维重建和准确形态分析成为了必要手段。然而,脑显微图像中的三维目标形态各异,结构精细,标注代价及其高昂。为缓解该问题,我们研究了一系列自学习方法,利用神经元全局结构先验,挖掘图像样本间的结构关联,实现无需人工标注的高精度三维重建和三维形态表达。
嘉宾介绍:陈雪锦,中国科学技术大学信息学院教授,博导。教育部“青年长江学者”。2003和2008年分别于中国科学技术大学获得学士和博士学位。2008-2010年于耶鲁大学计算机系从事博士后研究。2010年加入中国科学技术大学。曾在斯坦福大学、微软亚洲研究院任访问学者。主要研究方向为计算机图形学、三维视觉、脑显微图像分析。在ACM SIGGRAPH、IEEE TVCG、TMI、ACM Multimedia等期刊会议上发表学术论文60余篇,承担国家科研项目10余项,曾获CVM期刊2019年度最佳论文提名、安徽省教学成果特等奖。
鲍秉坤,南京邮电大学
题目:跨模态图像生成
报告摘要:近年来跨模态图像生成在图像生成、图像编辑等任务中取得了广泛应用。虽然现有研究已经在生成图像的质量上取得了一定的进步,但生成图片的真实性和语义一致性依然不足,主要困难表现在:文本-视觉特征不易融合,文本与图片的语义信息不对等以及文本特征到图片像素的转化不易控制等。这一缺陷使得模型难以充分利用获得的跨模态信息,最终限制了模型在跨模态图像生成任务中的效果。本报告将介绍跨模态图像生成面临的挑战,并从增强图文信息的融合和保证语义一致性的角度出发,介绍团队在文本生成图像和图像编辑任务的研究思路和研究成果,最后探讨跨模态图像生成的发展趋势和研究方向。
嘉宾介绍:鲍秉坤,南京邮电大学通信与信息工程学院副院长,教授、博士生导师。入选中组部万人计划-青年拔尖人才、江苏省杰青、江苏省双创人才。在跨媒体检索与搜索、社交媒体推荐、社会事件检测、人脸识别、图像分类与理解、视频分析等方向取得了部分重要的成果,并提出了一系列有效的解决方案,用来处理大规模、多变化的多媒体信息感知、分析与处理。获得多媒体领域顶级期刊ACM TOMM 2016年度唯一的最佳论文奖,多媒体领域重要期刊IEEE Multimedia 2017年度唯一的最佳论文奖,国际会议MMM 2019最佳论文。获得2018年度电子学会科学技术一等奖。
许倩倩,中科院计算所
题目:跨媒体知识图谱构建与学习
报告摘要:人工智能主要包含数据驱动和知识驱动两大范式。传统机器学习方法主要依赖数据驱动范式,依赖海量数据,外推能力差,通用性与泛化能力有限。与之相对,知识驱动范式可有效集成仅人类所能理解的复杂领域知识,可解释强,具有更好的通用性,可与数据驱动范式优势互补。近年来,知识图谱因其高效的组织形式成为知识的主要载体,在诸多行业取得成功应用,使得知识驱动范式逐渐受到业界重视。同时,国家标准委、网信办等五部分联合印发的《国家新一代人工智能标准体系建设指南》中,将机器学习和知识图谱同时列为人工智能的关键通用技术。由此可见,数据知识联合驱动的范式势将成为新一代人工智能的显著特征。本次报告将聚焦于社会媒体、网络空间安全两个重大领域,介绍报告人在跨媒体知识图谱构建及学习方面的最新进展。针对图谱构建,将从数据采集、数据存储、图谱结构设计、系统接口服务、知识图谱可视化等多个方面分享跨媒体知识图谱构建的基本思路和实践经验。针对图谱构建过程中遇到的数据标注不可信难题,介绍所提出的基于HodgeRank的异常样本发现框架;该框架从几何拓扑视角定量挖掘异常标注样本的数学特征,从而保证图谱中知识的准确性。同时,在图谱下游应用中,传统模型以准确率作为优化准则,仅考虑单一阈值下性能,而实际场景中阈值往往随需求动态变化,因而难以保证模型预测结果的可靠性。针对该问题,将介绍所提出的基于X-curve的模型优化框架,该框架以AUROC、AUPRC、AUTKC等性能曲线为模型优化准则,综合考虑不同阈值下的模型性能,从而保证模型在复杂应用场景下的可靠性。
嘉宾介绍:许倩倩,中科院计算所副研究员,博士生导师,国家优秀青年基金获得者。IEEE/CSIG/CCF高级会员,CSIG青工委副秘书长、CSIG多媒体专委会副秘书长,CAAI深度学习专委会副秘书长。研究领域为数据挖掘和机器学习,主要关注群智计算和知识图谱,已在TPAMI、IJCV、TIP、TKDE、ICML、NeurIPS、CVPR、AAAI、ACM Multimedia等国际期刊/会议上发表CCF-A类论文50余篇。先后获得:吴文俊人工智能自然科学奖一等奖,中国人工智能学会最佳青年科技成果奖,中国图象图形学学会石青云女科学家奖,吴文俊人工智能优秀青年奖,ACM中国SIGMM新星奖, 中国人工智能学会优秀博士学位论文,中科院百篇优秀博士学位论文,CCF-腾讯犀牛鸟科研基金、首届CAAI-华为MindSpore学术奖励基金等奖励。担任国际期刊T-CSVT和ACM ToMM编委,CCF-A类国际会议ACM MM领域主席,AAAI和IJCAI SPC,并先后担任PAMI、CSVT、TMM、PR、ICML、NeurIPS、CVPR、ICCV、ECCV、AAAI、IJCAI、ACM Multimedia、ICLR等多个刊物的审稿人。
金一,北京交通大学
题目:智能交通中的多模态视觉感知关键技术研究
报告摘要:随着交通系统的智能化水平不断提高,智能交通作为一个具有多层次、多目标、复合型特点的综合复杂系统,对以人为中心的视觉感知应用提出了迫切需求。以低质量图像处理、移动目标检测、图像分类等为代表的多媒体分析技术都在智能交通大数据的发展中起着非常关键的作用。近年来,团队结合平台积累和优势,在智能交通领域权威期刊和人工智能领域顶级会议等发表论文20余篇,本次报告将结合近年来在交通视觉感知的部分研究成果,探讨弱监督机器学习、多模态感知与认知技术在智能交通安全领域应用的若干关键研究问题及其未来发展方向。
嘉宾介绍:金一,北京交通大学计算机学院教授,博导,院长助理。研究方向为交通视频语义理解、视频行为分析、人脸防伪及面部识别、行人再识别等。发表学术论文70余篇,其中包括IEEE/ACM汇刊等领域重要期刊和CCF A类会议CVPR,AAAI,ICCV,IJCAI,ACM MM等。任中国图象图形学学会(CSIG)交通视频专委会副秘书长,多媒体专委会委员,中国计算机学会YOCSEF总部AC委员,多媒体技术专委会执委。任CCF A类会议AAAI2021-2022高级程序委员会成员、ACM MM2021-2022、IEEE国际学术会议国际信号处理(ICSP)2020会议程序委员会委员等。申请国家发明专利20项,国际发明专利1项,参编国家标准1项。获2020年度IEEE Computer Society年度最佳论文奖提名奖,2020年度中国计算机学会科学技术奖科技进步优秀奖。
人才发展论坛
简介
青年科技工作者和青年教师在成长道路上,会遇到各种困惑。多媒体专委会一直关注这个问题,帮助青年人才成长。专委会曾多次在NCMT、HHME、ChinaMM等系列会议上举办人才发展论坛,请业内资深人士和院系领导结合青年人遇到的具体问题给予指导,青年人普遍反映受益匪浅,亦有顿开茅塞的感觉。今年ChinaMM大会特邀CCF多媒体专委会老主任、清华大学杨士强教授再次主持人才发展论坛。
论坛包括4场Panel,分别邀请60后、70后、80后、90后学者畅谈人才发展。具体包括三位60后专家出席“资深学者,苦口良言”Panel,四位70后专家出席“人到中年,渐入佳境”Panel,四位80后专家出席“四十而立,崭露头角”Panel,以及四位90后专家出席“青椒入行,前途辉煌”Panel。大咖同台切磋交流,欢迎参与!
论坛日程
特邀报告:
报告人:杨士强(清华大学)
题目:Tenure-Track 制度与青年教师职业发展
60后Panel: 资深学者,苦口良言
主持人:杨士强(清华大学)
嘉 宾:朱文武(清华大学)、李波(北京航空航天大学)、赵耀(北京交通大学)
70后Panel: 人到中年,渐入佳境
主持人:朱文武(清华大学)
嘉 宾:蒋树强(中科院计算所)、刘静(中科院自动化所)、毛启容(江苏大学)、李豪杰(大连理工大学)
80后Panel: 四十而立,崭露头角
主持人:李 波(北京航空航天大学)
嘉 宾:王智(清华大学深圳国际研究生院)、刘家瑛(北京大学)、胡海苗(北京航空航天大学)、任文琦(中山大学)
90后Panel: 青椒入行,前途辉煌
主持人:赵耀(北京交通大学)
嘉 宾:嘉 宾:梁小丹(中山大学)、况琨(浙江大学)、冯福利(中国科学技术大学)、何相腾(北京大学)