• chinamm2022@163.com

华为论坛:多模态预训练和识别


简介


近年来,跨模态内容的理解和生成收到越来越多的关注,也在多媒体领域创造了更多的机会。一方面,跨模态数据能够有效地拓展现有技术框架,突破单模态数据的认知局限性;另一方面,业界缺乏不同模态语义空间的对齐方法,因而跨模态理解和生成依然处于起步阶段。本论坛邀请多位在跨模态理解和生成领域有所建树的学者,围绕领域的新思路、新方法、新技术进行分享和讨论,旨在与参会者一起,探索跨模态技术在多媒体领域的应用前景。在后续的圆桌讨论环节,嘉宾们还将开拓思维,将讨论引向通用预训练模型及其牵引的人工智能的落地应用,促进人工智能和多媒体技术更好地落地于相关产业。

目的与意义


通过举办这次活动,邀请业界优秀学者围绕跨模态内容理解与生成的机遇和挑战展开讨论,能够搭建起多媒体应用和跨模态技术研究之间的桥梁,从而促进思想碰撞,产生新思维和新方法。

组织者


谢凌曦,华为云高级研究员。他分别于2010年和2015年于清华大学获得本科和博士学位,并且于2015年至2019年期间在美国加州大学洛杉矶分校和约翰霍普金斯大学担任博士后研究员。谢凌曦博士的研究兴趣覆盖计算机视觉的各个方向,主要包括统计学习方法和深度学习模型的应用。他的研究工作覆盖图像分类、物体检测、语义分割和其他视觉任务,并积极推动自动机器学习算法在上述领域的应用。谢凌曦博士已经在国际顶级的学术会议和期刊上发表超过60篇论文,谷歌学术引用超过6000次。他于2015年获得清华大学优秀博士论文奖,并于ICMR2015会议上获得最佳论文奖。

田奇,华为云人工智能领域首席科学家。本科毕业于清华大学,博士毕业于UIUC。2018年加入华为, 曾任诺亚方舟实验室计算视觉首席科学家。2002-2019 在德克萨斯大学圣安东尼奥计算机科学系担任助理教授、副教授、正教授; 主要研究方向是计算机视觉、多媒体信息检索、机器学习,发表国际期刊与会议论文600余篇。谷歌学术引用超过39000次,h-index为92。清华大学神经与认知中心讲席教授、教育部长江讲座教授、中科院海外评审专家、海外杰青,2016年当选 IEEE Fellow,2021年当选国际欧亚科学院院士。

嘉宾


报告嘉宾1:鲍秉坤,南京邮电大学,教授
报告嘉宾2:周文罡,中国科学技术大学,教授
报告嘉宾3:魏龙辉,华为云,高级研究员
圆桌讨论嘉宾:姜育刚,复旦大学,教授




鲍秉坤,南京邮电大学
题目:跨模态图像生成大模型探索与研究

报告摘要:近年来,随着跨模态预训练模型的兴起与发展,许多视觉与多模态问题正逐渐被研究者攻克。最近,基于大规模预训练的图像生成方法正在跨模态图像生成领域崭露头角,其生成的图像较以往的基于生成对抗模型(GAN)的方法更加逼真,更加生动。在本次报告中,我们将首先回顾基于GAN的跨模态图像生成的发展与本团队的研究。其次,总结介绍基于自回归模型与扩散模型等预训练方法在跨模态图像生成的代表性工作。最后,我们也将介绍本团队在结合GAN的大规模预训练上的探索,以及我们对于更快的跨模态预训练图像生成的思考。

嘉宾介绍:鲍秉坤,南京邮电大学通信与信息工程学院副院长,教授、博士生导师。入选中组部万人计划-青年拔尖人才、江苏省杰青、江苏省双创人才。研究方向为多媒体计算、社交多媒体、计算机视觉、人工智能等。主持国家重点研发计划:科技创新2030-人工智能重大专项、国家自然科学基金重点项目等。荣获2018年度电子学会科学技术(自然科学类)一等奖。荣获多媒体领域的ACM汇刊TOMM 2016年度最佳论文奖、IEEE MM 2017年度最佳论文奖、Multimedia Modeling 2019年度最佳论文Runner Up奖。荣获ICME 2020 Outstanding Areas Chair。



周文罡,中国科学技术大学
题目:BERT Pre-Training meets Sign Language Understanding

报告摘要:Hand gesture serves as a critical role in sign language. Current deep-learning-based sign language recognition (SLR) methods suffer insufficient interpretability and overfitting due to limited sign data sources. In this talk, we are dedicated to leveraging the BERT pretraining success from two different perspectives and modeling the domain-specific statistics to fertilize the sign language recognition (SLR). In our first solution, self-supervised pre-training is first conducted via reconstructing masked visual tokens from corrupted input sequence to take full advantage of available sign data sources. Then with the prediction head added, the encoder is fine-tuned for the downstream SLR task. In our second solution, we notice that sign language video is low-level and continuous, which is different from the semantic discrete word token and makes the original BERT not applicable. To this end, we attempt to tackle this issue via two following approaches, i.e., 1) changing its objective into regression with hand prior incorporated; 2) organizing the sign signal into units and tokenizing these units. Extensive experiments are conducted to validate the effectiveness of our proposed method, achieving new state-of-the-art performance on all four benchmarks with a notable gain.

嘉宾介绍:周文罡,中国科学技术大学电子工程与信息科学系教授、博士生导师,国家"优秀青年基金"获得者(2018)。2011年博士毕业于中国科学技术大学,2011~2013年在美国德州大学圣安东尼奥分校做博士后研究,2013年9月开始在中国科大信息学院任教。研究兴趣包括计算机视觉、多媒体信息检索、机器博弈,发表IEEE/ACM汇刊论文和CCF A类国际会议论文共100余篇,谷歌学术总被引7900余次,H指数43。曾获中科院百篇优秀博士学位论文奖、国际会议ICIMCS 2012最佳论文奖、2021年CSIG优博导师奖、2021年吴文俊人工智能科技进步奖一等奖(排名第3)。



魏龙辉,华为
题目:视觉与多模态预训练前沿技术

报告摘要:大规模预训练正在影响多个人工智能领域。近年来,跨模态预训练模型逐渐兴起,并且展现了其在视觉理解等方面的巨大潜力。在本次报告中,我将简单介绍视觉与多模态预训练技术的发展脉络,并专注于基于对比学习和基于掩码图像建模范式为主的前沿代表性工作。同时,我也将详细介绍华为云盘古团队在视觉与多模态预训练方向上的几个代表性工作,以及我们对多模态预训练和相关领域未来发展的思考。

嘉宾介绍:魏龙辉,华为云盘古团队高级研究员。2019年毕业于北京大学信息科学技术学院数字媒体所。魏龙辉的主要研究领域为行人重识别、自监督学习、视觉与多模态预训练技术等相关方向,至今已在CVPR、ECCV、NeurIPS、AAAI、ACM MM、T-MM等视觉或多媒体顶级会议与期刊发表相关论文十余篇,谷歌学术统计引用量已达1700余次。其中,中稿于CVPR’18的代表性工作PTGAN据谷歌学术统计至今已达1000余次。

圆桌讨论嘉宾




姜育刚,复旦大学

嘉宾介绍:姜育刚,复旦大学教授、博士生导师,教育部长江学者特聘教授。2022年1月起任校人事处处长,2020—2022年任计算机科学技术学院院长、软件学院院长。研究领域为多媒体信息处理、计算机视觉、鲁棒可信人工智能。国家科技创新2030“新一代人工智能”重大项目负责人。上海市智能视觉计算协同创新中心主任。发表的两百余篇论文被引用万余次,成果多次服务国家关键领域的重要任务。构建的开源数据和工具集如VIREO374、CCV、VCDB、THUMOS、FCVID被国内外学者及企业频繁使用。