• chinamm2022@163.com

主旨报告


高文

中国工程院院士,北京大学博雅讲席教授,
信息与工程科学部主任,鹏城实验室主任

个人简介:高文,中国工程院院士,北京大学博雅讲席教授,信息与工程科学部主任,鹏城实验室主任。曾任中国计算机学会理事长、第四届、第五届国务院学位委员会计算机科学技术学科评议组成员,《计算机学报》主编,IEEE T-MM、SPIC、JVCIR编委,ISO/IEC国际标准化委员会多媒体工作组中国代表团团长等;目前兼任IEEE T-CSVT、IEEE T-AMD编委,IEEE视频信号处理和通信技术委员会委员、IEEE多媒体系统与应用技术委员会委员、全国信息技术标准化技术委员会多媒体分技术委员会主任委员、IEEE 1857 (AVS) 标准工作组组长、数字音视频编解码技术标准 (AVS) 工作组组长。

高文院士的主要研究领域为数字视频编码、计算机视觉、模式识别与图像处理、多媒体数据压缩、多模式接口、以及虚拟现实,在高效视频编码算法、视频检测与分析方法、人脸识别算法与系统,大词汇量手语识别与合成算法与系统、移动视频检索理论与算法等方面做出贡献。主持国家“973计划”(任项目首席科学家)、国家自然科学基金创新群体项目,以及 “863计划”、国家自然科学基金等二十余项国家级项目。已出版专著5部,在国际期刊和重要国际会议上发表论文700多篇。作为第一完成人,1次获得国家技术发明一等奖、1次获国家技术发明二等奖、5次获得国家科技进步二等奖。因对于基于对象的视频表达与可伸缩视频编码以及视频编码标准化的贡献,2008年当选为电气电子工程学会会士(IEEE Fellow),2013年当选美国计算机学会会士 (ACM Fellow)。。

报告题目:数字视网膜技术及其标准化进展

报告摘要:快速增长的城市摄像头网络产生了大量具有时空尺度的图像和视频大数据,给城市大脑的感应体系建设提出了前所未有的挑战。为此,我们提出了“数字视网膜”概念,它是一种包含视频编码流、特征编码流和模型更新流的可伸缩端边云协同视觉计算架构。这一新型计算架构既能实现高效的视频数据存储,又能支撑便捷地大数据查询分析,与此同时支持在端-边-云之间进行面向智能视频编码和特征分析的深度学习模型自适应迁移、压缩、更新与转换。目前IEEE数据压缩委员会下的IEEE 3161工作组正在组织建立统一的数字视网膜技术标准体系,同时我们还构建了数字视网膜云网协同智能体系统,并部署多个应用示范,加速推进数字视网膜技术创新和成果落地。




陶大程

澳大利亚科学院院士,京东探索研究院院长,
京东集团高级副总裁

个人简介:陶大程,京东探索研究院院长、京东集团高级副总裁。兼任悉尼大学数字科学研究所顾问、清华大学卓越访问教授、中国科学技术大学大师讲席教授。他主要从事人工智能领域的研究,在权威杂志和重要会议上发表了200余篇论文;论文被引用7万余次,h-index:139,并多次荣获顶级国际会议最佳论文奖、时间检验奖。两度荣获澳大利亚尤里卡奖、2015年悉尼科技大学校长奖章、2020年悉尼大学校长研究贡献奖、2021年荣获IEEE计算机协会Edward J McCluskey技术成就奖。他先后当选IAPR/IEEE/OSA/AAAS/ACM Fellow、以及澳大利亚科学院院士。

报告题目:ViTAE - 繁而不同,大道至简

报告摘要:深度学习在许多应用领域都取得了显著的成功,现在正转向使用极大规模的有标签或无标签数据耗费大量计算资源来训练超级深度模型。在这次演讲中,我将介绍一些最新的进展。具体来说,我将首先展示PAC-Bayes的泛化边界,并指出这对新算法设计的一些实际意义。然后,我将介绍一种命名为ViTAE的高效视觉Transformer的架构设计,该模型探索内在归纳偏置。接下来,我将介绍一种名为RegionCL的新型自监督训练方法,该方法使用简单的区域互换策略,从实例层面和区域层面的丰富的正/负对中建立有效的监督信号。它大大推进了包括MoCo、SimCLR和SimSam在内的代表性自监督学习的能力。最后,将介绍视觉Transformer和自监督学习的一些有前景的应用,包括图像分类、物体检测、语义分割和姿态估计。




特邀报告


谢凌曦

华为EI盘古云团队高级研究员

个人简介:谢凌曦,博士,华为EI盘古云团队高级研究员。分别于2010年和2015年于清华大学获得本科和博士学位,并且于2015年至2019年期间在美国加州大学洛杉矶分校和约翰霍普金斯大学担任博士后研究员。谢凌曦博士的研究兴趣覆盖计算机视觉的各个方向,主要包括统计学习方法和深度学习模型的应用。研究工作覆盖图像分类、物体检测、语义分割和其他视觉任务,并积极推动自动机器学习算法在上述领域的应用。谢凌曦博士已经在国际顶级的学术会议和期刊上发表超过60篇论文,谷歌学术引用超过7000次。2015年获得清华大学优秀博士论文奖,并于ICMR2015会议上获得最佳论文奖。

报告题目:2022年的计算机视觉——开放问题和潜在方向

报告摘要:过去的十年里,在深度学习的推动下,计算机视觉领域飞速发展,在识别、生成等任务上不断刷新纪录,算法的通用程度也达到了前所未有的高度。现如今,计算机视觉正在进入深水区,业界在创新和落地方面都遇到了不小的瓶颈。在本次报告中,我们将针对视觉识别领域及进行分析,指出视觉识别的三个主要困难,即信息稀疏性、域差异性、无限细粒度性,并且分别阐述当下较有前景的解决方案,即网络架构设计和预训练、数据高效的微调、开放域识别。我们将结合业界和本团队的研究工作,系统性地讲述它们的进展和挑战,并且指出潜在的研究方向。最后,结合这些研究和洞察,我们提炼出盘古预训练大模型及其配套工具链,作为计算机视觉落地的解决方案。




李汤锁

OPPO多媒体首席架构师

个人简介:李汤锁是OPPO公司在软件多媒体领域技术负责人,多媒体首席架构师:负责OPPO相关多媒体编解码、流媒体、媒体服务、智能创作等传统多媒体领域的技术竞争力构建;带领OPPO公司技术团队对于未来多媒体新形态的技术探索,目前整个团队致力于探索泛在时代的多设备、智能化、交互式的多媒体技术升级和生态部署。团队在多媒体领域申请及授权国内外专利200余项。

李汤锁近十几年来一直专注于主流消费级设备软件架构与多媒体架构的探索和演进,致力于为用户提供优质、高效和稳定的视听体验,主导了众多消费类电子产品的研发与落地。

报告题目:泛在媒体体验探索

报告摘要:OPPO致力于ColorOS系统的完善和生态构建,并通过自研和深度合作,为用户打造万物互融的多端服务生态,构建未来泛在服务生态能力。泛在服务不同于当前既有技术的一种新型应用和服务技术,在基于感知能力的智能服务决策,融合多种入口和出口形式、多种模态的交互形式,提供应用服务能够实时触发的通道,和直达运行的全链路、全生命周期的服务治理能力。在以互联和感知构成的泛在应用体系的基石上,多媒体领域作为泛在服务体系中比较典型应用领域,介绍泛在媒体体验上的认知和探索:
   1. 多媒体在泛在时代的发展趋势:泛在应用时代,多媒体也呈现出多设备、交互式、沉浸式的发展趋势;
   2. 在泛在连接基础上多媒体全链路革新:泛在连接基础上构建分布式多媒体框架,对采集、编码、传输、呈现的全链路进行升级,进一步支撑各种泛在媒体体验;
   3. 泛在时代的多媒体体验的主要演进方向:
     - 多设备的泛在连接
     - 沉浸式的视听体验升级
     - 无感随心的智能交互体验。