• chinamm2024@163.com

大会特邀报告


郑庆华

中国工程院院士

个人简介:郑庆华,中国工程院院士,同济大学校长(副部长级)、党委副书记。智能网络与网络安全教育部重点实验室主任,教育部科技委学部委员,教育部大学计算机教学指导委员会主任,国家杰出青年基金获得者,国家自然科学基金创新群体负责人。主要从事大数据知识工程、网络舆情监测等方面的研究,获国家科技进步二等奖3项,国家教学成果一等奖1项、二等奖2项,省部级科技进步一等奖6项,获2022年度何梁何利基金“科学与技术进步奖”,中国自动化学会科技进步特等奖,并先后获得中国科协“求是”杰出青年奖、中国青年科技奖、国务院政府特殊津贴专家、宝钢优秀教师特等奖、全国高等学校优秀骨干教师、全国信息产业科技创新先进工作者等荣誉。

报告题目:从计算智能迈向认知智能

报告摘要:更新中,敬请期待!




王耀南

中国工程院院士

个人简介:王耀南,中国工程院院士,机器人技术与智能控制专家,湖南大学教授,机器人视觉感知与控制技术国家工程研究中心主任。任中国科协委员、中国图象图形学学会理事长、中国自动化学会会士、中国计算机学会会士、中国人工智能学会会士、全国智能机器人创新联盟副理事长、国家自然科学基金委员会专家咨询委员、中国自动化学会常务理事、中国人工智能学会监事、教育部科技委人工智能与区块链技术委员会委员等。曾任国家863计划智能机器人领域专家、欧盟第五框架国际合作重大项目首席科学家。

长期从事机器人感知与控制技术教学科研工作,成果获国家技术发明二等奖1项、国家科技进步二等奖4项、何梁何利基金科学与技术进步奖、国际IEEE机器人与自动化领域“工业应用最高奖”,省部级一等奖12项。发表国际IEEE等SCI论文200余篇,出版机器人感知与智能控制等著作15部,获国家发明专利90余项,培养博士80余名。荣获国家百千万工程人才、德国杰出洪堡学者、全国高等学校优秀教师、全国五一劳动奖章、全国先进工作者、全国创新争先奖、全国教材建设先进个人等荣誉称号。

报告题目:高光谱机器视觉感知技术及发展趋势

报告摘要:机器视觉作为机器人感知系统的“高精密眼睛”,其发展对机器人起着重要的作用。高光谱机器视觉具备多模态成像系统与智能分析处理算法,是当前机器视觉领域的研究前沿。本报告将从研究背景与意义、研究现状与面临挑战、关键技术等方面介绍高光谱机器视觉的现实发展与未来趋势。首先,以高端制造过程中面临的机器人感知手段有限、测量检测精度低、缺陷样本数量少等挑战为牵引,介绍了高光谱机器视觉研究中高速高精快照式光谱成像、无监督异常检测方法、跨场景模型边缘端部署等方面;最后介绍了高光谱机器视觉未来的发展趋势与展望。




高文

中国工程院院士

个人简介:高文,中国工程院院士,鹏城实验室主任,北京大学信息与工程科学部主任、博雅讲席教授,国际电气和电子工程师协会会士(IEEE Fellow)、美国计算机协会会士(ACM Fellow)。现任第十四届全国人大代表,曾任第十届、十一届、十二届全国政协委员,国务院学科评议组计算机学科成员,中国计算机协会理事长,计算机学报主编。以第一完成人身份,一次获得国家技术发明一等奖、一次获得国家技术发明二等奖、五次获得国家科技进步二等奖。荣获全国五一劳动奖章(2023年)、何梁何利基金科学与技术进步奖(2022年)、广东省南粤突出贡献奖(2021年)、“2005中国十大教育英才”称号和中国计算机学会王选奖。主要从事人工智能应用和多媒体技术、计算机视觉、模式识别与图像处理、虚拟现实方面的研究,主要著作有《数字视频编码技术原理》、《Advanced Video Coding Systems》等。在本领域国际期刊上发表论文300余篇。

报告题目:鹏城系列大模型与数字视网膜应用实践

报告摘要:GPT为代表的AI通用大模型已经对人类经济生活产生了巨大的影响。基于鹏城云脑先进自主E级智能算力平台,鹏城实验室研发了参数量达20亿的鹏城·大圣视觉与多模态系列基础模型,训练完成了鹏城·脑海自然语言大模型底座。3亿参数视觉基础模型与2.9亿参数多模态基础模型已开源。此外,还构建了首个判别生成一体多模态基础模型,同时支持判别与生成任务;研发了增量式多模态基础模型,首次具备模型对新模态的持续扩展能力。视觉与多模态基础模型结合实验室牵头制定的全球首个端边云协同技术国际标准,支撑了“数字视网膜”计算架构,在全国多个城市的智能交通、综合治理等重点领域应用,取得了显著社会经济效益。鹏城·脑海是国内首个完全自主可控、安全可控、开源开放的自然语言预训练大模型底座,参数级别达到2000亿,并且输出内容符合中文核心价值观;鹏城实验室已经开放脑海模型合作,与外部伙伴一起建设大模型的垂直领域应用。




Chua Tat-Seng

National University of Singapore

个人简介:Dr. Chua is the KITHCT Chair Professor at the School of Computing, National University of Singapore (NUS). He is also the Distinguished Visiting Professor of Tsinghua University, the Visiting Pao Yue-Kong Chair Professor of Zhejiang University, and the Distinguished Visiting Professor of Sichuan University. Dr. Chua was the Founding Dean of the School of Computing from 1998-2000. His main research interests include unstructured data analytics, video analytics, conversational search and recommendation, and robust and trustable AI. He is the co-Director of NExT, a joint research Center between NUS and Tsinghua University.

Dr. Chua is the recipient of the 2015 ACM SIGMM Achievements Award, and the winner of the 2022 NUS Research Recognition Award. He is the Chair of steering committee of Multimedia Modeling (MMM) conference series, and ACM International Conference on Multimedia Retrieval (ICMR) (2015-2018). He was the General Co-Chair of ACM Multimedia 2005, ACM SIGIR 2008, ACM Web Science 2015, ACM MM-Asia 2020, WSDM 2023, and TheWebConf (or WWW) 2024. He serves in the editorial boards of several international journals. Dr. Chua is the co-Founder of two technology startup companies in Singapore.

报告题目: From Large Foundation Models to Network of Experts

报告摘要:The emergence of Large Foundation Models (LFM’s) that offer significant capabilities in content comprehension, generation, and flexible human-level dialogues, has revolutionized the way we seek and consume information. At sufficiently large scale, universal LFMs possess the strengths of domain versatility, output diversity, as well as semantic coherency and alignment at human-level. But being too versatile, diverse, large and open-domain come at the price of requiring high cost for operation and hallucination with the accompanying problems of trust and safety. There is a need to develop efficient solutions that can retain most of the strengths of LFMs while being safe, trustable and accurate in solving task-specific problems. This talk presents recent research and trends of LFMs at two levels. The first is at the media level, by analyzing recent advancements in aligning text and multimodal contents to achieve higher quality multimodal understanding and generation, as well as research towards multimodal alignment, instruction tuning and reliable & faithful LFMs. At the next level, we discuss current trends towards agent-based systems, and present our proposal to advance the agent-based models towards the network of experts (NoE) framework. The NoE will be task specific, for tasks such as recommendation, event forecasting and Fintech etc., while domain agnostic. It will support a network of small-sized LFMs or experts with diverse capabilities; some with high performance and with high level of trust and safety on domain specific tasks; while others are domain agnostic and with high versatility and diversity. These experts can be configured dynamically to collaboratively tackle more complex problems beyond what each is capable of doing. As NoE requires only smaller sized LFMs tuned to solving various tasks, they can be undertaken by smaller academic and industry labs, and thus offering the possibility of democratizing the core of LFM research to all.




陈熙霖

中国科学院计算技术研究所

个人简介:陈熙霖,中国科学院计算技术研究所研究员,ACM / IAPR / IEEE Fellow,中国计算机学会会士,其主要研究领域为计算机视觉、模式识别、多媒体技术以及多模式人机交互,特别是在生物启发的特征表示与学习、以人为中心的感知与分析、场景理解等方面开展了系统的研究。目前担任JVCIR的Senior AE,计算机学报、模式识别与人工智能和VRIH的副主编,以及多个刊物的(领域)编委。担任(过)多个国内外大会的主席和程序委员会主席,并十多次担任CVPR / ICCV / ECCV / NeurIPS等会议的领域主席。研究工作在国内外重要刊物和会议上发表论文400多篇,先后获得过国家自然科学二等奖、北京市高等学校教学名师奖。

报告题目:面向行人辅助的场景理解与交互

报告摘要:视障者的出行受交通基础设施等多方面的影响。面向特定人群在半结构化道路上的出行需求,发展相应的理解和交互技术,改善出行条件具有重要的作用。报告分析了行人辅助的半结构化道路环境理解与交互问题的特点与挑战,并将介绍在相应方面开展的研究工作,包括对场景感知与理解、综合多传感信息的定位与分析、高效的人机交互等。相关的技术可以拓展至支持非结构化下的移动装置,具有很好的泛化性。报告最后对未来的工作进行了展望。




李波

北京航空航天大学

个人简介:李波,北京航空航天大学计算机学院长江学者特聘教授、杰青,北航人工智能研究院常务副院长。兼任国务院学位委员会软件工程学科评议组成员、教育部人工智能科技创新专家组工作组副组长、军委装备发展部人工智能装备应用基础技术专家组成员。

当前主要研究方向为计算机视觉、机器学习、知识推理、嵌入式智能系统。已主持国家、省部级课题40余项,是国家重点研发计划项目“公共安全监控视频安全共享与特征分析关键技术研究”项目负责人、国家973计划项目“数字媒体理解的理论与方法研究”首席科学家,原总装“十五”、“十二五”某边海防视频系统型号总设计师。在本领域重要期刊和国际学术会议发表学术论文100余篇,有国内外发明专利100余件,获国家技术发明二等奖1项、国家科技进步二等奖1项。

报告题目:复杂场景视频图像处理

报告摘要:人类获取的感知信息80%来自视觉,视频图像处理在经济社会发展、国家安全保障中发挥着极其重要的作用。在复杂场景中,受天气复杂、环境复杂、目标变化复杂等因素的影响,需要解决恶劣天气获取视频“看不清”、复杂场景目标识别“认不准”、跨时空目标“关联难”等挑战问题。

在本报告中,建立了基于非均匀光照模型的降质图像清晰还原的理论方法,提出了融合时空信息的复杂场景目标准确识别技术,发明了基于多视角融合的跨时空目标关联技术,相关成果已在边海防侦察监视、公安视频侦查、弹载红外制导、卫星图像判读等方面规模化应用,解决了重大工程应用难题。




马华东

北京邮电大学

个人简介:马华东,教授,北京邮电大学学术委员会副主任。2010-2021年历任计算机学院执行院长、网络技术研究院执行院长等职务。2009年获得国家杰出青年科学基金,2010年被聘为国家973计划项目“物联网体系结构基础研究”首席科学家,2011年度长江学者特聘教授,2019年入选国家基金委创新群体“物联网基础理论与关键技术”项目负责人,2023年度中国计算机学会王选奖获得者。兼任国务院学位委员会学科评议组成员,教育部科技委委员;中国计算机学会常务理事,曾任物联网专委会主任、多媒体专委会副主任;中国图象图形学学会常务理事,曾任多媒体专委会副主任;中国人工智能学会常务理事、副秘书长,IEEE/CCF/CAAI会士。长期从事物联网、多媒体、人工智能领域的研究,在多媒体传感网、新型感知技术、视频物联网、媒体智能处理算法等方面取得一批有国际影响力的原创或创新性成果,获得授权国家发明专利80余项,发表论文400余篇,论著被同行学者引用1.5万次。排名第1获得国家级教学成果二等奖(2次)、教育部自然科学一等奖、中国电子学会科学技术奖一等奖等奖励;获IEEE Transactions on Multimedia年度最佳论文奖等国际学术奖励。

报告题目:从多媒体传感网到视频物联网:探索与展望

报告摘要:本报告首先回顾了物联网发展长期面临的挑战,然后介绍了我们在多媒体与物联网交叉方向研究进行的若干探索,特别介绍了最近在视频物联网网络架构、移动视频智能传输、云边端协同视频计算等相关领域研究进展。人工智能的发展将驱动物联网的变革,本报告展望了人工智能时代的物联网发展一些开放的问题,如多模态类人感知、内生智能网络、智能服务生态,上述问题的突破将推动物联网技术的深层次发展。


企业特邀报告


王苫社

北京博雅睿视科技有限公司

个人简介:研究兴趣主要包括视频编码与质量评价、智能视频处理等。深度参与了视频编码国际标准和国家标准的制定工作,提交200余项技术提案;主持多项国家级重点项目和自然基金项目;作为主要完成人,获得2019年中国电子学会技术发明特等奖,2020年度国家技术发明一等奖,2022年度中国电影电视学会科技进步一等奖,2022年度中国电子学会创新团队,2022年度北京市科技进步一等奖。

报告题目:视觉智算--过去,现在和将来

报告摘要:随着人工智能技术的快速发展,全视频时代随之到来,视频与视觉技术越来越多的在行业发展中扮演核心角色。本报告着重回顾了视觉智算的内涵,发展现状,以及未来的发展趋势。同时随时技术本身的不断成熟,越来越多的硬件设备都支持了AI算力,充分发挥AI算力在行业应用中的价值,对于行业的可持续发展具有至关重要的作用。本报告结合首颗支持AVS3编码芯片的架构设计和研发过程,阐述了视觉智算的关键要素和未来发展趋势。




张迪

快手科技

个人简介:张迪,2003~2010年,在上海交通大学取得计算机系本科和硕士学位。曾任阿里巴巴集团资深技术专家,在阿里集团搜推广业务进入深度学习时代的技术演变中发挥了核心作用。现任快手科技副总裁,大模型与多媒体技术团队负责人,带领团队负责生成式AI大模型的研发和应用,构建了超大规模 AI 基础设施,研发了快意大语言模型,可图文生图、可灵视频生成大模型等,并将大模型与多媒体技术用于快手的核心业务中。

报告题目:可灵AI视觉生成大模型及应用

报告摘要:随着人工智能技术的飞速发展,大模型已成为人工智能领域的一个重要研究方向和推动行业发展的关键力量。本报告全面探讨了快手公司在这一领域的最新进展,包括可图文生图模型、可灵文生视频模型、语音大模型等关键技术,以及在AIGC等关键应用方向。通过深度分析和案例研究,报告揭示了这些技术如何有效地增强平台内容的丰富性、互动性和个性化,同时显著提高运营效率和用户体验。此外,报告也讨论了这些技术所带来的挑战,以及未来发展趋势,旨在为业界提供深入见解和指导,推动行业的持续进步和发展。