为加快实施创新驱动发展战略,促进人工智能领域的青年从业者更好地了解本领域学科前沿,加强学术交流,开阔视野以及提高技术水平,中国人工智能学会举办了“人工智能前沿讲习班”(以下简称CAAI-AIDL)系列学术交流活动。
此前,CAAI-AIDL已经成功举办六次,主题分别为:《深度学习如何促进AI发展》(学术主任:陶建华)、《机器学习前沿》(学术主任:周志华)、《大数据:理论与应用》(学术主任:程学旗)、《智能感知与交互》(学术主任:王蕴红)、《深度学习》(学术主任:季向阳)和《自然语言处理》(学术主任:张潼和刘兵)。
第7期AIDL主题为《计算机视觉应用技术》,由中国人工智能学会主办,白翔和章国锋两位教授担任学术负责人,并邀请到计算机视觉领域十余位著名学者作为特邀报告人。参会者不仅可以听取专家们对本领域基础知识和最新进展的集中讲解,也可以获得跟顶尖专家交流的机会。
主办单位:中国人工智能学会
举办时间:2019年8月31日-9月1日
举办地点:武汉·华中科技大学
官网:https://aidl.caai.cn/
活动日程
8月31日
08:30- 10:00
查红彬 北京大学信息科学技术学院智能科学系教授,机器感知与智能教育部重点实验室主任
报告题目:SLAM研究的新进展:从多视点几何计算到在线学习
报告摘要:
近年来,随着自动驾驶、机器人导航与移动终端传感计算等应用的快速发展,SLAM(Simultaneous Localization and Mapping:即时定位与地图构建)技术再度成为计算机视觉与虚拟现实领域的研究热点。传统的SLAM技术充分利用多视点几何与SfM(Structure from Motion)等领域的高效算法,并通过与深度传感器、惯性传感器等下一代传感设备的数据融合,在传感器轨迹计算精度与三维场景重建质量方面取得了显著的进步。但在实际应用中,仍存在重建误差积累严重、计算成本高昂等问题,影响了机器系统的在线响应速度以及对复杂环境的自适应能力。针对这些问题,我们应最大限度地利用传感数据的时空一致性与三维地图的几何不变性,在现有多视点几何计算的基础上,强化SLAM算法的系统性与泛化能力,进一步改善其基本性能。该报告的主要内容包括:(1)引入数据流计算的基本概念,充分挖掘密集采样传感数据内在的时空连续性,以加强SLAM算法的预测能力;(2)构建基于时域变化的增量算法,并利用地图全局特征的约束以及传感数据的实时反馈作用,实现传感器轨迹的高效计算与三维地图的递进式构建;(3)尝试各类机器学习算法在SLAM问题中的应用,以探讨建立自监督SLAM在线学习技术的新途径。
10:00 - 11:30
山世光 中国科学院计算技术研究所研究员、智能信息处理重点实验室常务副主任,国家优秀青年科学基金获得者,国家“万人计划”入选者
报告题目:从看脸到读心:深度理解人的视觉技术和方法进展
报告摘要:
基于视觉方式理解人是人工智能研究的重要方向。过去五年来,得益于深度学习、强大算力与大规模人脸数据,人脸识别等“看脸”技术得到了飞速发展,并已在诸多领域得以应用,引领了AI技术的成功落地。智能技术发展进入下半场,需要对人有更深刻的感知和理解,基于视觉的方式“读心”首当其冲。这里所谓的“读心”是指通过对普通摄像设备采集的人物视频的分析,获得视频人物情感状态、生理指标和心理状态的技术,主要包括:基本表情识别、面部动作单元检测、正负性情绪分类、身高/体重估计、心率估计、呼吸次数估计、血氧估计、心跳变异分析(房性纤颤)、瞳孔状态分析、视点估计与跟踪等关键技术,以及在这些技术基础上构建的心理状态估计技术及系统,其中包括专注与分神、疲劳与精力充沛、紧张与放松、疑惑与确信、抑郁与舒畅等等。这些技术在人机交互、交通、教育、健康、医疗、商业、公安等诸多领域均有广泛的应用前景。本报告的第一部分将介绍上述“读心”技术的研究现状,第二部分将介绍本人课题组在这些任务上的研究进展和未来计划,最后将讨论“读心”技术的未来发展趋势。
11:35- 12:05 ICDAR2019票据扫描件比赛端到端识别任务冠军介绍比赛经验
14:30 - 16:00
彭宇新 北京大学二级教授、博士生导师、863项目首席专家
报告题目:跨媒体智能:表征、分析与应用
报告摘要:
随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本等跨媒体数据快速增长,它们多源异构且相互关联,使得数据表征、信息检索、知识发现、语义推理面临跨媒体、跨数据源等挑战。如何借鉴人脑的跨媒体特性,跨越视觉、听觉、语言等不同的感官信息认知外部世界,对于提高计算机的感知认知能力和智能水平至关重要。本报告将对中国工程院“人工智能2.0”中跨媒体分析推理技术的任务和目标进行介绍,然后重点介绍我们的相关研究进展,包括细粒度图像分类、跨媒体检索、文本生成图像、视频描述生成等。
16:10- 17:40
章国峰 浙江大学计算机辅助设计与图形学国家重点实验室教授,博士生导师,国家优秀青年科学基金获得者
报告题目:视觉SLAM技术与AR应用
报告摘要:
虽然基于视觉或视觉惯性的SLAM技术在过去十多年里取得了很大的进展,但要满足实际的应用需求仍需要解决一些关键性难题。尤其是如何在移动设备上做到实时稳定的跟踪,如何处理快速运动和强旋转?如何实现高效的全局优化?另外,如何评测现在的VSLAM/VISLAM算法在AR应用上的性能?本次讲座主要与大家分享我们为了解决这些关键问题所做的研究工作以及在AR上的应用,并发布了专门针对AR应用的视觉惯性数据集和评测标准。
9月1日
08:20 - 9: 50
金连文 华南理工大学二级教授,博士生导师
报告题目:文字检测与识别:现状及展望
报告摘要:
文字识别技术在图像理解、智慧教育、信息安全、人机交互、智慧金融、虚拟现实、信息录入及办公自动化等诸多领域有非常广阔的应用前景,是目前人工智能及计算机视觉等相关领域的研究热点问题之一。基于深度学习的文字检测与识别技术近年来取得了极大进步及发展,虽然不少方法在许多任务及数据集上取得了State-of-the-art的性能,然后仍存在不少问题有待解决,例如深度检测模型鲁棒性问题(如Anchor等超参数设置、目标尺度大小鲁棒性问题等)、文字序列识别解码鲁棒性及效率问题(例如Attention机制在长文本序列解码时的注意力漂移及对齐问题等)。在此报告中,我将首先简要回顾目前基于深度学习的文字检测及识别的最新进展情况,然后重点介绍几种提升文字检测或识别模型鲁棒性的几种新方法,并对文字检测与识别的一些其它重要问题(例如数据合成、评测标准)及新应用进行讨论和展望。
10:00 - 11:30
贾梦雷 阿里巴巴研究员
报告题目:我们如何将AI在时尚行业落地
报告摘要:
在电商及社交平台上有海量的包含服饰的图片。我们希望通过一张图片就可以识别出衣服的各种设计要素,从而通过对海量图片的分析,得到对潮流趋势的解读,来为消费者和商家提供建议。传统的设计要素知识体系有各种缺陷,导致在此基础上的机器识别效果有限。为此,我们和专家一起做了“面向机器学习的知识重建”,将女装的设计要素梳理成包括两百多个叶子节点的知识树,大幅提高了机器识别的上限;同时,研发了少样本学习技术,使识别单个知识点所需的样本量降低了两个量级,从而使得大规模的知识重建变得可行。
11:35-12:05 ICDAR2019票据扫描件比赛文本检测任务冠军介绍比赛经验
14:30 - 16: 00
黄伟林 码隆科技首席科学家
报告题目:计算机视觉技术在商品识别,以及智能零售方面的应用
报告摘要:
计算机视觉技术在众多领域得到广泛应用,比如,安防,智能驾驶和医疗等。本次课程主要介绍计算机视觉技术应用的一个新场景 - 商品识别和智能零售。智能零售是AI离人们生活最近的应用场景,这里将分享码隆科技最近两年在该领域的探索和研究成果。主要内部包括,商品识别和搜索技术,弱监督学习相关技术,以及Open-Set识别问题等。另外,还将介绍CVPR 2019码隆科技和Google Research联合举办iMat. Product Recognition 比赛中优胜团队的最新技术。
16:10 -17:40
夏桂松 武汉大学教授,博士生导师
报告题目:高分辨率遥感图像理解
报告摘要:
遥感对地观测在国防军事、公共安全、国民经济等各个领域中都有重要应用,而遥感图像自动解译是实现这些应用的关键环节之一。本报告围绕高分辨率遥感图像解译中场景分类、语义分割、目标检测、变化监测等关键任务,分析和回顾本领域已取得的研究成果,厘清高分辨率遥感图像解译的关键科学问题,分享近年来人工智能技术和遥感图像解译的交叉研究进展。
授课讲师
查红彬 北京大学信息科学技术学院智能科学系教授,机器感知与智能教育部重点实验室主任
主要从事计算机视觉与智能人机交互的研究,在三维视觉几何计算、三维重建与环境几何建模、三维物体识别等方面取得了一系列成果。出版学术期刊及国际会议论文300多篇,其中包括IEEE T- PAMI,IJCV, IEEE T-VCG, IEEE T-RA, IEEE T-SMC,ACM T-IST, JMLR, PR 等国际期刊以及ICCV, ECCV, CVPR, CHI, ICML, AAAI,ICRA等国际学术会议论文90余篇。
山世光
中国科学院计算技术研究所研究员、智能信息处理重点实验室常务副主任,国家优秀青年科学基金获得者,国家“万人计划”入选者
在人脸识别等图像识别技术上有超过20年的研发经验,发表论文200余篇,被引用16000余次。带领团队获得十余次国内外学术竞赛冠亚军,所研发的人脸识别技术成功应用于公安部出入境管理局、十几省公安厅、多款华为手机等。研究成果获2005年度国家科技进步二等奖,2015年度国家自然科学二等奖。