主讲人 | 路香菊 爱奇艺科学家
张康 编辑整理
量子位编辑 | 公众号 QbitAI
近日,爱奇艺技术沙龙“多模态视频人物识别的关键技术及应用”成功举办,爱奇艺科学家路香菊出席并作出精彩分享。
路香菊博士,爱奇艺科学家,PersonAI团队负责人,专注人物识别及视频分析,创建百万人物库及两万卡通库。组织创办“爱奇艺多模态视频人物识别赛”,开放全球首个影视视频人物数库iQIYI-VID。
以下为路香菊分享实录:
今天给大家分享的主题是“爱奇艺多模态人物识别及其应用”,主要有三个方面:
人物识别:主要指人的身份识别;
智能创作:优质信息流内容是比较宝贵的,给大家分享AI在创作里的能力;
多模态AI竞赛:爱奇艺多模态视频人物识别AI竞赛,以及iQIYI-VID人物视频库。
人物识别人脸识别可能大家都不陌生,但人物识别并不等同于人脸识别。人物识别除了通过人脸识别,也可以采用其他技术,比如说人体(reID)、声纹等。当然爱奇艺主要是视频资源,针对明星会采用人脸识别,针对动漫等卡通剧,会采用虚拟人物识别。
这是爱奇艺人物识别简单的技术总蓝图,通过这张图可以比较形象的认识人物识别,分为FaceAI,BodyAI,AudioAI。
FaceAI是广义的人脸识别,但是除了人脸,还包含更多属性,如五官定位、是否戴眼镜、表情,以及人脸质量、姿态、颜值、种族等等之类的,是广义的人脸信息。
BodyAI除了我刚才说的reID(人的姿态、身体特征),还可以通过服饰、职业、体型等属性来确定一个人的身份。
AudioAI主要是指声纹,比如音乐类型,声音类型,音频分类等工作,是指比较立体的AI信息。
爱奇艺人脸识别模型
爱奇艺的人脸识别模型,除了人脸的身份之外,还有其属性信息,目前线上跑的模型包含12个属性,比工业界的其他公司模型要更全面。爱奇艺人脸识别与属性模型十五合一,其每个属性的指标都在行业内领先,一个模型可以同时识别身份属性,且各项属性的识别精度也比较高。
爱奇艺的人物库,包含120万名人,2万虚拟形象(卡通人物)。目前人脸识别精度最高的是ArcFace,可以达到99.8的精度。爱奇艺和ArcFace做过比较,是领先于它的。
爱奇艺的模型之所以达到这么高的精度,主要是因为我们有一个大规模的明星数据库,这个数据库的噪声小于0.02。
此外像分布式训练,还有量化、剪枝、蒸馏,还有CPU版本的OpenVINO优化,也都是我们在这个模型的尺寸大小上做的一些优化的工作,这个模型一天可以分析2000以上的长视频,一个月可以分析几十万的视频总量。这对处理海量视频是一个非常重要的一个指标。