视频自动剪辑:目前主要在技术尝试阶段。Adobe 与斯坦福共同研发的 AI 视频剪辑系统, 可以将所有镜头包括多个角度拍摄的画面按照脚本进行组织,准确的识别出需要剪辑的内 容,系统会利用面部识别和情绪识别系统,对每一帧画面进行分析。IBM Watson 自动剪 辑科幻电影《摩根》的预告片,制作预告片的时间缩减到 24 小时,而通常需要 10 天到一 个月。我国的公司影谱科技推出了相关产品,能够基于视频中的画面、声音等多模态信息 的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。 AIGC 在短视频和直播领域被大量使用,短视频自动剪辑内容更快更高效。网达视频实时 智能云剪系统,可以边直播、边录制、边剪辑,实现分钟级短视频智能剪辑发布,具有集 锦自动制作、智能封面提取、热点视频自动制作、全景直播拆条等功能。智能直播切片系 统通过 AI 识别直播间的精彩片段,实现直播间内容智能剪辑,再通过矩阵化运营,带来增 量曝光与二次转化。抖音和抖音的短视频剪辑软件剪映与云剪支持 AI 识别字幕和文本朗读, 智能封面、智能抠图和绿幕抠图等各功能,提升短视频制作效率。
#2 视频自动生成:全自动生成技术仍在尝试,在动画、广告和特定商务场景应用落地
不引用现有素材完全从头生成视频仍处于技术尝试阶段,在图像生成的基础上可以实现简 单的视频短片制作,所生成视频的时长、清晰度、逻辑程度等仍有较大的提升空间。目前 的 AI 技术不仅可以生成图片,也能够生成序列帧,通过 AI 逐帧完成图片生成,制作视频 短片。如 2022 年 12 月我国新华社与百度文心一格联合推出 AIGC 视频短片《AI 描绘天宫 盛宴》,进一步提升了 AI 作画的可控性、复杂构图和细节刻画能力,AI 作画不再单纯地输 出一帧帧高质量图片,而是基于统一的风格,尝试连续地讲述一个完整的故事。 AIGC 在动画制作领域已经开始商业化落地。《犬与少年》由小冰公司日本分部(rinna)、 WIT STUDIO 与合作伙伴共同创作,该片采用 rinna 开发的 AI 辅助背景进行制作,极大地 简化了从导演分镜表到 Layout“设计图”的工序环节,将手工着色的“设计图”提交至 AI 生成细化并优化背景,再对 AI 生成的背景图进行修正,进而通过人工智能技术绘制完 整动画场景。
人脸合成等技术可以在广告和特定商务场景得到应用。广告方面,可以选择服务于明星, 在多语言广告、碎片化内容生成等领域使用,快速提升明星的 IP 价值。例如 Synthesia 为 Snoop Dogg 制作的广告,通过使用 deepfake 改变其嘴部动作,就能够将原始广告匹配到 另一品牌。除 deepfake 外,AIGC 还可以实现在视频中的虚拟内容植入生成个性化广告, 也即利用计算机图形学和目标检测在视频中生成物理世界并不存在的品牌虚拟元素,如 logo、产品、吉祥物等。在特定商务场景,AIGC 可以应用于培训材料分发(如 WPP 的全 球培训视频)、素人直播及短视频拍摄等。
#3 文字生成视频:已有成熟产品,Meta 和谷歌竞争激烈
文本生成视频可以看作文本生成图像的进阶版技术。一方面,文本生成视频同样是以 Token 为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。而另 一方面,视频生成会面临不同帧之间连续性的问题。对生成图像间的长序列建模问题要求 更高,以确保视频整体连贯流程。从数据基础来看,视频所需的标注信息量远高于图像。 目前已经进入可商用阶段,国外有较为成熟的产品。文字生成视频需要基于文字(涉及 NLP 语义理解)搜索合适的配图、音乐等素材,在已有模板的参考下完成自动剪辑。代表 公司/产品方面,ToC 的包括百度智能视频合成平台 VidPress、慧川智能、Gliacloud、 Synths.video、lumen5,ToB 端代表公司为 Pencil。以百度智能视频合成平台 VidPress 为 例,其工作原理与编辑制作视频的步骤相似,先准备文本脚本,收集媒体材料后将材料处 理成视频片段,将脚本配音与视频对齐,最后编辑检查。通过 AI 技术,VidPress 可以实 现文字分析和摘要、视频内容搜索、素材智能化处理、音视频对齐,以及智能剪辑等 5 个 步骤的自动化。
两大巨头 Meta 和谷歌竞争激烈。Meta 公司在 2022 年 9 月 29 日推出的 Make-A-Video 是 一款可以直接基于文字生成短视频的人工智能系统。据 Meta 公司透露,技术人员在开发 该产品的过程中结合了几百万个视频和 23 亿张图片数据集数据来训练其模型,目前系统 可以根据输入文字或者图片自动生成准确率很高的 5 秒钟短视频片段。在 Meta 发布了 Make-A-Video 的一周后,谷歌推出 Imagen Video 和 Phenaki,相比于 Make-A-Video, Imagen Video 的视频清晰度和分辨率更高,可以产生分辨率 1280×768 的 5.3 秒视频。 Phenaki 可根据提示语智能生成极其贴近文本描述的 2 分钟以上的长视频,在公布的 DEMO 中,Phenaki 基于几百个单词组成一段前后逻辑连贯的视频只需两分钟。
其他:游戏/代码/3D 生成等领域应用前景广阔
AIGC 应用场景多元,随着 AIGC 技术发展愈加成熟,在游戏/代码/3D 生成等领域将迎来 蓬勃发展。目前游戏生成中游戏操作策略生成、NPC 逻辑及剧情生成和游戏资产已经得到 应用,AIGC 生成代码能替代编码中大部分重复性劳动,3D 生成尚处于早期阶段。代表产 品/公司包括 Deepmind、rct AI、腾讯、Scenario、Runway、Epic Games 游戏《黑客帝 国:觉醒》、谷歌 DreamFusion、英伟达 Magic3D 和 GET3D、GitHub Copilot 等。
游戏内容形式复杂,包含 2D 图像、3D 建模、音频、视频、数字资产等,AIGC 将对游戏 内容生产的各方面形成冲击,AIGC 在游戏当中的应用包括以下方面: 1)游戏操作策略生成。人工智能玩家生成真实对战策略,帮助游戏进行前期平衡性测试、 游戏跑图/功能测试、对局陪伴、特定风格模拟等。2016 年 Deepmind AlphaGO 在围棋中 有所展示,随后,AI 决策在 Dota2、StarCraft2、德扑、麻将等游戏领域中均展现出了良 好的实力。腾讯“绝悟”AI 通过强化学习的方法来模仿真实玩家,包括发育、运营、协作 等指标类别,以及每分钟手速、技能释放频率、命中率、击*数等具体参数,让 AI 更接近 正式服玩家真实表现,测试的总体准确性提升到 95%。 2)NPC 逻辑及剧情生成。开放世界游戏越来越受欢迎,通过 AIGC 来创建场景和 NPC 都将会大幅度提升效率和降低成本。rct AI 成立于 2018 年,运用人工智能为游戏行业提供 完整的解决方案,rct AI 的混沌球(Chaos Box)算法可以在游戏中大规模地轻松生成具有 智能意识的虚拟角色,进而实现性格化 NPC、对抗式 AI、互动式 AI、大规模智能 NPC 部 署、智能留存及智能运营策略等。 3)游戏资产的生成。Scenario 用户可通过视频拍摄现实生活的中的 3D 物体然后生成在 游戏中对应的模型,在 Stable Diffusion 的基础上,Scenario 推出了一个面向游戏开发者 和游戏设计的是 AIGC 工具,专注于生成各种游戏资产。
AIGC 日益成为 3D 内容生成的基础技术支撑。传统的 3D 制作需要耗费大量的时间和成本, 相比于 2D 内容的制作,3D 内容蕴含的信息量更多、制作成本更高、制作周期更长。随着 Diffusion 模型、NeRF 模型的发展,AIGC 在 3D 内容生成的应用上迎来了快速的发展, 3D 模型、场景和角色制作能效提升。 3D 内容生成对游戏、电影、室内设计等领域产生影响。3D 纹理和素材是制作 3D 游戏和 电影必不可少的元素,近期 Runway 基于 diffusion 推出了一个 AI 生成 3D 素材的模型, 可快速生成 3D 纹理。2022 年虚幻引擎和 Epic Games 推出的《黑客帝国:觉醒》利用虚 幻 5 引擎技术下,建立了 700 万个实例化资产,每个资产由数百万个多边形组成,包括 7000 栋建筑、38000 辆可驾驶车和超过 260 公里的道路。通过 NeRF 模型可以快速生成 3D 室内建模,并且可以通过文字指令来切换整体的风格,腾讯旗下“腾讯云三维建模” 软件通过手机拍照可以实现快速对实际场景进行三维重建的功能。
谷歌和英伟达在 3D 内容生成上较为领先。2022 年 10 月谷歌发布 DreamFusion,能够使 用文本到图像模型先生成 2D 图像,然后优化为体积 NeRF 数据,目前生成的 3D 内容质 量不高。英伟达发布的 Magic3D 可以在大约 40 分钟内生成一个 3D 网格模型并配有彩色 纹理,比谷歌 DreamFusion 的 3D 生成速度更快,22 年 12 月新发布 GET3D 可以合成 3D 几何体,每秒可生成约 20 个物体。
AIGC 生成代码能替代编码中的重复性劳动,为程序员工作带来巨大效率提升。GitHub 和 OpenAI 合作产生 AI 代码生成工具 GitHub Copilot,可根据命名或者正在编辑的代码上下 文为开发者提供代码建议。据官方介绍,其已经接受来自 GitHub 上公开可用存储库的数 十亿行代码的训练,支持大多数编程语言,近 30% GitHub 网站上的新代码是在 AI 的帮 助下完成的。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
精选报告来源:【未来智库】。