早期 AIGC 图像主要基于 GAN 模型,但生成效果欠佳。GAN 模型主要由生成器 (Generator)和判别器(Discriminator)两部分组成,生成器负责模拟出与真实训练样本 类似的假数据,并将假数据混入原始数据交由判别器区分,两个模型相互博弈,直到生成 器的假数据能够以假乱真。早期的 AIGC 图像主要基于 GAN 模型生产,但是 GAN 存在训 练难以收敛、模型坍塌、梯度消失等问题,造成训练结果冗余、图像生成质量差。
Diffusion 模型逐渐取代 GAN 成为主流模型,推动图像生成技术的发展。Diffussion 受热 力学模型启发,通过增加高斯噪声破坏训练数据,然后通过反转噪声来恢复学习的数据, 经过训练的模型便能够应用去噪方法来生成干净的数据。Diffussion 相对于 GAN 具有更灵 活的模型框架和精确的对数似然,所需数据更少,但图像生成效果较更佳,目前逐渐取代 GAN 成为新一代图像生成的主流模型。
#1 文字生成图像
由 Midjourney 生成的《太空歌剧院》出圈,引发社会广泛讨论。Midjourney 是一款搭载 在 Discord 上的聊天机器人,玩家只需要@机器人并输入相关的提示词(Prompts)即可 在 1 分钟以内生成 4 张图片。凭借着极低的上手门槛和 Discord 社区加持,截至 2023 年 2 月 4 日,Discord 数据显示 Midjourney 在 Discord 约有 980 万成员。2022 年 8 月,由 Midjourney 生成的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别 的冠军,使得 AI 绘画引发了广泛的关注,围绕 AI 能够替代艺术创作的讨论热度较高。
Stable Diffusion 模型成为 AI 图像领域的里程碑,Stability 估值达 10 亿美元。2022 年 8 月,Stability AI 推出 Stable Diffusion 模型,随着算法和模型的持续优化,Stable Diffusion 的运行速度快、消费资源及内容较少,使用消费级显卡即可迅速生成高质量的图像,且该 模型完全免费开源,所有的代码均在 GitHub 上公开,因此也为后续整个图像模型的更迭 打下基础。据 TechCrunch,截至 2022 年 10 月,已有超 20 万开发者下载和获得 Stable Diffusion 的授权,各渠道的累计日活已经超过 1,000 万;基于 Stable Diffusion,面向消费 者的 AI 智能绘图软件 Dream Studio 用户数超 150 万,已生成 1.7 亿张图片。2022 年 10 月,Stabilty AI 宣布获得 Coatue、Lightspeed Venture Partners 和 O'Shaughnessy Ventures LLC 投资的 1.01 亿美元,估值达 10 亿美元,跻身独角兽行业。
OpenAI 持续迭代 DALL·E 模型,图片画质、生成效率均有提升。2021 年 1 月 OpenAI 发 布模型 DALL·E,能够根据文本描述生成图像,2022 年 4 月,OpenAI 公布了 DALL·E 2 研发进展。据量子位,从原理上看,DALL·E 2 是 CLIP 与 Diffusion 模型的结合,其中 CLIP 将文本嵌入转变为图像嵌入,而图像嵌入将通过调节扩散(Diffusion Decoder)生成 最终的图像。DALL·E 2 与前一代相比图像质量提升了 3 倍,DALL·E 2 生成图像画质为 1024×1024,DALL·E 画质为 256×256,且生成的速度更快。此外 DALL·E 2 能够在更细 的颗粒度上实现文本到图像的转化,能够根据自然语言进行 P 图,同时会反馈阴影、纹理 等元素的变化。
谷歌的 Imagen 在写实场景表现优秀,Muse 图像生成效率更高。2022 年 5 月,Google 公布了自研的 Imagen 模型。据量子位,从技术上看,该模型并未采用 CLIP GAN 或 CLIP Diffusion 的常规做法,语言模型采用谷歌的 T5-XXL,并仅负责编码文本特征,图 像生成由一系列 Diffusion 模型构成;从效果上看,Imagen 在写实场景中表现更加优秀。 2023 年 1 月,Google 发布了从文本生成图像的 Transformer 模型 Muse,与 Imagen 和 DALL·E 2 等 Diffusion 模型相比,Muse 由于采用离散标记且需要更少的采样迭代,生成 效率显著提升,据 Google Research 与 Dataconomy,在 TPUv4 芯片上,Muse 生成 512x512 分辨率的图像仅需 1.3 秒,较 Stable Diffusion 1.4 的 3.7 秒更快。
百度推出国产基础模型 ERNIE-ViLG 2.0,文心·一格支持中国风 AI 创作。伴随 AI 绘图 的火热,国内也出现了众多的 AI 作图产品,但这些产品大多基于 DALL·E 2 或 Stable Diffusion 等海外大模型,百度在 2022 年 10 月发布的 ERNIE-ViLG 2.0 是国内首个在基础 模型方向取得突破的产品。据百度 AI 官网,从技术上看,ERNIE-ViLG 2.0 通过引入视觉 知识和语言知识,提升模型跨模态语义理解能力与可控生成能力;在扩散降噪过程中,通 过混合专家网络建模,增强模型建模能力,提升图像的生成质量;此外百度构建了近 2 亿 的高质量中文图文数据对比,具备强大的中文语义理解能力,助力中国风元素构建。从应 用上看,ERNIE-ViLG 2.0 可以用于工业设计、动漫设计、游戏制作、摄影艺术等场景, 通过简单描述,在几十秒内生成设计图,提升效率、降低门槛。基于 ERNIE-ViLG 2.0, 百度也推出了 AI 艺术与创意辅助平台文心·一格,目前支持国风、油画、水彩、水粉、动 漫、写实等十余种不同风格高清画作的生成。
#2 图像属性编辑
据量子位,AI 图像属性编辑包括去水印、自动调整光影、设置滤镜、修改颜色纹理、复刻 /修改图像风格、提升分辨率等,类似于低门槛的 PS(Photoshop)。在该领域布局的初创 公司较多,并且谷歌、Adobe 等大厂亦有涉及。国外方面,以 Prisma 为例,作为一款照 片编辑器,在全球拥有 1.2 亿用户以及 500 款样式库,借助 Prisma 的 AI 自动生成框架, 用户无需投入精力即可将照片转化为艺术品;谷歌的 RawNeRF 技术能够将夜晚照片降噪, 此外能将 2D 照片合成 3D 效果并调节焦点;国内的代表产品为美图公司,旗下的美图 AI 开放平台专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域,为客 户提供经市场验证的专业 AI 算法服务和解决方案,目前接入的客户包括欧莱雅、兰蔻、宝 洁等,助力图像属性处理;面向 C 端的美图秀秀则通过医美级去皱、面部丰盈、一键更换 刘海等增值功能收费。
#3 图像部分编辑
据量子位,图像部分编辑包括部分更改图像部分构成与修改面部特征。英伟达的 CycleGAN 能够自动将一类图片替换为另一类图片,如支持将图内的斑马和马、苹果和橘 子等内容进行互换。修改面部特征方面,据量子位,Metaphysics 支持调节照片的情绪、 年龄和微笑,Metaphysics 还是电影《Here》的唯一制定 AI 视觉特效供应商。国内方面, 万兴科技推出的万兴爱画 App,支持 AI 修改局部画面,支持通过文本修改,如输入珍珠 项链,可在图片中添加。
#4 图像端到端生成
据量子位,AI 图像端到端生成包括草图生成完整图像、有机组合多张图像生成新图像、根 据指定属性生成目标图像等,按照场景划分,包括创意图像生成和功能型图像生成,其中 创意图像多为 NFT 产品,功能性图像包括营销海报、用户头像等。国外方面,谷歌推出的 Chimera Painter 可以将粗略草图生成 3D 怪物图像,垂直类公司包括 VanceAI、 Deepdream Generator、Rosebud.ai 等,其中 VanceAI 旗下的 VansPortrait,可在 5 秒内 将图片变成绘画、素描或动画。国内的代表产品包括阿里鹿班、诗云科技、蓝色光标等, 其中阿里鹿班支持海报、LOGO 等设计,据阿里技术,阿里鹿班平均 1 秒钟就能完成 8,000 张海报设计,一天可以制作 4,000 万张,2017 年双 11 设计约 4 亿张 banner 海报。 蓝色光标的销博特通过结合人工智能、统计算法和多维数据库,一键自动化生成策划案、 消费者洞察、营销创意等内容。
音频:集中应用于 TTS 场景和乐曲/歌曲生成
AIGC 通过提取信息生成音频,主要应用于 TTS(Text-to-speech)场景和乐曲/歌曲生成。 其中,TTS 技术已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等, 覆盖新闻、电子书、虚拟 IP、短视频配音等多个领域,代表公司有倒映有声、DeepMind、 喜马拉雅、百度等。通过 AIGC 可以简化乐曲/歌曲生成的流程,降低音乐创作的门槛,可 应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作, 大大降低音乐版权的采购成本,代表公司有 Amper Music、DeepMusic、腾讯、网易等。
#1 TTS 场景:广泛应用于客服硬件机器人、有声读物制作、语音播报等
TTS(Text-to-speech)技术为文字内容有声化提供规模化能力,在 AIGC 领域下技术已 相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等。TTS 技术是一种 文字转语音技术,可以从文本中获取足够的信息用于语音合成。基于深度学习的端到端语 音合成模式正在逐步替代传统的拼接及参数法,可以通过丰富文本信息(如文本的深层情 感、深层语义了解等)更好的表现其中的抑扬顿挫,以及基于用户较少的个性化数据得到 整体的复制能力,代表模型包括 WaveNet、Deep Voice 及 Tacotron 等。
TTS 技术覆盖新闻、电子书、虚拟 IP、短视频配音等多个领域。以倒映有声为例,公司致 力于打造 AIGC 神经渲染引擎,率先布局 AI 数字分身 IP 生态,并通过数字分身 IP 的人工 智能来自主生成内容。其独家研发的无人驱动数字分身可以实现内容播报与交互功能输出, 覆盖新闻资讯播报、有声读物制作、自媒体有声化、虚拟 IP 声音定制、短视频配音、金融 领域数字人服务、文旅领域互动、游戏娱乐聊天等多种场景,帮助提升内容制作产能超 200%,节省 90%的制作成本。
语音克隆对于电子书、动画、电影、以及虚拟人行业等有重要意义。语音克隆是本质上属 于指定了目标语音(如特定发言人)的 TTS,该技术目前被应用于虚拟歌手演唱、自动配 音等。喜马拉雅运用 TTS 技术在电子书、新闻等领域实现了较广的应用,能够高效地将新 闻、书籍和文章中的大量文字信息转为音频,大幅提升了音频的生产效率。运用 TTS 技术 喜马拉雅重现单田芳声音版本的《毛氏三兄弟》和历史类作品,“单田芳声音重现”账号 已经上线 6 部专辑作品。百度语音合成团队使用李彦宏约 1 小时音频素材,通过 AIGC 技 术生成了《智能交通》有声书。podcast.ai 通过乔布斯的传记和收集网络上关于他的所有 录音,利用 Play.ht 的语言模型大量训练生成 Joe Rogan 采访乔布斯的播客内容。
#2 乐曲/歌曲生成:已推出 AI 音乐创作平台和作曲软件
AIGC 可以简化乐曲/歌曲生成的流程,降低音乐创作的门槛。AIGC 在词曲创作中的功能 可被逐步拆解为作词(NLP 中的文本创作/续写)、作曲、编曲、人声录制和整体混音。 AIGC 能通过强大的数字处理能力兼顾歌曲从制作到演唱的全流程,实现化繁为简,在短 时间内完成音乐作品创作。目前,AIGC 已经支持基于开头旋律、图片、文字描述、音乐 类型、情绪类型等生成特定乐曲。
AI 编曲基于主旋律和创作者个人的偏好,生成不同乐器的对应和弦完成整体编配,多家公 司已推出 AI 音乐创作平台和作曲软件。AI 编曲在特定乐曲/情绪风格内学习主旋律和特定 要素间的映射关系,从而基于主旋律生成自身所需和弦。Amper Music 于 2019 年推出首 个人工智能作曲平台 Amper ScoreTM,可以根据项目的独特性创作出符合风格、长度和 结构的定制音乐,帮助使用素材音乐库的视频编辑者节省 90%选择音乐和编辑音乐的时间。 DeepMusic 开发了针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可 AI 生成歌词的 LYRICA、AI 作曲软件 LAZYCOMPOSER,从作词、作曲、编曲、演唱、 混音等方面全方位降低音乐创作及制作门槛。
自动编曲功能已在国内主流音乐平台上线,与虚拟偶像演出一同成为重点关注领域。QQ 音乐成为 AI 音乐公司 Amper music 的 API 合作伙伴,腾讯 AI Lab 开发 AI 识图作曲技术 并推出 AI 虚拟偶像“艾灵”,可通过用户提供的关键词自动生成歌词并演唱;2022 年 1 月 网易推出首个人工智能音乐创作平台网易天音;快手通过自主研究,推出了 AI 音乐创作模 型和 AI 歌手,并邀请平台内的音乐人使用 AI 模型进行歌曲创作。
视频:可实现视频自动编辑、视频自动生成和文字生成视频等
AIGC 视频生成可以降低视频制作时间,主要应用于视频自动编辑、视频自动生成和文字 生成视频等。其中,视频自动编辑具备视频属性编辑和视频自动剪辑两大功能,视频属性 编辑能帮助节省视频制作时间,增加视频玩法,视频自动剪辑在短视频和直播领域被大量 使用。代表公司有 Runway ML、不咕剪辑、Adobe、IBM、网达软件、闪剪、字节跳动剪 映和快手的云剪。视频完全自动生成仍处于技术尝试阶段,所生成视频的时长、清晰度、 逻辑程度等仍有较大的提升空间,已在动画制作应用落地,代表公司和产品包括百度文心 一格、小冰公司和 Synthesia。文本生成视频可以看作文本生成图像的进阶版技术,目前 已有成熟产品,代表公司和产品包括 Meta、谷歌、百度智能视频合成平台 VidPress、 Gliacloud、Pencil 等。
#1 视频自动编辑:主要应用于视频属性编辑和视频自动剪辑
AIGC 在视频自动编辑领域的应用主要为视频属性编辑和视频自动剪辑两类。针对视频属 性编辑,AIGC 可以实现视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成 视频特效、自动添加特定内容、视频自动美颜等;对于视频自动剪辑,AIGC 可以基于视 频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定, 对满足条件片段进行检测并合成。 视频属性编辑:视频修复等功能帮助节省制作时间,特效等功能可以增加视频玩法。 Runway ML 推出 AI 视频创意工具平台 Runway,主打的 AI 辅助功能有三个:绿幕功能, 可以把选择的对象以绿幕的方式作为视频主题剪裁出来,通过点选的方式 AI 自动补全贴合 主题的轮廓;视频修复功能,类似图片的 PS 功能,周围的背景通过 AI 计算进行填充;运 动功能,视频效果(如标题)可以跟随主体运动。不咕剪辑 Cooclip 可以通过人工智能进 行视频抠像分轨,内置丰富的贴纸、音频、经典“梗”素材等,可以增加视频本身的玩法 与乐趣。