(报告出品方/作者:华泰证券,朱珺、吴晓宇、王星云)
技术助力 AIGC 发展,长期看大模型 多模态成趋势AI 由分析转向创造,22 年 AIGC 产品集中发布
AI 技术逐渐实现从分析到创造的迭代。AI(Artificial Intelligence)即人工智能,传统的 AI 技术被称为分析式 AI(Analytical AI),偏向于分析数据并总结规律,同时将规律运用到其 他用途,比如运用 AI 技术进行垃圾邮件检测、向用户推荐感兴趣的短视频等。但随着技术 的迭代,AI 已经不仅仅局限于分析已有事物,而是开始创造有意义、具备美感的东西,即 完成感知世界到创造世界的变迁,这种新型的技术被称为生成式 AI(Generative AI)。 从定义上看,AIGC 既是一种内容形态,也是一种内容生成的技术合集,即生成式 AI。从 狭义上看,AIGC(AI Generated Content)是继 PGC(Professional Generated Content) 与 UGC(User Generated Content)之后的一种内容形式,即利用人工智能技术生成的内 容。从广义上看,AIGC 指的是自动化内容生成的技术合集,基于生成算法、训练数据、 芯片算力,生成包括文本、音乐、图片、代码、视频等多样化内容。
AIGC 起源于 20 世纪 50 年代,经过多年发展,在 2022 年 AIGC 产品集中发布,多款产 品出圈,引发社会广泛关注。据中国信通院,AIGC 起源于 20 世纪 50 年代,莱杰伦·希 勒和伦纳德·艾萨克森完成历史上第一只由计算机创作的音乐作品《依利亚克组曲》,但 受制于技术水平,截至 1990 年,AIGC 均仅限于小范围实验。1990-2010 年是 AIGC 的沉 淀积累阶段,AIGC 逐渐从实验向实用转变,但受限于算法瓶颈,效果仍有待提升。2010 年以来,伴随着生成算法、预训练模型、多模态技术的迭代,AIGC 快速发展,2022 年多 款产品出圈。
2022 年 8 月,Stabilty AI 发布 Stable Diffusion 模型,为后续 AI 绘图模型的发展奠定基础, 由 Midjourney 绘制的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类 别的冠军,引发社会广泛关注。2022 年 11 月 OpenAI 推出基于 GPT-3.5 与 RLHF ( Reinforcement Learning from Human Feedback , 人 类 反 馈 强 化 学 习 ) 机 制 的 ChatGPT,推出仅 2 月日活超 1,300 万,据 Forbes,2023 年 1 月 OpenAI 的估值从 2021 年的 140 亿美元提升到 2023 年 1 月的 290 亿美元。此外,科技巨头亦加码布局 AIGC, 如微软表示将自己的消费者和企业产品中部署 OpenAI 的模型,宣布将 OpenAI 语言模型 整合到 Bing 引擎和 Edge 浏览器中;谷歌在 ChatGPT 发布后亦加快 AI 自研,2023 年 2 月 7 日正式发布下一代 AI 对话系统 Bard,此外谷歌还投资 ChatGPT 的竞品 Anthropic; 国内方面,据百度官网,2023 年 2 月 7 日,百度公布了大模型新项目文心一言(ERNIE Bot),据彭博社,百度计划在 2023 年 3 月将最初的版本将内嵌到搜索服务中。
生成算法、预训练模型、多模态技术成为 AIGC 发展的关键
从技术上看,生成算法、预训练模型、多模态技术是 AIGC 发展的关键。从流程上看,算 法接收数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合的关键。长期 看大模型 多模态将成为趋势:
#1 生成算法持续优化
算法即解决问题的策略和机制,2014 年伊恩·古德费洛提出的 GAN(Genrative Adversarial Network,生成对抗网络)成为最早的 AI 生成算法。随后 Diffusion、 Transformer、基于流的生成模型(Flow-based models)、CLIP(Contrastive LanguageImage Pre-Training)等深度学习算法相继被推出,其中 Diffusion 逐渐代替 GAN 成为图 像生成的主流模型,Transformer 的推出为预训练模型奠定了基础,CLIP 则广泛应用在多 模态技术中。
#2 预训练模型持续完善
2015 年以前,小模型一度被认为是行业发展的方向,但这些小模型更偏向处理分析性任 务 , 生成 能 力较 弱。 2017 年 谷 歌 研究 院 在《 Attention is All You Need 》中提出 Transformer 算法的概念,而 Transformer 能够有效提取长序列特征,具备较高的计算效 率和可扩展性,大大降低训练时间。2018 年谷歌发布基于 Transformer 的 NLP(Natural Language Processing,自然语言处理)预处理模型 BERT,标志着人工智能进入预训练 模型时代。
从流程上看,预训练模型采用两阶段学习法,即首先在大量的通用数据上训练并具备基础 能力,再结合多样的垂直行业和场景对预训练模型进行微调,从而有效提升开发效率。随 着参数规模的扩大,预训练模型在语言理解,图像识别等领域迅速取得突破,所需的计算 量也急剧增长。据红杉资本,2015-2020 年,用于模型训练的计算量增加了 6 个数量级。 据腾讯研究院,按照类型分类,预训练模型包括:1)NLP(自然语言处理)模型,使得 人与计算机能够用自然语言有效通信,包括 OpenAI 的 GPT 系列,Facebook 的 M2M100;2)CV 模型(Computer Vision,计算机视觉),运用计算机及相关设备对生物视觉 进行模拟,比如微软的 Florence;3)多模态预训练模型,包含图像、文字、视频等多种 形式,如谷歌的 Image、Stability AI 的 Stable Duffusion 等。
#3 多模态技术快速发展
多模态技术(Multimodal Technology)即将图像、语音、视频、文字等多模态融合的机器 学习技术,而 CLIP(Contrastive Language–Image Pre-training)的推出成为跨模态应用 生成的重要节点。CLIP 在 2021 年由 OpenAI 开源推出,能够将文字和图像进行关联且关 联特征丰富,后续“CLIP 其他模型”成为跨模态生成领域的较通用的做法,如 Disco Diffusion 便是将 CLIP 与 Diffusion 模型进行关联,用户输入文字指令便能够生成相关的图 片。在多模态技术的加持下,预训练模型已经从早期单一的 NLP、CV 向多模态、跨模态 的方向发展。
AIGC 产业链基础层/中间层/应用层,中外差距约 3 年
从产业链结构来看,AIGC 主要包括基础层、中间层和应用层,中外差距在 3 年左右。由 于技术与投资环境差异,AIGC 在我国大多作为公司的部分业务进行开发,独立的初创公 司数量较少,导致 AIGC 实际的场景开发较国外仍有差距。据量子位,中外公司的整体差 距在 3 年左右,底层技术是核心原因。
#1 基础层
基础层即预训练模型,构成了 AIGC 的基础。随着预训练模型参数的增加,预训练所需要 的数据量同样快速提升,带来较高的成本投入。据中国信通院与京东探索研究院发布的 《人工智能生成内容白皮书 2022》,模型参数量已从最初的千万级发展到了千亿级别,训 练代价也从数十天增长到几十万天(按在单张 V100 GPU 计算)。据北京智源人工智能研 究院,2020 年 OpenAI 发布的 NLP 模型 GPT-3 的参数量约 1,750 亿,训练数据量达 45TB,模型训练成本近 1,200 万美元。因此该领域的参与者主要是科技巨头与头部的研究 机构,如 OpenAI、谷歌、微软、Meta、百度等。
#2 中间层
中间层即垂直化、场景化、个性化的模型。在预训练模型的基础上,能够快速生成垂直化 的小模型,实现流水线式的开发,降低开发成本,提升效率。如 Stable Diffusion 开源后 多个绘画模型基于 Stable Diffusion 开发,二次元绘画领域包括知名的 NovelAI,而昆仑万 维的天工巧绘 SkyPaint 模型则采用全球第一款多语言 Stable Diffusion 分支模型,兼容 Stable Diffusion。据腾讯研究院,随着大模型 多模态加速成长为通用性技术平台,模型 即服务(Model-as-a-Service,MaaS)逐渐实现,通过 API 授权有望助力 AIGC 变现。
#3 应用层
应用层即面向 C 端的 AIGC 应用。从模态上看,应用层包括图像、音频、文本、视频等, 其中图像领域代表产品包括 MidJourney、Dream Studio 等;音频包括 DeepMusic 等;文 本包括 ChatGPT、Sudowrite 等;视频包括 Runway 等。从形式上看,应用层包括 App、 网页、小程序、聊天机器人等,将 C 端用户与模型联通,已经逐渐渗透到生活中的各个领 域,如 MidJourney 搭载在聊天软件 Discord 中推出,ChatGPT 则支持网页直接登录,国 内的如昆仑万维的天工巧绘 SkyPaint 能够通过微信小程序登录,满足用户的多样化需求。
AIGC 颠覆传统生产模式,掀起全场景内容生产力革命AIGC 从效率、质量、多样性为内容生产带来革命
AIGC 技术的突破性进展引发内容生产方式变革,内容生产由 PGC(专业制作)和 UGC (用户创作)时代逐渐步入 AIGC 时代。AIGC 顺应了内容行业发展的内在需求,一方面 内容消费量增加,急需降低生产门槛,提升生产效率;另一方面用户端表达意愿明显上升, 消费者对内容形态要求更高,内容生成个性化和开放化趋势明显。