了解AIGC
简单了解AIGC
目前为止的参考资料:
目前提到 AIGC,我们先想到的一般只有 ChatGPT 和 midjourney, stable diffusion 这三个。然而广义上来说,只要是由 AI 技术来生成内容都可以算作 AIGC 。比如 AI动作捕捉, AI通过识别人体的骨骼,映射为一些便于处理的数据;比如游戏里的一些新类型的人机,类似 alpha go(作者列举了王者荣耀“觉悟”?这是什么?);比如三维重建,包括人体,场景(小房间),甚至是城市;再比如 AI音效,常见的有微信的语音转文字,还有最近火起来的文字转语音)
历史
GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术的累积融合,催生了AIGC的爆发。
概念的关系
- 人工智能
- 机器学习
- 监督学习
- 非监督学习
- 强化学习
- 机器学习
🍪实现人工智能不一定需要机器学习,也可以采用行为树等方法。
深度学习是机器学习的一种,与上述三个黑色小方块均有交叉。与它们三个不同,深度学习只是机器学习实现的一个工具。
发展过程
AI 在视觉领域的发展:
AlexNet 的成功,证明了机器学习方法可以超越传统的方法(🧃传统方法是什么?)
GANs 第一次生成了世界上不存在的画
神经风格迁移,类似把简笔画的小萝莉转化成梵高画风的小萝莉
DALL-E 首次出现了我们今天所熟悉的 AI 绘画——从文本到图像。它也是openAI公司的项目,缺点是生成效率低,质量不够好(🧃还有别的缺点吗?)
Stable Diffusion 弥补了 DALL-E 的缺点,并且由于其开源,获得了极速发展
2022 年 midjourney 的作品《太空歌剧院》获得科罗拉多州博览会第一名。
目前的应用:
简笔画上色
图像超分辨——把模糊的图像变清晰
深度图模拟,比如在游戏设计领域,让游戏场景设计师自己用简单的几何图形做好地形(白模),之后用 AI 生成深度图(比如城市、街道、贫民窟),一次可以生成几千张,之后交给美术去选。
姿态模拟,只靠语言描述,很难生成我们想要的姿势。这时可以提供一张图片,AI 会提取骨骼结构,生成一个姿势一摸一样的图片,比如一位跳起来的白毛红瞳小萝莉。
服装模特,用 AI 穿上特定的服装。
用一副简单的简笔画,生成手办效果图。
后期细化,原画师的工作一般可以分为三个阶段:
- 出一个概念图(草图)
- 精细化
- 线稿图上色
其中的2、3阶段可以交给 AI
多视角生成,为建模师生成多个视角的三维视图,甚至直接生成 3D 模型(目前技术并不成熟)。
材质生成,360°场景生成。比如游戏里,生成木头的材质用来构成屋子,需要繁琐细致的纹理。
AI 生成视频,目前(2023.6)效果还不好,不连贯,时常短。
AI 生成角色,比如生成一些特效大片,把设计好的模型“拖入”视频中,AI 会自动用它替换掉目标对象(比如把工作人员替换成外星人)。
AI 动捕(单摄像机提供的视频文件,非实时),传统的动捕很消耗精力,无论是使用 K帧(关键帧 Keyframe)的方法,或是穿动捕服。
动捕(Motion Capture)技术通常也涉及关键帧的概念。在动捕过程中,演员或物体的动作被记录为一系列的关键帧,然后这些关键帧数据被应用到虚拟角色上,以使虚拟角色模仿真实动作。
AI 动捕(实时),通过几个成本不足百元的摄像头,让玩家的动作实时传递到游戏里。
定义
生成式人工智能——AIGC(Artificial Intelligence Generated Content),是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。
人工智能的发展历史大致可以被划分为5个阶段。
(1950~1974)人工智能概念的出现;
(1974~1980)神经网络遇冷,研究经费减少;
(1980~1987)专家系统流行并商用;
(1987~1993)专家系统溃败,研究经费大减;
(1993~至今)深度学习理论和工程突破。
深度学习模型不断迭代,AIGC取得突破性进展。尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。其中主要集中在AI绘画领域:2014年6月,生成式对抗网络(Generative Adversarial Network,GAN)被提出。2021年2月,OpenAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。2022年,扩散模型Diffusion Model逐渐替代GAN。
AIGC 与 PGC,UGC
- PGC 专业生成内容。在数字媒体和互联网领域,PGC可以涵盖各种内容形式,包括文章、照片、视频、音频、漫画、图表等。这些内容可能由新闻机构、专业摄影师、记者、作家、电影制片人、艺术家、音乐家等专业人士制作。
- UGC 用户生成内容。由普通用户或非专业人士创建的内容。
- AIGC 人工智能生成内容。
UGC 与 PGC 互为补充,共同丰富内容圈。比如优秀动漫作品和众多二创。
特点
AIGC是建立在多模态之上的人工智能技术,即单个模型可以同时理解语言、图像、视频、音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述、结合语义语境生成图片等。
现阶段国内AIGC多以单模型应用的形式出现,主要分为文本生成、图像生成、视频生成、音频生成,其中文本生成成为其他内容生成的基础。
AI视效的原理
在潜在空间进行训练
什么是潜在空间
一个1080p的视频,训练起来十分困难,因为它维度很高。然而很多任务在低维空间也能做,比如在一个很模糊的视频中也能找到戴帽子的小萝莉,而且我们并不会过于关心她的细节,比如头发丝。这就是stable diffusion超越 DALL-E 的原因——纬度低,训练更快,而且不会过于关注细节,更关注重点。
“小猫旁边有一个杯子”,首先把这些词转化为 AI 可以理解的 Token,之后输入文本编码器(这个编码器和 ChatGPT-1 的差不多),文本编码器会输出一个(1,77,768)的语义向量(1->我们只输入了一条提示词;77->最多可以识别77个Token,up主说77个Token大概能对应四五十个单词或汉字;768->把Token分解成 768 个特征向量(文本语义向量)
AI对话的原理
2011~2017年,AI 对话进入了一小段瓶颈期。2017 年 Transformer 的提出,让 AI 对话发生了质的飞跃。Transformer 也是一种工具,改变了传统的深度学习的方式,由谷歌提出,2018 年投入酒店预订等工作。2018年,谷歌又推出了 BERT,openAI推出了GPT1,2系列,但效果不好(数据量小,模型小)。最近 ChatGPT 和 GPT4 出现,训练量和模型的大小大幅提高,效果实现了飞跃。
ChatGPT 和 GPT3 的参数量、预训练数据量基本一致。主要改进是采用了 预训练+RLHF 的算法。传统的强化学习,难点在于奖励的设置。怎样的奖励,才能让 AI 学到你想要它学到的东西?
🍈up 举了游戏留存率的例子:做一套 AI 的游戏机器人,提高玩家留存率,让玩家在游戏里多待一会。但这时奖励很难设计,因为强化学习需要几千万甚至上亿次的训练才能收敛到一个好的效果,然而游戏的玩家留存率可能半个月才统计一次。等到奖励数据够了,人类世界可能已经无了。
为了解决这个问题,RLHF 的思路是训练一个和人类行为很像的机器人B,负责给机器人 A 的行为打分,帮助把 A 训练好。
贝叶斯错误率
AIGC在游戏领域的应用
目前受欢迎的产品
AI Generated Content 人工智能生成内容,例如我们熟悉的 ChatGPT 。
另外还有很多 AI 生成的图片出现在各个网站上,其中大部分是基于开源的 stable diffusion 模型。
还有一个叫 Midjourney 的 AI 绘画产品,目前已经开始公测。比 stable diffusion 更加易用,生成的图片也更符合大众口味。
open AI 之前也推出过一款叫做 DALL.E 的 AI 绘画产品,可惜知名度不如前两个。
音乐类目前有 mubert.com 这个网站,大家可以输入英文的提示词来生成音乐。
有网友推荐了解 so-vits-svc 和 ace stdio 。
视频类目前(2023.3) 有 Runway 这个产品,通过 AI 来驱动视频的创造流程。
基于GPT的一些应用:
- GItHub copilot,它学习了一遍 GItHUb 上的代码,帮助程序员编程。
- Office365 copilot,把杂乱的数据生成报表,生成 PPT
- Auto GPT,让 GPT 联网了,随时从网上获取新知识;不再是“单个” GPT,如果让它去做一个网站,会有一群 GPT 讨论如何做出这个网站,做出符合要求,符合用户风格的网站。但有时候它做很多天,都没抓住重点,跑偏了。
- Notion AI 没有结合 chatGPT 或 GPT4,而是结合的 GPT3,可以让他总结会议重点,提供创作建议,是一个比较成熟的商业软件。
- AI 对话,和主播实时对话。
- GPT4 智能识图。比如问它手砸下来会发生什么,它会回答小球会被弹飞;给 GPT4 一张概念图,它来生成网站。
AIGC 的未来
up主对 AIGC 下一步发展的预测
AI视效
朝着精细化控制和定制化方向发展
AI对话
- GPT 模型暂时不会继续扩大,会朝着算法优化方面发展
- ChatGPT 的插件开发会带来一个新的生态,一大波应用井喷式爆发
其他
- AI视觉和对话模型统一,且可以操作各种软件
- 电子游戏会是最先应用起来的行业之一
- OpenAI 不会垄断行业