【云驻共创】一键 AI 作画,人人都是艺术家 理论 + 实操 教你实现 AI 应用快速开发篇(1)
文章目录
- 前言
- 一、生成式 AI 的发展和现状
- 1.1、什么是生成式 AI?
- 1.2、生成式 AI 的发展趋势
- 1.3、AI 生成内容的业务场景和分类
- 二、生成式 AI 从分析领域到创作领域
- 2.1、 降低内容创作门槛,增加 UGC 用户群体
- 2.2、提升创作及反馈效率,铺垫线上实时互动
- 2.3、基于海量数据激发创意认知、提升内容生产多样性
- 2.4、模态元素二次拆解组合,改变内容生产逻辑及形式
- 2.5、AI 系统或数据库联动,实现高度个性化/高频优化
- 三、生成式 AI 改变内容创作和分发范式
- 3.1、当前与未来设计工作流程对比
- 3.2、AI 文生图存在最大的问题是什么?
- 3.3、AI 从底层改变了哪些游戏规则?
- 四、为何生成式 AI 迅速爆发和突破?
- 4.1、大模型突破瓶颈
- 4.2、多模态融合打破边界
- 五、生成式 AI 技术趋势分析
- 六、生成式 AI 无法产生创意的基本元素
- 总结
生成式 AI(Generative AI) 是指计算机通过机器学习从现有数据中学习一个对象(物品、产品或任务)的要素,进而生成一个全新的、原创的、真实的、与原来内容相似的对象。作为重要的战略技术,在 2025 年 10+% 的数据将由 AI 创造。
根据 Gartner《2021 年预测:人工智能对人类和社会的影响》 中预测:
- 至 2023 年将有 20% 的内容被生成式 AI 所创建。
- 至 2025 年,生成式 AI 产生的数据将占有所有数据的 10%,而今天这个比例不到 1%。
对于生成式 AI 的发展趋势预测,具体如下图所示:
在不含 AI 生成代码的情况下,AI 生成内容的业务场景和分类已经囊括众多的技术领域,AIGC 技术场景具体如下图所示:
- AIGC 能够代替人工完成声音录制、图像渲染等工作,使更多人员能够参与到高价值的内容创作流程中。预计这一效果在 2B 结构化内容生成的领域非常明显,个别场景会出现 2C 服务。跨模态生成成为未来重点。
- AI 同样提升了内容的反馈生成速度,对于实时交互内容有重大意义,具有将线下和真人的快速交互迁移到线上的可能,也即令 AI 承担真人的社交、创作、协作功能,可能会出现新的潜在场景(如社交类和探索类游戏等)。我们在 Game AI 板块所提及的 AIbot 实时玩家教学在一定程度上提供了一种互动的新形式,交互教育/交互探索游戏虚拟陪伴场景值得期待。
- 目前来看,内容消费者变得更容易将现实情感需求投射在虚拟世界中,预计会产生许多深入实时的互动需求,市场规模可观。
- 相较于人类艺术家,AI 能够接触借鉴更多的数据,在基于 prompt 进行内容生成后 AI 创作的内容会有更多的二次创造空间和自由度。例如,生成算法能基于特定条件或完全随机的生成现实中不存在的形状、色彩搭配、图案或结构等,赋予内容创作更多可能,产生“超现实感”及“未来感”,推动艺术创新。
- 通过语音克隆、编曲风格提取等手段,AIGC 能够将原客体所对应的不同模态信息进行拆解,例如演讲者的面部形象、声音、演讲内容等。在重新组合之后,能够完成过往受到条件限制无法完成的工作。例如路人的声音 + 专业的播音逻辑、更符合特定审美的面部等,打破真人/真实场景在要素组合上具有的局限性。
- 在与特定的数据库(例如实时更新的客户数据、市场反馈数据、特定主题下的历史统计数据)或 AI 系统进行联动后(如个性化推荐系统等),AIGC 能够在更为精准的未来预测/个性化预测基础上调整其生成内容。
- 例如,根据、根据所处渠道风格调整生成内容、参考历史数据优化生成内容等。该价值在内容用户习惯调整内容营销文本营销领域有重大意义。
- 当前概念设计师工作流程:接到需求→搜集参考(图库)→构思出图→和甲方沟通修改。
- 未来设计工作流程:创意→AI→创意。
AI 创作能力在未来短时间内的进步速度,也将取决于各行各业收集和训练行业优质数据的工作。
开发人员使用 AI 生成宠物小精灵,在初期使用“写实”数据集后发现运行效果不理想,重新使用 26 张新数据集训练 20 分钟,我们根据二者之间的对比,可以看到 AI 学习和生成效果是非常棒的,具体如下图所示:
AI 目前最大的问题不是“不够聪明”,而是“书读得太少"。 在 AI 新范式下创作,要考虑什么样的内容更利于 AI 学习和 AI 生成使用。
如果我们将艺术家关键词对生成图像的贡献视为艺术家本/的贡献,我们从原理上就可以为艺术家的创意价值定价了。
今天的 AI 从底层改变了游戏规则,接下来会看到以下变化:
- 不会画画的人用 AI 生产高质量视觉作品。
- 互联网上难以估量的图像数据被重新组织起来,围绕模型训练和数据标注出现新的生意。
- 图片版权名存实亡,参与建立 AI 数据集成为艺术家的主要收益。
- 传统图像处理软件、3D 建模软件被围绕 AI 范式建立的新工具取代。
根据英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出的 “摩尔定律”:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔 18 个月翻两倍以上。
而现在由于高效数据、高效算力、高效模型、高效知识需求的增长,摩尔定律原来中的 2 倍将增长至现在的 10 倍,具体如下图所示:
在 “The blessings of scale”中,根据趋势我们可以明确得知:同等条件下,随着模型参数量的增加,更大的模型会带来更好的结果,且目前的趋势并未饱和,故目前阶段大模型的投资依然会增加以获得更高的效益,具体如下图所示:
多模态融合打破边界,模型越来越大,模型走向行业,模型走向融合,具体如下表所示:
大模型趋势 | 内容 |
---|---|
模型越来越大 | 探索极限,目前到 5000 亿仍然保持线性增长。越来越接近人脑神经元连接数,甚至超过。 例:OpenAl GPT-3(175B) 、谷歌 PaLM(540B) |
模型走向行业 | 在通用预训练大校型(L0)的基础上,在行业数据上更新训练后,适用于行业特征拍取的模型族(L1)。 例:煤矿模型,电力大模型,药物分子大模型等。商汤:INTFRN 系统(初学者-专家-通才);百度:行业大模型。 |
模型走向融合 | 未来 2~3 年,视觉和语言大模型统一到多模态大模型,架构上也实现基本统一。各种校态大模型进行充分融合。 例:文本 + 视觉,语音 + 文本,文本 + 视频等 OpenAI DALL*E/E2;谷歌 Imagen;微软 GLIP 等。 |
生成式 AI 技术的发展更趋向于:可控、高精度;更快、更好、更便宜。
可控和高精度重建成为技术突破口,带来了超乎想象的结果,得益于 Diffusion model、语言大模型、跨模特大模型、Nerf 等技术的突破,具体如下图所示:
生成式 AI,可控生成于机器而言,是不同语义的重组,于人而言,就是创意!在绘画领域,AIGC 是将绘画的三要素(构图、纹理、着色)进行重组从而产生创意。但是他并不能真的产生创意的基本元素,举例具体如下图所示:
图像生成,反事实是创意,但是对于语言生成,反事实却是灾难,可谓“恐怖如斯”,具体如下图所示:
本文参与华为云社区【内容共创】活动第22期。
任务21:一键AI作画,人人都是艺术家 理论+实操 教你实现AI应用快速开发
- 点赞
- 收藏
- 关注作者
评论(0)