【云驻共创】生成式AI,用技术重塑艺术形态
前言
1、什么是生成式AI
生成式AI是一种可用于创建新内容和想法的人工智能,包括对话、故事、图像、视频和音乐等等,与所有人工智能一样,生成式人工智能由机器学习模型提供支持,机器学习模型是基于大量数据进行预训练的超大型模型,通常被称为根基模型(FM)。除了内容创作外,生成式人工智能还用于提高数字图像的质量、编辑视频、快速构建制造原型、使用合成数据集增强数据等。
2、什么是AIGC
AIGC全称AI-Generated Content,指基于人工智能通过已有数据寻找规律,并自动生成内容的生产方式。AIGC既是一种内容分类方式,也是一种内容生产方式,还是一种用于内容自动生成的一类技术集合。从创作者的角度看,内容生态的发展大致可以分成四个阶段:专家生成内容(PGC)、用户生成内容(UGC)、AI辅助生产内容 、AI生成内容(AIGC)。
3、生成式AI和AIGC的区别
- AIGC更侧重于生成全新的、原创的内容,生成的内容往往具有更高的创新性和独特性。生成式AI生成的内容则更侧重于仿真和逼真,并且则更侧重于模拟或者生成某种特定的数据或现象。
- AIGC的应用领域更加广泛,包括但不限于自然语言处理、图像识别、语音合成等。生成式AI的应用领域则相对更加集中,主要涉及到文本、图像、音频、视频等原创内容的生成。
- AIGC和生成式AI的算法和模型也有所不同。AIGC通常使用的是深度学习模型,比如GPT-3、DALL-E等,通过这些模型的学习和训练,可以生成与训练数据相似的新内容。生成式AI则使用的算法和模型更加多样化,包括但不限于神经网络、决策树等,通过这些模型的学习和训练,可以模拟出各种复杂的行为或现象。
本次论坛共有4个议程:
- 生成式A1,用技术重塑艺术形态
- 基于盘古多模态大模型,零代码开发个性化AIGC服务
- AIGC赋能影像创作,释放“美图”价值
- 独立设计师在AIGC时代的艺术创作
接下来,每一个议程我都将依次为大家进行介绍。
一、生成式AI,用技术重塑艺术形态
华为云生成式AI产品总监孟鑫介绍到,人工智能在智慧物流、指挥机场、智慧物流、智慧医疗、智能制造等千行百业已广泛应用,并创造出明显的商业价值。
虽然目前生成式AI仍处于萌芽期,但其广阔的应用场景和巨大需求空间吸引着大量资本和技术的投入,预计将在2-5年内实现规模化应用,并且到2025年,10%的数据将由AI创造,“一个创造性的新世界”即将诞生,大型企业组织30%对外营销信息将由AI生成,将远高于2022年的不到2%;到2030年,将有90%的电影由AI生成(从文本到视频),而2022年这一比例为0%。
在目前,生产式AI只是个提升效率的工具,但效率提升可能是指数级的。例如,在传统模式下,设计一个网站可能需要网页设计师、UI设计师、前后端工程师通力合作花费2小时才能完成,而在AI+设计师的手中,可能只需要10秒便可以完成。还有在传统设计师每月大约只能设计处40张左右的海报或者图片,但是在AI+设计师的手中每月便可以达到1500张左右,这就是实现了工作效率的指数级提升。
在华为云全栈全场景的AI服务模式下,基于生成式AI系统工程体系,盘古多模态大模型和ModelArts、昇腾相结合,可以轻松实现文生图、图生图、二次开发、可控编辑、可控生成等功能。
以上便是使用AIGC功能完成的以文生图、以图生图、风格迁移、概念注入等实际工作场景需求。
在我们日常发布的博客和帖子当中,可能会遇到内容审核、内容标签、内容超分、内容水印等环节,然而这些我们都可以用AIGC来解决,使AIGC的具体价值得到量化。
随着生成式AI时代的来临,绘画、雕塑、摄影、音乐、舞蹈、戏剧、文学、影视艺术等艺术领域都将产生颠覆性变化,随即发生变化的就是在艺术创作中创意生成、内容生成、创意验证等环节都将大大提高AI的参与度,大幅度减少人力、精力和时间成本的投入,流程长、验证慢、门槛高的传统艺术创作方式必将会被时代淘汰。
总而言之,华为云盘古大模型的艺术价值分配体现在以下三方面:
- 体力到创意的价值转移
生成式AI的出现,将传统艺术创作过程中手工的体力劳动大幅节约,无论是生成内容代替草稿,快速验证创意,还是将个人风格训练成场景小模型,都实现了体力到创意的价值转移,艺术家只需要输入自己的创意即可,All you need is Creativity!
- 重塑价值分类
生成式AI同时也带来了艺术价值分类的重塑,企业和个人都可能挑战艺术的传统和规范,让人们重新思考艺术的本质和意义。打破艺术的界限和分类,让不同的领域和元素相互融合和碰撞,产生出一些新颖和独特的作品。帮助人们表达自己的情感和想法,让人们可以通过艺术作品来沟通和分享自己的内心世界。
- 重塑商业模式
生成式AI时代的到来,也带来了艺术商业模式的改变,降低了艺术创作的门槛,会涌现更多的生成式AI时代的prompt艺术家,带来新的商业模式。
二、基于盘古多模态大模型,零代码开发个性化AIGC服务
华为云AI生态技术专家夏飞介绍到目前大模型训练的难点主要有:
- 大数据、大算力、长时间、高成本
- 技术要求高,开发难度大
基于AIGC产生的定制化需求有:
- 游戏角色设计、活动主题设计等,需要统一的风格
- 通用的文生图服务,生成的图像不可控
微调前文生图片的风格往往是并不统一的,例如图片上的兔子、老虎、小狗都是不同色温和色调的,然后咱们将数据集训练进行微调,加上自己需要的某种风格和实际内容的详细描述,微调结束后展现的便是按要求风格、色温、色调完全一致的图片了。
文生图微调工作流主要包括以下4个步骤:
1.准备微调数据
- 图文对
- 大模型生成描述
- 请简要描述这张图
2.微调文生圈模型
- 盘古多模态大模型
- MindPet
3.注册模型
- 版本管理
- 自动构建应用
4.部署服务
- 在线服务
- 调用API/页面体验
- 健康监测
- 自动停止
在实际工作中,使用多模态大模型为图片生成文字描述时需要做好充分的数据准备,例如我们需要微调20-50张图片的时候,可以先用大模型生成一部分的图文描述,然后在经过人工编写,形成完整详细的图文对,再进入到大模型当中,从而实现自动化微调。
大模型的低秩适配是LoRA,它的优势有:
- 预训练权重保持不变,模型不易灾难性的遗忘
- 秩分解矩阵参数明显更少,微调成本大幅降低,易于存储与移植
- 在推理时可以合并参数,不会引入额外的推理时延
上图展示的就是经过大模型文生图微调后的效果对比,由原来的一只普通小狗变成了墨水朋克风格的小狗。
三、AIGC赋能影像创作,释放“美图”价值
美图高级技术总监刘挺介绍到美图的核心业务结构就是以美为内核,以人工智能为驱动的业务板块。
美图公司自身的AIGC历程主要有初步探索期、增长期、爆发期三个阶段,从2016年11月的手绘自拍、2017年11月的绘画机器人Andy到2022年11月AI绘画再海外多个国家的APP下载总榜中名列前二名,再到今年迎来的2次发式增长,每一个耀眼的成绩背后都离不开每一位AI+设计师的辛勤付出。
AIGC技术的原理之一是基于CLIP(Contrastive Language-Image Pre-training)的,也就是基于对比文本-图像对的预训练方法模型。CLIP是一种基于对比学习的多模态模型,原理也相对并不是特别复杂,为了对image和text建立联系,首先分别对image和text进行特征提取,image特征提取的backbone可以是resnet系列模型也可以是VIT系列模型,text特征提取目前一般采用bert模型,特征提取之后,由于做了normalize,直接相乘来计算余弦距离,同一pair对的结果趋近于1,不同pair对的结果趋近于0,因为就可以采用对比损失loss(info-nce-loss),与CV中的一些对比学习方法如moco和simclr不同的是,CLIP的训练数据是文本-图像对,一张图像和它对应的文本描述,希望通过对比学习,模型能够学习到文本-图像对的匹配关系。
AIGC技术的另一原理之一是基于Stable Diffusion算法生态。Stable Diffusion是一个基于Latent Diffusion Models的文图生成(text-to-image)模型,简单说来,得益于Stability AI的计算资源支持和LAION的数据资源支持,Stable Diffusion在LAION-5B 的一个子集上训练了一个Latent Diffusion Models,这个模型专门用于文图生成。Latent Diffusion Models通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10s级别时间生成图片,大大降低了落地门槛,所以也带来了文图生成领域的爆火。
Stable Diffusion火爆的初期,在业务落地上面临着以下三大问题:
- 文生图的图片质量层次不齐
- 文生图需要用户输入较为详细的文本,使用门档偏高
- 文本安全和生成图片的安全问题
然而随着技术的不断发展和更新迭代,这些问题都一一得到了解决,现在的Stable Diffusion已经具有自动生成提示词,降低用户使用门槛、提示词润色,效果调教,巧妙平衡还原度和艺术性、安全策略覆盖输入图片、提示词、输出图片全流程等优点。
美图公司是华为云的战略合作伙伴,经过长时间深入合作,如今的AIGC算法得到了非常合理的推理优化,已经可以成功迁移在昇腾上,并且可联合ModelArts Lite开展部署,性能提升30%以上,极大优化了用户的使用体验。
四、独立设计师在AIGC时代的艺术创作
独立设计师刘青青介绍到对于传统创作方式的刻板印象是天马行空、灵感迸发、一蹴而就的,但实际上的创作往往截然不同。
在实际创作过程中,需要经历长时间的准备,每一张作品都有一个素材库,在创作过程中至少80%的时间都是理性的。
就以创作一幅画为例,在创作初期脑海中概念画面形成后,就需要寻找参考标准来完成这幅画,包括色彩、构图、角色等等都需要经过进行参考,然后在创作中还有进行资料整理,统一风格后将各个元素放到合适的位置。
传统创作过程中需要经过风格选择、视觉草图、正式稿绘制、细化调整并完成这4个步骤,每一个步骤都可以遇到各种各样的问题,解决问题的过程中往往费时费力,还经常在投入了大量人工成本和时间成本的情况下迟迟得不到解决,导致创作效率和创作质量难以提高。
创作在AIGC介入后,基本流程并不变,但是前三个步骤都得到了很大程度的简化,省时省力,节约了大量成本。
总的来说,AIGC用于风格海选阶段,可以拓展风格选择范围,缩减草稿创作时间,整个设计时间节约了40%-50%,缩减到了6个工作日左右,主要集中在手工细化和手工调整阶段,还提高了整体创作质量。
结合华为云盘古多态大模型后,画面的人物动态十分到位,具有更加强烈的视觉冲击力,可以给到设计师很好的灵感启发。
对于不同的人群来说,对AIGC的期望也是不尽相同的。企业方面都期望AIGC能替代一部分设计师,减少人力成本,需求画面的逻辑性,不需要太多调整就能拿来商用,生成市场流行的风格。但是设计师们都期望AIGC是一个优秀的助手,能够帮助设计师实现构想,生成设计师分身,在不同的案例中快速生成效果,提高工作效率。
总结
生成式AI是一项工具,并不是艺术家的劲敌
生成式AI技术确实为艺术创作提供了新的可能性,可以通过分析和学习大量的图像数据来生成全新的艺术作品,同时也可以帮助艺术家们更快速地找到灵感和创意。无论是AIGC还是生成式AI终究都只是一项工具,它的诞生是用来帮助艺术家进行创作的,并不能完全取代或者消灭艺术家。因为AI技术是基于目前已有数据的模型生成作品的,这意味着它们无法完全反映艺术家的个性和创造力。其次,使用AI技术可能会导致艺术创作的同质化和缺乏个性化,因为有某些艺术家们可能会依赖于AI技术生成的模板和样式,而不是通过自己的创造力和想象力来表达自己的思想和情感。因此,艺术家们还需要不断努力,让生成式AI变成辅助性的创作工具,而不是一味地依靠AI,失去了艺术创作的情感和本质。
本文参与华为云社区【内容共创】活动第24期。
任务12:生成式AI,用技术重塑艺术形态。
- 点赞
- 收藏
- 关注作者
评论(0)