- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【LLMOps】AIGC五大使用场景解决方案分析

Freedom123 发表于 2024/04/26 17:30:55 2024/04/26

【摘要】 AIGC技术使用场景解决方案解析

前言

AI时代已经来临，紧接着就是AIGC应用场景的落地，但是AI作为一个新兴领域，对于参与者却有着很高的使用门槛，对于AI领域的参与者，我们需要面对的不仅仅是模型的使用这么简单，我们需要面对的问题有以下几个方面：

复杂性： 构建AIGC需要处理大量的数据、算法和模型，这些都是非常复杂的内容。普通人可能难以理解和掌握这些复杂的技术，需要具备深厚的专业知识和技能。
资源需求： 构建AIGC需要大量的计算资源和数据资源，包括高性能的计算机、大规模的数据集等。一般人可能无法轻易获取这些资源，造成构建AIGC的困难。
算法挑战： AIGC的构建需要应用多种复杂的机器学习和深度学习算法，需要深入理解这些算法的原理和应用场景。这对于非专业人士来说是一个挑战。
数据质量： 构建AIGC需要大量高质量的数据来训练模型和进行验证，而且数据的质量对于AIGC的性能至关重要。一般人可能很难获取到足够高质量的数据。
伦理和隐私问题： 在构建AIGC的过程中，需要处理大量用户数据，涉及到伦理和隐私等问题。一般人可能难以处理这些敏感问题，需要深入了解相关法律法规和道德标准。

对于AI的高门槛，我们整理了一套AIGC技术解决方案，针对五大场景分别做出了不同的应对策略，方便AI的从业人员快速入手AIGC，从业人员再也不用关心底层的技术架构，只需要关注自身的上层应用即可，真正做到了简单部署，轻松使用，这也是我梳理这边文章的一个初心。

一、大规模训练加速

1.业务痛点

大模型训练周期长：模型在多模态、大量参数权重的情况下，训练周期长，无法快速满足业务上线
训练工程化门槛高：AI基础设施的工程化涉及面广，需要在训练过程中同时协调算力、网络、模型及数据集的调优
开源框架调优困难：在大模型搭建时使用开源框架如Horovod、DeepSpeed等，往往面临复杂的配置调整且难以稳定保持分布式训练提效

2.解决方案

高性能GPU集群提速模型训练：通过高性能计算集群，用多机多卡高性能GPU在NVLink和最大3.2Tbps的RDMA网络的硬件优化环境，利用多卡并行优化分布式加速训练效果
开箱即用的训练组件：云端GPU型号满足各类模型训练需求，搭配并行文件存储CFS Turbo和对象存储COS，简化搭建工作，满足训练时的无损高带宽和数据集高吞吐
简化框架调优并提效：通过TACO加速套件，TCCL感知拓扑流量及拥塞管理，Zero-Cache异构管理显存和内存提升参数量，混合精度训练及模型并行优化，降低门槛并提效

3.涉及产品

高性能计算集群：多款高性能GPU机型，并通过NVLink和高速RDMA实现无损互联
文件存储：单实例足以支撑1000GBps存储带宽、百PB级数据量和百亿级文件数，满足分布式训练高性能要求
计算加速套件TACO Kit: 优化网络协议、通信策略、AI 框架、模型编译器，提升分布式训练时混合并行计算效率

二、大规模推理优化

1.业务痛点

推理GPU资源难以统一管理：面对不同推理场景，难以用一款GPU机型服务不同推理服务，面临多样化GPU资源的管理
推理服务性能低下：难以在GPU推理时有效提升业务装载量，单机QPS低下，性能不足
GPU资源利用率低：在推理服务对外提供业务时，无法平衡算力资源和显存容量，导致GPU资源利用率低

2.解决方案

丰富的GPU款型选择及统一的容器化推理管理云提供丰富多样的GPU款型可供选择，并提供统一的容器服务TKE管理所有GPU推理实例，统一资源调度
无侵入优化推理性能：云推理加速套件，通过图优化、算子融合、编译器优化等手段，无感接入业务并实现高性能推理优化
推理混布提升利用率：结合TKE容器服务和qGPU算力显存切分技术，实现不同模型推理服务的灵活混布，支持不同GPU QoS策略极致压榨GPU算力和显存资源，提升利用率

3.涉及产品

GPU 云服务器: 通过其强大的快速处理海量数据的计算性能，有效解放用户的计算压力，提升业务处理效率与竞争力
容器服务 TKE：云容器服务支持丰富的GPU实例节点，满足统一管理不同GPU卡型
计算加速套件TACO Kit：帮助客户降低AI优化门槛的同时，大幅提升AI训练和推理业务性能，节约算力成本

三、AIGC内容合规

1.业务痛点

用户引导AI模型服务违规：用户输入明显带有违规的引导词、图像等内容，诱导AI模型反馈不合规内容，如色情、涉政图像等
AI模型产生违规内容：当AI模型生成违法或不良内容，如涉黄、涉恐文字或图片时，容易对经营者带来合规风险

2.解决方案

用户输入端内容审核：在用户输入提示词或图片时，对用户引导内容进AI模型前执行内容安全审核，确保请求源头合规
模型输出端内容审核：在AI模型推理服务产生内容后，预先经过内容审核服务，确保违规内容提前拦截，防止违规内容发送至使用者，降低合规风险

3.涉及产品

数据万象CI：对图片、文本等数据进行内容审核，可在数据上传到对象存储COS前或上传后进行内容审核
T-Sec 天御文本内容安全：识别文本中出现的可能令人反感、不安全或不适宜内容，支持用户配置词库，打击自定义识别类型的文本
T-Sec 天御图片内容安全：能精准识别图片中出现可能令人反感、不安全或不适宜内容，支持配置图片黑名单，识别自定义的识别类型

四、文生图云原生方案

1.业务痛点

业务流量不可控：作为在线业务，推理服务需要合理设计限流熔断，避免流量激增造成整体业务不可用
成本无法控制：Stable Diffusion 的前向推理过程是一个比较耗时的过程，GPU 应用部署对比 CPU 应用部署成本也较高，如何控制成本是需要重点考虑的因素
服务加载速度慢：模型文件加上推理服务，镜像体积可能达到几十 GB，拉取镜像时间长

2.解决方案

云云原生 API 网关作为云上微服务架构的流量入口，集成请求分发、API 管理、流量监控、访问限制等功能，是微服务架构中的重要组件
当业务访问具有明显潮汐现象时，可以通过 TKE GPU HPA 的弹性能力，进一步降低资源部署成本
企业版容器仓库支持按需加载容器镜像，提升应用分发效率

3.涉及产品

容器服务 TKE：通过 TKE 的弹性、混部、轻运维等特性助力 AIGC 业务提升资源利用率、降低成本
容器镜像服务 TCR：支持上千节点并发拉取 GB 级大镜像，配合镜像加速能力，实现极速分发
文件存储：采用三副本的分布式存储机制、具有极高的可靠性。同时提供低延迟访问，支持数千客户端的同时访问
GPU 云服务器：支持多个容器共享 GPU 卡并支持容器间算力和显存精细隔离，帮助客户大幅度节约 GPU 资源成本
云原生 API 网关：提供多云开发的特色网关插件，如限流、熔断、流量镜像等

五、智能客服场景方案

1.业务痛点

效果差：基于开源模型的智能客服落地比较受限，比较小的开源模型做智能客服效果不尽人意
缺少上下文学习能力：开源模型受限于其训练方式，缺乏良好的长度外推性，当文本长度增长后，生成质量会显著下降
企业私有数据无法公开：目前大模型均为预训练模型，仅能学习公开数据，无法学习企业私有数据

2.解决方案

客服引导式话术：大模型理解引导式话术，在用户问题不完整的情况下，通过与用户的互动，逐步引导用户提问，服务更加友好
多轮对话：大模型通过对多轮的深入语义分析和精准理解，让用户感受到仿佛真正与人沟通的体验，实现了自然、流畅的对话，增强了与用户的亲近感
推理问题生成答案：通过云向量数据库为大模型提供外部知识库，提高大模型回答的准确性，单索引行数可达10亿行

3.涉及产品

向量数据库：提供高吞吐、低延迟、低成本、高可用、弹性扩展的全托管向量检索服务，是AI时代必不可少的数据库服务
大模型：在与用户交流的过程中，大模型能够理解复杂问题，并且从知识库中提取相关内容，然后综合生成新的答案，更加准确的回答用户问题

小结

本节我们学习了AIGC五种解决方案，AIGC时代已来，我们每个人都应该充分把握时代赋予我们的红利，AIGC五大场景解决方案为人人都能使用的起的AI提供了另外一种可能，同学们对AIGC有更好的想法，欢迎和小编沟通交流，小编不吝赐教，在此恭候。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【LLMOps】AIGC五大使用场景解决方案分析

前言

一、大规模训练加速

1.业务痛点

2.解决方案

3.涉及产品

二、大规模推理优化

1.业务痛点

2.解决方案

3.涉及产品

三、AIGC内容合规

1.业务痛点

2.解决方案

3.涉及产品

四、文生图云原生方案

1.业务痛点

2.解决方案

3.涉及产品

五、智能客服场景方案

1.业务痛点

2.解决方案

3.涉及产品

小结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【LLMOps】AIGC五大使用场景解决方案分析

前言

一、大规模训练加速

1.业务痛点

2.解决方案

3.涉及产品

二、大规模推理优化

1.业务痛点

2.解决方案

3.涉及产品

三、AIGC内容合规

1.业务痛点

2.解决方案

3.涉及产品

四、文生图云原生方案

1.业务痛点

2.解决方案

3.涉及产品

五、智能客服场景方案

1.业务痛点

2.解决方案

3.涉及产品

小结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品