Modelarts新旅程 | 新零售模式下自动学习之旅,货物分类的数据准备工作
前言
这几年,我们一直在探索零售行业的更多可能,其中“数字化”是被提到过最多的词汇之一。
“数字化”的主要用途之一,便是实现线下、线上和物流的无缝连接,三端的复杂多变的信息全面转变为可以度量的数字、数据,再以这些数字、数据建立起适当的数字化模型,借助技术,智能化的统一处理。改变传统通过人工处理大量信息的模式。
当然“数字化”仅是新零售当中的变革之一。接下来,我们将开启一场神奇之旅,探索数字化时代背景下多种多样的新零售实践模式。
智慧零售
新零售模式下,进行了线上、线下的融合和流程重构,通过数据来驱动新技术的应用,借助前沿技术,实现成本、效率、体验的升级。
新零售的另一解释是智慧零售。智慧零售主要是合理运用互联网、物联网技术,感知消费者的消费习惯,预测未来的消费趋势,进而引导生产制造,为消费者提供多样化、个性化的产品和服务。
我们目前主要在“智慧零售”这条道路上奋勇向前。
货物分类
Modelarts的自动学习
华为云ModelArts自动学习自动学习支持快速创建图像分类、物体检测、预测分析、声音分类和文本分类模型的定制化开发。可广泛应用在工业、零售安防等领域。
- 图像分类:识别图片中物体的类别。
- 物体检测:识别出图片中每个物体的位置和类别。
- 预测分析:对结构化数据做出分类或数值预测。
- 声音分类:对环境中不同声音进行分类识别。
- 文本分类:识别一段文本的类别。
其中,图像分类正好是我们当前需要的货物分类功能,来看一下如何做货物的分类。
数据准备
本次用到的货物数据集,是我们自己准备的一个数据集。它包含在项目的货物自动学习goods-learn的datasets模块中。我们可以调用load_goods函数来加载数据:
from gdlearn.datasets import load_goods
goods_dataset = load_goods()
load_goods返回的good对象是一个字典,里面包含键和值。我们来打印一下这个对象:
print("keys of goods_dataset: \n{}".format(goods_dataset.keys( )))
打印结果:
keys of goods_dataset:
dict keys(['target_names', 'feature_names','data','target'])
解释一下每个键的含义:
- target_names:对应的值是一个字符串数组,里面包含我们要预测的货物的品种;
- feature_names:对应的值是一个字符串列表,对每一个特征进行了说明;
- data:对应的值是一个数组,包含货物的名称、货物的价格、货物所在货架的位置等数据,data数组的每一行对应一件货物,列代表每件货物的三个测量数据;
- target:对应的值是一个数组,包含的是记录过的每件货物的数据。
训练数据与测试数据意义
训练数据与测试数据的最重要的作用是:衡量模型是否成功。
如果我们想要利用这些数据构建一个机器学习模型,用于预测新测量的货物的类型。但在将模型应用于新的测量数据之前,我们需要知道模型是否有效,即我们是否应该相信它的预测结果。
于是,我们要用新数据来评估模型的性能。
所谓新数据,是指模型之前没有见过的数据。我们需要有这些新数据的标签。
华为云ModelArts的自动学习中支持给数据集打标签,所以我们直接借助华为云ModelArts提供的能力,可以节约时间。标注的具体操作可以参考官方文档:数据标注。
收集好的带标签数据(此例中是100个不同的货品的测量数据),一般会分成两部分。
- 一部分数据用于构建机器学习模型,叫作训练数据(training data)或训练集(training set)。
- 剩余部分的数据用来评估模型性能,叫作测试数据(test data)、测试集(test set)或留出集(hold-out set)。
总结
关于新零售模式下的自动学习中,货物分类的灵感主要源于华为云ModelArts提供的图像分类功能。本篇着重是数据准备工作。
数据准备工作是自动学习的基石,在继续下一步,也就是开始构建模型之前,我们需要理解准备的数据集的内容,以及这些数据与我们想要解决的任务之间的关系。
数据准备工作已经准备妥当。
未来,华为云ModelArts的旅程将持续进行下去,而我会分享每一段的记录和感悟。
作者:非职业「传道授业解惑」的开发者叶一一
简介:「趣学前端」、「CSS畅想」系列作者,华夏美食、国漫、古风重度爱好者,刑侦、无限流小说初级玩家。
如果看完文章有所收获,欢迎点赞👍 | 收藏⭐️ | 留言📝。
- 点赞
- 收藏
- 关注作者
评论(0)