- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

基于神经网络——鸢尾花识别（Iris）

一颗小树x 发表于 2020/11/08 13:57:13 2020/11/08

【摘要】前言鸢尾花识别是学习AI入门的案例，这里和大家分享下使用Tensorflow 2框架，编写程序，获取鸢尾花数据，搭建神经网络，最后训练和识别鸢尾花。鸢尾花识别——思路流程： 1）获取鸢尾花数据，分析处理。 2）整理数据位训练集，测试集。 3）搭建神经网络模型。 4）训练网络，优化网络模型参数。 5）保存最优的模型，进行鸢尾花识别。认识鸢尾花我们先认识下什么是鸢尾...

前言

鸢尾花识别是学习AI入门的案例，这里和大家分享下使用Tensorflow 2框架，编写程序，获取鸢尾花数据，搭建神经网络，最后训练和识别鸢尾花。

鸢尾花识别——思路流程：

1）获取鸢尾花数据，分析处理。

2）整理数据位训练集，测试集。

3）搭建神经网络模型。

4）训练网络，优化网络模型参数。

5）保存最优的模型，进行鸢尾花识别。

认识鸢尾花

我们先认识下什么是鸢尾花？

鸢尾花分类：狗尾草鸢尾、杂色鸢尾、弗吉尼亚鸢尾

鸢尾花的特征是什么呢？

鸢尾花花萼长、花萼宽、花瓣长、花瓣宽。我们通过对数据进行分析总结出了规律：通过测量花的花萼长、花萼宽、花瓣长、花瓣宽，可以得出鸢尾花的类别（如：花萼长>花萼宽且花瓣长/花瓣宽>2 ，则杂色鸢尾）

获取鸢尾花数据

4 个属性作为输入特征：花萼长、花萼宽、花瓣长、花瓣宽；

类别作为标签，0 代表狗尾草鸢尾，1 代表杂色鸢尾，2 代表弗吉尼亚鸢尾。

iris数据集即鸢尾花数据。x_data 存放 iris数据集所有输入特征（4 种）；y_data存放 iris数据集所有标签（3种）

from sklearn import datasets
from pandas import DataFrame
import pandas as pd
 
x_data = datasets.load_iris().data  # .data返回iris数据集所有输入特征
y_data = datasets.load_iris().target  # .target返回iris数据集所有标签
print("x_data from datasets: \n", x_data)
print("y_data from datasets: \n", y_data)
 
x_data = DataFrame(x_data, columns=['花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度']) # 为表格增加行索引（左侧）和列标签（上方）
pd.set_option('display.unicode.east_asian_width', True)  # 设置列名对齐
print("x_data add index: \n", x_data)
 
x_data['类别'] = y_data  # 新加一列，列标签为‘类别’，数据为y_data
print("x_data add a column: \n", x_data)

在sklearn库中，x_data，y_data的原始数据：

在x_data[ ]数据中，新加一列，列标签为‘类别’，数据为y_data：

整理数据为训练集，测试集

把输入特征和标签做成数据对，即每一行输入特征有与之对应的类别；得出一共150行数据；其中75%作为训练集，即120行；25%作为测试集，即后30行。

注意：训练集和测试集，没有交集，它们之间都没有一样的数据。

# 导入所需模块
import tensorflow as tf
from sklearn import datasets
from matplotlib import pyplot as plt
import numpy as np
 
# 导入数据，分别为输入特征和标签
x_data = datasets.load_iris().data
y_data = datasets.load_iris().target
 
# 随机打乱数据（因为原始数据是顺序的，顺序不打乱会影响准确率）
# seed: 随机数种子，是一个整数，当设置之后，每次生成的随机数都一样（为方便教学，以保每位同学结果一致）
np.random.seed(116)  # 使用相同的seed，保证输入特征和标签一一对应
np.random.shuffle(x_data)
np.random.seed(116)
np.random.shuffle(y_data)
tf.random.set_seed(116)
 
# 将打乱后的数据集分割为训练集和测试集，训练集为前120行，测试集为后30行
x_train = x_data[:-30]
y_train = y_data[:-30]
x_test = x_data[-30:]
y_test = y_data[-30:]
 
# 转换x的数据类型，否则后面矩阵相乘时会因数据类型不一致报错
x_train = tf.cast(x_train, tf.float32)
x_test = tf.cast(x_test, tf.float32)
 
# from_tensor_slices函数使输入特征和标签值一一对应。（把数据集分批次，每个批次batch组数据）
train_db = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(32)
test_db = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32)

为了训练更高效，通常会把数据变成batch（包），例如，把32行数据为一个小包batch。

搭建神经网络模型

从数据中分析出，有4个输入特征，所以输入层有4个节点；鸢尾花3种类别，所以输出层有3个节点. 我们需要初始化网络中的参数（权值、偏置）。

通过前向传播计算，即从输入层到输出层迭代计算，预测出是那个类别的鸢尾花，对比是否预测正确（通过损失函数计算出预测值和真实值的偏差，这个偏差越小代表预测越接近真实；最终选择最优的参数）。

输入层和输出层之间的映射关系接近正确的，模型基本训练好了。

即所有的输入 x 乘以各自线上的权重 w 求和加上偏置项 b 得到输出 y 。

输出 y 中，1.01 代表 0 类鸢尾得分，2.01 代表 1 类鸢尾得分，-0.66 代表 2 类鸢尾得分。通过输出 y 可以看出数值最大(可能性最高)的是 1 类鸢尾，而5不是标签 0 类鸢尾。这是由于最初的参数 w 和 b 是随机产生的，现在输出的结果是不准确的。

为了修正这一结果，我们用损失函数，定义预测值 y 和标准答案(标签)_y 的差距，损失函数可以定量的判断当前这组参数 w 和 b 的优劣，当损失函数最小时，即可得到最优 w 的值和 b 的值。

损失函数，其目的是寻找一组参数 w 和 b 使得损失函数最小。为达成这一目的，我们采用梯度下降的方法。

损失函数的梯度表示损失函数对各参数求偏导后的向量，损失函数梯度下降的方向，就是是损失函数减小的方向。梯度下降法即沿着损失函数梯度下降的方向，寻找损失函数的最小值，从而得到最优的参数。

梯度下降的直观解释：（来自：https://www.cnblogs.com/pinard/p/5970503.html）

首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置，由于我们不知道怎么下山，于是决定走一步算一步，也就是在每走到一个位置的时候，求解当前位置的梯度，沿着梯度的负方向，也就是当前最陡峭的位置向下走一步，然后继续求解当前位置梯度，向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去，一直走到觉得我们已经到了山脚。当然这样走下去，有可能我们不能走到山脚，而是到了某一个局部的山峰低处。

　　从上面的解释可以看出，梯度下降不一定能够找到全局的最优解，有可能是一个局部最优解。当然，如果损失函数是凸函数，梯度下降法得到的解就一定是全局最优解。

梯度下降参考：https://www.jianshu.com/p/c7e642877b0e

鸢尾花识别完整代码：

# -*- coding: UTF-8 -*-
# 利用鸢尾花数据集，实现前向传播、反向传播，可视化loss曲线
 
# 导入所需模块
import tensorflow as tf
from sklearn import datasets
from matplotlib import pyplot as plt
import numpy as np
 
# 导入数据，分别为输入特征和标签
x_data = datasets.load_iris().data
y_data = datasets.load_iris().target
 
# 随机打乱数据（因为原始数据是顺序的，顺序不打乱会影响准确率）
# seed: 随机数种子，是一个整数，当设置之后，每次生成的随机数都一样（为方便教学，以保每位同学结果一致）
np.random.seed(116)  # 使用相同的seed，保证输入特征和标签一一对应
np.random.shuffle(x_data)
np.random.seed(116)
np.random.shuffle(y_data)
tf.random.set_seed(116)
 
# 将打乱后的数据集分割为训练集和测试集，训练集为前120行，测试集为后30行
x_train = x_data[:-30]
y_train = y_data[:-30]
x_test = x_data[-30:]
y_test = y_data[-30:]
 
# 转换x的数据类型，否则后面矩阵相乘时会因数据类型不一致报错
x_train = tf.cast(x_train, tf.float32)
x_test = tf.cast(x_test, tf.float32)
 
# from_tensor_slices函数使输入特征和标签值一一对应。（把数据集分批次，每个批次batch组数据）
train_db = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(32)
test_db = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(32)
 
# 生成神经网络的参数，4个输入特征故，输入层为4个输入节点；因为3分类，故输出层为3个神经元
# 用tf.Variable()标记参数可训练
# 使用seed使每次生成的随机数相同（方便教学，使大家结果都一致，在现实使用时不写seed）
w1 = tf.Variable(tf.random.truncated_normal([4, 3], stddev=0.1, seed=1))
b1 = tf.Variable(tf.random.truncated_normal([3], stddev=0.1, seed=1))
 
lr = 0.1  # 学习率为0.1
train_loss_results = []  # 将每轮的loss记录在此列表中，为后续画loss曲线提供数据
test_acc = []  # 将每轮的acc记录在此列表中，为后续画acc曲线提供数据
epoch = 500  # 循环500轮
loss_all = 0  # 每轮分4个step，loss_all记录四个step生成的4个loss的和
 
# 训练部分
for epoch in range(epoch):  #数据集级别的循环，每个epoch循环一次数据集
    for step, (x_train, y_train) in enumerate(train_db):  #batch级别的循环 ，每个step循环一个batch
        with tf.GradientTape() as tape:  # with结构记录梯度信息
            y = tf.matmul(x_train, w1) + b1  # 神经网络乘加运算
            y = tf.nn.softmax(y)  # 使输出y符合概率分布（此操作后与独热码同量级，可相减求loss）
            y_ = tf.one_hot(y_train, depth=3)  # 将标签值转换为独热码格式，方便计算loss和accuracy
            loss = tf.reduce_mean(tf.square(y_ - y))  # 采用均方误差损失函数mse = mean(sum(y-out)^2)
            loss_all += loss.numpy()  # 将每个step计算出的loss累加，为后续求loss平均值提供数据，这样计算的loss更准确
        # 计算loss对各个参数的梯度
        grads = tape.gradient(loss, [w1, b1])
 
        # 实现梯度更新 w1 = w1 - lr * w1_grad    b = b - lr * b_grad
        w1.assign_sub(lr * grads[0])  # 参数w1自更新
        b1.assign_sub(lr * grads[1])  # 参数b自更新
 
    # 每个epoch，打印loss信息
    print("Epoch {}, loss: {}".format(epoch, loss_all/4))
    train_loss_results.append(loss_all / 4)  # 将4个step的loss求平均记录在此变量中
    loss_all = 0  # loss_all归零，为记录下一个epoch的loss做准备
 
    # 测试部分
    # total_correct为预测对的样本个数, total_number为测试的总样本数，将这两个变量都初始化为0
    total_correct, total_number = 0, 0
    for x_test, y_test in test_db:
        # 使用更新后的参数进行预测
        y = tf.matmul(x_test, w1) + b1
        y = tf.nn.softmax(y)
        pred = tf.argmax(y, axis=1)  # 返回y中最大值的索引，即预测的分类
        # 将pred转换为y_test的数据类型
        pred = tf.cast(pred, dtype=y_test.dtype)
        # 若分类正确，则correct=1，否则为0，将bool型的结果转换为int型
        correct = tf.cast(tf.equal(pred, y_test), dtype=tf.int32)
        # 将每个batch的correct数加起来
        correct = tf.reduce_sum(correct)
        # 将所有batch中的correct数加起来
        total_correct += int(correct)
        # total_number为测试的总样本数，也就是x_test的行数，shape[0]返回变量的行数
        total_number += x_test.shape[0]
    # 总的准确率等于total_correct/total_number
    acc = total_correct / total_number
    test_acc.append(acc)
    print("Test_acc:", acc)
    print("--------------------------")
 
# 绘制 loss 曲线
plt.title('Loss Function Curve')  # 图片标题
plt.xlabel('Epoch')  # x轴变量名称
plt.ylabel('Loss')  # y轴变量名称
plt.plot(train_loss_results, label="$Loss$")  # 逐点画出trian_loss_results值并连线，连线图标是Loss
plt.legend()  # 画出曲线图标
plt.show()  # 画出图像
 
# 绘制 Accuracy 曲线
plt.title('Acc Curve')  # 图片标题
plt.xlabel('Epoch')  # x轴变量名称
plt.ylabel('Acc')  # y轴变量名称
plt.plot(test_acc, label="$Accuracy$")  # 逐点画出test_acc值并连线，连线图标是Accuracy
plt.legend()
plt.show()

训练过程，一共迭代500次，最后得出 loss: 0.032300274819135666 Test_acc: 1.0

随着迭代次数的增加，损失率（预估值和真实值的偏差）在减少；准确率在不多提高，最终到达100%（即：1）

本博客参考：北京大学课程“人工智能实践：Tensorflow笔记”；

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

基于神经网络——鸢尾花识别（Iris）

前言

鸢尾花识别——思路流程：

认识鸢尾花

获取鸢尾花数据

整理数据为训练集，测试集

搭建神经网络模型

鸢尾花识别完整代码：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

基于神经网络——鸢尾花识别（Iris）

前言

鸢尾花识别——思路流程：

认识鸢尾花

获取鸢尾花数据

整理数据为训练集，测试集

搭建神经网络模型

鸢尾花识别 完整代码：

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

鸢尾花识别完整代码：