- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

小样本学习在文心ERNIE3.0多分类任务应用--提示学习

汀丶发表于 2022/11/11 14:09:06 2022/11/11

【摘要】对于标注样本充足的场景可以直接使用预训练模型微调实现文本多分类，对于尚无标注或者标注样本较少的任务场景我们推荐使用小样本学习，以取得比微调方法更好的效果。下边通过新闻分类的例子展示如何使用小样本学习来进行文本分类。

小样本学习在文心ERNIE3.0多分类任务应用（提示学习）

项目链接：
https://aistudio.baidu.com/aistudio/projectdetail/4438610?contributionType=1

0.小样本学习简介

二分类/多分类任务在商品分类、网页分类、新闻分类、医疗文本分类等现实场景中有着广泛应用。现有的主流解决方案是在大规模预训练语言模型进行微调，因为下游任务和预训练任务训练目标不同，想要取得较好的分类效果往往需要大量标注数据，因此学界和业界开始研究如何在小样本学习（Few-shot Learning）场景下取得更好的学习效果。

提示学习(Prompt Learning) 的主要思想是通过任务转换使得下游任务和预训练任务尽可能相似，充分利用预训练语言模型学习到的特征，从而降低样本需求量。除此之外，我们往往还需要在原有的输入文本上拼接一段“提示”，来引导预训练模型输出期望的结果。

我们以Ernie为例，回顾一下这类预训练语言模型的训练任务。与考试中的完形填空相似，给定一句文本，遮盖掉其中的部分字词，要求语言模型预测出这些遮盖位置原本的字词。

因此，我们也将多分类任务转换为与完形填空相似的形式。例如影评情感分类任务，标签分为1-正向，0-负向两类。

在经典的微调方式中，需要学习的参数是以[CLS]向量为输入，以负向/正向为输出的随机初始化的分类器。
在提示学习中，我们通过构造提示，将原有的分类任务转化为完形填空。如下图所示，通过提示我[MASK]喜欢。，原有1-正向，0-负向的标签被转化为了预测空格是很还是不。此时的分类器也不再是随机初始化，而是利用了这两个字的预训练向量来初始化，充分利用了预训练模型学习到的参数。

对于标注样本充足的场景可以直接使用预训练模型微调实现文本多分类，对于尚无标注或者标注样本较少的任务场景我们推荐使用小样本学习，以取得比微调方法更好的效果。

下边通过新闻分类的例子展示如何使用小样本学习来进行文本分类。

0.1 环境要求

python >= 3.6

paddlepaddle >= 2.3

paddlenlp >= 2.4.0 【预计9月份上线】

0.2数据集格式要求

#获取数据
# !wget https://paddlenlp.bj.bcebos.com/datasets/few-shot/tnews.tar.gz
!tar zxvf tnews.tar.gz
!mv tnews data

数据集格式
对于训练/验证/测试数据集文件，每行数据表示一条样本，包括文本和标签两部分，由tab符\t分隔。格式如下

文登区这些公路及危桥将进入封闭施工，请注意绕行！ news_car
普洱茶要如何醒茶？ news_culture
...

对于待预测数据文件，每行包含一条待预测样本，无标签。格式如下

互联网时代如何保护个人信息
清秋暮雨读柳词：忍把浮名，换了浅斟低唱丨周末读诗
...

对于分类标签集文件，存储了数据集中所有的标签集合，每行为一个标签名。如果需要自定义标签映射用于分类器初始化，则每行需要包括标签名和相应的映射词，由==分隔。格式如下

news_car'=='汽车
news_culture'=='文化
...

Note 这里的标签映射词定义遵循的规则是，不同映射词尽可能长度一致，映射词和提示需要尽可能构成通顺的语句。越接近自然语句，小样本下模型训练效果越好。如果原标签名已经可以构成通顺语句，也可以不构造映射词，每行一个标签即可。

1.模型训练与预测

这里提示一下：

如果运行程序报错：

Traceback (most recent call last):
  File "train.py", line 23, in <module>
    from paddlenlp.prompt import (
ModuleNotFoundError: No module named 'paddlenlp.prompt'

是因为paddlenlp.prompt在2.4.0版本才会有，请检查上面步骤是否有遗漏，

!export CUDA_VISIBLE_DEVICES=0
!python train.py \
--data_dir ./data/tnews  \
--output_dir ./checkpoints/ \
--prompt "这条新闻标题的主题是" \
--max_seq_length 128  \
--learning_rate 3e-5 \
--ppt_learning_rate 3e-4 \
--do_train \
--do_eval \
--max_steps 1000 \
--eval_steps 100 \
--logging_steps 10 \
--per_device_eval_batch_size 32 \
--per_device_train_batch_size 32

结果部分展示：

Training Configuration Arguments

[2022-08-18 11:42:58,983] [    INFO] - paddle commit id              :3cc6ae69ed93388b2648bcc819d593130dede752
[2022-08-18 11:42:58,983] [    INFO] - _no_sync_in_gradient_accumulation:True
[2022-08-18 11:42:58,983] [    INFO] - adam_beta1                    :0.9
[2022-08-18 11:42:58,983] [    INFO] - adam_beta2                    :0.999
[2022-08-18 11:42:58,983] [    INFO] - adam_epsilon                  :1e-08
[2022-08-18 11:42:58,983] [    INFO] - alpha_rdrop                   :5.0
[2022-08-18 11:42:58,983] [    INFO] - alpha_rgl                     :0.5
[2022-08-18 11:42:58,983] [    INFO] - current_device                :gpu:0
[2022-08-18 11:42:58,984] [    INFO] - dataloader_drop_last          :False
[2022-08-18 11:42:58,984] [    INFO] - dataloader_num_workers        :0
[2022-08-18 11:42:58,984] [    INFO] - device                        :gpu
[2022-08-18 11:42:58,984] [    INFO] - disable_tqdm                  :False
[2022-08-18 11:42:58,984] [    INFO] - do_eval                       :True
[2022-08-18 11:42:58,984] [    INFO] - do_export                     :False
[2022-08-18 11:42:58,984] [    INFO] - do_predict                    :False
[2022-08-18 11:42:58,984] [    INFO] - do_train                      :True
[2022-08-18 11:42:58,984] [    INFO] - eval_batch_size               :32
[2022-08-18 11:42:58,984] [    INFO] - eval_steps                    :100
[2022-08-18 11:42:58,984] [    INFO] - evaluation_strategy           :IntervalStrategy.STEPS
[2022-08-18 11:42:58,984] [    INFO] - first_max_length              :None
[2022-08-18 11:42:58,984] [    INFO] - fp16                          :False
[2022-08-18 11:42:58,984] [    INFO] - fp16_opt_level                :O1
[2022-08-18 11:42:58,984] [    INFO] - freeze_dropout                :False
[2022-08-18 11:42:58,984] [    INFO] - freeze_plm                    :False
[2022-08-18 11:42:58,984] [    INFO] - gradient_accumulation_steps   :1
[2022-08-18 11:42:58,984] [    INFO] - greater_is_better             :None
[2022-08-18 11:42:58,984] [    INFO] - ignore_data_skip              :False
[2022-08-18 11:42:58,984] [    INFO] - label_names                   :None
[2022-08-18 11:42:58,984] [    INFO] - learning_rate                 :3e-05
[2022-08-18 11:42:58,984] [    INFO] - load_best_model_at_end        :False
[2022-08-18 11:42:58,984] [    INFO] - local_process_index           :0
[2022-08-18 11:42:58,984] [    INFO] - local_rank                    :-1
[2022-08-18 11:42:58,984] [    INFO] - log_level                     :-1
[2022-08-18 11:42:58,984] [    INFO] - log_level_replica             :-1
[2022-08-18 11:42:58,985] [    INFO] - log_on_each_node              :True
[2022-08-18 11:42:58,985] [    INFO] - logging_dir                   :./checkpoints/runs/Aug18_11-42-56_jupyter-691158-4438610
[2022-08-18 11:42:58,985] [    INFO] - logging_first_step            :False
[2022-08-18 11:42:58,985] [    INFO] - logging_steps                 :10
[2022-08-18 11:42:58,985] [    INFO] - logging_strategy              :IntervalStrategy.STEPS
[2022-08-18 11:42:58,985] [    INFO] - lr_scheduler_type             :SchedulerType.LINEAR
[2022-08-18 11:42:58,985] [    INFO] - max_grad_norm                 :1.0
[2022-08-18 11:42:58,985] [    INFO] - max_seq_length                :128
[2022-08-18 11:42:58,985] [    INFO] - max_steps                     :5000
[2022-08-18 11:42:58,985] [    INFO] - metric_for_best_model         :None
[2022-08-18 11:42:58,985] [    INFO] - minimum_eval_times            :None
[2022-08-18 11:42:58,985] [    INFO] - no_cuda                       :False
[2022-08-18 11:42:58,985] [    INFO] - num_train_epochs              :3.0
[2022-08-18 11:42:58,985] [    INFO] - optim                         :OptimizerNames.ADAMW
[2022-08-18 11:42:58,985] [    INFO] - other_max_length              :None
[2022-08-18 11:42:58,985] [    INFO] - output_dir                    :./checkpoints/
[2022-08-18 11:42:58,985] [    INFO] - overwrite_output_dir          :False
[2022-08-18 11:42:58,985] [    INFO] - past_index                    :-1
[2022-08-18 11:42:58,985] [    INFO] - per_device_eval_batch_size    :32
[2022-08-18 11:42:58,985] [    INFO] - per_device_train_batch_size   :32
[2022-08-18 11:42:58,985] [    INFO] - ppt_adam_beta1                :0.9
[2022-08-18 11:42:58,985] [    INFO] - ppt_adam_beta2                :0.999
[2022-08-18 11:42:58,985] [    INFO] - ppt_adam_epsilon              :1e-08
[2022-08-18 11:42:58,985] [    INFO] - ppt_learning_rate             :0.0003
[2022-08-18 11:42:58,985] [    INFO] - ppt_weight_decay              :0.0
[2022-08-18 11:42:58,985] [    INFO] - prediction_loss_only          :False
[2022-08-18 11:42:58,985] [    INFO] - process_index                 :0
[2022-08-18 11:42:58,986] [    INFO] - remove_unused_columns         :True
[2022-08-18 11:42:58,986] [    INFO] - report_to                     :['visualdl']
[2022-08-18 11:42:58,986] [    INFO] - resume_from_checkpoint        :None
[2022-08-18 11:42:58,986] [    INFO] - run_name                      :./checkpoints/
[2022-08-18 11:42:58,986] [    INFO] - save_on_each_node             :False
[2022-08-18 11:42:58,986] [    INFO] - save_steps                    :500
[2022-08-18 11:42:58,986] [    INFO] - save_strategy                 :IntervalStrategy.STEPS
[2022-08-18 11:42:58,986] [    INFO] - save_total_limit              :None
[2022-08-18 11:42:58,986] [    INFO] - scale_loss                    :32768
[2022-08-18 11:42:58,986] [    INFO] - seed                          :42
[2022-08-18 11:42:58,986] [    INFO] - should_log                    :True
[2022-08-18 11:42:58,986] [    INFO] - should_save                   :True
[2022-08-18 11:42:58,986] [    INFO] - task_type                     :multi-class
[2022-08-18 11:42:58,986] [    INFO] - train_batch_size              :32
[2022-08-18 11:42:58,986] [    INFO] - truncate_mode                 :tail
[2022-08-18 11:42:58,986] [    INFO] - use_rdrop                     :False
[2022-08-18 11:42:58,986] [    INFO] - use_rgl                       :False
[2022-08-18 11:42:58,986] [    INFO] - warmup_ratio                  :0.0
[2022-08-18 11:42:58,986] [    INFO] - warmup_steps                  :0
[2022-08-18 11:42:58,986] [    INFO] - weight_decay                  :0.0
[2022-08-18 11:42:58,986] [    INFO] - world_size                    :1

[2022-08-18 11:42:58,989] [    INFO] - ***** Running training *****
[2022-08-18 11:42:58,989] [    INFO] -   Num examples = 240
[2022-08-18 11:42:58,989] [    INFO] -   Num Epochs = 625
[2022-08-18 11:42:58,989] [    INFO] -   Instantaneous batch size per device = 32
[2022-08-18 11:42:58,989] [    INFO] -   Total train batch size (w. parallel, distributed & accumulation) = 32
[2022-08-18 11:42:58,989] [    INFO] -   Gradient Accumulation steps = 1
[2022-08-18 11:42:58,989] [    INFO] -   Total optimization steps = 5000
[2022-08-18 11:42:58,989] [    INFO] -   Total num train samples = 160000

模型保存，以及指标性能

eval_loss: 3.820039987564087, eval_accuracy: 0.5625, eval_runtime: 3.6311, eval_samples_per_second: 66.095, eval_steps_per_second: 2.203, epoch: 125.0
 20%|███████▊                               | 1000/5000 [08:21<22:29,  2.96it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  7.33it/s]
                                                                                [2022-08-18 11:51:20,044] [    INFO] - Saving model checkpoint to ./checkpoints/checkpoint-1000
[2022-08-18 11:51:20,045] [    INFO] - Trainer.model is not a `PretrainedModel`, only saving its state dict.
[2022-08-18 11:51:26,610] [    INFO] - tokenizer config file saved in ./checkpoints/checkpoint-1000/tokenizer_config.json
[2022-08-18 11:51:26,610] [    INFO] - Special tokens file saved in ./checkpoints/checkpoint-1000/special_tokens_map.json

#多卡训练
# !unset CUDA_VISIBLE_DEVICES
# !python -u -m paddle.distributed.launch --gpus 0,1,2,3 train.py \
# --data_dir ./data \
# --output_dir ./checkpoints/ \
# --prompt "这条新闻标题的主题是" \
# --max_seq_length 128  \
# --learning_rate 3e-5 \
# --ppt_learning_rate 3e-4 \
# --do_train \
# --do_eval \
# --max_steps 1000 \
# --eval_steps 100 \
# --logging_steps 10 \
# --per_device_eval_batch_size 32 \
# --per_device_train_batch_size 8 \
# --do_predict \
# --do_export

1.2 预测

在模型训练时开启–do_predict，训练结束后直接进行预测，也可以在训练结束后，通过运行以下命令加载模型参数进行预测：

可配置参数说明：

data_dir: 测试数据路径。数据格式要求详见数据准备，数据应存放在该目录下test.txt文件中，每行一条待预测文本。

output_dir: 日志的保存目录。

resume_from_checkpoint: 训练时模型参数的保存目录，用于加载模型参数。

do_predict: 是否进行预测。

max_seq_length: 最大句子长度，超过该长度的文本将被截断，不足的以Pad补全。提示文本不会被截断。

!python train.py --do_predict --data_dir ./data/tnews --output_dir ./predict_ckpt --resume_from_checkpoint ./checkpoints --max_seq_length 128

[2022-08-18 13:04:45,520] [    INFO] - ***** Running Prediction *****
[2022-08-18 13:04:45,520] [    INFO] -   Num examples = 2010
[2022-08-18 13:04:45,520] [    INFO] -   Pre device batch size = 8
[2022-08-18 13:04:45,520] [    INFO] -   Total Batch size = 8
[2022-08-18 13:04:45,520] [    INFO] -   Total prediction steps = 252
 99%|████████████████████████████████████████▋| 250/252 [00:15<00:00, 16.99it/s]***** test metrics *****
  test_accuracy           =     0.5468
  test_loss               =     3.4095
  test_runtime            = 0:00:16.65
  test_samples_per_second =    120.664
  test_steps_per_second   =     15.128
100%|█████████████████████████████████████████| 252/252 [00:15<00:00, 16.44it/s]

2. 模型导出与部署

2.1 导出

在训练结束后，需要将动态图模型导出为静态图参数用于部署推理。可以在模型训练时开启–do_export在训练结束后直接导出，也可以运行以下命令加载并导出训练后的模型参数，默认导出到在output_dir指定的目录下。

python train.py --do_predict --data_dir ./data --output_dir ./predict_ckpt --resume_from_checkpoint ./ckpt/ --max_seq_length 128

可配置参数说明：

data_dir: 标签数据路径。数据格式要求详见数据准备。

output_dir: 静态图模型参数和日志的保存目录。

resume_from_checkpoint: 训练时模型参数的保存目录，用于加载模型参数。

do_export: 是否将模型导出为静态图，保存路径为output_dir/export。

2.2 模型部署

模型转换与ONNXRuntime预测部署依赖Paddle2ONNX和ONNXRuntime，Paddle2ONNX支持将Paddle静态图模型转化为ONNX模型格式，算子目前稳定支持导出ONNX Opset 7~15，更多细节可参考：Paddle2ONNX。

https://github.com/PaddlePaddle/Paddle2ONNX

如果基于GPU部署，请先确保机器已正确安装NVIDIA相关驱动和基础软件，确保CUDA >= 11.2，CuDNN >= 8.2，并使用以下命令安装所需依赖:

pip install paddle2onnx==1.0.0rc3
python -m pip install onnxruntime-gpu onnx onnxconverter-common

如果基于CPU部署，请使用如下命令安装所需依赖:

pip install paddle2onnx==1.0.0rc3
python -m pip install onnxruntime

CPU端推理样例

python infer.py --model_path_prefix ckpt/export/model --data_dir ./data --batch_size 32 --device cpu

GPU端推理样例

python infer.py --model_path_prefix ckpt/export/model --data_dir ./data --batch_size 32 --device gpu --device_id 0

可配置参数说明：

model_path_prefix: 导出的静态图模型路径及文件前缀。

model_name_or_path: 内置预训练模型名，或者模型参数配置目录路径，用于加载tokenizer。默认为ernie-3.0-base-zh。

data_dir: 待推理数据所在路径，数据应存放在该目录下的data.txt文件。

max_seq_length: 最大句子长度，超过该长度的文本将被截断，不足的以Pad补全。提示文本不会被截断。

batch_size: 每次预测的样本数量。

device: 选择推理设备，包括cpu和gpu。默认为gpu。

device_id: 指定GPU设备ID。

num_threads: 设置CPU使用的线程数。默认为机器上的物理内核数。

3.总结

预训练语言模型的参数空间比较大，如果在下游任务上直接对这些模型进行微调，为了达到较好的模型泛化性，需要较多的训练数据。在实际业务场景中，特别是垂直领域、特定行业中，训练样本数量不足的问题广泛存在，极大地影响这些模型在下游任务的准确度，因此，预训练语言模型学习到的大量知识无法充分地发挥出来。本项目实现基于预训练语言模型的小样本数据调优，从而解决大模型与小训练集不相匹配的问题。

小样本学习是机器学习领域未来很有前景的一个发展方向，它要解决的问题很有挑战性、也很有意义。小样本学习中最重要的一点就是先验知识的利用，如果我们妥善解决了先验知识的利用，能够做到很好的迁移性，想必那时我们距离通用AI也不远了。

最后也可以看出目前在新闻数据做的小样本demo性能结果上还有所欠缺，后续将进行改进。

展望： 后续将完成模型融合环节提升性能，并做可解释性分析。

本人博客：https://blog.csdn.net/sinat_39620217?type=blog

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务