【NLP】学不会打我 半小时学会基本操作 14 文本处理 <PAD><EOS><UNK><GO>

举报
我是小白呀iamarookie 发表于 2021/12/08 23:27:35 2021/12/08
【摘要】 【NLP】⚠️学不会打我! 半小时学会基本操作 14⚠️ 文本处理 概述文本处理 概述 从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以...

【NLP】⚠️学不会打我! 半小时学会基本操作 14⚠️ 文本处理

概述

从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.

在这里插入图片描述

文本处理

我们在进行文本处理的时候, 经常会遇到句子长度不一致, 遇到奇奇怪怪的符号等问题. 这时候我们就需要特殊字符来帮助我们解决这些问题.

在这里插入图片描述

<PAD>可以帮助我们填充句子长度不足的部分. 在我们 NLP 训练的过程中, 我们会将数据按 Batch 输入, 但是这些 Batch 必须拥有相同的长度.

<UNK>可以帮助我们替换词汇表里不存在的字符, 例如一些低频词, 或者低频字, 或者特殊符号.

<GO>会放在句子的开头, 用于告诉模型这是句子输入的开始, 即第一个时间步长的输入.

<EOS>会放在句子的结尾, 用于告诉模型这是句子输入的结束.

在这里插入图片描述

文章来源: iamarookie.blog.csdn.net,作者:我是小白呀,版权归原作者所有,如需转载,请联系作者。

原文链接:iamarookie.blog.csdn.net/article/details/121781190

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。