【NLP】学不会打我 半小时学会基本操作 14 文本处理 <PAD><EOS><UNK><GO>
【摘要】
【NLP】⚠️学不会打我! 半小时学会基本操作 14⚠️ 文本处理
概述文本处理
概述
从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以...
概述
从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.
文本处理
我们在进行文本处理的时候, 经常会遇到句子长度不一致, 遇到奇奇怪怪的符号等问题. 这时候我们就需要特殊字符来帮助我们解决这些问题.
<PAD>
可以帮助我们填充句子长度不足的部分. 在我们 NLP 训练的过程中, 我们会将数据按 Batch 输入, 但是这些 Batch 必须拥有相同的长度.
<UNK>
可以帮助我们替换词汇表里不存在的字符, 例如一些低频词, 或者低频字, 或者特殊符号.
<GO>
会放在句子的开头, 用于告诉模型这是句子输入的开始, 即第一个时间步长的输入.
<EOS>
会放在句子的结尾, 用于告诉模型这是句子输入的结束.
文章来源: iamarookie.blog.csdn.net,作者:我是小白呀,版权归原作者所有,如需转载,请联系作者。
原文链接:iamarookie.blog.csdn.net/article/details/121781190
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)