《TensorFlow自然语言处理》—1.2 自然语言处理的任务

举报
华章计算机 发表于 2019/07/20 21:48:34 2019/07/20
【摘要】 本节书摘来自华章计算机《TensorFlow自然语言处理》一书中的第1章,第1.2节,[澳] 图珊·加内格达拉(Thushan Ganegedara) 著 马恩驰 陆 健 译。

1.2 自然语言处理的任务

在现实世界中,NLP有很多实际的应用。一个好的NLP系统可以执行许多NLP任务。当你在Google上搜索今天的天气或使用谷歌翻译将“how are you?”翻译成法语时,你依赖NLP中的此类任务的一个子集。这里列出一些最普遍的任务,本书涵盖这些任务中的大部分:

  • 分词:该任务将文本语料库分隔成原子单元(例如,单词)。虽然看似微不足道,但是分词是一项重要任务。例如,在日语中,词语不以空格或标点符号分隔。

  • 词义消歧(WSD):WSD是识别单词正确含义的任务。例如,在句子“The dog barked

  • at the mailman”和“Tree bark is sometimes used as a medicine”中,单词bark有两种不同的含义。WSD对于诸如问答之类的任务至关重要。

  • 命名实体识别(NER):NER尝试从给定的文本主体或文本语料库中提取实体(例如,人物、位置和组织)。例如,句子“John gave Mary two apples at school on Monday”将转换为[John]name gave [Mary]name [two]number apples at [school]organization on [Monday.]time。NER在诸如信息检索和知识表示等领域不可或缺。

  • 词性(PoS)标记:PoS标记是将单词分配到各自对应词性的任务。它既可以是名词、动词、形容词、副词、介词等基本词、也可以是专有名词、普通名词、短语动词、动词等。

  • 句子/概要分类:句子或概要(例如,电影评论)分类有许多应用场景,例如垃圾邮件检测、新闻文章分类(例如,政治、科技和运动)和产品评论评级(即正向或负向)。我们可以用标记数据(即人工对评论标上正面或负面的标签)训练一个分类模型来实现这项任务。?

  • 语言生成:在语言生成中,我们使用文本语料库(包含大量文本文档)来训练学习模型(例如,神经网络),以预测后面的新文本。例如,可以通过使用现有的科幻故事训练语言生成模型,来输出一个全新的科幻故事。

  • 问答(QA):QA技术具有很高的商业价值,这些技术是聊天机器人和VA(例如,Google Assistant和Apple Siri)的基础。许多公司已经采用聊天机器人来提供客户支持。聊天机器人可用于回答和解决客户的直接问题(例如,更改客户的每月学习计划),这些任务无须人工干预即可解决。QA涉及NLP的许多其他方面,例如信息检索和知识表示。结果,所有这些任务都使得开发QA系统变得非常困难。

  • 机器翻译(MT):MT是将句子/短语从源语言(例如,德语)转换为目标语言(例如,英语)的任务。这是一项非常具有挑战性的任务,因为不同的语言具有不同的形态结构,这意味着它不是一对一的转换。此外,语言之间的单词到单词关系可以是一对多、一对一、多对一或多对多,这在MT文献中被称为单词对齐问题。

最后,为了开发一个可以帮助人们完成日常任务的系统(例如,VA或聊天机器人),许多这些任务需要合并执行。正如在前面的例子中看到的那样,当用户问:“你能告诉我附近有不错的意大利餐馆吗?”需要完成几个不同的NLP任务,比如语音转换到文本、语义和情感分析、问答和机器翻译。在图1.1中,我们对不同的NLP任务进行层级分类,将它们分为不同的类型。首先有两大类:分析(分析现有文本)和生成(生成新文本)任务。然后将分析分为三个不同的类别:句法(基于语言结构的任务)、语义(基于意义的任务)和实用(难以解决的公开问题):

 image.png

图1.1 流行NLP任务在更广泛意义下的层级分类

了解了NLP中的各种任务后,让我们继续了解如何借助机器解决这些任务。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。