【Datawhale学习笔记】NLP 概述

举报
JeffDing 发表于 2026/01/08 06:03:46 2026/01/08
【摘要】 NLP的定义 什么是NLP自然语言处理(Natural Language Processing, NLP) 是人工智能(AI)领域的重要组成部分,它赋予计算机 理解、解释、生成人类语言 的能力,并基于这些能力对文本数据进行决策 1。NLP 旨在弥合人类交流的模糊性、情境性和复杂性与计算机精确、形式化的指令系统之间的鸿沟。例如,计算机需要理解"我今天很蓝",这里的"蓝"并非颜色,而是情绪的表...

NLP的定义

什么是NLP

自然语言处理(Natural Language Processing, NLP) 是人工智能(AI)领域的重要组成部分,它赋予计算机 理解、解释、生成人类语言 的能力,并基于这些能力对文本数据进行决策 1。NLP 旨在弥合人类交流的模糊性、情境性和复杂性与计算机精确、形式化的指令系统之间的鸿沟。例如,计算机需要理解"我今天很蓝",这里的"蓝"并非颜色,而是情绪的表达——这对于机器来说是个挑战。

NLP的两大核心任务

  • 自然语言理解(Natural Language Understanding,NLU):输入是语言,输出是结构化信息。它负责"读懂",让计算机从非结构化的文本中提取意义
  • 自然语言生成(Natural Language Generation,NLG):输入是结构化信息,输出是语言。它负责"说出",将计算机内部的数据和决策转化为人类可读的文本。

NLP 的技术层次

  • 词法分析:处理文本的基础单元——词
  • 句法分析:分析句子的语法结构,形成"语法树",理解词语如何组合成句
  • 语义分析:理解句子和词语的真实含义,解决歧义问题
  • 语用分析:在特定语境下理解语言的意图,是 NLP 中最具挑战性的层次

NLP 的发展历程

萌芽期(1950s):图灵测试与早期探索

  • 1950年:阿兰·图灵发表论文《计算机器与智能》,提出"图灵测试",这成为了衡量机器智能的终极愿景,也为 NLP 设定了宏伟目标。
  • 1954年:乔治敦-IBM 实验首次实现了俄语到英语的自动翻译,证明了机器处理语言的可能性。当时的科学家乐观地预测"3-5 年内,机器翻译将成为已解决的问题"-事实证明,他们低估了语言的复杂性。

规则时代(1960s-1980s):符号主义的探索

这一时期由语言学家主导,主要思想是用逻辑规则来描述语言。他们相信,只要能写出足够完备的语法和逻辑规则,就能让计算机理解语言。

代表人物

诺姆·乔姆斯基(Noam Chomsky)的形式语言理论对该时期影响深远。

代表系统

  • ELIZA (1966):一个经典的聊天机器人,通过简单的关键词匹配和句式重组来模拟心理治疗师,让人们首次体验到与机器对话的奇妙。
  • SHRDLU (1970):一个更复杂的系统,能在虚拟积木世界中理解并执行"把红色积木放到蓝色积木上面"这类指令,展现了在限定领域内强大的语言理解能力。

瓶颈

语言的复杂性和歧义性远超想象,规则难以穷尽,且系统非常脆弱,无法处理规则之外的任何情况。

统计时代(1990s-2000s):数据的力量

研究范式发生重大转变:“与其让专家告诉计算机规则,不如让计算机自己从数据中学习规律”。

核心思想

一个语言现象的合理性,取决于它在真实文本中出现的概率。句子是否通顺,翻译是否准确,都变成了数学上的概率计算问题。

关键技术

N-gram 模型、隐马尔可夫模型(HMM)、条件随机场(CRF)等成为主流。

标志性应用

Google 翻译(2006年)基于统计机器翻译(SMT)上线,其翻译质量远超基于规则的系统,让大众首次享受到高质量机器翻译的便利。

深度学习时代(2010s-至今):智能的飞跃

神经网络的复兴,特别是深度学习,为NLP带来了革命性的突破。
词向量的诞生(2013):Word2Vec将词语表示为稠密的数字向量,让词语的“语义”可以被计算。经典的例子是 vector(‘国王’) - vector(‘男人’) + vector(‘女人’) 的结果与 vector(‘女王’) 高度相似,标志着机器开始真正“理解”词义 3。

里程碑模型:

  • 2017年 - Transformer:论文《Attention Is All You Need》发布,文中提出的注意力机制(Attention Mechanism) 允许模型在处理一个词时,同时"关注"句子中的所有其他词,极大地提升了处理长距离依赖的能力,成为后续所有大模型的基础架构 4。
  • 2018年 - BERT:它像一个"完形填空"大师,通过同时观察上下文来预测被遮盖的词语(双向训练),从而对语境有了更深刻的理解。BERT 的出现刷新了当时几乎所有 NLP 任务的榜单,开启了预训练-微调(Pre-train & Fine-tune) 的新范式 5。
  • 2020年 - GPT-3:以其1750亿的庞大参数量,展现了惊人的少样本/零样本(Few/Zero-shot) 学习能力,即无需大量标注数据也能完成新任务,标志着大语言模型(LLM) 时代的到来 6。
  • 2022年 - ChatGPT:通过指令微调和人类反馈强化学习(RLHF),ChatGPT 将大模型的能力以流畅对话的形式呈现给公众,引发了全球性的 AI 浪潮。

NLP 的主要任务

  • 文本分类(Text Classification)
  • 命名实体识别(NER)
  • 关系抽取(Relation Extraction)
  • 机器翻译(Machine Translation)
  • 文本摘要(Text Summarization)
  • 问答系统(Question Answering)
  • 文本生成(Text Generation)
  • 对话系统(Dialogue System)

NLP 面临的主要挑战

语言、知识与推理的挑战

语言的歧义性是 NLP 面临的首要经典难题。人类语言充满了多义性,既有像“朝阳”这样因读音不同而指代迥异(地名 cháo yáng vs 名词 zhāo yáng)的词法歧义,也有像“咬死了猎人的狗”这样因句法结构不同而产生完全相反解读的结构歧义。这种模糊性要求模型不仅要看懂字面意思,还要能根据上下文进行精准推断。而且,机器目前还缺乏人类与生俱来的常识与世界知识,所以它们在处理需要隐性背景知识的日常场景时容易“露怯”。虽然现代模型在信息检索和模式匹配上表现优异,但在需要深层推理能力的复杂逻辑判断、因果分析及创造性问题解决上仍显吃力。更深层的挑战在于对语境与文化的理解,反讽、幽默、成语以及层出不穷的网络梗,这些高度依赖特定文化背景和隐含语境的语言现象,往往让模型“摸不着头脑”,难以捕捉弦外之音。

技术、数据与伦理的挑战

虽然大语言模型在海量数据的喂养下,已经能较好地应对上述语义理解和常识推理的部分挑战,但这种生成式机制也带来了新的副作用。模型幻觉便是其中难以回避的顽疾,模型有时会以极度自信的语气编造事实,这种“一本正经地胡说八道”严重影响了它在新闻、法律、科研等严谨场景下的可靠性,确保生成内容的事实准确性已成为当前研究的重点。在数据层面,数据质量与稀缺性构成了双重困境。一方面,全球数千种语言中,只有英语、中文等少数语言拥有海量高质量数据,绝大多数语言属于低资源语言,难以享受技术进步的红利;另一方面,训练数据中潜藏的性别歧视、种族偏见等数据偏差一旦被模型内化甚至放大,便会导致算法产出不公平的观点。
与此同时,随着模型规模的指数级增长,计算成本也水涨船高。训练和部署顶尖大模型需要庞大的算力集群和惊人的能源消耗,这不仅构成了极高的经济门槛,阻碍了中小企业和研究机构的参与,也带来了不容忽视的碳排放问题。还有关于深度学习模型的“黑箱”性质带来的可解释性与安全性风险的担忧。我们难以知晓模型做出某个特定决策的具体依据,这在医疗诊断、金融风控等高风险领域是巨大的阻碍。同时,如何防止模型被恶意利用生成暴力、色情或虚假信息,构建安全、可控、符合人类价值观的 AI,是技术发展必须守住的底线。

参考资料

https://github.com/datawhalechina/base-nlp/blob/main/docs/chapter1/01_nlp_intro.md

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。