NLTK-003:词典资源

举报
冬晨夕阳 发表于 2022/03/30 01:24:25 2022/03/30
【摘要】 词典或者词典资源的意思是一个 词或短语 以及一些相关信息的集合。例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。 词汇列表语料库 nltk.corpus.words ...

词典或者词典资源的意思是一个 词或短语 以及一些相关信息的集合。例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。

词汇列表语料库

nltk.corpus.words
仅仅包含词汇列表的语料库,可以用来寻找文本语料中不常见的或者拼写错误的词汇

import nltk
def unusual_words(text):
    text_vocab = set([w.lower() for w in text if w.isalpha()])
    english_vocab = set([w.lower() for w in nltk.corpus.words.words()])
    unusual = text_vocab.difference(english_vocab)#集合的差集
    return sorted(unusual)

print unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

输出:[u’abbeyland’, u’abhorred’, u’abilities’, u’abounded’, u’abridgement’, u’abused’, u’abuses’, …u’years’, u’yielded’, u’youngest’]

停用词语料库

print(nltk.corpus.stopwords.words('english'))#英语停用词

  
 
  • 1

输出:[‘i’, ‘me’, ‘my’, ‘myself’, ‘we’, ‘our’, ‘ours’, …wouldn’t"]

print(nltk.corpus.stopwords.words('French'))#法语停用词

  
 
  • 1

名字语料库

nltk.corpus.names
包括8000个按性别分类的名字。男女的名字存储在单独的文件

names = nltk.corpus.names
cfd = nltk.ConditionalFreqDist(
    (fileid, name[-1])
    for fileid in names.fileids()
    for name in names.words(fileid))

cfd.plot()

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

在这里插入图片描述

发音的词典
属于表格词典 ,NLTK中包括美国CMU发音词典,它是为语音合成器使用而设计的。

entries = nltk.corpus.cmudict.entries()
for entr in entries:
    print(entr)

  
 
  • 1
  • 2
  • 3

输出结果:在这里插入图片描述
对任意一个词,词典资源都有语音的代码——不同的声音有着不同的标签称作音素

比较词表
nltk.corpus.swadesh
包括几种语言的约200个常用词的列表

from nltk.corpus import swadesh
swadesh.fileids()

  
 
  • 1
  • 2

输出结果:[‘be’, ‘bg’, ‘bs’, ‘ca’, ‘cs’, ‘cu’, ‘de’, ‘en’, ‘es’, ‘fr’, ‘hr’, ‘it’, ‘la’, ‘mk’, ‘nl’, ‘pl’, ‘pt’, ‘ro’, ‘ru’, ‘sk’, ‘sl’, ‘sr’, ‘sw’, ‘uk’]

swadesh.words('en')#英语

  
 
  • 1

输出结果:[u’I’,u’you (singular), thou’,u’he’,u’we’,…u’if’, u’because’, u’name’]

简单的翻译器

fr2en = swadesh.entries(['fr','en'])
translate = dict(fr2en)
print(translate['chien'])
print(translate['nom'])

  
 
  • 1
  • 2
  • 3
  • 4

输出: dog、name

文章来源: blog.csdn.net,作者:考古学家lx,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/weixin_43582101/article/details/90290866

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。