elasticsearch扩展ik分词器词库

举报
经典鸡翅 发表于 2022/02/17 22:12:11 2022/02/17
【摘要】 操作步骤 1、进入elasticsearch的plugin,进入ik。进入config。 2、在config下面建立以.dic为后缀的字典。在建立的时候一定要注意文本的报错格式,请保存为utf-8格式的,其他格式不能使用。文件如果在linux中通过vi生成,则不用管格式。可以直接使用。 3、建立好后,在里面输入我们的扩展词语。...

操作步骤

1、进入elasticsearch的plugin,进入ik。进入config。
2、在config下面建立以.dic为后缀的字典。在建立的时候一定要注意文本的报错格式,请保存为utf-8格式的,其他格式不能使用。文件如果在linux中通过vi生成,则不用管格式。可以直接使用。
3、建立好后,在里面输入我们的扩展词语。每个扩展词语一行。
4、维护好字典后,编辑IKAnalyzer.cfg.xml。


   
  1. <properties>
  2.   <comment>IK Analyzer 扩展配置</comment>
  3.   <!--用户可以在这里配置自己的扩展字典,多个字典使用;号进行隔开 -->
  4.   <entry key="ext_dict">custom.dic</entry>
  5.   <!--用户可以在这里配置自己的扩展停止词字典-->
  6.   <entry key="ext_stopwords">custom.dic</entry>
  7. </properties>

所谓停止词字典,就是说如果遇到该词请不要认为是一个词。
5、重启后,分词效果即生效。

文章来源: blog.csdn.net,作者:经典鸡翅,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/hanqing456/article/details/111878954

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。