elasticsearch vs solr

举报
Amrf 发表于 2019/12/08 14:02:57 2019/12/08
【摘要】 项目里一直使用的lucene,中间大概升级了2-3次lucene版本,然后项目的负荷也不同,没有太多的分布式需求, 所以也就没有切换到solr;分词器早期的时候是用的庖丁,后来由于庖丁没有停用词和同义词并且也长期无人维护就切换到了word中文分词;经常看到一些elasticsearch相关的推送,今天就记录一下一些粗略的对比;solr的主要特点:全文索引高亮分面搜索实时索引动态聚类数据库集成...

项目里一直使用的lucene,中间大概升级了2-3次lucene版本,然后项目的负荷也不重,没有太多的分布式需求, 所以也就没有切换到solr;分词器早期的时候是用的庖丁,后来由于庖丁没有停用词和同义词并且也长期无人维护就切换到了word中文分词;

经常看到一些elasticsearch相关的推送,今天就摘录一下一些粗略的对比;

solr的主要特点:

  • 全文索引

  • 高亮

  • 分面搜索

  • 实时索引

  • 动态聚类

  • 数据库集成

  • NoSQL特性和丰富的文档处理(例如Word和PDF文件)

Elasticsearch主要特性:

  • 分布式搜索

  • 多租户

  • 查询统计分析

  • 分组和聚合

solr一样,Elasticsearch构建在Apache Lucene库之上,同开源搜索引擎

Solr专注于文本搜索,而Elasticsearch常用于查询过滤和分组分析统计

Solr 基于Apache ZooKeeper也实现了类似ES的分布式部署模式,相对比,Elasticsearch有一个内置的类似ZooKeeper的名为Zen的组件,通过内部的协调机制来维护集群状态。

Solr接受来自不同来源的数据,包括XML文件,逗号分隔符(CSV)文件和从数据库中的表提取的数据以及常见的文件格式(如Microsoft WordPDF)。

Elasticsearch还支持其他来源的数据,例如ActiveMQAWS SQSDynamoDBAmazon NoSQL),FileSystemGitJDBCJMSKafkaLDAPMongoDBneo4jRabbitMQRedisSolrTwitter。还有各种插件可用。


Solr的优缺点

优点

  1. Solr有一个更大、更成熟的用户、开发和贡献者社区。

  2. 支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。

  3. Solr比较成熟、稳定。

  4. 不考虑建索引的同时进行搜索,速度更快。

缺点

  1. 建立索引时,搜索效率下降,实时索引搜索效率不高

Elasticsearch的优缺点**:

优点

  1. Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。

  2. Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。

  3. 处理多租户multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。

  4. Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。

  5. 各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。

缺点

  1. 只有一名开发者(当前Elasticsearch GitHub组织已经不只如此,已经有了相当活跃的维护者)

  2. 还不够自动(不适合当前新的Index Warmup API)

参考:

solr-vs-elasticsearch-top-open-source-search

Solr vs. Elasticsearch谁是开源搜索引擎王者

http://i.zhcy.tk/blog/elasticsearchyu-solr/

https://opensourceconnections.com/blog/2019/02/28/stop-worrying-solr-elasticsearch/


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。