Elasticsearch5.X添加searchguard后TransportClient如何连接
Elasticsearch • yanlei 回复了问题 • 9 人关注 • 8 个回复 • 9296 次浏览 • 2017-09-27 17:49
磁盘挂载到数据目录系统无法启动
Elasticsearch • typuc 回复了问题 • 2 人关注 • 1 个回复 • 3195 次浏览 • 2017-05-20 23:29
replica的分配
Elasticsearch • c981337 回复了问题 • 2 人关注 • 2 个回复 • 5060 次浏览 • 2017-05-22 11:58
logstash怎样从elasticsearch中指定field,结合kafka处理返回一个新的field并存入原有的记录
Logstash • medcl 回复了问题 • 2 人关注 • 1 个回复 • 2942 次浏览 • 2017-05-26 13:10
招聘 Elastic search 培训师/项目经理 20k +
求职招聘 • oniza 发表了文章 • 0 个评论 • 5802 次浏览 • 2017-05-19 11:52
薪酬: 月工资20k +
工作地点:北京/上海/深圳 愿意出差,因工作情况会全国飞
任职要求:
1、计算机相关专业,本科以上学历,具有3年以上搜索引擎及相关开发经验;
2、较强的java编程基础,熟悉Git代码管理,有多分支并行开发经验;
3、熟练使用开源搜索工具Logstash,ElasticSearch,熟悉其原理和源代码,能熟练的修改开源工具以适合业务场景的需求;
4、熟悉Lucene以及Kibana,有实际的产品使用经历;
5、具有良好的沟通能力和责任心。
薪酬: 月工资20k +
工作地点:北京/上海/深圳 愿意出差,因工作情况会全国飞
任职要求:
1、计算机相关专业,本科以上学历,具有3年以上搜索引擎及相关开发经验;
2、较强的java编程基础,熟悉Git代码管理,有多分支并行开发经验;
3、熟练使用开源搜索工具Logstash,ElasticSearch,熟悉其原理和源代码,能熟练的修改开源工具以适合业务场景的需求;
4、熟悉Lucene以及Kibana,有实际的产品使用经历;
5、具有良好的沟通能力和责任心。
elasticsearch 启动报错
Elasticsearch • medcl 回复了问题 • 2 人关注 • 1 个回复 • 4443 次浏览 • 2017-05-26 13:18
无法获取 x-pack-transport
Elasticsearch • zhuqitian 回复了问题 • 3 人关注 • 3 个回复 • 12518 次浏览 • 2017-05-22 13:57
Elasticsearch主副分片异步同步设置
Elasticsearch • kennywu76 回复了问题 • 3 人关注 • 1 个回复 • 11275 次浏览 • 2017-05-19 11:58
如何使用template为所有字段指定分词器
Elasticsearch • medcl 回复了问题 • 3 人关注 • 1 个回复 • 6208 次浏览 • 2017-05-26 13:20
unassigned shards
Elasticsearch • typuc 回复了问题 • 3 人关注 • 3 个回复 • 4759 次浏览 • 2017-05-20 23:37
elasticsearch 倒排索引
Elasticsearch • kennywu76 回复了问题 • 2 人关注 • 1 个回复 • 6047 次浏览 • 2017-05-19 09:31
找寻TF_IDF和BM25的评分计算优化排序
Elasticsearch • jiakechong1642 发表了文章 • 1 个评论 • 5622 次浏览 • 2017-05-18 15:44
2.首先是TFIDF
使用ik_smart分词器,ES为2.3.3
文档是:分词结果是
"伟业我爱我家" 分词结果:【伟业,我,爱我,家】
"我爱我家" 【我,爱我,家】
这两个。
multi_match 匹配,query=我爱我家
排名如下
-----------------------------------------------------------
"伟业我爱我家" "_score": 6.8563557,
详细参数
"我":tf=1,idf=6.7638364,fieldNorm=0.5,queryNorm=0.07292504,
“爱我”: tf=1,idf=6.7638364,fieldNorm=0.5,queryNorm=0.07292504
“家”: tf=1,idf=6.278329,fieldNorm=0.5,queryNorm=0.07292504
----------------------------------------------------------
"我爱我家" "_score": 6.7839246,
"我":tf=1,idf=6.9336233,fieldNorm=0.5,queryNorm=0.07370365,
“爱我”: tf=1,idf=6.9336233,fieldNorm=0.5,queryNorm=0.07370365
“家”: tf=1,idf=6.9336233,fieldNorm=0.5,queryNorm=0.07370365
---------------------------------------------------------
其中queryNorm是由每个term词项的idf综合计算而来,所以在每个文档中,他都是一样的。
然后仔细比较得分,觉得每个得分都可以被推算出来
但是排序结果不符合期望:
queryNorm 官方文档也说了基本没有什么用
tf=1没什么可说
idf有些问题,比如"爱我"在这两个文档中是不同的(这是因为这两个文档在不同的分片中引起的)
那这么说来,TFIDF的得分就仅仅受tf,idf,fieldNorm控制,
而idf因为分片不均匀可能会出现一点差异,fieldNorm又犹由于精度让长度为3或者4 的文档值都为0.5
。综上:tfidf在这种量不多(200万)的短文本检索下,效果很差。
这种情况下,我该怎么优化这个排序呢(让“我爱我家”,排在"伟业我爱我家"前面呢?)
------------------BM25的详情稍后补上-------------------------
logstash收集系统日志,日志收集内容与显示文件名不一致
Logstash • medcl 回复了问题 • 2 人关注 • 1 个回复 • 4312 次浏览 • 2017-06-05 16:11
为什么filter对suggest起不到过滤的作用?
回复Elasticsearch • 匿名用户 发起了问题 • 1 人关注 • 0 个回复 • 5294 次浏览 • 2017-05-18 14:43
可以给节点设置权重么?
Elasticsearch • Yuna 回复了问题 • 3 人关注 • 1 个回复 • 5180 次浏览 • 2017-05-24 10:18