社区日报 第167期 (2018-01-23)
http://t.cn/RQTbVuA
2.eBay Elasticsearch 性能优化实战之中文篇。
http://t.cn/RQTbKQn
3.Elastic Filebeat 快速入门。
http://t.cn/RQTbjQy
编辑:叮咚光军
归档:https://elasticsearch.cn/article/466
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQTbVuA
2.eBay Elasticsearch 性能优化实战之中文篇。
http://t.cn/RQTbKQn
3.Elastic Filebeat 快速入门。
http://t.cn/RQTbjQy
编辑:叮咚光军
归档:https://elasticsearch.cn/article/466
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
如何运行一个elasticsearch集群
Elasticsearch 和大多数的组件是一样,你若想要她全心全意的为你服务,你就必须满足她的需求,毕竟巧妇也难为无米之炊嘛。 Elasticsearch 的要求不高,仅仅需要合适的操作系统和JVM版本,这是最基本的要求了,如果无法满足还请放开她。
操作系统

若没有特殊说明,以后文章中ES的操作系统运行环境默认为 :
CentOS Linux release 7.2.1511 (Core)
JVM

若没有特殊说明,以后文章中运行ES的Java版本默认为 :
Java version 1.8.0_102
挑选合适的Elasticsearch版本
如何选择Elasticsearch 版本与如何选择找女朋友的原理是一样的。 新的版本、年轻的姑娘相信大家都喜欢.但是新的姑娘大部都分经历少、 可能家务也不会做,如果这缺点你有接受那没有问题。新的Elasticsearch 版本也是一样, 新的Elasticsearch 插件的支持可能没有那么好,新特性未被实际的生产环境验证过,如果 这些都能容忍,那么使用最新的Elasticsearch版本是最好的选择。
下载Elasticsearch
Elasticsearch下载 ( ← 右击在新标签页打开 ^-^)
解压到指定位置
1. mkdir -p $ES_HOME_PARENT //创建用于存放elasticsearch组件的父目录
2. tar -zxvf elasticsearch-6.1.1.tar.gz -C $ES_HOME_PARENT
3. cd $ES_HOME_PARENT
4. mv elasticsearch-6.1.1 es-6.1.1_benchmark611 //修改个名称
5. mkdir -p $ES_DATA_PATH/store/es-6.1.1_benchmark611 //用于存放Elasticsearch 数据
6. mkdir -p $ES_DATA_PATH/logs/es-6.1.1_benchmark611 //用于存放Elasticsearch 日志
启动前检查
Linux 系统参数检查
为什么要设置这些系统参数呢?如果不设置会对集群产生哪些影响呢?
文件句柄( File Descriptors) 如果设置过小的文件句柄,Elasticsearch 将无法与集群进行通信以及创建新的索引。
内存锁定(Memory Lock) 如果没有锁定内存,操作系统会扫描不使用的内存并把他交换到磁盘上,需要的时候 在加载到内存中。这样的操作会引起磁盘抖动,对于低延时的请求会造成比较大的伤害。 因为JVM已经有垃圾回收器,所以不需要操作系统层面的策略来管理内存,在这里我们 锁定内存来阻止系统层面插手内存管理 。
用户线程限制(User maximum number of threads) Elasticsearch 中有各种线程池,每种线程池里都会运行着不同的任务,如果操作系统支持的用户线程数据设置的较低, 集群将无法创建更多的线程运行任务,导致集群无法正常工作。
虚拟内存(Virtual Memory) 操作系统默认virtual memory都是unlimited,如果不是就重新设置,主要与内存映射总数配置同时设置,加速访问索引数据访问。
设置 文件句柄( File Descriptors) 、 内存锁定(Memory Lock)、用户线程限制(User maximum number of threads)
如下图,我已经修改了操作系统设置,如果你还没设置请用下面的命令设置
查询命令(ulimit -a)

修改命令(执行此命令需要root 权限)
vim /etc/security/limits.conf
esadmin soft nproc 40000
esadmin hard nproc 40000
esadmin soft nofile 65536
esadmin hard nofile 65536
esadmin soft memlock -1
esadmin hard memlock -1
内存映射总数(Max Map Count)
内存映射总数(Max Map Count) Elasticsearch使用mmap把索引映射到虚拟内存空间,Elasticsearch 同样也需求足够的数据来创建内存映射区域。 Elasticsearch 要求最大内存映射总数至少设置 262144,过小可能无法完成索引的映射
修改命令(执行此命令需要root 权限)
sysctl -w vm.max_map_count=262144
除了以上只是启动前更多需要检查的配置如下
ES启动前检查 ( ← 右击在新标签页打开 ^-^)
集群运行最少的参数配置
这是Master Node 配置参数
vim $ES_HOME/config/elasticsearch.yml
# ======================== ES 参数配置 =========================
#
#
# ------------------------ 集群设定 ----------------------------
#
# 集群名称
cluster.name: benchmark612
#
# ------------------------ 节点设定 ----------------------------
#
# 节点名称
node.name: ${HOSTNAME}
#
# 节点角色
node.master: true
node.data: false
node.ingest: false
#
# ------------------------ 路径设定 ----------------------------
#
# 索引、日志存放路径
path:
data: /data/store/es-6.1.2_benchmark612
logs: /data/logs/es-6.1.2_benchmark612
#
# ------------------------ 内存设定 ----------------------------
#
#
# 锁定内存,阻止操作系统管理内存,可以有效的防止内存数据被交换到磁盘空间,
# 交换过程中磁盘会抖动,会对性能产生较大的影响。因为ES是基于JAVA开发的
# 可以能过垃圾回收器来单独管理内存,所以关闭操作系统级别的内存管理可以
# 提升性能
bootstrap.memory_lock: true
#
# ------------------------ 网络设定 ----------------------------
#
# 绑定节点上的所有网络接口,用于接收通过任意网卡传输过来的请求
network.bind_host: 0.0.0.0
#
# 绑定一个网络接口(网卡),用于集群内部节点通信(一般选择吞吐量大的网卡)
network.publish_host: _eth0:ipv4_
#
# HTTP 通信端口
http.port: 50000
#
# TCP 通信端口
transport.tcp.port: 50100
#
# --------------------------------- 集群发现 模块 ----------------------------------
#
# 集群初始化连接列表,节点启动后,首先通过连接初始化列表里的地址去发现集群。
discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]
#
# 为了防止集群脑裂,目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台,可以完成选举),集群才会进行master选举
discovery.zen.minimum_master_nodes: 2
#
# ---------------------------------- 其它 -----------------------------------
#
# 关闭操作系统内核验证(我的操作系统没有升级,如果不关闭验证则无法启动)
bootstrap.system_call_filter: false
#
# ------------------------ HTTP ----------------------------
#
# 是否支持跨域访问资源
http.cors.enabled: true
#
#
#允许访问资源的类型
http.cors.allow-origin: "*"
#
#
# 允许HTTP请求的方法类型
http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
#
# 允许HTTP请求头返回类型
http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding
#
# 支持HTTP访问API 总开关
http.enabled: true
#
#
这是Data Node 配置参数
vim $ES_HOME/config/elasticsearch.yml
# ======================== ES 参数配置 =========================
#
#
# ------------------------ 集群设定 ----------------------------
#
# 集群名称
cluster.name: benchmark612
#
# ------------------------ 节点设定 ----------------------------
#
# 节点名称
node.name: ${HOSTNAME}
#
# 节点角色
node.master: false
node.data: true
node.ingest: false
#
# ------------------------ 路径设定 ----------------------------
#
# 索引、日志存放路径
path:
data: /data/store/es-6.1.2_benchmark612
logs: /data/logs/es-6.1.2_benchmark612
#
# ------------------------ 内存设定 ----------------------------
#
#
# 锁定内存,阻止操作系统管理内存,可以有效的防止内存数据被交换到磁盘空间,
# 交换过程中磁盘会抖动,会对性能产生较大的影响。因为ES是基于JAVA开发的
# 可以能过垃圾回收器来单独管理内存,所以关闭操作系统级别的内存管理可以
# 提升性能
bootstrap.memory_lock: true
#
# ------------------------ 网络设定 ----------------------------
#
# 绑定节点上的所有网络接口,用于接收通过任意网卡传输过来的请求
network.bind_host: 0.0.0.0
#
# 绑定一个网络接口(网卡),用于集群内部节点通信(一般选择吞吐量大的网卡)
network.publish_host: _eth0:ipv4_
#
# HTTP 通信端口
http.port: 50000
#
# TCP 通信端口
transport.tcp.port: 50100
#
# --------------------------------- 集群发现 模块 ----------------------------------
#
# 集群初始化连接列表,节点启动后,首先通过连接初始化列表里的地址去发现集群。
discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]
#
# 为了防止集群脑裂,目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台,可以完成选举),集群才会进行master选举
discovery.zen.minimum_master_nodes: 2
#
# ---------------------------------- 其它 -----------------------------------
#
# 关闭操作系统内核验证(我的操作系统没有升级,如果不关闭验证则无法启动)
bootstrap.system_call_filter: false
#
相信细心的同学发现了Master和Data 配置的区别
1) 区别一, Master 和 Data 节点角色配置的不同
# 节点角色 Master
node.master: true
node.data: false
node.ingest: false
# 节点角色 Data
node.master: false
node.data: true
node.ingest: false
2) 区别二, Master 设置了HTTP 相关参数,如果不设置,将无法通过HEAD能插件来访问集群
#
# ------------------------ HTTP ----------------------------
#
# 是否支持跨域访问资源
http.cors.enabled: true
#
#
#允许访问资源的类型
http.cors.allow-origin: "*"
#
#
# 允许HTTP请求的方法类型
http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
#
# 允许HTTP请求头返回类型
http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding
#
# 支持HTTP访问API 总开关
http.enabled: true
#
不设置HTTP参数

设置HTTP参数后

到这里,一个Elasticsearch 就正常的运行起来了。
转自: http://elasticsearch.club/elasticsearch/es-tutorial/how-to-run-an-elasticsearch-cluster/
Elasticsearch 和大多数的组件是一样,你若想要她全心全意的为你服务,你就必须满足她的需求,毕竟巧妇也难为无米之炊嘛。 Elasticsearch 的要求不高,仅仅需要合适的操作系统和JVM版本,这是最基本的要求了,如果无法满足还请放开她。
操作系统

若没有特殊说明,以后文章中ES的操作系统运行环境默认为 :
CentOS Linux release 7.2.1511 (Core)
JVM

若没有特殊说明,以后文章中运行ES的Java版本默认为 :
Java version 1.8.0_102
挑选合适的Elasticsearch版本
如何选择Elasticsearch 版本与如何选择找女朋友的原理是一样的。 新的版本、年轻的姑娘相信大家都喜欢.但是新的姑娘大部都分经历少、 可能家务也不会做,如果这缺点你有接受那没有问题。新的Elasticsearch 版本也是一样, 新的Elasticsearch 插件的支持可能没有那么好,新特性未被实际的生产环境验证过,如果 这些都能容忍,那么使用最新的Elasticsearch版本是最好的选择。
下载Elasticsearch
Elasticsearch下载 ( ← 右击在新标签页打开 ^-^)
解压到指定位置
1. mkdir -p $ES_HOME_PARENT //创建用于存放elasticsearch组件的父目录
2. tar -zxvf elasticsearch-6.1.1.tar.gz -C $ES_HOME_PARENT
3. cd $ES_HOME_PARENT
4. mv elasticsearch-6.1.1 es-6.1.1_benchmark611 //修改个名称
5. mkdir -p $ES_DATA_PATH/store/es-6.1.1_benchmark611 //用于存放Elasticsearch 数据
6. mkdir -p $ES_DATA_PATH/logs/es-6.1.1_benchmark611 //用于存放Elasticsearch 日志
启动前检查
Linux 系统参数检查
为什么要设置这些系统参数呢?如果不设置会对集群产生哪些影响呢?
文件句柄( File Descriptors) 如果设置过小的文件句柄,Elasticsearch 将无法与集群进行通信以及创建新的索引。
内存锁定(Memory Lock) 如果没有锁定内存,操作系统会扫描不使用的内存并把他交换到磁盘上,需要的时候 在加载到内存中。这样的操作会引起磁盘抖动,对于低延时的请求会造成比较大的伤害。 因为JVM已经有垃圾回收器,所以不需要操作系统层面的策略来管理内存,在这里我们 锁定内存来阻止系统层面插手内存管理 。
用户线程限制(User maximum number of threads) Elasticsearch 中有各种线程池,每种线程池里都会运行着不同的任务,如果操作系统支持的用户线程数据设置的较低, 集群将无法创建更多的线程运行任务,导致集群无法正常工作。
虚拟内存(Virtual Memory) 操作系统默认virtual memory都是unlimited,如果不是就重新设置,主要与内存映射总数配置同时设置,加速访问索引数据访问。
设置 文件句柄( File Descriptors) 、 内存锁定(Memory Lock)、用户线程限制(User maximum number of threads)
如下图,我已经修改了操作系统设置,如果你还没设置请用下面的命令设置
查询命令(ulimit -a)

修改命令(执行此命令需要root 权限)
vim /etc/security/limits.conf
esadmin soft nproc 40000
esadmin hard nproc 40000
esadmin soft nofile 65536
esadmin hard nofile 65536
esadmin soft memlock -1
esadmin hard memlock -1
内存映射总数(Max Map Count)
内存映射总数(Max Map Count) Elasticsearch使用mmap把索引映射到虚拟内存空间,Elasticsearch 同样也需求足够的数据来创建内存映射区域。 Elasticsearch 要求最大内存映射总数至少设置 262144,过小可能无法完成索引的映射
修改命令(执行此命令需要root 权限)
sysctl -w vm.max_map_count=262144
除了以上只是启动前更多需要检查的配置如下
ES启动前检查 ( ← 右击在新标签页打开 ^-^)
集群运行最少的参数配置
这是Master Node 配置参数
vim $ES_HOME/config/elasticsearch.yml
# ======================== ES 参数配置 =========================
#
#
# ------------------------ 集群设定 ----------------------------
#
# 集群名称
cluster.name: benchmark612
#
# ------------------------ 节点设定 ----------------------------
#
# 节点名称
node.name: ${HOSTNAME}
#
# 节点角色
node.master: true
node.data: false
node.ingest: false
#
# ------------------------ 路径设定 ----------------------------
#
# 索引、日志存放路径
path:
data: /data/store/es-6.1.2_benchmark612
logs: /data/logs/es-6.1.2_benchmark612
#
# ------------------------ 内存设定 ----------------------------
#
#
# 锁定内存,阻止操作系统管理内存,可以有效的防止内存数据被交换到磁盘空间,
# 交换过程中磁盘会抖动,会对性能产生较大的影响。因为ES是基于JAVA开发的
# 可以能过垃圾回收器来单独管理内存,所以关闭操作系统级别的内存管理可以
# 提升性能
bootstrap.memory_lock: true
#
# ------------------------ 网络设定 ----------------------------
#
# 绑定节点上的所有网络接口,用于接收通过任意网卡传输过来的请求
network.bind_host: 0.0.0.0
#
# 绑定一个网络接口(网卡),用于集群内部节点通信(一般选择吞吐量大的网卡)
network.publish_host: _eth0:ipv4_
#
# HTTP 通信端口
http.port: 50000
#
# TCP 通信端口
transport.tcp.port: 50100
#
# --------------------------------- 集群发现 模块 ----------------------------------
#
# 集群初始化连接列表,节点启动后,首先通过连接初始化列表里的地址去发现集群。
discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]
#
# 为了防止集群脑裂,目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台,可以完成选举),集群才会进行master选举
discovery.zen.minimum_master_nodes: 2
#
# ---------------------------------- 其它 -----------------------------------
#
# 关闭操作系统内核验证(我的操作系统没有升级,如果不关闭验证则无法启动)
bootstrap.system_call_filter: false
#
# ------------------------ HTTP ----------------------------
#
# 是否支持跨域访问资源
http.cors.enabled: true
#
#
#允许访问资源的类型
http.cors.allow-origin: "*"
#
#
# 允许HTTP请求的方法类型
http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
#
# 允许HTTP请求头返回类型
http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding
#
# 支持HTTP访问API 总开关
http.enabled: true
#
#
这是Data Node 配置参数
vim $ES_HOME/config/elasticsearch.yml
# ======================== ES 参数配置 =========================
#
#
# ------------------------ 集群设定 ----------------------------
#
# 集群名称
cluster.name: benchmark612
#
# ------------------------ 节点设定 ----------------------------
#
# 节点名称
node.name: ${HOSTNAME}
#
# 节点角色
node.master: false
node.data: true
node.ingest: false
#
# ------------------------ 路径设定 ----------------------------
#
# 索引、日志存放路径
path:
data: /data/store/es-6.1.2_benchmark612
logs: /data/logs/es-6.1.2_benchmark612
#
# ------------------------ 内存设定 ----------------------------
#
#
# 锁定内存,阻止操作系统管理内存,可以有效的防止内存数据被交换到磁盘空间,
# 交换过程中磁盘会抖动,会对性能产生较大的影响。因为ES是基于JAVA开发的
# 可以能过垃圾回收器来单独管理内存,所以关闭操作系统级别的内存管理可以
# 提升性能
bootstrap.memory_lock: true
#
# ------------------------ 网络设定 ----------------------------
#
# 绑定节点上的所有网络接口,用于接收通过任意网卡传输过来的请求
network.bind_host: 0.0.0.0
#
# 绑定一个网络接口(网卡),用于集群内部节点通信(一般选择吞吐量大的网卡)
network.publish_host: _eth0:ipv4_
#
# HTTP 通信端口
http.port: 50000
#
# TCP 通信端口
transport.tcp.port: 50100
#
# --------------------------------- 集群发现 模块 ----------------------------------
#
# 集群初始化连接列表,节点启动后,首先通过连接初始化列表里的地址去发现集群。
discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]
#
# 为了防止集群脑裂,目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台,可以完成选举),集群才会进行master选举
discovery.zen.minimum_master_nodes: 2
#
# ---------------------------------- 其它 -----------------------------------
#
# 关闭操作系统内核验证(我的操作系统没有升级,如果不关闭验证则无法启动)
bootstrap.system_call_filter: false
#
相信细心的同学发现了Master和Data 配置的区别
1) 区别一, Master 和 Data 节点角色配置的不同
# 节点角色 Master
node.master: true
node.data: false
node.ingest: false
# 节点角色 Data
node.master: false
node.data: true
node.ingest: false
2) 区别二, Master 设置了HTTP 相关参数,如果不设置,将无法通过HEAD能插件来访问集群
#
# ------------------------ HTTP ----------------------------
#
# 是否支持跨域访问资源
http.cors.enabled: true
#
#
#允许访问资源的类型
http.cors.allow-origin: "*"
#
#
# 允许HTTP请求的方法类型
http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
#
# 允许HTTP请求头返回类型
http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding
#
# 支持HTTP访问API 总开关
http.enabled: true
#
不设置HTTP参数

设置HTTP参数后

到这里,一个Elasticsearch 就正常的运行起来了。
转自: http://elasticsearch.club/elasticsearch/es-tutorial/how-to-run-an-elasticsearch-cluster/
收起阅读 »社区日报 第166期 (2018-01-22)
http://t.cn/RQjPCYj
2.为machine learning jobs自定义聚合查询。
http://t.cn/RQjPQdf
3.elasticsearch因为cpu漏洞所受到的性能冲击。
http://t.cn/RQjh2oD
编辑:cyberdak
归档:https://elasticsearch.cn/article/464
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQjPCYj
2.为machine learning jobs自定义聚合查询。
http://t.cn/RQjPQdf
3.elasticsearch因为cpu漏洞所受到的性能冲击。
http://t.cn/RQjh2oD
编辑:cyberdak
归档:https://elasticsearch.cn/article/464
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第165期 (2018-01-21)
-
Elasticsearch的最佳分片管理策略。 http://t.cn/RQp1VMF
-
Elasticsearch映射:关于如何创建,编辑,删除的例子。 http://t.cn/RQObLTG
- (自备梯子)想象一个更好的互联网环境。 http://t.cn/RQO589h
-
Elasticsearch的最佳分片管理策略。 http://t.cn/RQp1VMF
-
Elasticsearch映射:关于如何创建,编辑,删除的例子。 http://t.cn/RQObLTG
- (自备梯子)想象一个更好的互联网环境。 http://t.cn/RQO589h
社区日报 第164期 (2018-01-20)
1. Elasticsearch 联结查询 joining queries
http://t.cn/RQNunNP
2. Elasticsearch 中的 ignore_above
http://t.cn/RQNu1fW
3. Migration Patterns: Elasticsearch
http://t.cn/RQp8yGC
编辑:江水
归档:https://elasticsearch.cn/article/462
订阅:https://tinyletter.com/elastic-daily
1. Elasticsearch 联结查询 joining queries
http://t.cn/RQNunNP
2. Elasticsearch 中的 ignore_above
http://t.cn/RQNu1fW
3. Migration Patterns: Elasticsearch
http://t.cn/RQp8yGC
编辑:江水
归档:https://elasticsearch.cn/article/462
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
java 客户端 获取 termvectors
elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能,本文介绍termvecters如何使用,如何通过java客户端获取termvectors相关信息。
要使用termvctor首先要配置mapping中field的"term_vector"属性,默认状态es不开启termvector,因为这样会增加索引的体积,毕竟多存了不少元数据。
PUT test
{
"mappings": {
"qa_test": {
"dynamic": "strict",
"_all": {
"enabled": false
},
"properties": {
"question": {
"properties": {
"cate": {
"type": "keyword"
},
"desc": {
"type": "text",
"store": true,
"term_vector": "with_positions_offsets_payloads",
"analyzer": "ik_smart"
},
"time": {
"type": "date",
"store": true,
"format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
},
"title": {
"type": "text",
"store": true,
"term_vector": "with_positions_offsets_payloads",
"analyzer": "ik_smart"
}
}
},
"updatetime": {
"type": "date",
"store": true,
"format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
}
}
}
},
"settings": {
"index": {
"number_of_shards": "1",
"requests": {
"cache": {
"enable": "true"
}
},
"number_of_replicas": "1"
}
}
}
注意示例中的"title"的"term_vector"属性。
接下来为索引创建一条数据
PUT qa_test_02/qa_test/1
{
"question": {
"cate": [
"装修流程",
"其它"
],
"desc": "筒灯,大洋和索正这两个牌子,哪个好?希望内行的朋友告知一下,谢谢!",
"time": "2016-07-02 19:59:00",
"title": "筒灯大洋和索正这两个牌子哪个好"
},
"updatetime": 1467503940000
}
下面我们看看这条数据上question.title字段的termvector信息
GET qa_test_02/qa_test/1/_termvectors
{
"fields": [
"question.title"
],
"offsets": true,
"payloads": true,
"positions": true,
"term_statistics": true,
"field_statistics": true
}
结果大概这个样子
{
"_index": "qa_test_02",
"_type": "qa_test",
"_id": "1",
"_version": 1,
"found": true,
"took": 0,
"term_vectors": {
"question.title": {
"field_statistics": {
"sum_doc_freq": 9,
"doc_count": 1,
"sum_ttf": 9
},
"terms": {
"和": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 2,
"start_offset": 4,
"end_offset": 5
}
]
},
"哪个": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 7,
"start_offset": 12,
"end_offset": 14
}
]
},
"大洋": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 1,
"start_offset": 2,
"end_offset": 4
}
]
},
"好": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 8,
"start_offset": 14,
"end_offset": 15
}
]
},
"正": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 4,
"start_offset": 6,
"end_offset": 7
}
]
},
"牌子": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 6,
"start_offset": 10,
"end_offset": 12
}
]
},
"筒灯": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 0,
"start_offset": 0,
"end_offset": 2
}
]
},
"索": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 3,
"start_offset": 5,
"end_offset": 6
}
]
},
"这两个": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 5,
"start_offset": 7,
"end_offset": 10
}
]
}
}
}
}
}
下面我们说说如何通过java代码实现termvector的获取,不说废话直接上代码
TermVectorsResponse termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)
.setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()
.actionGet();
XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);
termVectorResponse.toXContent(builder, null);
System.out.println(builder.string());
Fields fields = termVectorResponse.getFields();
Iterator<String> iterator = fields.iterator();
while (iterator.hasNext()) {
String field = iterator.next();
Terms terms = fields.terms(field);
TermsEnum termsEnum = terms.iterator();
while (termsEnum.next() != null) {
BytesRef term = termsEnum.term();
if (term != null) {
System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());
}
}
}
获取TermVectorsResponse的代码很好理解,主要是设置索引名称、索引type、索引id以及需要展示的若干属性。
接下来是如何获取某一term的termvector,有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder,这种方法可以直接获取和上面通过DSL查询一样的json结果;第二种是通过Fields的iterator遍历fields,获取TermsEnum,熟悉lucene的同学应会更熟悉第二种方法。
elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能,本文介绍termvecters如何使用,如何通过java客户端获取termvectors相关信息。
要使用termvctor首先要配置mapping中field的"term_vector"属性,默认状态es不开启termvector,因为这样会增加索引的体积,毕竟多存了不少元数据。
PUT test
{
"mappings": {
"qa_test": {
"dynamic": "strict",
"_all": {
"enabled": false
},
"properties": {
"question": {
"properties": {
"cate": {
"type": "keyword"
},
"desc": {
"type": "text",
"store": true,
"term_vector": "with_positions_offsets_payloads",
"analyzer": "ik_smart"
},
"time": {
"type": "date",
"store": true,
"format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
},
"title": {
"type": "text",
"store": true,
"term_vector": "with_positions_offsets_payloads",
"analyzer": "ik_smart"
}
}
},
"updatetime": {
"type": "date",
"store": true,
"format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
}
}
}
},
"settings": {
"index": {
"number_of_shards": "1",
"requests": {
"cache": {
"enable": "true"
}
},
"number_of_replicas": "1"
}
}
}
注意示例中的"title"的"term_vector"属性。
接下来为索引创建一条数据
PUT qa_test_02/qa_test/1
{
"question": {
"cate": [
"装修流程",
"其它"
],
"desc": "筒灯,大洋和索正这两个牌子,哪个好?希望内行的朋友告知一下,谢谢!",
"time": "2016-07-02 19:59:00",
"title": "筒灯大洋和索正这两个牌子哪个好"
},
"updatetime": 1467503940000
}
下面我们看看这条数据上question.title字段的termvector信息
GET qa_test_02/qa_test/1/_termvectors
{
"fields": [
"question.title"
],
"offsets": true,
"payloads": true,
"positions": true,
"term_statistics": true,
"field_statistics": true
}
结果大概这个样子
{
"_index": "qa_test_02",
"_type": "qa_test",
"_id": "1",
"_version": 1,
"found": true,
"took": 0,
"term_vectors": {
"question.title": {
"field_statistics": {
"sum_doc_freq": 9,
"doc_count": 1,
"sum_ttf": 9
},
"terms": {
"和": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 2,
"start_offset": 4,
"end_offset": 5
}
]
},
"哪个": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 7,
"start_offset": 12,
"end_offset": 14
}
]
},
"大洋": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 1,
"start_offset": 2,
"end_offset": 4
}
]
},
"好": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 8,
"start_offset": 14,
"end_offset": 15
}
]
},
"正": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 4,
"start_offset": 6,
"end_offset": 7
}
]
},
"牌子": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 6,
"start_offset": 10,
"end_offset": 12
}
]
},
"筒灯": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 0,
"start_offset": 0,
"end_offset": 2
}
]
},
"索": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 3,
"start_offset": 5,
"end_offset": 6
}
]
},
"这两个": {
"doc_freq": 1,
"ttf": 1,
"term_freq": 1,
"tokens": [
{
"position": 5,
"start_offset": 7,
"end_offset": 10
}
]
}
}
}
}
}
下面我们说说如何通过java代码实现termvector的获取,不说废话直接上代码
TermVectorsResponse termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)
.setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()
.actionGet();
XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);
termVectorResponse.toXContent(builder, null);
System.out.println(builder.string());
Fields fields = termVectorResponse.getFields();
Iterator<String> iterator = fields.iterator();
while (iterator.hasNext()) {
String field = iterator.next();
Terms terms = fields.terms(field);
TermsEnum termsEnum = terms.iterator();
while (termsEnum.next() != null) {
BytesRef term = termsEnum.term();
if (term != null) {
System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());
}
}
}
获取TermVectorsResponse的代码很好理解,主要是设置索引名称、索引type、索引id以及需要展示的若干属性。
接下来是如何获取某一term的termvector,有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder,这种方法可以直接获取和上面通过DSL查询一样的json结果;第二种是通过Fields的iterator遍历fields,获取TermsEnum,熟悉lucene的同学应会更熟悉第二种方法。
收起阅读 »社区日报 第163期 (2018-01-19)
http://t.cn/RQoQv2k
2、年后跳一跳|ES面试基础知识要点
http://t.cn/RQoHTLU
3、ES实践总结
http://t.cn/RHHczic
编辑:铭毅天下
归档:https://elasticsearch.cn/article/460
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQoQv2k
2、年后跳一跳|ES面试基础知识要点
http://t.cn/RQoHTLU
3、ES实践总结
http://t.cn/RHHczic
编辑:铭毅天下
归档:https://elasticsearch.cn/article/460
订阅:https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第162期 (2018-01-18)
http://t.cn/RQSwjeQ
2.elasticsearch的慢日志
http://t.cn/RQSwH4X
3.Zabbix3.4.5:历史数据支持Elasticsearch
http://t.cn/RQSw86k
编辑:金桥
归档:https://elasticsearch.cn/article/459
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQSwjeQ
2.elasticsearch的慢日志
http://t.cn/RQSwH4X
3.Zabbix3.4.5:历史数据支持Elasticsearch
http://t.cn/RQSw86k
编辑:金桥
归档:https://elasticsearch.cn/article/459
订阅:https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第161期 (2018-01-17)
http://t.cn/RHfAzdh
2. 5种 Logstash 替代者对比
http://t.cn/RQiwTSZ
3. Elasticsearch Tutorial & Getting Started(YouTuBe)
http://t.cn/RQiZ8jc
编辑:江水
归档:https://elasticsearch.cn/article/458
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RHfAzdh
2. 5种 Logstash 替代者对比
http://t.cn/RQiwTSZ
3. Elasticsearch Tutorial & Getting Started(YouTuBe)
http://t.cn/RQiZ8jc
编辑:江水
归档:https://elasticsearch.cn/article/458
订阅:https://tinyletter.com/elastic-daily 收起阅读 »
社区日报 第160期 (2018-01-16)
http://t.cn/RQfQf6L
2.TableStore+Elasticsearch,海量图书信息全文检索系统实践。
http://t.cn/RYvNMD3
3.社区好文,wood叔原创,ElasticSearch集群故障案例分析之警惕通配符查询。
https://elasticsearch.cn/article/171
编辑:叮咚光军
归档:https://elasticsearch.cn/article/456
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQfQf6L
2.TableStore+Elasticsearch,海量图书信息全文检索系统实践。
http://t.cn/RYvNMD3
3.社区好文,wood叔原创,ElasticSearch集群故障案例分析之警惕通配符查询。
https://elasticsearch.cn/article/171
编辑:叮咚光军
归档:https://elasticsearch.cn/article/456
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第159期 (2018-01-15)
http://t.cn/RQcxAWA
2.使用XPACK来完成基于属性的权限控制。
http://t.cn/RQcJD9h
3.Beats 6.1 新特性。
http://t.cn/RQc65os
编辑:cyberdak
归档:https://elasticsearch.cn/article/455
订阅:https://tinyletter.com/elastic-daily
http://t.cn/RQcxAWA
2.使用XPACK来完成基于属性的权限控制。
http://t.cn/RQcJD9h
3.Beats 6.1 新特性。
http://t.cn/RQc65os
编辑:cyberdak
归档:https://elasticsearch.cn/article/455
订阅:https://tinyletter.com/elastic-daily
收起阅读 »
社区日报 第158期 (2018-01-14)
-
如何使用Elasticsearch下载字段的所有独特术语。 http://t.cn/RQGh4wl
-
如何在Elasticsearch中找到相似的术语。 http://t.cn/RQGz6Pt
- (自备梯子)想成为一名数据科学家?尝试费曼技术。 http://t.cn/RQGwPhu
-
如何使用Elasticsearch下载字段的所有独特术语。 http://t.cn/RQGh4wl
-
如何在Elasticsearch中找到相似的术语。 http://t.cn/RQGz6Pt
- (自备梯子)想成为一名数据科学家?尝试费曼技术。 http://t.cn/RQGwPhu
社区日报 第157期 (2018-01-13)
-
ES6.1新特性:利用机器学习进行按需预测 http://t.cn/RQ4GZll
-
利用ES为推荐的产品定制评分(需翻墙) http://t.cn/RQ45Wva
- 一周热点:冲顶大会等答题类游戏的辅助决策开源代码,各位道友可以试试 http://t.cn/RQAxiCr
-
ES6.1新特性:利用机器学习进行按需预测 http://t.cn/RQ4GZll
-
利用ES为推荐的产品定制评分(需翻墙) http://t.cn/RQ45Wva
- 一周热点:冲顶大会等答题类游戏的辅助决策开源代码,各位道友可以试试 http://t.cn/RQAxiCr
社区日报 第156期 (2018-01-12)
https://elasticsearch.cn/article/450
2、Elasticsearch query 解析器(梯子)
http://t.cn/RQLzKJo
3、图解Elasticsearch基础属性
http://t.cn/RQLhVzS
编辑:铭毅天下
归档:https://elasticsearch.cn/article/452
订阅:https://tinyletter.com/elastic-daily
https://elasticsearch.cn/article/450
2、Elasticsearch query 解析器(梯子)
http://t.cn/RQLzKJo
3、图解Elasticsearch基础属性
http://t.cn/RQLhVzS
编辑:铭毅天下
归档:https://elasticsearch.cn/article/452
订阅:https://tinyletter.com/elastic-daily 收起阅读 »


