文章 - 搜索客，搜索人自己的社区

如何运行一个elasticsearch集群

Elasticsearch 和大多数的组件是一样，你若想要她全心全意的为你服务，你就必须满足她的需求，毕竟巧妇也难为无米之炊嘛。 Elasticsearch 的要求不高，仅仅需要合适的操作系统和JVM版本，这是最基本的要求了，如果无法满足还请放开她。

操作系统

操作系统版本依赖

若没有特殊说明，以后文章中ES的操作系统运行环境默认为 :

    CentOS Linux release 7.2.1511 (Core)

JVM

JVM版本依赖

若没有特殊说明，以后文章中运行ES的Java版本默认为 :

    Java version 1.8.0_102

挑选合适的Elasticsearch版本

如何选择Elasticsearch 版本与如何选择找女朋友的原理是一样的。新的版本、年轻的姑娘相信大家都喜欢.但是新的姑娘大部都分经历少、可能家务也不会做，如果这缺点你有接受那没有问题。新的Elasticsearch 版本也是一样，新的Elasticsearch 插件的支持可能没有那么好，新特性未被实际的生产环境验证过，如果这些都能容忍，那么使用最新的Elasticsearch版本是最好的选择。

下载Elasticsearch

Elasticsearch下载（ ← 右击在新标签页打开 ^-^）

解压到指定位置

1. mkdir -p $ES_HOME_PARENT  //创建用于存放elasticsearch组件的父目录
2. tar -zxvf elasticsearch-6.1.1.tar.gz  -C $ES_HOME_PARENT 
3. cd  $ES_HOME_PARENT
4. mv elasticsearch-6.1.1 es-6.1.1_benchmark611 //修改个名称
5. mkdir -p $ES_DATA_PATH/store/es-6.1.1_benchmark611  //用于存放Elasticsearch 数据
6. mkdir -p $ES_DATA_PATH/logs/es-6.1.1_benchmark611 //用于存放Elasticsearch 日志

启动前检查

Linux 系统参数检查

为什么要设置这些系统参数呢？如果不设置会对集群产生哪些影响呢？

文件句柄( File Descriptors) 如果设置过小的文件句柄，Elasticsearch 将无法与集群进行通信以及创建新的索引。

内存锁定(Memory Lock) 如果没有锁定内存，操作系统会扫描不使用的内存并把他交换到磁盘上，需要的时候在加载到内存中。这样的操作会引起磁盘抖动，对于低延时的请求会造成比较大的伤害。因为JVM已经有垃圾回收器，所以不需要操作系统层面的策略来管理内存，在这里我们锁定内存来阻止系统层面插手内存管理。

用户线程限制（User maximum number of threads） Elasticsearch 中有各种线程池，每种线程池里都会运行着不同的任务，如果操作系统支持的用户线程数据设置的较低，集群将无法创建更多的线程运行任务，导致集群无法正常工作。

虚拟内存（Virtual Memory） 操作系统默认virtual memory都是unlimited,如果不是就重新设置，主要与内存映射总数配置同时设置，加速访问索引数据访问。

设置文件句柄( File Descriptors) 、内存锁定(Memory Lock)、用户线程限制（User maximum number of threads）

如下图，我已经修改了操作系统设置,如果你还没设置请用下面的命令设置查询命令（ulimit -a）

修改命令（执行此命令需要root 权限）

vim /etc/security/limits.conf 
    esadmin soft nproc 40000
    esadmin hard nproc 40000
    esadmin soft nofile 65536
    esadmin hard nofile 65536
    esadmin soft  memlock -1
    esadmin hard memlock -1

内存映射总数(Max Map Count)

内存映射总数(Max Map Count) Elasticsearch使用mmap把索引映射到虚拟内存空间，Elasticsearch 同样也需求足够的数据来创建内存映射区域。 Elasticsearch 要求最大内存映射总数至少设置 262144，过小可能无法完成索引的映射

修改命令（执行此命令需要root 权限）

sysctl -w vm.max_map_count=262144

除了以上只是启动前更多需要检查的配置如下

ES启动前检查（ ← 右击在新标签页打开 ^-^）

集群运行最少的参数配置

这是Master Node 配置参数
vim $ES_HOME/config/elasticsearch.yml

# ======================== ES 参数配置 =========================
#
#
# ------------------------ 集群设定 ----------------------------
#
# 集群名称 
 cluster.name: benchmark612
#
# ------------------------ 节点设定 ----------------------------
#
# 节点名称
 node.name: ${HOSTNAME}
#
# 节点角色
 node.master: true
 node.data: false
 node.ingest: false
#
# ------------------------ 路径设定 ----------------------------
#
# 索引、日志存放路径
 path:
   data: /data/store/es-6.1.2_benchmark612
   logs: /data/logs/es-6.1.2_benchmark612
#
# ------------------------ 内存设定 ----------------------------
#
#
# 锁定内存，阻止操作系统管理内存，可以有效的防止内存数据被交换到磁盘空间，
#   交换过程中磁盘会抖动，会对性能产生较大的影响。因为ES是基于JAVA开发的
#   可以能过垃圾回收器来单独管理内存，所以关闭操作系统级别的内存管理可以
#   提升性能
 bootstrap.memory_lock: true
#
# ------------------------ 网络设定 ----------------------------
#
# 绑定节点上的所有网络接口，用于接收通过任意网卡传输过来的请求
 network.bind_host: 0.0.0.0
#
# 绑定一个网络接口(网卡)，用于集群内部节点通信(一般选择吞吐量大的网卡)
 network.publish_host: _eth0:ipv4_
#
# HTTP 通信端口
 http.port: 50000
#
# TCP 通信端口
 transport.tcp.port: 50100
#
# --------------------------------- 集群发现 模块 ----------------------------------
#
# 集群初始化连接列表，节点启动后，首先通过连接初始化列表里的地址去发现集群。
 discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]
#
# 为了防止集群脑裂，目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台，可以完成选举)，集群才会进行master选举
 discovery.zen.minimum_master_nodes: 2
#
# ---------------------------------- 其它 -----------------------------------
#
# 关闭操作系统内核验证(我的操作系统没有升级，如果不关闭验证则无法启动)
 bootstrap.system_call_filter: false
#
# ------------------------ HTTP ----------------------------
#
# 是否支持跨域访问资源
 http.cors.enabled: true
#
#
#允许访问资源的类型
 http.cors.allow-origin: "*"
#
#
# 允许HTTP请求的方法类型 
 http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
#
# 允许HTTP请求头返回类型
 http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding
#
# 支持HTTP访问API 总开关
 http.enabled: true
#
#

这是Data Node 配置参数
vim $ES_HOME/config/elasticsearch.yml

# ======================== ES 参数配置 =========================
#
#
# ------------------------ 集群设定 ----------------------------
#
# 集群名称 
 cluster.name: benchmark612
#
# ------------------------ 节点设定 ----------------------------
#
# 节点名称
 node.name: ${HOSTNAME}
#
# 节点角色
 node.master: false
 node.data: true
 node.ingest: false
#
# ------------------------ 路径设定 ----------------------------
#
# 索引、日志存放路径
 path:
   data: /data/store/es-6.1.2_benchmark612
   logs: /data/logs/es-6.1.2_benchmark612
#
# ------------------------ 内存设定 ----------------------------
#
#
# 锁定内存，阻止操作系统管理内存，可以有效的防止内存数据被交换到磁盘空间，
#   交换过程中磁盘会抖动，会对性能产生较大的影响。因为ES是基于JAVA开发的
#   可以能过垃圾回收器来单独管理内存，所以关闭操作系统级别的内存管理可以
#   提升性能
 bootstrap.memory_lock: true
#
# ------------------------ 网络设定 ----------------------------
#
# 绑定节点上的所有网络接口，用于接收通过任意网卡传输过来的请求
 network.bind_host: 0.0.0.0
#
# 绑定一个网络接口(网卡)，用于集群内部节点通信(一般选择吞吐量大的网卡)
 network.publish_host: _eth0:ipv4_
#
# HTTP 通信端口
 http.port: 50000
#
# TCP 通信端口
 transport.tcp.port: 50100
#
# --------------------------------- 集群发现 模块 ----------------------------------
#
# 集群初始化连接列表，节点启动后，首先通过连接初始化列表里的地址去发现集群。
 discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]
#
# 为了防止集群脑裂，目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台，可以完成选举)，集群才会进行master选举
 discovery.zen.minimum_master_nodes: 2
#
# ---------------------------------- 其它 -----------------------------------
#
# 关闭操作系统内核验证(我的操作系统没有升级，如果不关闭验证则无法启动)
 bootstrap.system_call_filter: false
#

相信细心的同学发现了Master和Data 配置的区别

1）区别一， Master 和 Data 节点角色配置的不同

# 节点角色  Master
 node.master: true
 node.data: false
 node.ingest: false

# 节点角色  Data
 node.master: false
 node.data: true
 node.ingest: false

2）区别二， Master 设置了HTTP 相关参数，如果不设置，将无法通过HEAD能插件来访问集群

#
# ------------------------ HTTP ----------------------------
#
# 是否支持跨域访问资源
 http.cors.enabled: true
#
#
#允许访问资源的类型
 http.cors.allow-origin: "*"
#
#
# 允许HTTP请求的方法类型 
 http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
#
# 允许HTTP请求头返回类型
 http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding
#
# 支持HTTP访问API 总开关
 http.enabled: true
#

不设置HTTP参数插件无法管理ES集群

设置HTTP参数后插件管理ES集群

到这里，一个Elasticsearch 就正常的运行起来了。

转自: http://elasticsearch.club/elasticsearch/es-tutorial/how-to-run-an-elasticsearch-cluster/

继续阅读 »

Elasticsearch 和大多数的组件是一样，你若想要她全心全意的为你服务，你就必须满足她的需求，毕竟巧妇也难为无米之炊嘛。 Elasticsearch 的要求不高，仅仅需要合适的操作系统和JVM版本，这是最基本的要求了，如果无法满足还请放开她。

操作系统

操作系统版本依赖

若没有特殊说明，以后文章中ES的操作系统运行环境默认为 :

    CentOS Linux release 7.2.1511 (Core)

JVM

JVM版本依赖

若没有特殊说明，以后文章中运行ES的Java版本默认为 :

    Java version 1.8.0_102

挑选合适的Elasticsearch版本

如何选择Elasticsearch 版本与如何选择找女朋友的原理是一样的。新的版本、年轻的姑娘相信大家都喜欢.但是新的姑娘大部都分经历少、可能家务也不会做，如果这缺点你有接受那没有问题。新的Elasticsearch 版本也是一样，新的Elasticsearch 插件的支持可能没有那么好，新特性未被实际的生产环境验证过，如果这些都能容忍，那么使用最新的Elasticsearch版本是最好的选择。

下载Elasticsearch

Elasticsearch下载（ ← 右击在新标签页打开 ^-^）

解压到指定位置

1. mkdir -p $ES_HOME_PARENT  //创建用于存放elasticsearch组件的父目录
2. tar -zxvf elasticsearch-6.1.1.tar.gz  -C $ES_HOME_PARENT 
3. cd  $ES_HOME_PARENT
4. mv elasticsearch-6.1.1 es-6.1.1_benchmark611 //修改个名称
5. mkdir -p $ES_DATA_PATH/store/es-6.1.1_benchmark611  //用于存放Elasticsearch 数据
6. mkdir -p $ES_DATA_PATH/logs/es-6.1.1_benchmark611 //用于存放Elasticsearch 日志

启动前检查

Linux 系统参数检查

为什么要设置这些系统参数呢？如果不设置会对集群产生哪些影响呢？

文件句柄( File Descriptors) 如果设置过小的文件句柄，Elasticsearch 将无法与集群进行通信以及创建新的索引。

内存锁定(Memory Lock) 如果没有锁定内存，操作系统会扫描不使用的内存并把他交换到磁盘上，需要的时候在加载到内存中。这样的操作会引起磁盘抖动，对于低延时的请求会造成比较大的伤害。因为JVM已经有垃圾回收器，所以不需要操作系统层面的策略来管理内存，在这里我们锁定内存来阻止系统层面插手内存管理。

用户线程限制（User maximum number of threads） Elasticsearch 中有各种线程池，每种线程池里都会运行着不同的任务，如果操作系统支持的用户线程数据设置的较低，集群将无法创建更多的线程运行任务，导致集群无法正常工作。

虚拟内存（Virtual Memory） 操作系统默认virtual memory都是unlimited,如果不是就重新设置，主要与内存映射总数配置同时设置，加速访问索引数据访问。

设置文件句柄( File Descriptors) 、内存锁定(Memory Lock)、用户线程限制（User maximum number of threads）

如下图，我已经修改了操作系统设置,如果你还没设置请用下面的命令设置查询命令（ulimit -a）

修改命令（执行此命令需要root 权限）

vim /etc/security/limits.conf 
    esadmin soft nproc 40000
    esadmin hard nproc 40000
    esadmin soft nofile 65536
    esadmin hard nofile 65536
    esadmin soft  memlock -1
    esadmin hard memlock -1

内存映射总数(Max Map Count)

内存映射总数(Max Map Count) Elasticsearch使用mmap把索引映射到虚拟内存空间，Elasticsearch 同样也需求足够的数据来创建内存映射区域。 Elasticsearch 要求最大内存映射总数至少设置 262144，过小可能无法完成索引的映射

修改命令（执行此命令需要root 权限）

sysctl -w vm.max_map_count=262144

除了以上只是启动前更多需要检查的配置如下

ES启动前检查（ ← 右击在新标签页打开 ^-^）

集群运行最少的参数配置

这是Master Node 配置参数
vim $ES_HOME/config/elasticsearch.yml

# ======================== ES 参数配置 =========================
#
#
# ------------------------ 集群设定 ----------------------------
#
# 集群名称 
 cluster.name: benchmark612
#
# ------------------------ 节点设定 ----------------------------
#
# 节点名称
 node.name: ${HOSTNAME}
#
# 节点角色
 node.master: true
 node.data: false
 node.ingest: false
#
# ------------------------ 路径设定 ----------------------------
#
# 索引、日志存放路径
 path:
   data: /data/store/es-6.1.2_benchmark612
   logs: /data/logs/es-6.1.2_benchmark612
#
# ------------------------ 内存设定 ----------------------------
#
#
# 锁定内存，阻止操作系统管理内存，可以有效的防止内存数据被交换到磁盘空间，
#   交换过程中磁盘会抖动，会对性能产生较大的影响。因为ES是基于JAVA开发的
#   可以能过垃圾回收器来单独管理内存，所以关闭操作系统级别的内存管理可以
#   提升性能
 bootstrap.memory_lock: true
#
# ------------------------ 网络设定 ----------------------------
#
# 绑定节点上的所有网络接口，用于接收通过任意网卡传输过来的请求
 network.bind_host: 0.0.0.0
#
# 绑定一个网络接口(网卡)，用于集群内部节点通信(一般选择吞吐量大的网卡)
 network.publish_host: _eth0:ipv4_
#
# HTTP 通信端口
 http.port: 50000
#
# TCP 通信端口
 transport.tcp.port: 50100
#
# --------------------------------- 集群发现 模块 ----------------------------------
#
# 集群初始化连接列表，节点启动后，首先通过连接初始化列表里的地址去发现集群。
 discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]
#
# 为了防止集群脑裂，目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台，可以完成选举)，集群才会进行master选举
 discovery.zen.minimum_master_nodes: 2
#
# ---------------------------------- 其它 -----------------------------------
#
# 关闭操作系统内核验证(我的操作系统没有升级，如果不关闭验证则无法启动)
 bootstrap.system_call_filter: false
#
# ------------------------ HTTP ----------------------------
#
# 是否支持跨域访问资源
 http.cors.enabled: true
#
#
#允许访问资源的类型
 http.cors.allow-origin: "*"
#
#
# 允许HTTP请求的方法类型 
 http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
#
# 允许HTTP请求头返回类型
 http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding
#
# 支持HTTP访问API 总开关
 http.enabled: true
#
#

这是Data Node 配置参数
vim $ES_HOME/config/elasticsearch.yml

# ======================== ES 参数配置 =========================
#
#
# ------------------------ 集群设定 ----------------------------
#
# 集群名称 
 cluster.name: benchmark612
#
# ------------------------ 节点设定 ----------------------------
#
# 节点名称
 node.name: ${HOSTNAME}
#
# 节点角色
 node.master: false
 node.data: true
 node.ingest: false
#
# ------------------------ 路径设定 ----------------------------
#
# 索引、日志存放路径
 path:
   data: /data/store/es-6.1.2_benchmark612
   logs: /data/logs/es-6.1.2_benchmark612
#
# ------------------------ 内存设定 ----------------------------
#
#
# 锁定内存，阻止操作系统管理内存，可以有效的防止内存数据被交换到磁盘空间，
#   交换过程中磁盘会抖动，会对性能产生较大的影响。因为ES是基于JAVA开发的
#   可以能过垃圾回收器来单独管理内存，所以关闭操作系统级别的内存管理可以
#   提升性能
 bootstrap.memory_lock: true
#
# ------------------------ 网络设定 ----------------------------
#
# 绑定节点上的所有网络接口，用于接收通过任意网卡传输过来的请求
 network.bind_host: 0.0.0.0
#
# 绑定一个网络接口(网卡)，用于集群内部节点通信(一般选择吞吐量大的网卡)
 network.publish_host: _eth0:ipv4_
#
# HTTP 通信端口
 http.port: 50000
#
# TCP 通信端口
 transport.tcp.port: 50100
#
# --------------------------------- 集群发现 模块 ----------------------------------
#
# 集群初始化连接列表，节点启动后，首先通过连接初始化列表里的地址去发现集群。
 discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]
#
# 为了防止集群脑裂，目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台，可以完成选举)，集群才会进行master选举
 discovery.zen.minimum_master_nodes: 2
#
# ---------------------------------- 其它 -----------------------------------
#
# 关闭操作系统内核验证(我的操作系统没有升级，如果不关闭验证则无法启动)
 bootstrap.system_call_filter: false
#

相信细心的同学发现了Master和Data 配置的区别

1）区别一， Master 和 Data 节点角色配置的不同

# 节点角色  Master
 node.master: true
 node.data: false
 node.ingest: false

# 节点角色  Data
 node.master: false
 node.data: true
 node.ingest: false

2）区别二， Master 设置了HTTP 相关参数，如果不设置，将无法通过HEAD能插件来访问集群

#
# ------------------------ HTTP ----------------------------
#
# 是否支持跨域访问资源
 http.cors.enabled: true
#
#
#允许访问资源的类型
 http.cors.allow-origin: "*"
#
#
# 允许HTTP请求的方法类型 
 http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE
#
# 允许HTTP请求头返回类型
 http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding
#
# 支持HTTP访问API 总开关
 http.enabled: true
#

不设置HTTP参数插件无法管理ES集群

设置HTTP参数后插件管理ES集群

到这里，一个Elasticsearch 就正常的运行起来了。

转自: http://elasticsearch.club/elasticsearch/es-tutorial/how-to-run-an-elasticsearch-cluster/

收起阅读 »

社区日报第166期 (2018-01-22)

1.如何选择使用logstash还是elasticsearch-ingest节点？
http://t.cn/RQjPCYj

2.为machine learning jobs自定义聚合查询。
http://t.cn/RQjPQdf

3.elasticsearch因为cpu漏洞所受到的性能冲击。
http://t.cn/RQjh2oD

编辑：cyberdak
归档：https://elasticsearch.cn/article/464
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第165期 (2018-01-21)

Elasticsearch的最佳分片管理策略。 http://t.cn/RQp1VMF
Elasticsearch映射：关于如何创建，编辑，删除的例子。 http://t.cn/RQObLTG
(自备梯子)想象一个更好的互联网环境。 http://t.cn/RQO589h

继续阅读 »

社区日报第164期 (2018-01-20)

几篇旧闻
1. Elasticsearch 联结查询 joining queries
http://t.cn/RQNunNP
2. Elasticsearch 中的 ignore_above
http://t.cn/RQNu1fW
3. Migration Patterns: Elasticsearch
http://t.cn/RQp8yGC

编辑：江水
归档：https://elasticsearch.cn/article/462
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

java 客户端获取 termvectors

elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能，本文介绍termvecters如何使用，如何通过java客户端获取termvectors相关信息。

要使用termvctor首先要配置mapping中field的"term_vector"属性，默认状态es不开启termvector，因为这样会增加索引的体积，毕竟多存了不少元数据。

PUT test
{
  "mappings": {
    "qa_test": {
      "dynamic": "strict",
      "_all": {
        "enabled": false
      },
      "properties": {
        "question": {
          "properties": {
            "cate": {
              "type": "keyword"
            },
            "desc": {
              "type": "text",
              "store": true,
              "term_vector": "with_positions_offsets_payloads",
              "analyzer": "ik_smart"
            },
            "time": {
              "type": "date",
              "store": true,
              "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
            },
            "title": {
              "type": "text",
              "store": true,
              "term_vector": "with_positions_offsets_payloads",
              "analyzer": "ik_smart"
            }
          }
        },
        "updatetime": {
          "type": "date",
          "store": true,
          "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
        }
      }
    }
  },
  "settings": {
    "index": {
      "number_of_shards": "1",
      "requests": {
        "cache": {
          "enable": "true"
        }
      },
      "number_of_replicas": "1"
    }
  }
}

注意示例中的"title"的"term_vector"属性。

接下来为索引创建一条数据

PUT qa_test_02/qa_test/1
{
  "question": {
    "cate": [
      "装修流程",
      "其它"
    ],
    "desc": "筒灯，大洋和索正这两个牌子，哪个好？希望内行的朋友告知一下，谢谢！",
    "time": "2016-07-02 19:59:00",
    "title": "筒灯大洋和索正这两个牌子哪个好"
  },
  "updatetime": 1467503940000
}

下面我们看看这条数据上question.title字段的termvector信息

GET qa_test_02/qa_test/1/_termvectors
{
  "fields": [
    "question.title"
  ],
  "offsets": true,
  "payloads": true,
  "positions": true,
  "term_statistics": true,
  "field_statistics": true
}

结果大概这个样子

{
  "_index": "qa_test_02",
  "_type": "qa_test",
  "_id": "1",
  "_version": 1,
  "found": true,
  "took": 0,
  "term_vectors": {
    "question.title": {
      "field_statistics": {
        "sum_doc_freq": 9,
        "doc_count": 1,
        "sum_ttf": 9
      },
      "terms": {
        "和": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 2,
              "start_offset": 4,
              "end_offset": 5
            }
          ]
        },
        "哪个": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 7,
              "start_offset": 12,
              "end_offset": 14
            }
          ]
        },
        "大洋": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 1,
              "start_offset": 2,
              "end_offset": 4
            }
          ]
        },
        "好": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 8,
              "start_offset": 14,
              "end_offset": 15
            }
          ]
        },
        "正": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 4,
              "start_offset": 6,
              "end_offset": 7
            }
          ]
        },
        "牌子": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 6,
              "start_offset": 10,
              "end_offset": 12
            }
          ]
        },
        "筒灯": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 0,
              "start_offset": 0,
              "end_offset": 2
            }
          ]
        },
        "索": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 3,
              "start_offset": 5,
              "end_offset": 6
            }
          ]
        },
        "这两个": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 5,
              "start_offset": 7,
              "end_offset": 10
            }
          ]
        }
      }
    }
  }
}

下面我们说说如何通过java代码实现termvector的获取，不说废话直接上代码

            TermVectorsResponse     termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)
                        .setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()
                        .actionGet();
                XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);
                termVectorResponse.toXContent(builder, null);
                System.out.println(builder.string());
                Fields fields = termVectorResponse.getFields();
                Iterator<String> iterator = fields.iterator();
                while (iterator.hasNext()) {
                    String field = iterator.next();
                    Terms terms = fields.terms(field);
                    TermsEnum termsEnum = terms.iterator();
                    while (termsEnum.next() != null) {
                        BytesRef term = termsEnum.term();
                        if (term != null) {
                            System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());
                        }
                    }
                }

获取TermVectorsResponse的代码很好理解，主要是设置索引名称、索引type、索引id以及需要展示的若干属性。

接下来是如何获取某一term的termvector，有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder，这种方法可以直接获取和上面通过DSL查询一样的json结果；第二种是通过Fields的iterator遍历fields，获取TermsEnum，熟悉lucene的同学应会更熟悉第二种方法。

继续阅读 »

elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能，本文介绍termvecters如何使用，如何通过java客户端获取termvectors相关信息。

要使用termvctor首先要配置mapping中field的"term_vector"属性，默认状态es不开启termvector，因为这样会增加索引的体积，毕竟多存了不少元数据。

PUT test
{
  "mappings": {
    "qa_test": {
      "dynamic": "strict",
      "_all": {
        "enabled": false
      },
      "properties": {
        "question": {
          "properties": {
            "cate": {
              "type": "keyword"
            },
            "desc": {
              "type": "text",
              "store": true,
              "term_vector": "with_positions_offsets_payloads",
              "analyzer": "ik_smart"
            },
            "time": {
              "type": "date",
              "store": true,
              "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
            },
            "title": {
              "type": "text",
              "store": true,
              "term_vector": "with_positions_offsets_payloads",
              "analyzer": "ik_smart"
            }
          }
        },
        "updatetime": {
          "type": "date",
          "store": true,
          "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"
        }
      }
    }
  },
  "settings": {
    "index": {
      "number_of_shards": "1",
      "requests": {
        "cache": {
          "enable": "true"
        }
      },
      "number_of_replicas": "1"
    }
  }
}

注意示例中的"title"的"term_vector"属性。

接下来为索引创建一条数据

PUT qa_test_02/qa_test/1
{
  "question": {
    "cate": [
      "装修流程",
      "其它"
    ],
    "desc": "筒灯，大洋和索正这两个牌子，哪个好？希望内行的朋友告知一下，谢谢！",
    "time": "2016-07-02 19:59:00",
    "title": "筒灯大洋和索正这两个牌子哪个好"
  },
  "updatetime": 1467503940000
}

下面我们看看这条数据上question.title字段的termvector信息

GET qa_test_02/qa_test/1/_termvectors
{
  "fields": [
    "question.title"
  ],
  "offsets": true,
  "payloads": true,
  "positions": true,
  "term_statistics": true,
  "field_statistics": true
}

结果大概这个样子

{
  "_index": "qa_test_02",
  "_type": "qa_test",
  "_id": "1",
  "_version": 1,
  "found": true,
  "took": 0,
  "term_vectors": {
    "question.title": {
      "field_statistics": {
        "sum_doc_freq": 9,
        "doc_count": 1,
        "sum_ttf": 9
      },
      "terms": {
        "和": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 2,
              "start_offset": 4,
              "end_offset": 5
            }
          ]
        },
        "哪个": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 7,
              "start_offset": 12,
              "end_offset": 14
            }
          ]
        },
        "大洋": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 1,
              "start_offset": 2,
              "end_offset": 4
            }
          ]
        },
        "好": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 8,
              "start_offset": 14,
              "end_offset": 15
            }
          ]
        },
        "正": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 4,
              "start_offset": 6,
              "end_offset": 7
            }
          ]
        },
        "牌子": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 6,
              "start_offset": 10,
              "end_offset": 12
            }
          ]
        },
        "筒灯": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 0,
              "start_offset": 0,
              "end_offset": 2
            }
          ]
        },
        "索": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 3,
              "start_offset": 5,
              "end_offset": 6
            }
          ]
        },
        "这两个": {
          "doc_freq": 1,
          "ttf": 1,
          "term_freq": 1,
          "tokens": [
            {
              "position": 5,
              "start_offset": 7,
              "end_offset": 10
            }
          ]
        }
      }
    }
  }
}

下面我们说说如何通过java代码实现termvector的获取，不说废话直接上代码

            TermVectorsResponse     termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)
                        .setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()
                        .actionGet();
                XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);
                termVectorResponse.toXContent(builder, null);
                System.out.println(builder.string());
                Fields fields = termVectorResponse.getFields();
                Iterator<String> iterator = fields.iterator();
                while (iterator.hasNext()) {
                    String field = iterator.next();
                    Terms terms = fields.terms(field);
                    TermsEnum termsEnum = terms.iterator();
                    while (termsEnum.next() != null) {
                        BytesRef term = termsEnum.term();
                        if (term != null) {
                            System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());
                        }
                    }
                }

获取TermVectorsResponse的代码很好理解，主要是设置索引名称、索引type、索引id以及需要展示的若干属性。

接下来是如何获取某一term的termvector，有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder，这种方法可以直接获取和上面通过DSL查询一样的json结果；第二种是通过Fields的iterator遍历fields，获取TermsEnum，熟悉lucene的同学应会更熟悉第二种方法。

收起阅读 »

社区日报第163期 (2018-01-19)

1、ElasticSearch集群迁移和升级总结
http://t.cn/RQoQv2k
2、年后跳一跳|ES面试基础知识要点
http://t.cn/RQoHTLU
3、ES实践总结
http://t.cn/RHHczic

编辑：铭毅天下
归档：https://elasticsearch.cn/article/460
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第162期 (2018-01-18)

1.ElasticSearch 5.6源码解析HTTP/TCP请求
http://t.cn/RQSwjeQ
2.elasticsearch的慢日志
http://t.cn/RQSwH4X
3.Zabbix3.4.5:历史数据支持Elasticsearch
http://t.cn/RQSw86k

编辑：金桥
归档：https://elasticsearch.cn/article/459
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第161期 (2018-01-17)

1. Kafka 同步数据到 Elasticsearch
http://t.cn/RHfAzdh
2. 5种 Logstash 替代者对比
http://t.cn/RQiwTSZ
3. Elasticsearch Tutorial & Getting Started（YouTuBe）
http://t.cn/RQiZ8jc

编辑：江水
归档：https://elasticsearch.cn/article/458
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第160期 (2018-01-16)

1.使用ELK监控Puppet服务器。
http://t.cn/RQfQf6L
2.TableStore+Elasticsearch，海量图书信息全文检索系统实践。
http://t.cn/RYvNMD3
3.社区好文，wood叔原创，ElasticSearch集群故障案例分析之警惕通配符查询。
https://elasticsearch.cn/article/171

编辑：叮咚光军
归档：https://elasticsearch.cn/article/456
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第159期 (2018-01-15)

1.kibana 6 三个让人喜爱的新特性。
http://t.cn/RQcxAWA

2.使用XPACK来完成基于属性的权限控制。
http://t.cn/RQcJD9h

3.Beats 6.1 新特性。
http://t.cn/RQc65os

编辑：cyberdak
归档：https://elasticsearch.cn/article/455
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第158期 (2018-01-14)

如何使用Elasticsearch下载字段的所有独特术语。 http://t.cn/RQGh4wl
如何在Elasticsearch中找到相似的术语。 http://t.cn/RQGz6Pt
(自备梯子)想成为一名数据科学家？尝试费曼技术。 http://t.cn/RQGwPhu

继续阅读 »

社区日报第157期 (2018-01-13)

ES6.1新特性：利用机器学习进行按需预测 http://t.cn/RQ4GZll
利用ES为推荐的产品定制评分（需翻墙） http://t.cn/RQ45Wva
一周热点：冲顶大会等答题类游戏的辅助决策开源代码，各位道友可以试试 http://t.cn/RQAxiCr

继续阅读 »

社区日报第156期 (2018-01-12)

1、 Elasticsearch java原生打分插件开发
https://elasticsearch.cn/article/450
2、Elasticsearch query 解析器（梯子）
http://t.cn/RQLzKJo
3、图解Elasticsearch基础属性
http://t.cn/RQLhVzS

编辑：铭毅天下
归档：https://elasticsearch.cn/article/452
订阅：https://tinyletter.com/elastic-daily

继续阅读 »

社区日报第155期 (2018-01-11)

1.小米的Elasticsearch 服务化实践
http://t.cn/RQZjbhL
2.wood出品：number?keyword?傻傻分不清楚
https://elasticsearch.cn/article/446
3.ebay的elasticsearch性能调优实践
http://t.cn/RQhzDiP

编辑：金桥
归档：https://elasticsearch.cn/article/451
订阅： https://tinyletter.com/elastic-daily

继续阅读 »

elasticsearch java原生打分插件开发

能有影响elasticsearch score的方法有很多，官方推荐的是使用内置的painless脚本语言结合function_score来重新定义score。由于本人开发的项目其算法是由java语言开发的，于是决定尝试原生脚本开发。 elasticsearch脚本由plugin-descriptor.properties文件以及运行jar包组成，plugin-descriptor.properties主要用来定义版本信息、对应es的版本信息等属性。

官方的例子

public class ExpertScriptPlugin extends Plugin implements ScriptPlugin {
    @Override
    public ScriptEngineService getScriptEngineService(Settings settings) {
        return new MyExpertScriptEngine();
    }
    /** An example {@link ScriptEngineService} that uses Lucene segment details to implement pure document frequency scoring. */
    // tag::expert_engine
    private static class MyExpertScriptEngine implements ScriptEngineService {
        @Override
        public String getType() {
            return "expert_scripts";
        }
        @Override
        public Function<Map<String,Object>,SearchScript> compile(String scriptName, String scriptSource, Map<String, String> params) {
            // we use the script "source" as the script identifier
            if ("pure_df".equals(scriptSource)) {
                return p -> new SearchScript() {
                    final String field;
                    final String term;
                    {
                        if (p.containsKey("field") == false) {
                            throw new IllegalArgumentException("Missing parameter [field]");
                        }
                        if (p.containsKey("term") == false) {
                            throw new IllegalArgumentException("Missing parameter [term]");
                        }
                        field = p.get("field").toString();
                        term = p.get("term").toString();
                    }
                    @Override
                    public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
                        PostingsEnum postings = context.reader().postings(new Term(field, term));
                        if (postings == null) {
                            // the field and/or term don't exist in this segment, so always return 0
                            return () -> 0.0d;
                        }
                        return new LeafSearchScript() {
                            int currentDocid = -1;
                            @Override
                            public void setDocument(int docid) {
                                // advance has undefined behavior calling with a docid <= its current docid
                                if (postings.docID() < docid) {
                                    try {
                                        postings.advance(docid);
                                    } catch (IOException e) {
                                        throw new UncheckedIOException(e);
                                    }
                                }
                                currentDocid = docid;
                            }
                            @Override
                            public double runAsDouble() {
                                if (postings.docID() != currentDocid) {
                                    // advance moved past the current doc, so this doc has no occurrences of the term
                                    return 0.0d;
                                }
                                try {
                                    return postings.freq();
                                } catch (IOException e) {
                                    throw new UncheckedIOException(e);
                                }
                            }
                        };
                    }
                    @Override
                    public boolean needsScores() {
                        return false;
                    }
                };
            }
            throw new IllegalArgumentException("Unknown script name " + scriptSource);
        }

        @Override
        @SuppressWarnings("unchecked")
        public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> params) {
          Function<Map<String,Object>,SearchScript> scriptFactory = (Function<Map<String,Object>,SearchScript>) compiledScript.compiled();
          return scriptFactory.apply(params);
        }

        @Override
        public ExecutableScript executable(CompiledScript compiledScript, @Nullable Map<String, Object> params) {
            throw new UnsupportedOperationException();
        }

        @Override
        public boolean isInlineScriptEnabled() {
            return true;
        }

        @Override
        public void close() {}
    }
}

代码解读：本例在elasticsearch源码中，https://github.com/elastic/elasticsearch/tree/master/plugins/examples/script-expert-scoring

MyExpertScriptEngine类是其中最重要的类，用于实现脚本参数定义，编译，以及打分机制的实现。其中compile方法返回我们定义好打分逻辑的java function。search方法用于我们在搜索过程中实施定义好的打分逻辑。怎奈笔者对于函数式编程知道的不多（后续需要补课），其实评分逻辑也可以在search方法中实现，于是有了下面的一段代码。

public class fieldaddScriptPlugin extends Plugin implements ScriptPlugin {
    @Override
    public ScriptEngineService getScriptEngineService(Settings settings) {
        return new MyExpertScriptEngine();
    }
    private static class MyExpertScriptEngine implements ScriptEngineService {
        @Override
        public String getType() {
            return "expert_scripts";
        }

        @Override
        public Object compile(String scriptName, String scriptSource, Map<String, String> params) {
            if ("example_add".equals(scriptSource)) {
                return scriptSource;
            }
            throw new IllegalArgumentException("Unknown script name " + scriptSource);
        }

        @Override
        @SuppressWarnings("unchecked")
        public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> vars) {

            /**
             * 校验输入参数，DSL中params 参数列表
             */
            final long inc;
            final String fieldname;
            if (vars == null || vars.containsKey("inc") == false) {
                inc = 0;
            } else {
                inc = ((Number) vars.get("inc")).longValue();
            }

            if (vars == null || vars.containsKey("fieldname") == false) {
                throw new IllegalArgumentException("Missing parameter [fieldname]");
            } else {
                fieldname = (String) vars.get("fieldname");
            }

            return new SearchScript() {
                @Override
                public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
                    final LeafSearchLookup leafLookup = lookup.getLeafSearchLookup(context);

                    return new LeafSearchScript() {
                        @Override
                        public void setDocument(int doc) {
                            if (leafLookup != null) {
                                leafLookup.setDocument(doc);
                            }
                        }

                        @Override
                        public double runAsDouble() {
                            long values = 0;
                            /**
                             * 获取document中字段内容
                             */
                            for (Object v : (List<?>) leafLookup.doc().get(fieldname)) {
                                values = ((Number) v).longValue() + values;
                            }
                            return values + inc;
                        }
                    };
                }

                @Override
                public boolean needsScores() {
                    return false;
                }
            };
        }

     这段代码的逻辑是把给定的字段(字段类型long)的每个元素相加后再加上给定的增量参数最后形成score分值。为了实现上述逻辑需要实现参数获取、根据给定的字段名获取内容列表量的关键件。下面结合代码说说这两个步骤如何实现的。

search方法中Map<String, Object> vars参数对应DSL中"params"参数，用于接受实际给定的运行时参数。SearchLookup lookup参数由系统传入，通过lookup.getLeafSearchLookup(context)获取LeafSearchLookup通过该对象可以获取给定字段的值。

对于elasticsearch 2.x以前的版本可以通过NativeScriptFactory实现原生脚本。

public class MyNativeScriptPlugin extends Plugin implements ScriptPlugin {
    private final static Logger LOGGER = LogManager.getLogger(MyFirstPlugin.class);

    public MyNativeScriptPlugin() {
        super();
        LOGGER.warn("This is MyNativeScriptPlugin");
    }

    @Override
    public List<NativeScriptFactory> getNativeScripts() {
        return Collections.singletonList(new MyNativeScriptFactory());
    }

    public static class MyNativeScriptFactory implements NativeScriptFactory {
        @Override
        public ExecutableScript newScript(@Nullable Map<String, Object> params) {

//            return new MyNativeScript();
            return new AbstractDoubleSearchScript(){

                @Override
                public double runAsDouble() {
                    int b=0;
                    if(params.get("add")!=null){
                        b= (int) params.get("add");
                    }

                    String s =  source().get("last").toString();
                    double a = s.length()+b;
                    return a;                }
            };
        }

        @Override
        public boolean needsScores() {
            return false;
        }

        @Override
        public String getName() {
            return "my_script";
        }
    }
}

工程组织 elasticsearch工程使用gradle进行依赖管理和生命周期管理，为此es项目自己也开发了esplugin的gradle插件，但不兼容gradle4.2以上的版本。参考github中的成熟插件，使用maven组织工程。

主要涉及两个文件 pom.xml plugin.xml 工程利用maven-assembly-plugin打包jar。

本例github地址：https://github.com/jiashiwen/elasticsearchpluginsample 欢迎点赞或拍砖

继续阅读 »

能有影响elasticsearch score的方法有很多，官方推荐的是使用内置的painless脚本语言结合function_score来重新定义score。由于本人开发的项目其算法是由java语言开发的，于是决定尝试原生脚本开发。 elasticsearch脚本由plugin-descriptor.properties文件以及运行jar包组成，plugin-descriptor.properties主要用来定义版本信息、对应es的版本信息等属性。

官方的例子

public class ExpertScriptPlugin extends Plugin implements ScriptPlugin {
    @Override
    public ScriptEngineService getScriptEngineService(Settings settings) {
        return new MyExpertScriptEngine();
    }
    /** An example {@link ScriptEngineService} that uses Lucene segment details to implement pure document frequency scoring. */
    // tag::expert_engine
    private static class MyExpertScriptEngine implements ScriptEngineService {
        @Override
        public String getType() {
            return "expert_scripts";
        }
        @Override
        public Function<Map<String,Object>,SearchScript> compile(String scriptName, String scriptSource, Map<String, String> params) {
            // we use the script "source" as the script identifier
            if ("pure_df".equals(scriptSource)) {
                return p -> new SearchScript() {
                    final String field;
                    final String term;
                    {
                        if (p.containsKey("field") == false) {
                            throw new IllegalArgumentException("Missing parameter [field]");
                        }
                        if (p.containsKey("term") == false) {
                            throw new IllegalArgumentException("Missing parameter [term]");
                        }
                        field = p.get("field").toString();
                        term = p.get("term").toString();
                    }
                    @Override
                    public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
                        PostingsEnum postings = context.reader().postings(new Term(field, term));
                        if (postings == null) {
                            // the field and/or term don't exist in this segment, so always return 0
                            return () -> 0.0d;
                        }
                        return new LeafSearchScript() {
                            int currentDocid = -1;
                            @Override
                            public void setDocument(int docid) {
                                // advance has undefined behavior calling with a docid <= its current docid
                                if (postings.docID() < docid) {
                                    try {
                                        postings.advance(docid);
                                    } catch (IOException e) {
                                        throw new UncheckedIOException(e);
                                    }
                                }
                                currentDocid = docid;
                            }
                            @Override
                            public double runAsDouble() {
                                if (postings.docID() != currentDocid) {
                                    // advance moved past the current doc, so this doc has no occurrences of the term
                                    return 0.0d;
                                }
                                try {
                                    return postings.freq();
                                } catch (IOException e) {
                                    throw new UncheckedIOException(e);
                                }
                            }
                        };
                    }
                    @Override
                    public boolean needsScores() {
                        return false;
                    }
                };
            }
            throw new IllegalArgumentException("Unknown script name " + scriptSource);
        }

        @Override
        @SuppressWarnings("unchecked")
        public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> params) {
          Function<Map<String,Object>,SearchScript> scriptFactory = (Function<Map<String,Object>,SearchScript>) compiledScript.compiled();
          return scriptFactory.apply(params);
        }

        @Override
        public ExecutableScript executable(CompiledScript compiledScript, @Nullable Map<String, Object> params) {
            throw new UnsupportedOperationException();
        }

        @Override
        public boolean isInlineScriptEnabled() {
            return true;
        }

        @Override
        public void close() {}
    }
}

代码解读：本例在elasticsearch源码中，https://github.com/elastic/elasticsearch/tree/master/plugins/examples/script-expert-scoring

MyExpertScriptEngine类是其中最重要的类，用于实现脚本参数定义，编译，以及打分机制的实现。其中compile方法返回我们定义好打分逻辑的java function。search方法用于我们在搜索过程中实施定义好的打分逻辑。怎奈笔者对于函数式编程知道的不多（后续需要补课），其实评分逻辑也可以在search方法中实现，于是有了下面的一段代码。

public class fieldaddScriptPlugin extends Plugin implements ScriptPlugin {
    @Override
    public ScriptEngineService getScriptEngineService(Settings settings) {
        return new MyExpertScriptEngine();
    }
    private static class MyExpertScriptEngine implements ScriptEngineService {
        @Override
        public String getType() {
            return "expert_scripts";
        }

        @Override
        public Object compile(String scriptName, String scriptSource, Map<String, String> params) {
            if ("example_add".equals(scriptSource)) {
                return scriptSource;
            }
            throw new IllegalArgumentException("Unknown script name " + scriptSource);
        }

        @Override
        @SuppressWarnings("unchecked")
        public SearchScript search(CompiledScript compiledScript, SearchLookup lookup, @Nullable Map<String, Object> vars) {

            /**
             * 校验输入参数，DSL中params 参数列表
             */
            final long inc;
            final String fieldname;
            if (vars == null || vars.containsKey("inc") == false) {
                inc = 0;
            } else {
                inc = ((Number) vars.get("inc")).longValue();
            }

            if (vars == null || vars.containsKey("fieldname") == false) {
                throw new IllegalArgumentException("Missing parameter [fieldname]");
            } else {
                fieldname = (String) vars.get("fieldname");
            }

            return new SearchScript() {
                @Override
                public LeafSearchScript getLeafSearchScript(LeafReaderContext context) throws IOException {
                    final LeafSearchLookup leafLookup = lookup.getLeafSearchLookup(context);

                    return new LeafSearchScript() {
                        @Override
                        public void setDocument(int doc) {
                            if (leafLookup != null) {
                                leafLookup.setDocument(doc);
                            }
                        }

                        @Override
                        public double runAsDouble() {
                            long values = 0;
                            /**
                             * 获取document中字段内容
                             */
                            for (Object v : (List<?>) leafLookup.doc().get(fieldname)) {
                                values = ((Number) v).longValue() + values;
                            }
                            return values + inc;
                        }
                    };
                }

                @Override
                public boolean needsScores() {
                    return false;
                }
            };
        }

     这段代码的逻辑是把给定的字段(字段类型long)的每个元素相加后再加上给定的增量参数最后形成score分值。为了实现上述逻辑需要实现参数获取、根据给定的字段名获取内容列表量的关键件。下面结合代码说说这两个步骤如何实现的。

search方法中Map<String, Object> vars参数对应DSL中"params"参数，用于接受实际给定的运行时参数。SearchLookup lookup参数由系统传入，通过lookup.getLeafSearchLookup(context)获取LeafSearchLookup通过该对象可以获取给定字段的值。

对于elasticsearch 2.x以前的版本可以通过NativeScriptFactory实现原生脚本。

public class MyNativeScriptPlugin extends Plugin implements ScriptPlugin {
    private final static Logger LOGGER = LogManager.getLogger(MyFirstPlugin.class);

    public MyNativeScriptPlugin() {
        super();
        LOGGER.warn("This is MyNativeScriptPlugin");
    }

    @Override
    public List<NativeScriptFactory> getNativeScripts() {
        return Collections.singletonList(new MyNativeScriptFactory());
    }

    public static class MyNativeScriptFactory implements NativeScriptFactory {
        @Override
        public ExecutableScript newScript(@Nullable Map<String, Object> params) {

//            return new MyNativeScript();
            return new AbstractDoubleSearchScript(){

                @Override
                public double runAsDouble() {
                    int b=0;
                    if(params.get("add")!=null){
                        b= (int) params.get("add");
                    }

                    String s =  source().get("last").toString();
                    double a = s.length()+b;
                    return a;                }
            };
        }

        @Override
        public boolean needsScores() {
            return false;
        }

        @Override
        public String getName() {
            return "my_script";
        }
    }
}

工程组织 elasticsearch工程使用gradle进行依赖管理和生命周期管理，为此es项目自己也开发了esplugin的gradle插件，但不兼容gradle4.2以上的版本。参考github中的成熟插件，使用maven组织工程。

主要涉及两个文件 pom.xml plugin.xml 工程利用maven-assembly-plugin打包jar。

本例github地址：https://github.com/jiashiwen/elasticsearchpluginsample 欢迎点赞或拍砖

收起阅读 »

如何运行一个elasticsearch集群

操作系统

JVM

挑选合适的Elasticsearch版本

下载Elasticsearch

解压到指定位置

启动前检查

Linux 系统参数检查

设置文件句柄( File Descriptors) 、内存锁定(Memory Lock)、用户线程限制（User maximum number of threads）

集群运行最少的参数配置

操作系统

JVM

挑选合适的Elasticsearch版本

下载Elasticsearch

解压到指定位置

启动前检查

Linux 系统参数检查

设置文件句柄( File Descriptors) 、内存锁定(Memory Lock)、用户线程限制（User maximum number of threads）

集群运行最少的参数配置

社区日报第166期 (2018-01-22)

社区日报第165期 (2018-01-21)

社区日报第164期 (2018-01-20)

java 客户端获取 termvectors

社区日报第163期 (2018-01-19)

社区日报第162期 (2018-01-18)

社区日报第161期 (2018-01-17)

社区日报第160期 (2018-01-16)

社区日报第159期 (2018-01-15)

社区日报第158期 (2018-01-14)

社区日报第157期 (2018-01-13)

社区日报第156期 (2018-01-12)

社区日报第155期 (2018-01-11)

elasticsearch java原生打分插件开发

活动推荐

热门文章

热门话题

操作系统

JVM

挑选合适的Elasticsearch版本

下载Elasticsearch

解压到指定位置

启动前检查

Linux 系统参数检查

设置 文件句柄( File Descriptors) 、 内存锁定(Memory Lock)、用户线程限制（User maximum number of threads）

集群运行最少的参数配置

操作系统

JVM

挑选合适的Elasticsearch版本

下载Elasticsearch

解压到指定位置

启动前检查

Linux 系统参数检查

设置 文件句柄( File Descriptors) 、 内存锁定(Memory Lock)、用户线程限制（User maximum number of threads）

集群运行最少的参数配置

活动推荐

热门文章

热门话题

设置文件句柄( File Descriptors) 、内存锁定(Memory Lock)、用户线程限制（User maximum number of threads）

设置文件句柄( File Descriptors) 、内存锁定(Memory Lock)、用户线程限制（User maximum number of threads）