不为失败找理由,要为成功找方法。

Logstash启动配置文件 启动成功后立即被关闭 elasticsearch会显示 远程主机强迫关闭连接

Logstashshdosh 回复了问题 • 2 人关注 • 2 个回复 • 6521 次浏览 • 2018-06-19 15:47 • 来自相关话题

关于 跨字段实体搜索

回复

Elasticsearchzxk 发起了问题 • 1 人关注 • 0 个回复 • 1775 次浏览 • 2018-01-22 16:11 • 来自相关话题

如何运行一个elasticsearch集群

ElasticsearchRicky_Lau 发表了文章 • 0 个评论 • 10516 次浏览 • 2018-01-22 15:27 • 来自相关话题

Elasticsearch 和大多数的组件是一样,你若想要她全心全意的为你服务,你就必须满足她的需求,毕竟巧妇也难为无米之炊嘛。
Elasticsearch 的要求不高,仅仅需要合适的操作系统和JVM版本,这是最基本的要求了,如果无法满足还请放开她。

操作系统


![操作系统版本依赖](http://elasticsearch.club/wp-c ... os.png)


若没有特殊说明,以后文章中ES的操作系统运行环境默认为 :

CentOS Linux release 7.2.1511 (Core)

JVM


![JVM版本依赖](http://elasticsearch.club/wp-c ... vm.png)


若没有特殊说明,以后文章中运行ES的Java版本默认为 :

Java version 1.8.0_102



挑选合适的Elasticsearch版本

如何选择Elasticsearch 版本与如何选择找女朋友的原理是一样的。
新的版本、年轻的姑娘相信大家都喜欢.但是新的姑娘大部都分经历少、
可能家务也不会做,如果这缺点你有接受那没有问题。新的Elasticsearch 版本也是一样,
新的Elasticsearch 插件的支持可能没有那么好,新特性未被实际的生产环境验证过,如果
这些都能容忍,那么使用最新的Elasticsearch版本是最好的选择。

下载Elasticsearch


[Elasticsearch下载](https://www.elastic.co/downloads/elasticsearch) ( ← 右击在新标签页打开 ^-^)


解压到指定位置

```

  1. mkdir -p $ES_HOME_PARENT //创建用于存放elasticsearch组件的父目录
  2. tar -zxvf elasticsearch-6.1.1.tar.gz -C $ES_HOME_PARENT
  3. cd $ES_HOME_PARENT
  4. mv elasticsearch-6.1.1 es-6.1.1_benchmark611 //修改个名称
  5. mkdir -p $ES_DATA_PATH/store/es-6.1.1_benchmark611 //用于存放Elasticsearch 数据
  6. mkdir -p $ES_DATA_PATH/logs/es-6.1.1_benchmark611 //用于存放Elasticsearch 日志
    ```

    启动前检查


    Linux 系统参数检查

    为什么要设置这些系统参数呢?如果不设置会对集群产生哪些影响呢?


    文件句柄( File Descriptors)
    如果设置过小的文件句柄,Elasticsearch 将无法与集群进行通信以及创建新的索引。

    内存锁定(Memory Lock)
    如果没有锁定内存,操作系统会扫描不使用的内存并把他交换到磁盘上,需要的时候
    在加载到内存中。这样的操作会引起磁盘抖动,对于低延时的请求会造成比较大的伤害。
    因为JVM已经有垃圾回收器,所以不需要操作系统层面的策略来管理内存,在这里我们
    锁定内存来阻止系统层面插手内存管理 。

    用户线程限制(User maximum number of threads)
    Elasticsearch 中有各种线程池,每种线程池里都会运行着不同的任务,如果操作系统支持的用户线程数据设置的较低,
    集群将无法创建更多的线程运行任务,导致集群无法正常工作。

    虚拟内存(Virtual Memory)
    操作系统默认virtual memory都是unlimited,如果不是就重新设置,主要与内存映射总数配置同时设置,加速访问索引数据访问。

    设置 文件句柄( File Descriptors) 、 内存锁定(Memory Lock)、用户线程限制(User maximum number of threads)


    如下图,我已经修改了操作系统设置,如果你还没设置请用下面的命令设置
    查询命令(ulimit -a
    ![操作系统设置](http://elasticsearch.club/wp-c ... em.png)

    修改命令(执行此命令需要root 权限)
    <br /> vim /etc/security/limits.conf <br /> esadmin soft nproc 40000<br /> esadmin hard nproc 40000<br /> esadmin soft nofile 65536<br /> esadmin hard nofile 65536<br /> esadmin soft memlock -1<br /> esadmin hard memlock -1<br />



    内存映射总数(Max Map Count)


    内存映射总数(Max Map Count)
    Elasticsearch使用mmap把索引映射到虚拟内存空间,Elasticsearch 同样也需求足够的数据来创建内存映射区域。
    Elasticsearch 要求最大内存映射总数至少设置 262144,过小可能无法完成索引的映射

    修改命令(执行此命令需要root 权限)
    <br /> sysctl -w vm.max_map_count=262144<br />


    除了以上只是启动前更多需要检查的配置如下

    [ES启动前检查](https://www.elastic.co/guide/e ... s.html) ( ← 右击在新标签页打开 ^-^)


    集群运行最少的参数配置

    <br /> 这是Master Node 配置参数<br /> vim $ES_HOME/config/elasticsearch.yml<br />

    ```

    ======================== ES 参数配置 =========================



    ------------------------ 集群设定 ----------------------------


    集群名称

    cluster.name: benchmark612


    ------------------------ 节点设定 ----------------------------


    节点名称

    node.name: ${HOSTNAME}


    节点角色

    node.master: true
    node.data: false
    node.ingest: false


    ------------------------ 路径设定 ----------------------------


    索引、日志存放路径

    path:
    data: /data/store/es-6.1.2_benchmark612
    logs: /data/logs/es-6.1.2_benchmark612


    ------------------------ 内存设定 ----------------------------



    锁定内存,阻止操作系统管理内存,可以有效的防止内存数据被交换到磁盘空间,

    交换过程中磁盘会抖动,会对性能产生较大的影响。因为ES是基于JAVA开发的

    可以能过垃圾回收器来单独管理内存,所以关闭操作系统级别的内存管理可以

    提升性能

    bootstrap.memory_lock: true


    ------------------------ 网络设定 ----------------------------


    绑定节点上的所有网络接口,用于接收通过任意网卡传输过来的请求

    network.bind_host: 0.0.0.0


    绑定一个网络接口(网卡),用于集群内部节点通信(一般选择吞吐量大的网卡)

    network.publish_host: eth0:ipv4


    HTTP 通信端口

    http.port: 50000


    TCP 通信端口

    transport.tcp.port: 50100


    --------------------------------- 集群发现 模块 ----------------------------------


    集群初始化连接列表,节点启动后,首先通过连接初始化列表里的地址去发现集群。

    discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]


    为了防止集群脑裂,目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台,可以完成选举),集群才会进行master选举

    discovery.zen.minimum_master_nodes: 2


    ---------------------------------- 其它 -----------------------------------


    关闭操作系统内核验证(我的操作系统没有升级,如果不关闭验证则无法启动)

    bootstrap.system_call_filter: false


    ------------------------ HTTP ----------------------------


    是否支持跨域访问资源

    http.cors.enabled: true



    允许访问资源的类型

    http.cors.allow-origin: "*"



    允许HTTP请求的方法类型

    http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE


    允许HTTP请求头返回类型

    http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding


    支持HTTP访问API 总开关

    http.enabled: true



    <br /> <br /> <br />
    这是Data Node 配置参数
    vim $ES_HOME/config/elasticsearch.yml
    <br /> <br />

    ======================== ES 参数配置 =========================



    ------------------------ 集群设定 ----------------------------


    集群名称

    cluster.name: benchmark612


    ------------------------ 节点设定 ----------------------------


    节点名称

    node.name: ${HOSTNAME}


    节点角色

    node.master: false
    node.data: true
    node.ingest: false


    ------------------------ 路径设定 ----------------------------


    索引、日志存放路径

    path:
    data: /data/store/es-6.1.2_benchmark612
    logs: /data/logs/es-6.1.2_benchmark612


    ------------------------ 内存设定 ----------------------------



    锁定内存,阻止操作系统管理内存,可以有效的防止内存数据被交换到磁盘空间,

    交换过程中磁盘会抖动,会对性能产生较大的影响。因为ES是基于JAVA开发的

    可以能过垃圾回收器来单独管理内存,所以关闭操作系统级别的内存管理可以

    提升性能

    bootstrap.memory_lock: true


    ------------------------ 网络设定 ----------------------------


    绑定节点上的所有网络接口,用于接收通过任意网卡传输过来的请求

    network.bind_host: 0.0.0.0


    绑定一个网络接口(网卡),用于集群内部节点通信(一般选择吞吐量大的网卡)

    network.publish_host: eth0:ipv4


    HTTP 通信端口

    http.port: 50000


    TCP 通信端口

    transport.tcp.port: 50100


    --------------------------------- 集群发现 模块 ----------------------------------


    集群初始化连接列表,节点启动后,首先通过连接初始化列表里的地址去发现集群。

    discovery.zen.ping.unicast.hosts: ["20.120.203.74:50100","20.120.203.76:50100","20.120.203.81:50100","20.120.203.84:50100","20.120.203.85:50100"]


    为了防止集群脑裂,目前的策略是当且仅当节点有超过半数的master候选者存活时(目前是2台,可以完成选举),集群才会进行master选举

    discovery.zen.minimum_master_nodes: 2


    ---------------------------------- 其它 -----------------------------------


    关闭操作系统内核验证(我的操作系统没有升级,如果不关闭验证则无法启动)

    bootstrap.system_call_filter: false


    <br /> <br /> <br /> 相信细心的同学发现了Master和Data 配置的区别<br /> <br /> 1) 区别一, Master 和 Data 节点角色配置的不同<br />

    节点角色 Master

    node.master: true
    node.data: false
    node.ingest: false

    节点角色 Data

    node.master: false
    node.data: true
    node.ingest: false
    <br /> 2) 区别二, Master 设置了HTTP 相关参数,如果不设置,将无法通过HEAD能插件来访问集群<br />


    ------------------------ HTTP ----------------------------


    是否支持跨域访问资源

    http.cors.enabled: true



    允许访问资源的类型

    http.cors.allow-origin: "*"



    允许HTTP请求的方法类型

    http.cors.allow-methods: OPTIONS,HEAD,GET,POST,PUT,DELETE


    允许HTTP请求头返回类型

    http.cors.allow-headers: X-Requested-With,Content-Type,Content-Length,Authorization,Content-Encoding,Accept-Encoding


    支持HTTP访问API 总开关

    http.enabled: true


    ```

    不设置HTTP参数
    ![插件无法管理ES集群](http://elasticsearch.club/wp-c ... or.png)

    设置HTTP参数后
    ![插件管理ES集群](http://elasticsearch.club/wp-c ... ss.png)



    到这里,一个Elasticsearch 就正常的运行起来了。

    转自: http://elasticsearch.club/elas ... ster/


ES中是否无法实现 mysql 类似的 join

Elasticsearchfanmo3yuan 回复了问题 • 5 人关注 • 4 个回复 • 7131 次浏览 • 2019-01-11 10:50 • 来自相关话题

社区日报 第166期 (2018-01-22)

社区日报cyberdak 发表了文章 • 0 个评论 • 1782 次浏览 • 2018-01-22 08:45 • 来自相关话题

1.如何选择使用logstash还是elasticsearch-ingest节点?
http://t.cn/RQjPCYj

2.为machine learning jobs自定义聚合查询。
http://t.cn/RQjPQdf

3.elasticsearch因为cpu漏洞所受到的性能冲击。
http://t.cn/RQjh2oD 

编辑:cyberdak
归档:https://elasticsearch.cn/article/464
订阅:https://tinyletter.com/elastic-daily
 

ES增加节点

回复

Elasticsearchchenxm0927 发起了问题 • 1 人关注 • 0 个回复 • 3799 次浏览 • 2018-01-21 15:30 • 来自相关话题

社区日报 第165期 (2018-01-21)

社区日报至尊宝 发表了文章 • 0 个评论 • 1712 次浏览 • 2018-01-21 09:07 • 来自相关话题

  1. Elasticsearch的最佳分片管理策略。
    [http://t.cn/RQp1VMF](http://t.cn/RQp1VMF)

  2. Elasticsearch映射:关于如何创建,编辑,删除的例子。
    [http://t.cn/RQObLTG](http://t.cn/RQObLTG)

  3. (自备梯子)想象一个更好的互联网环境。
    [http://t.cn/RQO589h](http://t.cn/RQO589h)


聚合去重统计数量,使用transportClient api 执行失败

回复

Elasticsearchdlliwei 发起了问题 • 0 人关注 • 0 个回复 • 4842 次浏览 • 2018-01-20 16:24 • 来自相关话题

ik中文分词结果得分问题

Elasticsearchrockybean 回复了问题 • 3 人关注 • 1 个回复 • 2739 次浏览 • 2018-01-22 06:48 • 来自相关话题

社区日报 第164期 (2018-01-20)

社区日报千夜 发表了文章 • 0 个评论 • 1637 次浏览 • 2018-01-20 11:28 • 来自相关话题

几篇旧闻
1. Elasticsearch 联结查询 joining queries
http://t.cn/RQNunNP 
2. Elasticsearch 中的 ignore_above
http://t.cn/RQNu1fW 
3. Migration Patterns: Elasticsearch
http://t.cn/RQp8yGC
 
编辑:江水
归档:https://elasticsearch.cn/article/462
订阅:https://tinyletter.com/elastic-daily
 

elasticsearch6.1.2 java rest high level client 创建连接时报找不到CheckedConsumer类

回复

Elasticsearchyzy 发起了问题 • 1 人关注 • 0 个回复 • 4601 次浏览 • 2018-01-19 22:21 • 来自相关话题

es 其中一台莫名踢出集群 请各帮忙分析一下原因

Elasticsearchxinfanwang 回复了问题 • 3 人关注 • 1 个回复 • 3763 次浏览 • 2018-01-23 11:07 • 来自相关话题

字段折叠错误

回复

Elasticsearchdlliwei 发起了问题 • 1 人关注 • 0 个回复 • 2190 次浏览 • 2018-01-19 16:35 • 来自相关话题

java 客户端 获取 termvectors

ElasticsearchJiaShiwen 发表了文章 • 0 个评论 • 5085 次浏览 • 2018-01-19 15:56 • 来自相关话题

elasticsearch的termvectors包括了term的位置、词频等信息。这些信息用于相应的数据统计或开发其他功能,本文介绍termvecters如何使用,如何通过java客户端获取termvectors相关信息。



要使用termvctor首先要配置mapping中field的"term_vector"属性,默认状态es不开启termvector,因为这样会增加索引的体积,毕竟多存了不少元数据。

<br /> PUT test<br /> {<br /> "mappings": {<br /> "qa_test": {<br /> "dynamic": "strict",<br /> "_all": {<br /> "enabled": false<br /> },<br /> "properties": {<br /> "question": {<br /> "properties": {<br /> "cate": {<br /> "type": "keyword"<br /> },<br /> "desc": {<br /> "type": "text",<br /> "store": true,<br /> "term_vector": "with_positions_offsets_payloads",<br /> "analyzer": "ik_smart"<br /> },<br /> "time": {<br /> "type": "date",<br /> "store": true,<br /> "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"<br /> },<br /> "title": {<br /> "type": "text",<br /> "store": true,<br /> "term_vector": "with_positions_offsets_payloads",<br /> "analyzer": "ik_smart"<br /> }<br /> }<br /> },<br /> "updatetime": {<br /> "type": "date",<br /> "store": true,<br /> "format": "strict_date_optional_time||epoch_millis||yyyy-MM-dd HH:mm:ss"<br /> }<br /> }<br /> }<br /> },<br /> "settings": {<br /> "index": {<br /> "number_of_shards": "1",<br /> "requests": {<br /> "cache": {<br /> "enable": "true"<br /> }<br /> },<br /> "number_of_replicas": "1"<br /> }<br /> }<br /> }<br />
注意示例中的"title"的"term_vector"属性。

接下来为索引创建一条数据

<br /> PUT qa_test_02/qa_test/1<br /> {<br /> "question": {<br /> "cate": [<br /> "装修流程",<br /> "其它"<br /> ],<br /> "desc": "筒灯,大洋和索正这两个牌子,哪个好?希望内行的朋友告知一下,谢谢!",<br /> "time": "2016-07-02 19:59:00",<br /> "title": "筒灯大洋和索正这两个牌子哪个好"<br /> },<br /> "updatetime": 1467503940000<br /> }<br />

下面我们看看这条数据上question.title字段的termvector信息

<br /> GET qa_test_02/qa_test/1/_termvectors<br /> {<br /> "fields": [<br /> "question.title"<br /> ],<br /> "offsets": true,<br /> "payloads": true,<br /> "positions": true,<br /> "term_statistics": true,<br /> "field_statistics": true<br /> }<br />

结果大概这个样子

<br /> {<br /> "_index": "qa_test_02",<br /> "_type": "qa_test",<br /> "_id": "1",<br /> "_version": 1,<br /> "found": true,<br /> "took": 0,<br /> "term_vectors": {<br /> "question.title": {<br /> "field_statistics": {<br /> "sum_doc_freq": 9,<br /> "doc_count": 1,<br /> "sum_ttf": 9<br /> },<br /> "terms": {<br /> "和": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 2,<br /> "start_offset": 4,<br /> "end_offset": 5<br /> }<br /> ]<br /> },<br /> "哪个": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 7,<br /> "start_offset": 12,<br /> "end_offset": 14<br /> }<br /> ]<br /> },<br /> "大洋": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 1,<br /> "start_offset": 2,<br /> "end_offset": 4<br /> }<br /> ]<br /> },<br /> "好": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 8,<br /> "start_offset": 14,<br /> "end_offset": 15<br /> }<br /> ]<br /> },<br /> "正": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 4,<br /> "start_offset": 6,<br /> "end_offset": 7<br /> }<br /> ]<br /> },<br /> "牌子": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 6,<br /> "start_offset": 10,<br /> "end_offset": 12<br /> }<br /> ]<br /> },<br /> "筒灯": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 0,<br /> "start_offset": 0,<br /> "end_offset": 2<br /> }<br /> ]<br /> },<br /> "索": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 3,<br /> "start_offset": 5,<br /> "end_offset": 6<br /> }<br /> ]<br /> },<br /> "这两个": {<br /> "doc_freq": 1,<br /> "ttf": 1,<br /> "term_freq": 1,<br /> "tokens": [<br /> {<br /> "position": 5,<br /> "start_offset": 7,<br /> "end_offset": 10<br /> }<br /> ]<br /> }<br /> }<br /> }<br /> }<br /> }<br />
下面我们说说如何通过java代码实现termvector的获取,不说废话直接上代码

<br /> TermVectorsResponse termVectorResponse = client.prepareTermVectors().setIndex(sourceindexname).setType(sourceindextype)<br /> .setId(id).setSelectedFields(fieldname).setTermStatistics(true).execute()<br /> .actionGet();<br /> XContentBuilder builder = XContentFactory.contentBuilder(XContentType.JSON);<br /> termVectorResponse.toXContent(builder, null);<br /> System.out.println(builder.string());<br /> Fields fields = termVectorResponse.getFields();<br /> Iterator<String> iterator = fields.iterator();<br /> while (iterator.hasNext()) {<br /> String field = iterator.next();<br /> Terms terms = fields.terms(field);<br /> TermsEnum termsEnum = terms.iterator();<br /> while (termsEnum.next() != null) {<br /> BytesRef term = termsEnum.term();<br /> if (term != null) {<br /> System.out.println(term.utf8ToString() + termsEnum.totalTermFreq());<br /> }<br /> }<br /> }<br /> <br />
获取TermVectorsResponse的代码很好理解,主要是设置索引名称、索引type、索引id以及需要展示的若干属性。

接下来是如何获取某一term的termvector,有两种方案第一种是通过TermVectorsResponse的toXContent方法直接生成XContentBuilder,这种方法可以直接获取和上面通过DSL查询一样的json结果;第二种是通过Fields的iterator遍历fields,获取TermsEnum,熟悉lucene的同学应会更熟悉第二种方法。






使用ES Http远程调用查询数据速度很慢?本地部署查询正常?为什么?谢谢

Elasticsearchyangchenq 回复了问题 • 2 人关注 • 2 个回复 • 3511 次浏览 • 2018-01-22 10:15 • 来自相关话题