ES 搜索建议 Suggester 的问题

Elasticsearch | 作者 charleslxh | 发布于2017年07月12日 | 阅读数：12312

一直对 ES Completion Suggester 中 Input 和 Analyzer。

在建议词字段，建议词索引时使用 HanLP 分析器，搜索时使用 Simple 分析器。

PUT test_suggestion/

{

  "settings": {},

  "mappings": {

    "for_client": {

      "_all": {

        "enabled": false

      },

      "properties": {

        "keyword": {

          "type": "keyword"

        },

        "keyword_suggestion": {

          "type": "completion",

          "analyzer": "hanLp-index",

          "search_analyzer": "simple",

          "preserve_separators": true,

          "preserve_position_increments": true,

          "max_input_length": 50

        }

      }

    }

  }

}

创建一个文档：

PUT test_suggestion/for_client/1

{

  "keyword": "天上人间",

  "keyword_suggestion": {

    "input": "天上人间",

    "weight": 1

  }

}

搜索阶段：

POST test_suggestion/_suggest

{

  "term-suggestion": {

    "prefix": "天",

    "completion": {

      "field": "keyword_suggestion"

    }

  }

}

这时能搜索出来结果：

{

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "term-suggestion": [

    {

      "text": "天",

      "offset": 0,

      "length": 1,

      "options": [

        {

          "text": "天上人间",

          "_index": "test_suggestion",

          "_type": "for_client",

          "_id": "1",

          "_score": 1,

          "_source": {

            "keyword": "天上人间",

            "keyword_suggestion": {

              "input": "天上人间",

              "weight": 1

            }

          }

        }

      ]

    }

  ]

}

但是如果搜索不已 “天” 开头就搜不出来结果。

POST test_suggestion/_suggest

{

  "term-suggestion": {

    "prefix": "上",

    "completion": {

      "field": "keyword_suggestion"

    }

  }

}

结果：

{

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "term-suggestion": [

    {

      "text": "上",

      "offset": 0,

      "length": 1,

      "options": []

    }

  ]

这是为何呢，按理说，索引阶段分析器已经将 “天上人间” 分析为：“天上人间”、“天上”、“上人”、“人间” 四个词条。我搜索 “天” 能搜出来结果。但是搜索 “人”，却不能前缀匹配到词，这是为啥呢？真对 “Analyzer” 有点迷糊，难道分词结果不起作用？

3 个回复

kennywu76 - Wood

赞同来自: charleslxh 、famoss 、wokeyi 、kazaff 、wangxiaoer

根据你给的范例，“天上人间” 分析为：“天上人间”、“天上”、“上人”、“人间” 四个词条。要注意这4个词条还有顺序，也就是position分别为0, 1, 2, 3。

FST实际上是前缀编码，这些词被顺序串联在一起进行编码，并记录了每个词条的相对位置，编码后形如:
天上人间|天上|上人|人间
0 1 2 3

特别注意，这时候所有的查找都只能从0位置的“天”开始。

做completion suggest的时候，输入的词条经过分析后，必须有相同的前缀和相对位址。因为你的搜索用的simple analyzer，当输入"天"的时候，分析出来的是"天" (0)，在FST里是从起始位置开始可以匹配到。其他输入“天上” “天上人” 都是从位置0开始的前缀，也都可以匹配。
但是如果你输入“上”， simple analyzer分析出来的是"上" (0)，去FST里查，第一个就不匹配，所以没结果。

为了帮助理解，针对你的例子，可以试一下如下的搜索:

POST test_suggestion/_search

{

  "suggest": {

    "term-suggestion": {

      "prefix": "天上人间 天上 上",

      "completion": {

        "field": "keyword_suggestion"

      }

    }

  }

}

你会发现，上面用空格分隔的3个词，也可以match。原因在于搜索用的simple analyzer是用空格一类的分隔符分词的，分词结果是
天上人间|天上|上
0 1 2
顺着FST走下去，可以做到前缀匹配。

总结来说，当使用completion suggester的时候，不是用于完成类似于 "*关键词*"这样的模糊匹配场景，而是用于完成关键词前缀匹配的。对于汉字的处理，无需使用ik/ HanLP一类的分词器，直接使用keyword analyzer，配合去除一些不需要的stop word即可。

举个例子，做火车站站名的自动提示补全，你可能希望用户输入“上海” 或者 “虹桥” 都提示"上海虹桥火车站“ 。如果想使用completion suggester来做，正确的方法是为"上海虹桥火车站“这个站名准备2个completion词条，分别是:
"上海虹桥火车站"
"虹桥火车站"

这样用户的输入不管是从“上海”开始还是“虹桥”开始，都可以得到"上海虹桥火车站"的提示。

kepmoving - 90后

Completion Suggester，它主要针对的应用场景就是"Auto Completion"。此场景下用户每输入一个字符的时候，就需要即时发送一次查询请求到后端查找匹配项，在用户输入速度较高的情况下对后端响应速度要求比较苛刻。索引并非通过倒排来完成，而是将analyze过的数据编码成FST和索引一起存放。对于一个open状态的索引，FST会被ES整个装载到内存里的，进行前缀查找速度极快。但是FST只能用于前缀查找，这也是Completion Suggester的局限所在

kazaff

先创建一个测试的index

PUT /test-completion

{

  "mappings": {

    "_doc": {

      "dynamic": "strict",

      "properties": {

        "name": {

          "type": "text",

        },

        "name-comp": {  // 注意这里没有用multi-fields

            "type": "completion"

          }

      }

    }

  }

}

然后向起插入data：

POST /test-completion/_doc

{

  "name-comp": {

    "input": ["天上", "人间"]

  }

}

可以根据你的搜索需要，将data分词成理想的颗粒度，不过小弟我是es新手，只能想到在应用层做`input`值的分词准备，不知道有没有办法直接通过mapping完成这件事儿呢？

最后就可以检索试试了：

GET /test-completion/_search

{

  "suggest": {

    "test-suggestion": {

      "prefix": "人",

      "completion": {

        "field": "name-comp"

      }

    }

  }

}

要回复问题请先登录或注册

ES 搜索建议 Suggester 的问题

3 个回复

发起人

相关问题

问题状态

ES 搜索建议 Suggester 的问题

与内容相关的链接

3 个回复

发起人

相关问题

问题状态