亲,只收二进制

Enterprise:Elastic App Search - Web 爬虫

Elasticsearch | 作者 liuxg | 发布于2021年02月18日 | | 阅读数:1122

让内容搜索可通过多种形式实现。Elastic App Search 已经允许用户通过上传或粘贴 JSON 以及通过 API 终端来采集内容。使用 Elastic 企业搜索 7.11,用户现在可以通过功能强大的网络爬虫来采集内容,该爬虫能够从可公开访问的网站中检索信息,从而可以轻松地在你的 App Search 引擎中搜索内容。与 App Search 上的任何采集方法一样,这种模式是在采集时推断出来的,只需单击一下即可进行近乎实时地更新。通过单击(无需写代码),用户就可以定制网络爬虫规则,以便在排除规则指示网络爬虫避免某些页面、内容和术语的同时指定入口点。
 
https://elasticstack.blog.csdn ... 49006

[尊重社区原创,转载请保留或注明出处]
本文地址:http://elasticsearch.cn/article/14248


1 个评论

中文页面爬取乱码了,应该在哪里配置,新手上路。。。。。

要回复文章请先登录注册