绊脚石乃是进身之阶。

HDFS 定期写入文件,存入elasticsearch实现全文检索

Elasticsearch | 作者 knownsec | 发布于2019年08月15日 | 阅读数:4430


WechatIMG55.png

各位大神好,谢谢查看我的问题,这个流程图里面有二个问题 我不知道如何解决。
1.  如何用 官网推荐的 elasticsearch-hdfs 搭建 分布式文件系统?
2. 如何 当我的开关开启的时候,就往elasticsearch-hdfs 分布式文件系统里面写入文件?
3. elasticsearch 如何 从 elasticsearch-hdfs 里面取到文件信息和内容(文件几乎是 office 文件)实现全文检索?(看了github 里面的 elasticsearch-hadoop 可以链接 hadoop与elasticsearch,但是不知道怎么用,(? 我是不是有点儿笨,各位可别笑话我哦!))
已邀请:

rochy - rochy_he

赞同来自:

首先需要明确,目前没有现成的工具或者系统实现了楼主所说的功能,所以需要楼主自己组合实现。
 
从楼主叙述可知,楼主注意的需求是存储 Office 文件(办公文件),并且希望能够通过 ES 进行全文检索。
 
楼主可以将文件本身,存储到 HDFS 上,这个有多种方式:HDFS 的 Java API 或者其 HttpFS 的 Restful API 都可以实现;
 
在存储时你需要对办公文件进行解析,得到文件中的内容还有文件的一些属性(标题、作者、日期、大小、路径)等信息;
对于办公文件内容和属性的解析你可以使用 Tika 来实现,
将上述信息解析好之后,调用 ES 的 API 将上述信息索引到具体的索引即可
 
最后就可以使用 ES 进行全文搜索,下载的时候直接从 HDFS 下载即可。
 

knownsec - 大数据方向研究

赞同来自:

感谢大神的讲解,我现在是这样弄的架构,不知道可行不?你帮我参考一下呢?
WechatIMG56.png

但是又存在1个问题。
 
1. 如何在 HDFS分布式文件系统每个节点上放置 一个我的 爬虫文件解析程序。

laoyang360 - 《一本书讲透Elasticsearch》作者,Elastic认证工程师 [死磕Elasitcsearch]知识星球地址:http://t.cn/RmwM3N9;微信公众号:铭毅天下; 博客:https://elastic.blog.csdn.net

赞同来自:

除了楼上推荐,建议中间环节对于文档的处理部分借助开源:fscrawler 实现到Elasticsearch的集成。

要回复问题请先登录注册