沙师弟,师父的充电器掉了

双层pdf(serachable pdf)全文检索方案

Elasticsearch | 作者 fazang | 发布于2017年09月14日 | 阅读数:4702

本人医学狗一枚,手中有300K本医学pdf待OCR,目前已可稳定生成1000本双层pdf/day。
正寻求快速定位原文,再现纸质书页面的平台。
类似产品使用过,但皆未支持正则表达式检索,目前从期刊中了解到Lucene可实现此效果,但是具体细节并未披露,希望有经验的大大能指教。
拜谢。
已邀请:

kennywu76 - Wood

赞同来自: fazang

这个问题链接里有关于如何索引和搜索PDF文档的样例: https://elasticsearch.cn/question/535
 
ES本身支持正则表达式检索 https://www.elastic.co/guide/e ... regex 

dongne

赞同来自:

lucene 好像真的没有办法实现中文正则查询,貌似只能用 wildQuery 了

zqc0512 - andy zhou

赞同来自:

你玩意中文支持不是很好,可以在写的时候自己把中文转移下,再封装个接口,查询下。
不过在kibana上面可以用中文,你存储的时候需要注意下格式
search city:"海口市"
 

要回复问题请先登录注册