elasticsearch 2.1
关于Lucene merge 占用CPU高的问题
Elasticsearch • PandaXu 回复了问题 • 6 人关注 • 3 个回复 • 10707 次浏览 • 2020-04-23 12:15
ES聚合时能否同时获取多个字段
Elasticsearch • jaychang 回复了问题 • 4 人关注 • 3 个回复 • 13378 次浏览 • 2018-04-09 18:38
使用spark向elasticsearch中写入数据异常
Elasticsearch • joe23_2006 回复了问题 • 6 人关注 • 6 个回复 • 20655 次浏览 • 2018-01-31 13:36
FunctionScore不允许嵌套,那类似 MAX(A, B) + C 这样的分值该怎么处理?
Elasticsearch • Jea 回复了问题 • 5 人关注 • 2 个回复 • 4758 次浏览 • 2017-07-25 10:39
elasticsearch中的索引跟数据库中的索引有什么区别?
Elasticsearch • luc 回复了问题 • 3 人关注 • 2 个回复 • 4418 次浏览 • 2017-06-03 17:18
elasticsearch-spark update field using script返回异常
回复Elasticsearch • ggchangan 发起了问题 • 1 人关注 • 0 个回复 • 7322 次浏览 • 2016-09-02 18:53
修改ES索引自动创建规则后,Marvel监控数据采集不全
Elasticsearch • medcl 回复了问题 • 2 人关注 • 1 个回复 • 6857 次浏览 • 2016-08-11 23:40
创建索引时副本(replicas)延迟复制的问题
Elasticsearch • medcl 回复了问题 • 3 人关注 • 1 个回复 • 5423 次浏览 • 2016-07-21 09:10
禁止shard allocation,滚动重启ES节点后,原来的分片都变成了Unassigned状态
Elasticsearch • nihao 回复了问题 • 3 人关注 • 1 个回复 • 8434 次浏览 • 2016-07-13 18:36
ES2.1中@timestamp的mapping冲突
Elasticsearch • sp42 回复了问题 • 4 人关注 • 4 个回复 • 11657 次浏览 • 2016-06-29 13:38
ElasticSearch 2.x java client 如何从SearchResponse中获取_routing
回复Elasticsearch • lilin 发起了问题 • 1 人关注 • 0 个回复 • 7878 次浏览 • 2016-05-27 20:01
ElasticSearch插件集
Elasticsearch • kl 发表了文章 • 0 个评论 • 12872 次浏览 • 2016-03-30 18:07
java爬虫爬取Elastic中文社区用作es测试数据
Elasticsearch • kl 发表了文章 • 1 个评论 • 7892 次浏览 • 2016-03-29 23:10
/**
* Created by 小陈 on 2016/3/29.
*/
@Component
public class ElasticCrawler extends BreadthCrawler {
@Autowired
IpaDao ipaDao;
public ElasticCrawler() {
super("crawl", true);
/*start page*/
this.addSeed("xxx");
/*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
this.addRegex("xxx");
/*do not fetch jpg|png|gif*/
this.addRegex("-.*\\.(jpg|png|gif).*");
/*do not fetch url contains #*/
// this.addRegex("-.*#.*");
}
@Override
public void visit(Page page, CrawlDatums next) {
String url = page.getUrl();
String content="";
try {
content = ContentExtractor.getContentByUrl(url);
}catch (Exception e){
e.printStackTrace();
}
/*抽取标题*/
String title=page.getDoc().title();
System.out.println("-------------------->"+title);
if(!title.isEmpty() && ! content.isEmpty()){
Pa pa=new Pa(title,content);
ipaDao.save(pa);//持久化到数据库
}
}
爬取CSDN资源
/**
* @author kl by 2016/3/29
* @boke www.kailing.pub
*/
@Component
public class CSDNCrawler extends BreadthCrawler {
@Autowired
IpaDao ipaDao;
public CSDNCrawler() {
super("crawl", true);
/*start page*/
this.addSeed("http://blog.csdn.net/.*");//添加种子地址
/*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
this.addRegex("http://blog.csdn.net/.*/article/details/.*");
/*do not fetch jpg|png|gif*/
this.addRegex("-.*\\.(jpg|png|gif).*");
/*do not fetch url contains #*/
// this.addRegex("-.*#.*");
}
@Override
public void visit(Page page, CrawlDatums next) {
String url = page.getUrl();
String content="";
try {
content = ContentExtractor.getContentByUrl(url);
}catch (Exception e){
e.printStackTrace();
}
if (page.matchUrl("http://blog.csdn.net/.*/article/details/.*")) {
String title = page.select("div[class=article_title]").first().text();
String author = page.select("div[id=blog_userface]").first().text();//获取作者名
System.out.println("title:" + title + "\tauthor:" + author);
if(!title.isEmpty() && ! content.isEmpty()){
Pa pa=new Pa(title,content);
ipaDao.save(pa);
}
}
}
ps:Elastic中文社区的爬取规则和谐了,楼主是爱社区的,大家可以放心的爬CSDN吧,WebCollector功能很强大,爬虫的一个关键就是需要知道网站的url规则,有兴趣的可以研究 下,Elastic的数据不多,分吧钟就够了,CSDN爬了5,6分钟,没有做深度的爬,取了大概二三十万的数据样子,只取标题和正文
去我博客查看原文 http://www.kailing.pub/article/index/arcid/86.html
下面是导入数据的截图
java使用HTTP Rest client 客户端Jest连接操作es,功能很强大
Elasticsearch • kl 发表了文章 • 6 个评论 • 26871 次浏览 • 2016-03-28 23:30
关于Lucene merge 占用CPU高的问题
回复Elasticsearch • PandaXu 回复了问题 • 6 人关注 • 3 个回复 • 10707 次浏览 • 2020-04-23 12:15
使用spark向elasticsearch中写入数据异常
回复Elasticsearch • joe23_2006 回复了问题 • 6 人关注 • 6 个回复 • 20655 次浏览 • 2018-01-31 13:36
FunctionScore不允许嵌套,那类似 MAX(A, B) + C 这样的分值该怎么处理?
回复Elasticsearch • Jea 回复了问题 • 5 人关注 • 2 个回复 • 4758 次浏览 • 2017-07-25 10:39
elasticsearch中的索引跟数据库中的索引有什么区别?
回复Elasticsearch • luc 回复了问题 • 3 人关注 • 2 个回复 • 4418 次浏览 • 2017-06-03 17:18
elasticsearch-spark update field using script返回异常
回复Elasticsearch • ggchangan 发起了问题 • 1 人关注 • 0 个回复 • 7322 次浏览 • 2016-09-02 18:53
修改ES索引自动创建规则后,Marvel监控数据采集不全
回复Elasticsearch • medcl 回复了问题 • 2 人关注 • 1 个回复 • 6857 次浏览 • 2016-08-11 23:40
创建索引时副本(replicas)延迟复制的问题
回复Elasticsearch • medcl 回复了问题 • 3 人关注 • 1 个回复 • 5423 次浏览 • 2016-07-21 09:10
禁止shard allocation,滚动重启ES节点后,原来的分片都变成了Unassigned状态
回复Elasticsearch • nihao 回复了问题 • 3 人关注 • 1 个回复 • 8434 次浏览 • 2016-07-13 18:36
ES2.1中@timestamp的mapping冲突
回复Elasticsearch • sp42 回复了问题 • 4 人关注 • 4 个回复 • 11657 次浏览 • 2016-06-29 13:38
ElasticSearch 2.x java client 如何从SearchResponse中获取_routing
回复Elasticsearch • lilin 发起了问题 • 1 人关注 • 0 个回复 • 7878 次浏览 • 2016-05-27 20:01
新人提问:kibana链接es失败,该如何解决!
回复Elasticsearch • medcl 回复了问题 • 2 人关注 • 1 个回复 • 9274 次浏览 • 2016-02-28 09:58
ES有完整的API文档吗》官网上的是不是不全噢
回复Elasticsearch • miranda2016 发起了问题 • 1 人关注 • 0 个回复 • 5276 次浏览 • 2016-02-01 14:29
ElasticSearch插件集
Elasticsearch • kl 发表了文章 • 0 个评论 • 12872 次浏览 • 2016-03-30 18:07
java爬虫爬取Elastic中文社区用作es测试数据
Elasticsearch • kl 发表了文章 • 1 个评论 • 7892 次浏览 • 2016-03-29 23:10
/**
* Created by 小陈 on 2016/3/29.
*/
@Component
public class ElasticCrawler extends BreadthCrawler {
@Autowired
IpaDao ipaDao;
public ElasticCrawler() {
super("crawl", true);
/*start page*/
this.addSeed("xxx");
/*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
this.addRegex("xxx");
/*do not fetch jpg|png|gif*/
this.addRegex("-.*\\.(jpg|png|gif).*");
/*do not fetch url contains #*/
// this.addRegex("-.*#.*");
}
@Override
public void visit(Page page, CrawlDatums next) {
String url = page.getUrl();
String content="";
try {
content = ContentExtractor.getContentByUrl(url);
}catch (Exception e){
e.printStackTrace();
}
/*抽取标题*/
String title=page.getDoc().title();
System.out.println("-------------------->"+title);
if(!title.isEmpty() && ! content.isEmpty()){
Pa pa=new Pa(title,content);
ipaDao.save(pa);//持久化到数据库
}
}
爬取CSDN资源
/**
* @author kl by 2016/3/29
* @boke www.kailing.pub
*/
@Component
public class CSDNCrawler extends BreadthCrawler {
@Autowired
IpaDao ipaDao;
public CSDNCrawler() {
super("crawl", true);
/*start page*/
this.addSeed("http://blog.csdn.net/.*");//添加种子地址
/*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
this.addRegex("http://blog.csdn.net/.*/article/details/.*");
/*do not fetch jpg|png|gif*/
this.addRegex("-.*\\.(jpg|png|gif).*");
/*do not fetch url contains #*/
// this.addRegex("-.*#.*");
}
@Override
public void visit(Page page, CrawlDatums next) {
String url = page.getUrl();
String content="";
try {
content = ContentExtractor.getContentByUrl(url);
}catch (Exception e){
e.printStackTrace();
}
if (page.matchUrl("http://blog.csdn.net/.*/article/details/.*")) {
String title = page.select("div[class=article_title]").first().text();
String author = page.select("div[id=blog_userface]").first().text();//获取作者名
System.out.println("title:" + title + "\tauthor:" + author);
if(!title.isEmpty() && ! content.isEmpty()){
Pa pa=new Pa(title,content);
ipaDao.save(pa);
}
}
}
ps:Elastic中文社区的爬取规则和谐了,楼主是爱社区的,大家可以放心的爬CSDN吧,WebCollector功能很强大,爬虫的一个关键就是需要知道网站的url规则,有兴趣的可以研究 下,Elastic的数据不多,分吧钟就够了,CSDN爬了5,6分钟,没有做深度的爬,取了大概二三十万的数据样子,只取标题和正文
去我博客查看原文 http://www.kailing.pub/article/index/arcid/86.html
下面是导入数据的截图
java使用HTTP Rest client 客户端Jest连接操作es,功能很强大
Elasticsearch • kl 发表了文章 • 6 个评论 • 26871 次浏览 • 2016-03-28 23:30
大家聊一聊使用的什么版本的Elasticsearch,看看Elasticsearch版本变化
Elasticsearch • kl 发表了文章 • 4 个评论 • 6945 次浏览 • 2016-03-28 19:12
org.elasticsearch.transport.RemoteTransportException: Failed to deserialize exception response from stream
谷歌都说是服务和客户端的jvm不一致,我是本机环境测试的,所以,现在这个问题都还没解决,有遇到过的么,还是和版本有关系啊 org.elasticsearch.transport.RemoteTransportException: Failed to deserialize exception response from stream
谷歌都说是服务和客户端的jvm不一致,我是本机环境测试的,所以,现在这个问题都还没解决,有遇到过的么,还是和版本有关系啊 ElasticSearch2.1.1安装及简单配置说明
Elasticsearch • verra1448 发表了文章 • 2 个评论 • 5745 次浏览 • 2016-02-02 09:29