elasticsearch 搜索
用zabbix监控es
Elasticsearch • Max 发表了文章 • 0 个评论 • 9268 次浏览 • 2017-05-06 14:18
用es的官方工具curator4来配置和管理和优化es索引
Elasticsearch • Max 发表了文章 • 0 个评论 • 5145 次浏览 • 2017-03-12 17:18
ElasticSearch插件集
Elasticsearch • kl 发表了文章 • 0 个评论 • 13023 次浏览 • 2016-03-30 18:07
java爬虫爬取Elastic中文社区用作es测试数据
Elasticsearch • kl 发表了文章 • 1 个评论 • 7995 次浏览 • 2016-03-29 23:10
/**
* Created by 小陈 on 2016/3/29.
*/
@Component
public class ElasticCrawler extends BreadthCrawler {
@Autowired
IpaDao ipaDao;
public ElasticCrawler() {
super("crawl", true);
/*start page*/
this.addSeed("xxx");
/*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
this.addRegex("xxx");
/*do not fetch jpg|png|gif*/
this.addRegex("-.*\\.(jpg|png|gif).*");
/*do not fetch url contains #*/
// this.addRegex("-.*#.*");
}
@Override
public void visit(Page page, CrawlDatums next) {
String url = page.getUrl();
String content="";
try {
content = ContentExtractor.getContentByUrl(url);
}catch (Exception e){
e.printStackTrace();
}
/*抽取标题*/
String title=page.getDoc().title();
System.out.println("-------------------->"+title);
if(!title.isEmpty() && ! content.isEmpty()){
Pa pa=new Pa(title,content);
ipaDao.save(pa);//持久化到数据库
}
}
爬取CSDN资源
/**
* @author kl by 2016/3/29
* @boke www.kailing.pub
*/
@Component
public class CSDNCrawler extends BreadthCrawler {
@Autowired
IpaDao ipaDao;
public CSDNCrawler() {
super("crawl", true);
/*start page*/
this.addSeed("http://blog.csdn.net/.*");//添加种子地址
/*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
this.addRegex("http://blog.csdn.net/.*/article/details/.*");
/*do not fetch jpg|png|gif*/
this.addRegex("-.*\\.(jpg|png|gif).*");
/*do not fetch url contains #*/
// this.addRegex("-.*#.*");
}
@Override
public void visit(Page page, CrawlDatums next) {
String url = page.getUrl();
String content="";
try {
content = ContentExtractor.getContentByUrl(url);
}catch (Exception e){
e.printStackTrace();
}
if (page.matchUrl("http://blog.csdn.net/.*/article/details/.*")) {
String title = page.select("div[class=article_title]").first().text();
String author = page.select("div[id=blog_userface]").first().text();//获取作者名
System.out.println("title:" + title + "\tauthor:" + author);
if(!title.isEmpty() && ! content.isEmpty()){
Pa pa=new Pa(title,content);
ipaDao.save(pa);
}
}
}
ps:Elastic中文社区的爬取规则和谐了,楼主是爱社区的,大家可以放心的爬CSDN吧,WebCollector功能很强大,爬虫的一个关键就是需要知道网站的url规则,有兴趣的可以研究 下,Elastic的数据不多,分吧钟就够了,CSDN爬了5,6分钟,没有做深度的爬,取了大概二三十万的数据样子,只取标题和正文
去我博客查看原文 http://www.kailing.pub/article/index/arcid/86.html
下面是导入数据的截图
java使用HTTP Rest client 客户端Jest连接操作es,功能很强大
Elasticsearch • kl 发表了文章 • 6 个评论 • 26983 次浏览 • 2016-03-28 23:30
es索引模版配置不当导致的aggs聚合查询字段显示错误的问题
Elasticsearch • Max 发表了文章 • 0 个评论 • 8770 次浏览 • 2016-03-18 16:51
Shards数量 对 elasticsearch搜素性能的影响
Elasticsearch • helloes 回复了问题 • 4 人关注 • 1 个回复 • 7215 次浏览 • 2016-03-04 16:34
elasticsearch 支持按位与搜索吗
Elasticsearch • Rubricate 回复了问题 • 3 人关注 • 1 个回复 • 6304 次浏览 • 2015-11-21 15:53
Shards数量 对 elasticsearch搜素性能的影响
回复Elasticsearch • helloes 回复了问题 • 4 人关注 • 1 个回复 • 7215 次浏览 • 2016-03-04 16:34
elasticsearch 支持按位与搜索吗
回复Elasticsearch • Rubricate 回复了问题 • 3 人关注 • 1 个回复 • 6304 次浏览 • 2015-11-21 15:53
用zabbix监控es
Elasticsearch • Max 发表了文章 • 0 个评论 • 9268 次浏览 • 2017-05-06 14:18
用es的官方工具curator4来配置和管理和优化es索引
Elasticsearch • Max 发表了文章 • 0 个评论 • 5145 次浏览 • 2017-03-12 17:18
ElasticSearch插件集
Elasticsearch • kl 发表了文章 • 0 个评论 • 13023 次浏览 • 2016-03-30 18:07
java爬虫爬取Elastic中文社区用作es测试数据
Elasticsearch • kl 发表了文章 • 1 个评论 • 7995 次浏览 • 2016-03-29 23:10
/**
* Created by 小陈 on 2016/3/29.
*/
@Component
public class ElasticCrawler extends BreadthCrawler {
@Autowired
IpaDao ipaDao;
public ElasticCrawler() {
super("crawl", true);
/*start page*/
this.addSeed("xxx");
/*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
this.addRegex("xxx");
/*do not fetch jpg|png|gif*/
this.addRegex("-.*\\.(jpg|png|gif).*");
/*do not fetch url contains #*/
// this.addRegex("-.*#.*");
}
@Override
public void visit(Page page, CrawlDatums next) {
String url = page.getUrl();
String content="";
try {
content = ContentExtractor.getContentByUrl(url);
}catch (Exception e){
e.printStackTrace();
}
/*抽取标题*/
String title=page.getDoc().title();
System.out.println("-------------------->"+title);
if(!title.isEmpty() && ! content.isEmpty()){
Pa pa=new Pa(title,content);
ipaDao.save(pa);//持久化到数据库
}
}
爬取CSDN资源
/**
* @author kl by 2016/3/29
* @boke www.kailing.pub
*/
@Component
public class CSDNCrawler extends BreadthCrawler {
@Autowired
IpaDao ipaDao;
public CSDNCrawler() {
super("crawl", true);
/*start page*/
this.addSeed("http://blog.csdn.net/.*");//添加种子地址
/*fetch url like http://news.hfut.edu.cn/show-xxxxxxhtml*/
this.addRegex("http://blog.csdn.net/.*/article/details/.*");
/*do not fetch jpg|png|gif*/
this.addRegex("-.*\\.(jpg|png|gif).*");
/*do not fetch url contains #*/
// this.addRegex("-.*#.*");
}
@Override
public void visit(Page page, CrawlDatums next) {
String url = page.getUrl();
String content="";
try {
content = ContentExtractor.getContentByUrl(url);
}catch (Exception e){
e.printStackTrace();
}
if (page.matchUrl("http://blog.csdn.net/.*/article/details/.*")) {
String title = page.select("div[class=article_title]").first().text();
String author = page.select("div[id=blog_userface]").first().text();//获取作者名
System.out.println("title:" + title + "\tauthor:" + author);
if(!title.isEmpty() && ! content.isEmpty()){
Pa pa=new Pa(title,content);
ipaDao.save(pa);
}
}
}
ps:Elastic中文社区的爬取规则和谐了,楼主是爱社区的,大家可以放心的爬CSDN吧,WebCollector功能很强大,爬虫的一个关键就是需要知道网站的url规则,有兴趣的可以研究 下,Elastic的数据不多,分吧钟就够了,CSDN爬了5,6分钟,没有做深度的爬,取了大概二三十万的数据样子,只取标题和正文
去我博客查看原文 http://www.kailing.pub/article/index/arcid/86.html
下面是导入数据的截图
java使用HTTP Rest client 客户端Jest连接操作es,功能很强大
Elasticsearch • kl 发表了文章 • 6 个评论 • 26983 次浏览 • 2016-03-28 23:30
es索引模版配置不当导致的aggs聚合查询字段显示错误的问题
Elasticsearch • Max 发表了文章 • 0 个评论 • 8770 次浏览 • 2016-03-18 16:51