Elasticsearch：Hadoop 大数据集成（Hadoop =＞ Elasticsearch）

Elasticsearch | 作者 liuxg | 发布于2022年10月09日 | | 阅读数：2176

在本文章中，我们将学习如何使用 Elasticsearch Hadoop 处理大量数据。对于我们的练习，我们将使用一个简单的 Apache access 日志来表示我们的 “大数据”。我们将学习如何编写 MapReduce 作业以使用 Hadoop 摄取文件并将其索引到 Elasticsearch 中。在我们今天的练习中，我们将使用如下的架构来搭建我们的系统：

如上所示，我们在左边的 macOS 中安装 Elasticsearch 及 Kibana，而在 Ubuntu OS 中安装 Hadoop。我们将以最新的 Elastic Stack 8.4.2 来进行展示。

Hadoop 是什么？

当我们需要收集、处理/转换和/或存储数千 GB、数千 TB 甚至更多的数据时，Hadoop 可能是完成这项工作的合适工具。它是从头开始构建的，考虑到这样的想法：

一次使用多台计算机（形成一个集群），以便它可以并行处理数据，从而更快地完成工作。我们可以这样想。如果一台服务器需要处理 100 TB 的数据，它可能会在 500 小时内完成。但是如果我们有 100 台服务器，每台只能取一部分数据，例如 server1 可以取第一个 TB，server2 可以取第二个 TB，以此类推。现在他们每个人都只有 1 TB 的数据要处理，而且他们都可以同时处理自己的数据部分。这样，工作可以在 5 小时内完成，而不是 500 小时。当然，这是理论上的和想象的，因为在实践中我们不会减少 100 倍所需的时间，但我们可以非常接近如果条件理想。
在需要时可以很容易地调整计算能力。有更多的数据要处理，而问题要复杂得多？将更多计算机添加到集群。从某种意义上说，这就像在超级计算机上增加了更多的 CPU 内核。
数据不断增长，因此 Hadoop 也必须能够轻松灵活地扩展其存储容量，以满足需求。我们添加到集群的每台计算机都会扩展 Hadoop 分布式文件系统 (HDFS) 的可用总存储空间。
与其他软件不同，它不仅会在硬件故障发生时尝试从硬件故障中恢复。设计理念实际上假设某些硬件肯定会失败。当有数千台计算机并行工作时，可以保证某处某处会不时出现故障。因此，默认情况下，Hadoop 创建数据块的副本并将它们分布在单独的硬件上，因此当偶尔的服务器起火或硬盘或 SSD 死机时，不会丢失任何内容。

总而言之，Hadoop 非常擅长摄取和处理大量信息。它将数据分布在集群中可用的多个节点上，并使用 MapReduce 编程模型在多台机器上同时处理数据（并行处理）。

但这听起来可能有点类似于 Elasticsearch 数据摄取工具所做的事情。尽管它们是为处理相当不同的场景而设计的，但它们有时可能会有些重叠。那么我们为什么以及何时使用其中一个而不是另一个呢？

Hadoop vs Logstash/Elasticsearch

首先，我们不应该考虑哪个比哪个更好。每个人都擅长为其创造的工作。每个都有优点和缺点。

为了尝试给你绘制一个图片并让你了解我们何时使用其中一个，让我们考虑以下场景：

当我们需要从数十亿个网站中提取数据时，就像谷歌这样的搜索引擎所做的那样，我们会发现像 Elasticsearch 及 Hadoop 这样的工具非常有用和高效。
当我们需要以这样一种方式存储数据并对其进行索引以便以后可以快速有效地搜索时，我们会发现像 Elasticsearch 这样的东西非常有用。
最后，当我们想要收集实时数据时，例如来自互联网上许多交易所的美元/欧元价格，我们会发现像 Logstash 这样的工具非常适合这项工作。

更多阅读，请参阅 https://elasticstack.blog.csdn ... 97392

[尊重社区原创，转载请保留或注明出处]
本文地址：http://elasticsearch.cn/article/14742

1

0 个评论

要回复文章请先登录或注册

Elasticsearch：Hadoop 大数据集成（Hadoop =＞ Elasticsearch）

0 个评论

发起人

活动推荐

Elasticsearch：Hadoop 大数据集成 （Hadoop =＞ Elasticsearch）

0 个评论

发起人

活动推荐

Elasticsearch：Hadoop 大数据集成（Hadoop =＞ Elasticsearch）