前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

适合使用 Flume 的场景

在选择 Flume 来处理不同的业务时,读者需要考虑的事项如下 —— 遇到下列需求时可以选择 Flume

  1. 从各种 Source 获取数据并存储到 Hadoop 系统中
  2. 高速地处理大量数据到 Hadoop 系统中。
  3. 可靠地传输数据到目的地。
  4. 可扩展的解决方案,当数据涌入速度和数量増加时,只需增加机器就可以实现扩展。
  5. 架构中的各个组件可以动态配置,而无须启停服务。
  6. 整体架构的各种配置可以单点管理。

不适合使用 Flume 的场景

某些情形中,Flume 不是理想的选择。 除了 Flume,还有其他的选项可以用来解决这些需求。

下列场景中不推荐选择 Flume:

  1. 更偏重数据处理,而不是数据传输。这种场景更适合使用其他流式处理技术。
  2. 更偏重批量数据传输(常规批量而不是微批量)。
  3. 在不丢失数据的前提下需要更多可用的设置。
  4. 需要高可扩展性地对消息持久化(虽然没有一个科学的定量标准)
  5. 有大量的消息消费者,这对 Flume 的可扩展性有很大的影响

虽然 Flume在很多情況下可以进行动态配置,但是某些配置更改(拓扑更改)还是会导致停机。

上一篇 下一篇