写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

这个世界上的数据可以抽象成为两种,分别是无边界数据( Unbounded Data)和有边界数据( Bounded Data)。

无边界数据

顾名思义,无边界数据是一种不断增长,可以说是无限的数据集。
这种类型的数据,我们无法判定它们到底什么时候会停止发送。
在国外的一些技术文章上,有时候我们会看到“流数据( Streaming Data)”这一说法, 其实它和无边界数据表达的是同一个概念。

有边界数据

与此相反,有边界数据是一种有限的数据集。
这种数据更常见于已经保存好了的数据中。例如,数据库中的数据,或者是我们常见的CSV格式文件中的数据。
有边界数据其实可以看作是无边界数据的一个子集。

批处理

数据的批处理,可以理解为一系列相关联的任务按顺序(或并行)一个接一个地执行。批处理的输入是在一段时间内已经收集保存好的数据。每次批处理所产生的输出也可以作为下ー次批处理的输入。

流处理

数据的流处理可以理解为系统需要接收并处理一系列连续不断变化的数据。例如,旅行预订系统,处理社交媒体更新信息的有关系统等等。

Q.E.D.


大数据开发工程师,精通 Spark,擅长 Java 和 Scala