写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

大数据特征通常指的4V。
1.数据量大(Volume) 非结构化数据的超大规模和增长,导致数据集合的规模不断扩大,数据单位已从GB到TB再到PB级,甚至开始以EB和ZB来计数。
2.类型繁多(Variety) 大数据的类型不仅包括网络日志、音频、视频、图片、地理位置信息等结构化数据,还包括半结构化数据甚至是非结构化数据,具有异构性和多样性的特点。
3.价值密度低(Value) 大数据本身存在较大的潜在价值,但由于大数据的数据量过大,其价值往往呈现稀疏性的特点。虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。
4.速度快时效高(Velocity) 要求大数据的处理速度快,时效性高,需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理。

大数据4V

补充

7V

还有3V也常见于各类大数据相关书刊,但是存在争议。

精准性(Veracity)

在大数据的背景下,精准性指的是准确地分析数据,以获得有意义的结果。

由于数据源众多,尤其某些用户输入的非结构化数据的质量不太可靠,处理某些渠道的数据时必须慎之又慎。如果有企业想要在业务上应用这些数据,必须更加严格地验证这些数据的准确性。

视野(Vision):

每一个大数据领域相关的企业都应该有一个清晰的视野,并且改进业务流程来充分利用它。同时,企业的管理层应该充分理解数据湖等大数据技术给企业带来的变化,并在决策时充分考虑到这一点。

可视化(Visualization)

大数据预期将存储巨量数据。其中部分数据意义重大,另一部分则不尽然。数据科学家们会研究这些数据来发现有意义的规律,这些发现需要以有效的方式呈现给管理层。

要取得大数据方面的成功,对各种格式的数据进行有意义的可视化是必不可少的。

Q.E.D.


大数据开发工程师,精通 Spark,擅长 Java 和 Scala