大数据是大新闻,但是’仍处于起步阶段。虽然大多数企业 至少谈论启动大数据项目,事实是很少有任何有意义的事情。实际上,根据Dimensional的新调查数据, 91%的公司数据专业人员已考虑过对大数据的投资,只有5%的人实际将任何投资用于部署,只有11%的人甚至进行了试点。

贾斯汀·兰格斯(Justin 朗瑟斯)

也许最大的原因是大数据技术仍然太难使用,有时对于企业想要投入使用的数据种类来说还不够。 

但是那’不断变化。上周,我与 缩放数据,以深入探讨大数据的未来,并更好地了解面向批处理技术(如Hadoop)之间的交集’s MapReduce和Spark,一个实时处理引擎。而 我发表了摘录 从之前的ReadWrite文章中的对话中,’真的值得朗格斯读书’s observations in total. 

也可以看看: 批处理您的大数据作业-或流式传输它们?

实时成为现实

读写网: Hadoop一直都是关于批处理的,但是流分析的新世界完全是实时的,并且涉及不同的技术堆栈。

朗瑟斯: 是的,但是我不会纠缠实时和流媒体的概念。显然,实时数据最好以流的形式进行处理。但是,也可以流式传输历史数据,就像DVR可以流式传输一样 随风而逝 或上周的 美国偶像 到电视上 

 此区别很重要,因为Zoomdata认为,将数据作为流进行分析会带来巨大的可伸缩性和灵活性,而不论数据是实时的还是历史的。 

读写器: 那么,这个新堆栈的组成部分是什么?这种新的大数据堆栈如何影响企业计划? 

JL: 新堆栈在某些方面是旧堆栈的扩展,在某些方面确实是新堆栈。 

数据始终以流的形式开始生活。销售点系统中的交易流。大量股票被买卖。在美索不达米亚,一连串的农业目标被用来交换贵重金属。 

传统的 ETL流程 会批量处理该数据并杀死其流性质。他们之所以这样做,是因为数据无法作为流进行传输,因此需要将其加载到可移动磁盘和磁带上,以便在不同位置进行传输。 

但是现在,可以通过任何浓缩或转化过程,分析系统,从数据源中获取数据流,并将其作为数据流带入数据的“最终休憩场所”。鉴于当今的现代架构(例如Kafka和Kinesis),现代数据存储(例如MongoDB,Cassandra,Hbase和DynamoDB(可以作为流接收和存储数据))和现代商业智能工具(例如,我们在Zoomdata上制作的视频能够以非常无缝的方式处理和可视化这些流以及历史数据。 

就像您的家用DVR可以播放直播电视节目,倒带几分钟或几小时或播放上个世纪的举动一样,使用数据分析工具(如Zoomdata)也可以做到这一点,它们可以将时间视为一种流动。

把那批扔在溪流中

我们还相信,那些提出了“ Lambda体系结构”,有效地分离实时数据和批处理数据路径的人,正在拥护不必要的权衡,针对传统工具进行了优化,这些工具根本不是为了处理数据流而设计的,历史或实时。 

在Zoomdata,我们认为没有必要分开跟踪实时和历史记录,因为现在有端到端工具可以处理从采购,运输,存储,分析和可视化这两个方面。

读写器那么这种向流数据的转变是真实的,而不是炒作吗?

JL:它’s real. It’架构师意识到,如果可以将数据作为端到端的流进行处理,那么根本就不需要批处理数据。 如果您不必担心批处理窗口,从批处理过程故障中恢复等,这将大大简化大数据架构。 

同样,即使您不需要分析五秒钟甚至五分钟前的数据来制定业务决策,将数据作为流进行处理仍然可能是最简单,最容易的。这是与Hadoop鼓励批处理思维的方式大相径庭的。 

但是,即使您根本不关心(或可能根本不关心)实时分析,将数据作为流处理也要容易得多。

读写器: 那么,流分析是大数据的真正含义吗?

JL: 是。数据就像水或电。您可以将水装在瓶子中,或将电力装在电池中,然后通过飞机火车和汽车将它们运送到世界各地。对于某些液体,例如Dom Perignon,这是有道理的。对于其他液体和电力,将它们作为水流通过电线或管道输送是有意义的。如果您无需担心将其分批处理和分批处理,则效率会更高。 

数据非常相似。端到端流式传输大数据比封装它要容易得多。

引导图片 罗曼·波德